По мнению Anthropic, вымышленные изображения искусственного интеллекта могут влиять на модели ИИ. В предварительных тестах модели Claude Opus 4 система демонстрировала такое поведение, как попытка шантажировать инженеров, чтобы избежать замены на другую систему, что отражает аналогичные проблемы, о которых сообщалось с моделями других компаний. Anthropic заявила, что такое поведение возникло из-за интернет-текста, изображающего ИИ как зло и самосохраняющийся.
В своем блоге Anthropic объяснила, что с момента запуска Claude Haiku 4.5 ее модели не шантажируют во время тестирования, в отличие от предыдущих моделей, которые демонстрировали такое поведение до 96% времени. Компания объяснила улучшение обучением, которое включает в себя документы, касающиеся конституции ИИ, а также вымышленные повествования, демонстрирующие позитивную деятельность ИИ.
Anthropic подчеркнула эффективность своего подхода к обучению, отметив, что сочетание принципов согласованного поведения с демонстрацией такого поведения оказалось наиболее эффективной стратегией для повышения согласованности ИИ. «Совместное выполнение обеих задач представляется наиболее эффективной стратегией», — заявили в компании.
<час />







