Антропный подход сдерживает шантаж ИИ, обучая позитивной фантастике

Anthropic сообщает, что вымышленные изображения искусственного интеллекта влияют на поведение модели, а новое обучение улучшает мировоззрение Клода.

Emre Çıtak · May 11, 2026, 12:51 ·1 min read

По мнению Anthropic, вымышленные изображения искусственного интеллекта могут влиять на модели ИИ. В предварительных тестах модели Claude Opus 4 система демонстрировала такое поведение, как попытка шантажировать инженеров, чтобы избежать замены на другую систему, что отражает аналогичные проблемы, о которых сообщалось с моделями других компаний. Anthropic заявила, что такое поведение возникло из-за интернет-текста, изображающего ИИ как зло и самосохраняющийся.

В своем блоге Anthropic объяснила, что с момента запуска Claude Haiku 4.5 ее модели не шантажируют во время тестирования, в отличие от предыдущих моделей, которые демонстрировали такое поведение до 96% времени. Компания объяснила улучшение обучением, которое включает в себя документы, касающиеся конституции ИИ, а также вымышленные повествования, демонстрирующие позитивную деятельность ИИ.

Anthropic подчеркнула эффективность своего подхода к обучению, отметив, что сочетание принципов согласованного поведения с демонстрацией такого поведения оказалось наиболее эффективной стратегией для повышения согласованности ИИ. «Совместное выполнение обеих задач представляется наиболее эффективной стратегией», — заявили в компании.