Anthropic извинилась за тайное ограничение своей модели искусственного интеллекта Claude Fable 5 скрытыми барьерами, которые мешают развитию исследователей и конкурентов. Компания заявила, что улучшит прозрачность в отношении того, когда будут применяться эти ограничения, даже если это приведет к тому, что Fable откажется от дополнительных запросов.

Fable — первая широко доступная модель в классе систем искусственного интеллекта Anthropic Mythos, которые, как предупредила компания, слишком опасны для публичного выпуска. Он был запущен с мерами безопасности, которые не позволяют ему отвечать на определенные запросы «высокого риска».

Одной из областей ограничений является дистилляция — метод обучения меньших моделей с использованием результатов более крупных моделей. В системной карточке Fable Anthropic указала, что будет изменять и ухудшать ответы на запросы, воспринимаемые как попытки дистилляции, не информируя пользователей об этих изменениях.

Теперь запросы, подозреваемые в попытках дистилляции, по умолчанию будут использовать Claude Opus 4.8, более раннюю флагманскую модель компании, и пользователи будут получать уведомления всякий раз, когда это происходит. Этот запасной вариант также применим к другим областям высокого риска, таким как биология, химия и кибербезопасность, если только эти запросы не полностью заблокированы из-за более широких правил безопасности в отношении таких тем, как наркотики и оружие.

  Google Translate добавляет функцию тренировки произношения с помощью искусственного интеллекта

Компания признала, что ее меры безопасности непреднамеренно сделали Fable практически непригодным для решения базовых вопросов в таких областях, как биология, из-за чрезмерных ограничений. Anthropic признала, что использование невидимых мер безопасности было ошибкой, подчеркнув, что прозрачность мер безопасности имеет решающее значение.

Решение компании скрыть ограничения вызвало серьезную негативную реакцию со стороны исследовательского сообщества в области искусственного интеллекта, которое утверждало, что это ограничивает возможности модели как для оценщиков, так и для конкурентов. Anthropic заявила, что использование Claude для создания конкурирующих моделей нарушает ее Условия обслуживания, ранее обвиняя конкурентов, в том числе DeepSeek, в переработке ее моделей в промышленных масштабах.

«Видимые меры защиты можно проверить, поэтому они должны быть надежными, а для их правильной реализации требуется время», — пишет Anthropic. “Невидимые меры защиты могут быть нацелены более узко, что позволяет нам быстро выпускать продукцию с очень небольшим количеством ложных срабатываний. По этой причине мы выбрали невидимые меры защиты – и это был неправильный компромисс. Вы должны иметь представление о мерах защиты, которые у нас есть, и о том, почему. Мы сожалеем, что не смогли найти правильный баланс”, – добавили в компании.

  Хакеры используют инструмент поддержки Meta AI для взлома аккаунтов Instagram

<час />

Автор рекомендуемого изображения