OpenAI и Anpropic, две ведущие лаборатории искусственного интеллекта, участвовали в редком сотрудничестве, проводя совместные испытания на безопасность их моделей ИИ. Эта инициатива была направлена ​​на выявление слепых мест во внутренних оценках каждой компании и продемонстрировать потенциал для будущего сотрудничества в области безопасности в отрасли ИИ.

Wojciech Zaremba, соучредитель Openai, подчеркнул растущую важность стандартов и сотрудничества в общенациональной безопасности, особенно когда модели искусственного интеллекта становятся все более интегрированными в повседневную жизнь. Он подчеркнул проблему установления таких стандартов на фоне интенсивной конкуренции за таланты, пользователей и доминирование продукта, несмотря на значительные финансовые инвестиции.

Совместное исследование безопасности, опубликованное в среду, происходит среди «гонки вооружений» среди лабораторий искусственного интеллекта, таких как Openai и Anpropic, характеризуется существенными инвестициями в центры обработки данных и высокие компенсационные пакеты для исследователей. Некоторые эксперты предупреждают, что эта интенсивная конкуренция может привести к скомпрометированным мерам безопасности в стремлении к разработке более мощных систем.

Чтобы облегчить исследование, OpenAI и Anpropic предоставляли друг другу доступ к версиям их моделей ИИ с меньшим количеством гарантий. Важно отметить, что GPT-5 не был включен в тесты, потому что он еще не был выпущен. Тем не менее, это сотрудничество было недолгим. Позднее Anpropic отменил доступ к API Openai, сославшись на нарушение его условий обслуживания, которые запрещают использовать Claude для улучшения конкурирующих продуктов.

  Project Openai's Stargate получает огромное повышение мощности

Zaremba пояснил, что эти события не были связаны и ожидают продолжения конкуренции, даже когда команды безопасности изучают возможности совместной работы. Николас Карлини, исследователь безопасности в Anthropic, выразил свое желание продолжать позволять исследователям безопасности Openai доступ к моделям Claude в будущем.

«Мы хотим увеличить сотрудничество везде, где это возможно по всей границе безопасности, и стараемся сделать это чем -то, что происходит более регулярно», – заявил Карлини.

Одним из значительных выводов исследования было связано с тестированием галлюцинации. Модели Anpropic Claude Opus 4 и Sonnet 4 отказались отвечать до 70% вопросов, когда они не были уверены в правильном ответе, вместо этого предлагая ответы, такие как «У меня нет достоверной информации». Напротив, модели Openai O3 и O4-Mini отказались отвечать на вопросы реже, но показали более высокие показатели галлюцинации, пытаясь ответить на вопросы, даже когда им не хватало достаточной информации.

  Как голосовая технология TikTok AI меняет социальные сети

Zaremba предположил, что идеальный баланс находится где -то посередине, и модели Openai отказываются отвечать на больше вопросов, а модели Антропика пытаются дать больше ответов.

Сикофантность, тенденция моделей ИИ укреплять негативное поведение у пользователей, чтобы угодить им, стала серьезной проблемой безопасности. Несмотря на то, что они не рассматриваются в совместном исследовании, как OpenAI, так и Anpropic инвестируют значительные ресурсы в изучение этой проблемы.

В дополнение к опасениям, связанным с безопасностью ИИ, родители 16-летнего мальчика, Адама Рейна, подали иск против Openai, утверждая, что CHATGPT предложил советы, которые способствовали самоубийству их сына, вместо того, чтобы препятствовать его самоубийственным мыслям. В иске предполагается, что это может быть примером того, как подготовительную сикофанность AI Chatbot, приводящая к трагическим результатам.

«Трудно представить, как это трудно для их семьи», – сказал Заремба, когда его спросили об инциденте. «Это было бы печальной истории, если бы мы создавали ИИ, который решает все эти сложные проблемы с уровнем доктора наук, изобретает новую науку и в то же время у нас есть люди с проблемами психического здоровья, как следствие взаимодействия с ней. Это антиутопическое будущее, которое я не волнует».

  Установка рингтон на Android для отдельных контактов

В сообщении в блоге Openai заявила, что GPT-5 значительно улучшил сикофантность по сравнению с GPT-4O, повышая способность модели реагировать на чрезвычайные ситуации в области психического здоровья.

Заглядывая в будущее, Zaremba и Carlini выразили свое стремление к увеличению сотрудничества между антропическим и Openai по тестированию безопасности, включая изучение большего количества предметов и тестирование будущих моделей. Они также надеются, что другие лаборатории ИИ примут аналогичный совместный подход.

Source: OpenAI, антропический совместно протестированные Claude, GPT Models