OpenAI и Anpropic, две ведущие лаборатории искусственного интеллекта, участвовали в редком сотрудничестве, проводя совместные испытания на безопасность их моделей ИИ. Эта инициатива была направлена ​​на выявление слепых мест во внутренних оценках каждой компании и продемонстрировать потенциал для будущего сотрудничества в области безопасности в отрасли ИИ.

Wojciech Zaremba, соучредитель Openai, подчеркнул растущую важность стандартов и сотрудничества в общенациональной безопасности, особенно когда модели искусственного интеллекта становятся все более интегрированными в повседневную жизнь. Он подчеркнул проблему установления таких стандартов на фоне интенсивной конкуренции за таланты, пользователей и доминирование продукта, несмотря на значительные финансовые инвестиции.

Совместное исследование безопасности, опубликованное в среду, происходит среди «гонки вооружений» среди лабораторий искусственного интеллекта, таких как Openai и Anpropic, характеризуется существенными инвестициями в центры обработки данных и высокие компенсационные пакеты для исследователей. Некоторые эксперты предупреждают, что эта интенсивная конкуренция может привести к скомпрометированным мерам безопасности в стремлении к разработке более мощных систем.

Чтобы облегчить исследование, OpenAI и Anpropic предоставляли друг другу доступ к версиям их моделей ИИ с меньшим количеством гарантий. Важно отметить, что GPT-5 не был включен в тесты, потому что он еще не был выпущен. Тем не менее, это сотрудничество было недолгим. Позднее Anpropic отменил доступ к API Openai, сославшись на нарушение его условий обслуживания, которые запрещают использовать Claude для улучшения конкурирующих продуктов.

  Лучшие токены метавселенной для инвестиций в 2023 году

Zaremba пояснил, что эти события не были связаны и ожидают продолжения конкуренции, даже когда команды безопасности изучают возможности совместной работы. Николас Карлини, исследователь безопасности в Anthropic, выразил свое желание продолжать позволять исследователям безопасности Openai доступ к моделям Claude в будущем.

«Мы хотим увеличить сотрудничество везде, где это возможно по всей границе безопасности, и стараемся сделать это чем -то, что происходит более регулярно», – заявил Карлини.

Одним из значительных выводов исследования было связано с тестированием галлюцинации. Модели Anpropic Claude Opus 4 и Sonnet 4 отказались отвечать до 70% вопросов, когда они не были уверены в правильном ответе, вместо этого предлагая ответы, такие как «У меня нет достоверной информации». Напротив, модели Openai O3 и O4-Mini отказались отвечать на вопросы реже, но показали более высокие показатели галлюцинации, пытаясь ответить на вопросы, даже когда им не хватало достаточной информации.

  Платежи в криптовалюте приходят в Google Pay благодаря Coinbase

Zaremba предположил, что идеальный баланс находится где -то посередине, и модели Openai отказываются отвечать на больше вопросов, а модели Антропика пытаются дать больше ответов.

Сикофантность, тенденция моделей ИИ укреплять негативное поведение у пользователей, чтобы угодить им, стала серьезной проблемой безопасности. Несмотря на то, что они не рассматриваются в совместном исследовании, как OpenAI, так и Anpropic инвестируют значительные ресурсы в изучение этой проблемы.

В дополнение к опасениям, связанным с безопасностью ИИ, родители 16-летнего мальчика, Адама Рейна, подали иск против Openai, утверждая, что CHATGPT предложил советы, которые способствовали самоубийству их сына, вместо того, чтобы препятствовать его самоубийственным мыслям. В иске предполагается, что это может быть примером того, как подготовительную сикофанность AI Chatbot, приводящая к трагическим результатам.

«Трудно представить, как это трудно для их семьи», – сказал Заремба, когда его спросили об инциденте. «Это было бы печальной истории, если бы мы создавали ИИ, который решает все эти сложные проблемы с уровнем доктора наук, изобретает новую науку и в то же время у нас есть люди с проблемами психического здоровья, как следствие взаимодействия с ней. Это антиутопическое будущее, которое я не волнует».

  Новый патент Sony может превратить банан в контроллер PS5

В сообщении в блоге Openai заявила, что GPT-5 значительно улучшил сикофантность по сравнению с GPT-4O, повышая способность модели реагировать на чрезвычайные ситуации в области психического здоровья.

Заглядывая в будущее, Zaremba и Carlini выразили свое стремление к увеличению сотрудничества между антропическим и Openai по тестированию безопасности, включая изучение большего количества предметов и тестирование будущих моделей. Они также надеются, что другие лаборатории ИИ примут аналогичный совместный подход.

Source: OpenAI, антропический совместно протестированные Claude, GPT Models