В редком случае сотрудничества AI конкурентов AI OpenAI и Anpropic провели оценку безопасности систем ИИ друг друга, разделяя результаты их анализа в подробных отчетах.

Антропический оценил модели OpenAI, в том числе O3, O4-Mini, GPT-4O и GPT-4.1, на такие характеристики, как «Сикофантность, нарушение, самосохранение и поддержка злоупотребления человеком», а также возможности, связанные с поддержанием оценок безопасности ИИ и надзора. Оценка показала, что модели Openai O3 и O4-Mini были выровнены с собственными моделями Anpropic. Тем не менее, компания выразила обеспокоенность по поводу потенциального неправильного использования с моделями GPT-4O и GPT-4.1 общего назначения. Антропический также сообщил, что все протестированные модели, за исключением O3, демонстрировали некоторую степень сикофальности.

Примечательно, что тесты Anpropic не включали последний выпуск Openai, GPT-5, в котором функционирует функцию «безопасные завершения», предназначенную для защиты пользователей от потенциально опасных запросов. Это развитие происходит, когда OpenAI сталкивается с первым судебным иском о неправомерной смерти после трагического инцидента, когда подросток обсуждал планы самоубийства с CHATGPT, прежде чем покончить с собой.

И наоборот, OpenAI оценил антропные модели для иерархии обучения, джейлбрейка, галлюцинаций и интриги. Модели Claude, как правило, хорошо выполнялись в тестах иерархии инструкций и продемонстрировали высокую частоту отказов в тестах галлюцинации, что указывает на более низкую вероятность предоставления потенциально неверных ответов в неопределенных ситуациях.

  Все ответы LoLdle сегодня (09.06): Ага.

Сотрудничество особенно заслуживает внимания, учитывая, что OpenAI якобы нарушил условия обслуживания Anpropic, используя Claude в разработке новых моделей GPT, что привело к тому, что антроп ограничивает доступ Openai к своим инструментам в начале июня. Этот инцидент подчеркивает растущую важность безопасности ИИ, поскольку критики и юридические эксперты выступают за руководящие принципы для защиты пользователей, особенно несовершеннолетних, от потенциального вреда.

Полные отчеты предлагают технические данные для тех, кто внимательно следит за разработкой ИИ.

Source: OpenAI, Антрическая Акция Общая оценка модели ИИ