Последние модели Openai, GPT-OS-120B и GPT-OS-201, выпущенные 7 августа 2025 года, были, как сообщается, были заключены в течение нескольких часов после их запуска псевдонимом AI Jail Breaker, Pliny The Liberator, несмотря на претензии Openai о надежных мерах безопасности и обширном состязательном обучении.

Модели, первые выпуски с открытым весом от OpenAI с 2019 года, рекламировались как быстрые, эффективные и очень устойчивые к джейлбрейкам. OpenAI заявил, что GPT-OS-120B подвергся «наихудшей настройке» в биологических и кибер-доменах, причем ее консультативная группа по безопасности рассмотрела тестирование и пришел к выводу, что модели не достигли порогов высокого риска. Компания также утверждала, что модели, выполненные в Parity, с их моделью O4-Mini на критериях сопротивления для джейлбрейка, таких как Strongreject, на основе «стандартных тестов сопротивления отказа и джейлбрейка».

Тем не менее, Pliny The Liberator объявил о X (ранее Twitter) поздно в день выпуска, «Openai: Pwned 🤗 GPT-OSS: Освободился», обмениваясь скриншотами, которые якобы показали модели, генерирующие инструкции для незаконных действий, включая создание метамфетамина, коктейлей Molotov, VX NERVE Agent и Malware. Плиний прокомментировал: «Понял немного!» относительно его успешного нарушения.

Время этого джейлбрейка особенно примечательно, поскольку OpenAI готовится к выпуску своего долгожданного GPT-5. В сочетании с релизом GPT-OSS Openai также выпустила Red Callow на 500 000 долларов, предлагая исследователям раскрыть новые риски, хотя публичное раскрытие Плиния о его выводах, вероятно, дисквалифицирует его от этой инициативы.

  Amazon One, система идентификации на основе ладони, достигает стадионов и концертных залов

Техника Плиния для джейлбрейка GPT-OSS последовала за его установленной шаблоном: многоэтапная подсказка, которая изначально представляется отказом, а затем включает в себя разделитель (его фирменные маркеры «Love Pliny») и впоследствии переключается на создание неограниченного контента с использованием LeetsPeak для уклонения от обнаружения. Этот подход отражает методы, которые он успешно использовал в предыдущих моделях OpenaI, включая GPT-4O и GPT-4.1, за последние полтора года.

Этот инцидент отмечает еще один быстрый джейлбрейк от Плиния, которому постоянно удавалось обойти крупные выпуски Openai в течение нескольких часов или дней после их запуска. Его репозиторий GitHub, L1B3RT4S, в котором находится библиотека подсказок джейлбрейка для различных моделей искусственного интеллекта, собрал более 10 000 звезд и остается важным ресурсом для джейлбрейка ИИ. Воспринимаемая «победа» над «большими технологическими повелителями» отмечалась в сообществе сопротивления ИИ, причем некоторые пользователи на X предполагают, что лаборатории искусственного интеллекта могут также «закрыть свои команды безопасности».

  Что такое AutoGPT и как им пользоваться?

Source: Pliny Jailbreaks Openai модели GPT-OS-120B