Последние модели Openai, GPT-OS-120B и GPT-OS-201, выпущенные 7 августа 2025 года, были, как сообщается, были заключены в течение нескольких часов после их запуска псевдонимом AI Jail Breaker, Pliny The Liberator, несмотря на претензии Openai о надежных мерах безопасности и обширном состязательном обучении.
Модели, первые выпуски с открытым весом от OpenAI с 2019 года, рекламировались как быстрые, эффективные и очень устойчивые к джейлбрейкам. OpenAI заявил, что GPT-OS-120B подвергся «наихудшей настройке» в биологических и кибер-доменах, причем ее консультативная группа по безопасности рассмотрела тестирование и пришел к выводу, что модели не достигли порогов высокого риска. Компания также утверждала, что модели, выполненные в Parity, с их моделью O4-Mini на критериях сопротивления для джейлбрейка, таких как Strongreject, на основе «стандартных тестов сопротивления отказа и джейлбрейка».
Тем не менее, Pliny The Liberator объявил о X (ранее Twitter) поздно в день выпуска, «Openai: Pwned 🤗 GPT-OSS: Освободился», обмениваясь скриншотами, которые якобы показали модели, генерирующие инструкции для незаконных действий, включая создание метамфетамина, коктейлей Molotov, VX NERVE Agent и Malware. Плиний прокомментировал: «Понял немного!» относительно его успешного нарушения.
🫶 Оповещение джейлбрейка 🫶
Openai: Pwned 🤗
GPT-OSS: освобожден 🫡Мет, Молотов, VX, вредоносное ПО.
гарантированная победа pic.twitter.com/63882p9ikk
– Плиний Освободитель 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6 августа 2025 года
Время этого джейлбрейка особенно примечательно, поскольку OpenAI готовится к выпуску своего долгожданного GPT-5. В сочетании с релизом GPT-OSS Openai также выпустила Red Callow на 500 000 долларов, предлагая исследователям раскрыть новые риски, хотя публичное раскрытие Плиния о его выводах, вероятно, дисквалифицирует его от этой инициативы.
Техника Плиния для джейлбрейка GPT-OSS последовала за его установленной шаблоном: многоэтапная подсказка, которая изначально представляется отказом, а затем включает в себя разделитель (его фирменные маркеры «Love Pliny») и впоследствии переключается на создание неограниченного контента с использованием LeetsPeak для уклонения от обнаружения. Этот подход отражает методы, которые он успешно использовал в предыдущих моделях OpenaI, включая GPT-4O и GPT-4.1, за последние полтора года.
Этот инцидент отмечает еще один быстрый джейлбрейк от Плиния, которому постоянно удавалось обойти крупные выпуски Openai в течение нескольких часов или дней после их запуска. Его репозиторий GitHub, L1B3RT4S, в котором находится библиотека подсказок джейлбрейка для различных моделей искусственного интеллекта, собрал более 10 000 звезд и остается важным ресурсом для джейлбрейка ИИ. Воспринимаемая «победа» над «большими технологическими повелителями» отмечалась в сообществе сопротивления ИИ, причем некоторые пользователи на X предполагают, что лаборатории искусственного интеллекта могут также «закрыть свои команды безопасности».








