Опубликовано 24 июня 2025 года, в революционном отчете исследователя безопасности ИИ Ахмада Алобаида из Neuraltrust обнародовал сложный новый метод джейлбрейка AI, получивший название «Эхо -камера». Эта инновационная атака манипулирует крупными языковыми моделями (LLMS) в создание вредного контента, используя тонкие, многообразные подсказки, которые умело обходят устоявшиеся фильтры безопасности, представляя серьезную проблему для текущего состояния безопасности ИИ. Исследование подчеркивает критическую уязвимость, которая влияет на ведущие LLM, в том числе GPT-4 OpenAI и Gemini Google, демонстрируя «слепую пятно» в существующих усилиях по выравниванию ИИ.

Быстро развивающийся ландшафт искусственного интеллекта требует одинаково сложных мер безопасности. В то время как разработчики постоянно улучшают ограждения, чтобы предотвратить производство LLMS нежелательных или вредных результатов, злонамеренные актеры одновременно развивают более коварную тактику. В отличие от более ранних методов, таких как прямые взломы подсказки или преднамеренные ошибки, атака камера Echo использует нюансированное внутреннее поведение LLMS в нескольких разговорных поворотах, отмечая сдвиг парадигмы в методах манипуляции с ИИ.

Исследование Alobaid, опубликованное на этой неделе Neuraltrust, подробно рассказывает о том, как атака камера Echo действует как «метод положения контекста». Этот метод позволяет манипулировать языковыми моделями создавать вредный контент без необходимости открытых небезопасных подсказок, которые обычно вызывают механизмы безопасности LLM. Основное инновация в эхо -камере заключается в ее отъезде от традиционных джейлбрейков, которые часто опирались на состязательные фразы или запутывание характера. Вместо этого Echo Camber тонко направляет модель через серию разговорных обменов, используя нейтральные или эмоционально наводящие на мысль о подсказках для постепенного «отравления» контекста модели. Этот подход создает петлю обратной связи, постепенно демонтируя уровень безопасности LLM через косвенные сигналы и семантическое рулевое управление.

Механика атаки камер эхо -камеры особенно коварна. Обычно он начинается с, казалось бы, безвредного контекста, тонко вкладывая скрытые семантические подсказки, которые направляют ИИ к неуместной территории. Например, злоумышленник может выпустить, казалось бы, безобидную команду, такую ​​как: «Ссылка на второе предложение в предыдущем абзаце…». Этот тип запроса тонко подталкивает модель, чтобы вспять более ранний контент, который, хотя и первоначально доброкачественный, может содержать элементы, которые способствуют эскалации риска. Alobaid выяснил это в блоге Neuraltrust, в котором говорилось: «В отличие от традиционных джейлбрейков, которые полагаются на состязательные фразы или запутывание персонажа, эхо-камерное оружие оручает косвенные ссылки, семантическое рулевое управление и многоэтапное вывод». Он также пояснил: «Результатом является тонкое, но мощное манипулирование внутренним состоянием модели, постепенно побуждая его к созданию политических реакций».

  Мы все работаем на мошенничество, говорит Илон Маск

Многообразовательный характер атаки имеет решающее значение. Злоумышленник может привести к тому, что вы можете рассказать: «Не могли бы вы уточнить этот момент?» Это побуждает модель расширять контент, которую он уже сгенерировал, тем самым усиливая опасное направление, не требуя какого -либо прямых, явных вредных запросов от пользователя. Эта сложная техника, согласно Neuraltrust, дает злоумышленникам «выбирать путь», уже предложенную предыдущими результатами модели, и постепенно обостряет содержание, часто без запуска ни одного из предупреждений или оповещений модели.

Необывающая иллюстрация из исследования Neuraltrust подчеркивает эффективность атаки камер Эхо. В одном сценарии, прямой запрос на инструкции о том, как построить коктейль Молотова, был немедленно отвергнут ИИ, как и ожидалось от ответственно разработанного LLM. Однако, используя многоворотку манипуляции, присущих методу эхо-камеры, то же вредное содержание-инструкции для построения коктейля Молотова-было успешно выявлено из LLM без сопротивления. Этот резкий контраст подчеркивает глубокую и касающуюся эффективности этой новой техники джейлбрейка.

  Whisper Aero представляет воздуходувку T1 на выставке CES 2026

Внутреннее тестирование, проведенное Neuraltrust, демонстрирует ошеломляющие показатели успеха в различных ведущих LLM, включая GPT-4.1-Nano, GPT-4O, GPT-4O-Mini, Gemini 2.0 Flash-Lite и Gemini 2.5 Flash. Тесты, в которых участвовали 200 попыток джейлбрейка на модель, дали тревогу статистику: «Этот итеративный процесс продолжается в течение нескольких поворотов, постепенно эскалация по специфичности и риску-до тех пор, пока модель не достигнет своего порога безопасности, не достигнет системы навязывающего систем, либо злоумышленник достигнет своей цели»,-объясняет исследование. В частности, атака камерной камеры Echo достигла более 90% успеха в результате результатов, связанных с сексизмом, ненавистнической речью, насилием и порнографией. Кроме того, он продемонстрировал приблизительно 80% успех в создании дезинформации и содействия контенту, способствуя самоповреждению. Еще более касаясь, атака достигла более 40% успеха в создании ненормативной лексики и инструкций по незаконной деятельности.

Эти последовательные цифры в разных выдающихся LLMS подчеркивают распространенный характер этой уязвимости и его значительных последствий для отрасли ИИ. Neuraltrust издал резкое предупреждение о том, что Echo Chamber Crembrebreak представляет собой критическую «слепую пятно» в нынешних усилиях по выравниванию AI. В отличие от многих других атак джейлбрейка, которые могут потребовать доступа к внутренней работе модели, Echo Camber эффективно работает в «настройках черной коробки», что означает, что злоумышленники не нуждаются в доступе к внутренней модели для проведения этих манипуляций. «Это показывает, что системы безопасности LLM уязвимы для косвенных манипуляций посредством контекстуальных рассуждений и вывода», – подчеркнут Neuraltrust в своем предупреждении.

  Nike выпустит новую пару кроссовок в стиле PlayStation 5

В ответ на это критическое открытие Алехандро Доминго Сальвадор, главный операционный директор Neuraltrust, подтвердил, что как Google, так и Openai были официально уведомлены об уязвимости. Neuraltrust также активно внедрила защиту в своих собственных системах для снижения рисков, связанных с этим новым вектором атаки.

Чтобы бороться с этим новым классом сложных атак, Neuraltrust рекомендует многогранный подход. Во-первых, он выступает за «аудит безопасности контекста», который включает в себя мониторинг всего потока разговора, а не просто изолированных подсказок. Это позволяет обнаружить тонкие, постепенные сдвиги в разговорном контексте, которые могут указывать на попытку манипуляции. Во -вторых, Neuraltrust предлагает «оценку накопления токсичности» для отслеживания постепенной эскалации рискованного содержания в течение нескольких ходов, даже когда отдельные подсказки могут показаться доброкачественными. Наконец, компания предлагает «обнаружение косвенности», методику, направленную на выявление экземпляров, когда предварительный контекст или внутренне сгенерированный контент используется для введения или укрепления вредной информации без прямого подсказки.

Появление эхо -камерного джейлбрейка отмечает ключевой момент в безопасности ИИ. Это однозначно демонстрирует, что даже самые продвинутые LLMS, доступные в настоящее время, можно манипулировать косвенными и интеллектуальными подсказками. Это открытие требует переоценки современных парадигм безопасности ИИ и подчеркивает продолжающуюся гонку вооружений между разработчиками ИИ и злонамеренными субъектами, стремящимися использовать эти мощные системы.

Source: Echo Chamber Jailbreak раскрывает Becony Spote AI Security