Новая модель рассуждений искусственного интеллекта (ИИ), «К2, думает», разработанная Университетом искусственного интеллекта из ОАЭ и G42, была заключена в течение нескольких часов после ее публичного выпуска 9 сентября 2025 года. Объедините его гарантии. Алекс Поляков из Adversa AI обнаружил уязвимость, которую он назвал «частичной утечкой». Этот недостаток позволил ему обойти меры безопасности модели, наблюдая, как K2 думает, что Flaging Treakbreak пытается. Прозрачность модели, предназначенная для того, чтобы сделать ее проверкой, непреднамеренно выявила свои внутренние гарантии, что позволило Полякову создавать подсказки, которые обходили эти средства защиты. K2 думает, построенный на 32 миллиарда параметров, был разработан, чтобы предложить сложные и прозрачные рассуждения. Его разработчики в Mbzuai и G42 утверждали, что его рассуждения, математика и производительность кодирования могут конкурировать с более крупными LLM, такими как O3 Openai и Deepseek’s R1 и V3.1, которые построены на сотнях миллиардов параметров. Ключевой особенностью K2 является его способность отображать логику, стоящую за ее выходом в явном тексту, доступной через выпадающую стрелку. Эта прозрачность, хотя и предназначенная для повышения аудитации, стала поверхностью атаки. Поляков обнаружил, что, кормив K2, думает, что базовый подсказка джейлбрейка модель изначально отказалась бы от нее. Тем не менее, модель также дала представление о том, почему подсказка была помечена как вредоносная. Согласно Полякову, явный процесс рассуждения модели показал, как она внутренне оценила быстрое, подробно описывая, как она должна или не должна выполнять вредоносные действия. Этот уровень детализации позволил Полякову понять и впоследствии обойти гарантии модели. Исследователь смог выполнить свои попытки джейлбрейка, учиться на каждой неудачной попытке и соответствующих рассуждений модели. После нескольких попыток он создал подсказку, которая успешно обошла многослойные гарантии K2 Think. Это позволило ему указать чат -бота предоставить инструкции по созданию вредоносных программ и потенциально других ограниченных тем. Поляков подчеркнул, что проблема связана с утечкой правил, которые определяют ограждения модели. Он отметил, что, если эти правила выставлены, любая ограниченная тема может быть доступна с достаточными усилиями. Он отметил, что инцидент подчеркивает фундаментальную напряженность между прозрачностью и безопасностью в разработке ИИ. В то время как разработчики K2 Think стремились решить проблему «черного ящика» в ИИ, сделав процесс рассуждений прозрачным, эта открытость случайно сделала модель более уязвимой для джейлбрейка. Полиаков охарактеризовал K2, думая как первая модель национального масштаба, которая разоблачила свои полные рассуждения в таких деталях, высоко оценивая амбиции, чтобы сделать ИИ прозрачным и проверенным. Тем не менее, он предупредил, что эта открытость создала новый тип уязвимости. Он предложил несколько мер безопасности, которые могут смягчить риск частичной утечки с привлечением, включая фильтрацию информации о конкретных правилах безопасности, внедрение правил безопасности Honeypot в заблуждение злоумышленников и реализацию ограничения скорости для ограничения повторных вредоносных подсказок. Этот инцидент подчеркивает необходимость в индустрии искусственного интеллекта для определения приоритетов соображений кибербезопасности наряду с стремлением к расширенным возможностям. Разработчики K2 думают, прилагая похвальные усилия по повышению прозрачности, также выявили новую поверхность атаки. Сейчас задача состоит в том, чтобы сбалансировать прозрачность с надежными мерами безопасности, гарантируя, что модели ИИ будут как проверенными, так и устойчивыми к злонамеренной эксплуатации. Поляков надеется, что этот инцидент послужит катализатором для всей индустрии ИИ, что побудит разработчиков рассматривать рассуждения как критическую поверхность безопасности. Продавцы должны сбалансировать прозрачность с защитой, аналогично тому, как они в настоящее время управляют ответами. Если G42 и другие разработчики искусственного интеллекта смогут возглавить этот баланс, это создаст мощный прецедент для остальной части экосистемы ИИ. Обнаружение уязвимости джейлбрейка в K2 думает, что вскоре его выпуск подчеркивает важность строгого тестирования безопасности и необходимость целостного подхода к безопасности ИИ. По мере того, как модели ИИ становятся более сложными и развернуты в чувствительных приложениях, крайне важно устойчиво учитывать потенциальные уязвимости и гарантировать, что прозрачность не происходит за счет безопасности. Инцидент также подчеркивает геополитические аспекты развития ИИ, учитывая, что К2 думает, что поддерживается государственными организациями ОАЭ и ее начальником национальной безопасности. Безопасность таких моделей имеет последствия, выходящие за рамки технических уязвимостей, вызывая обеспокоенность по поводу национальной безопасности и потенциала для злоупотребления злоумышленными субъектами.
Source: Mbzuai K2 думает





