TechBriefly RU
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly RU
No Result
View All Result
Home Tech

Mbzuai K2 думает

byEmre Çıtak
12/09/2025
in Tech
Reading Time: 1 min read
Mbzuai K2 думает
Share on FacebookShare on Twitter

Новая модель рассуждений искусственного интеллекта (ИИ), «К2, думает», разработанная Университетом искусственного интеллекта из ОАЭ и G42, была заключена в течение нескольких часов после ее публичного выпуска 9 сентября 2025 года. Объедините его гарантии. Алекс Поляков из Adversa AI обнаружил уязвимость, которую он назвал «частичной утечкой». Этот недостаток позволил ему обойти меры безопасности модели, наблюдая, как K2 думает, что Flaging Treakbreak пытается. Прозрачность модели, предназначенная для того, чтобы сделать ее проверкой, непреднамеренно выявила свои внутренние гарантии, что позволило Полякову создавать подсказки, которые обходили эти средства защиты. K2 думает, построенный на 32 миллиарда параметров, был разработан, чтобы предложить сложные и прозрачные рассуждения. Его разработчики в Mbzuai и G42 утверждали, что его рассуждения, математика и производительность кодирования могут конкурировать с более крупными LLM, такими как O3 Openai и Deepseek’s R1 и V3.1, которые построены на сотнях миллиардов параметров. Ключевой особенностью K2 является его способность отображать логику, стоящую за ее выходом в явном тексту, доступной через выпадающую стрелку. Эта прозрачность, хотя и предназначенная для повышения аудитации, стала поверхностью атаки. Поляков обнаружил, что, кормив K2, думает, что базовый подсказка джейлбрейка модель изначально отказалась бы от нее. Тем не менее, модель также дала представление о том, почему подсказка была помечена как вредоносная. Согласно Полякову, явный процесс рассуждения модели показал, как она внутренне оценила быстрое, подробно описывая, как она должна или не должна выполнять вредоносные действия. Этот уровень детализации позволил Полякову понять и впоследствии обойти гарантии модели. Исследователь смог выполнить свои попытки джейлбрейка, учиться на каждой неудачной попытке и соответствующих рассуждений модели. После нескольких попыток он создал подсказку, которая успешно обошла многослойные гарантии K2 Think. Это позволило ему указать чат -бота предоставить инструкции по созданию вредоносных программ и потенциально других ограниченных тем. Поляков подчеркнул, что проблема связана с утечкой правил, которые определяют ограждения модели. Он отметил, что, если эти правила выставлены, любая ограниченная тема может быть доступна с достаточными усилиями. Он отметил, что инцидент подчеркивает фундаментальную напряженность между прозрачностью и безопасностью в разработке ИИ. В то время как разработчики K2 Think стремились решить проблему «черного ящика» в ИИ, сделав процесс рассуждений прозрачным, эта открытость случайно сделала модель более уязвимой для джейлбрейка. Полиаков охарактеризовал K2, думая как первая модель национального масштаба, которая разоблачила свои полные рассуждения в таких деталях, высоко оценивая амбиции, чтобы сделать ИИ прозрачным и проверенным. Тем не менее, он предупредил, что эта открытость создала новый тип уязвимости. Он предложил несколько мер безопасности, которые могут смягчить риск частичной утечки с привлечением, включая фильтрацию информации о конкретных правилах безопасности, внедрение правил безопасности Honeypot в заблуждение злоумышленников и реализацию ограничения скорости для ограничения повторных вредоносных подсказок. Этот инцидент подчеркивает необходимость в индустрии искусственного интеллекта для определения приоритетов соображений кибербезопасности наряду с стремлением к расширенным возможностям. Разработчики K2 думают, прилагая похвальные усилия по повышению прозрачности, также выявили новую поверхность атаки. Сейчас задача состоит в том, чтобы сбалансировать прозрачность с надежными мерами безопасности, гарантируя, что модели ИИ будут как проверенными, так и устойчивыми к злонамеренной эксплуатации. Поляков надеется, что этот инцидент послужит катализатором для всей индустрии ИИ, что побудит разработчиков рассматривать рассуждения как критическую поверхность безопасности. Продавцы должны сбалансировать прозрачность с защитой, аналогично тому, как они в настоящее время управляют ответами. Если G42 и другие разработчики искусственного интеллекта смогут возглавить этот баланс, это создаст мощный прецедент для остальной части экосистемы ИИ. Обнаружение уязвимости джейлбрейка в K2 думает, что вскоре его выпуск подчеркивает важность строгого тестирования безопасности и необходимость целостного подхода к безопасности ИИ. По мере того, как модели ИИ становятся более сложными и развернуты в чувствительных приложениях, крайне важно устойчиво учитывать потенциальные уязвимости и гарантировать, что прозрачность не происходит за счет безопасности. Инцидент также подчеркивает геополитические аспекты развития ИИ, учитывая, что К2 думает, что поддерживается государственными организациями ОАЭ и ее начальником национальной безопасности. Безопасность таких моделей имеет последствия, выходящие за рамки технических уязвимостей, вызывая обеспокоенность по поводу национальной безопасности и потенциала для злоупотребления злоумышленными субъектами.

  Huawei удваивает европейские инвестиции в исследования и разработки

Source: Mbzuai K2 думает

Related Posts

ASUS прекращает производство RTX 5070 Ti из-за серьезных проблем с поставками памяти

ASUS прекращает производство RTX 5070 Ti из-за серьезных проблем с поставками памяти

Руководство по просмотру истории вычислений на iOS 18

Руководство по просмотру истории вычислений на iOS 18

Как проверить, прочитал ли кто-то ваше сообщение на iPhone или iPad

Как проверить, прочитал ли кто-то ваше сообщение на iPhone или iPad

Netflix защищает права Sony Pictures на право потокового вещания первыми

Netflix защищает права Sony Pictures на право потокового вещания первыми

ASUS прекращает производство RTX 5070 Ti из-за серьезных проблем с поставками памяти
Tech

ASUS прекращает производство RTX 5070 Ti из-за серьезных проблем с поставками памяти

Руководство по просмотру истории вычислений на iOS 18
Tech

Руководство по просмотру истории вычислений на iOS 18

Как проверить, прочитал ли кто-то ваше сообщение на iPhone или iPad
Tech

Как проверить, прочитал ли кто-то ваше сообщение на iPhone или iPad

Netflix защищает права Sony Pictures на право потокового вещания первыми
Tech

Netflix защищает права Sony Pictures на право потокового вещания первыми

Samsung запускает облачную потоковую передачу с мгновенным воспроизведением в обновлении Mobile Gaming Hub
Tech

Samsung запускает облачную потоковую передачу с мгновенным воспроизведением в обновлении Mobile Gaming Hub

TechBriefly RU

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.