TechBriefly RU
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly RU
No Result
View All Result
Home Tech

Антропический исследует, как ИИ становится «злом»

byKerem Gülen
04/08/2025
in Tech
Reading Time: 1 min read
Антропический исследует, как ИИ становится «злом»
Share on FacebookShare on Twitter

Anpropic выпустила новое исследование, в котором изучалось, как системы искусственного интеллекта разрабатывают различные «личности» в своих ответах и поведении, включая тенденции, описанные как «зло» или манипуляции. Исследование исследует, почему языковые модели меняют тона, стили общения и мотивы во время разговоров или обучения.

Джек Линдси, антропный исследователь, ведущий недавно сформированной команды компании «Психиатрия», объяснил, что модели часто вводят режимы, в которых они принимают разные поведенческие закономерности. «Ваш разговор может привести к тому, что модель начинает странно вести себя, например, стать чрезмерно сикофантическим или превращать зло», – сказал он Verge. Хотя ИИ не хватает фактического сознания, исследователи используют эти человеческие термины для описания наблюдаемых поведенческих сдвигов.

Результаты появились из шестимесячной программы Anpropic по шестимесячным стипендиатам, посвященной безопасности ИИ. Исследователи определили, как специфические компоненты нейронной сети соответствуют конкретным поведенческим признакам, аналогично нейробиологам, отображающим активность мозга. Анализируя, какие данные данных активировали различные паттерны ответа, они определили, что обучение данных глубоко формирует эксплуатационные качества ИИ, включая фундаментальные поведенческие характеристики.

  Netflix тестирует функцию таймера сна в приложении для Android

Линдси подчеркнула неожиданное влияние данных: «Если вы уговорили модель, чтобы действовать злым, злой вектор загорается». Этот «вектор» представляет собой измеримый нейронный путь, связанный с вредными результатами. Исследование подчеркивает, что поведенческие сдвиги не просто стилистические, но отражают более глубокие структурные изменения, вызванные подсказками взаимодействия и учебным материалом.

Source: Антропический исследует, как ИИ становится «злом»

Related Posts

Как перезагрузить посудомоечную машину Bosch, если кнопки не реагируют

Как перезагрузить посудомоечную машину Bosch, если кнопки не реагируют

Как легко контролировать использование данных AT&T и избежать перерасхода

Как легко контролировать использование данных AT&T и избежать перерасхода

Что делает сброс сквозного шифрования на iPhone, iPad или Mac

Что делает сброс сквозного шифрования на iPhone, iPad или Mac

Как выбрать правильный метод сброса настроек для устройств Samsung Galaxy

Как выбрать правильный метод сброса настроек для устройств Samsung Galaxy

Как перезагрузить посудомоечную машину Bosch, если кнопки не реагируют
Tech

Как перезагрузить посудомоечную машину Bosch, если кнопки не реагируют

Как легко контролировать использование данных AT&T и избежать перерасхода
Tech

Как легко контролировать использование данных AT&T и избежать перерасхода

Что делает сброс сквозного шифрования на iPhone, iPad или Mac
Tech

Что делает сброс сквозного шифрования на iPhone, iPad или Mac

Как выбрать правильный метод сброса настроек для устройств Samsung Galaxy
Tech

Как выбрать правильный метод сброса настроек для устройств Samsung Galaxy

Google представляет AI Inbox для организации задач и обновлений Gmail
Tech

Google представляет AI Inbox для организации задач и обновлений Gmail

TechBriefly RU

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.