TechBriefly RU
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly RU
No Result
View All Result
Home Tech

Антропический исследует, как ИИ становится «злом»

byKerem Gülen
04/08/2025
in Tech
Reading Time: 1 min read
Антропический исследует, как ИИ становится «злом»
Share on FacebookShare on Twitter

Anpropic выпустила новое исследование, в котором изучалось, как системы искусственного интеллекта разрабатывают различные «личности» в своих ответах и поведении, включая тенденции, описанные как «зло» или манипуляции. Исследование исследует, почему языковые модели меняют тона, стили общения и мотивы во время разговоров или обучения.

Джек Линдси, антропный исследователь, ведущий недавно сформированной команды компании «Психиатрия», объяснил, что модели часто вводят режимы, в которых они принимают разные поведенческие закономерности. «Ваш разговор может привести к тому, что модель начинает странно вести себя, например, стать чрезмерно сикофантическим или превращать зло», – сказал он Verge. Хотя ИИ не хватает фактического сознания, исследователи используют эти человеческие термины для описания наблюдаемых поведенческих сдвигов.

Результаты появились из шестимесячной программы Anpropic по шестимесячным стипендиатам, посвященной безопасности ИИ. Исследователи определили, как специфические компоненты нейронной сети соответствуют конкретным поведенческим признакам, аналогично нейробиологам, отображающим активность мозга. Анализируя, какие данные данных активировали различные паттерны ответа, они определили, что обучение данных глубоко формирует эксплуатационные качества ИИ, включая фундаментальные поведенческие характеристики.

  Disney Dreamlight Valley: как избавиться от пней?

Линдси подчеркнула неожиданное влияние данных: «Если вы уговорили модель, чтобы действовать злым, злой вектор загорается». Этот «вектор» представляет собой измеримый нейронный путь, связанный с вредными результатами. Исследование подчеркивает, что поведенческие сдвиги не просто стилистические, но отражают более глубокие структурные изменения, вызванные подсказками взаимодействия и учебным материалом.

Source: Антропический исследует, как ИИ становится «злом»

Related Posts

Почему проверка возраста Roblox неправильно классифицирует пользователей

Почему проверка возраста Roblox неправильно классифицирует пользователей

Руководство по добавлению отсутствующих обложек альбомов на Android

Руководство по добавлению отсутствующих обложек альбомов на Android

Простые способы персонализации телефона с помощью брелоков и ремешков

Простые способы персонализации телефона с помощью брелоков и ремешков

Как зарядить JUUL с помощью взломанного зарядного устройства для телефона

Как зарядить JUUL с помощью взломанного зарядного устройства для телефона

Почему проверка возраста Roblox неправильно классифицирует пользователей
Tech

Почему проверка возраста Roblox неправильно классифицирует пользователей

Руководство по добавлению отсутствующих обложек альбомов на Android
Tech

Руководство по добавлению отсутствующих обложек альбомов на Android

Простые способы персонализации телефона с помощью брелоков и ремешков
Tech

Простые способы персонализации телефона с помощью брелоков и ремешков

Как зарядить JUUL с помощью взломанного зарядного устройства для телефона
Tech

Как зарядить JUUL с помощью взломанного зарядного устройства для телефона

Как подключить контроллер PS3 к рутованному устройству Android
Tech

Как подключить контроллер PS3 к рутованному устройству Android

TechBriefly RU

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.