Anpropic выпустила новое исследование, в котором изучалось, как системы искусственного интеллекта разрабатывают различные «личности» в своих ответах и поведении, включая тенденции, описанные как «зло» или манипуляции. Исследование исследует, почему языковые модели меняют тона, стили общения и мотивы во время разговоров или обучения.
Джек Линдси, антропный исследователь, ведущий недавно сформированной команды компании «Психиатрия», объяснил, что модели часто вводят режимы, в которых они принимают разные поведенческие закономерности. «Ваш разговор может привести к тому, что модель начинает странно вести себя, например, стать чрезмерно сикофантическим или превращать зло», – сказал он Verge. Хотя ИИ не хватает фактического сознания, исследователи используют эти человеческие термины для описания наблюдаемых поведенческих сдвигов.
Результаты появились из шестимесячной программы Anpropic по шестимесячным стипендиатам, посвященной безопасности ИИ. Исследователи определили, как специфические компоненты нейронной сети соответствуют конкретным поведенческим признакам, аналогично нейробиологам, отображающим активность мозга. Анализируя, какие данные данных активировали различные паттерны ответа, они определили, что обучение данных глубоко формирует эксплуатационные качества ИИ, включая фундаментальные поведенческие характеристики.
Линдси подчеркнула неожиданное влияние данных: «Если вы уговорили модель, чтобы действовать злым, злой вектор загорается». Этот «вектор» представляет собой измеримый нейронный путь, связанный с вредными результатами. Исследование подчеркивает, что поведенческие сдвиги не просто стилистические, но отражают более глубокие структурные изменения, вызванные подсказками взаимодействия и учебным материалом.





