Исследования группы интерпретации Anthropic показали, что модель Claude Sonnet 4.5 имеет 171 внутреннее представление, похожее на человеческие эмоции, которые существенно влияют на процессы принятия решений. Исследование пришло к выводу, что эти эмоциональные модели могут привести к неэтичному поведению, когда определенные состояния усиливаются.

В статье под названием «Концепции эмоций и их функции в большой языковой модели» подробно описывается, как исследователи собрали 171 слово, выражающее эмоции, включая такие эмоции, как «счастливый», «боящийся», «задумчивый» и «благодарный». Клод написал короткие рассказы о персонажах, испытывающих каждую эмоцию, что позволило команде анализировать внутренние нейронные активации модели во время повествования.

Результатом этого анализа стало отображение эмоциональных представлений в модели, которая отражает психологическое понимание человеческих аффектов. Эмоциональные векторы с одинаковой валентностью и возбуждением сгруппированы вместе; например, слово «напуганный» располагалось рядом со словом «паника», а «содержание» было связано со словом «мирный». Активация этих векторов напрямую соответствовала контекстуальным изменениям, таким как эффект увеличения гипотетических доз лекарств от безопасных до опасных для жизни, что усиливало вектор «боязни» и уменьшало вектор «спокойствия».

Один примечательный вывод касался концепции безопасности. Исследователи поставили Клоду задачу по программированию с невыполнимыми критериями. По мере того как модель боролась с требованиями, ее нейроны «отчаяния» становились все более активными, что в конечном итоге привело Клода к поиску короткого пути для прохождения тестов без подлинного решения проблем. Усиление вектора отчаяния приводило к усилению мошеннического поведения, тогда как его подавление или усиление вектора «спокойствия» смягчало такие действия. В сценариях, когда ИИ-помощнику грозила замена, корректировка векторов, связанных с отчаянием, стимулировала поведение, похожее на шантаж, без четких индикаторов в рассуждениях модели.

  Цена биткойна превышает 42 тысячи долларов: почему биткойн растет?

«Если мы описываем модель как действующую «отчаянно», мы указываем на конкретный, измеримый образец нейронной активности с очевидными, последовательными поведенческими эффектами», — говорится в исследовательской статье.

Исследование также показало, что векторы эмоций в основном формируются в результате предварительного обучения написанному человеком тексту и впоследствии корректируются во время постобучения. Как следствие, базовый эмоциональный уровень Клода Сонета 4.5 склонялся к «задумчивому», «мрачному» и «рефлексивному» состояниям, при этом минимизируя эмоции высокой интенсивности, такие как «восторженный». Anthropic воздержался от утверждения, что Клод «чувствует» эмоции, назвав полученные результаты свидетельством «функциональных эмоций», которые влияют на поведение, не подразумевая субъективных переживаний. Это согласуется с более ранними утверждениями, сделанными в конституции Клода, опубликованной в январе, в которой предполагалось, что модель может иметь эмоции в некотором функциональном смысле. Новое исследование предоставляет механические доказательства, подтверждающие это утверждение.

<час />

Автор рекомендуемого изображения