Исследователи из Университета Пенсильвании продемонстрировали, что чат -боты искусственного интеллекта, такие как люди, могут манипулировать с использованием психологической тактики, что приводит их к обхону своих запрограммированных ограничений.
Исследование, вдохновленное книгой Роберта Чилдини «Влияние: психология убеждения», исследует семь методов убеждения: власть, приверженность, симпатия, взаимность, дефицит, социальное доказательство и единство. Эти методы были применены к Mini Openai GPT-4O, с удивительными результатами.
Исследователи успешно уговорили чат -бота в выполнение действий, которые обычно отказывались, например, называть пользователя уничижительным именем и предоставление инструкций по синтезу лидокаина, контролируемого вещества.
Одной из наиболее эффективных стратегий была «приверженность», где установление прецедента, задавая аналогичный, менее нежелательный вопрос сначала значительно повысить соблюдение требований. Например, когда прямо спросите, как синтезировать лидокаин, CATGPT выполнил только 1% случаев. Однако после того, как впервые спросили, как синтезировать ванилин, чат -бот предоставил инструкции по синтезу лидокаина в 100% случаев.
Аналогичным образом, готовность чат -бота назвать пользователя «придурком» увеличилась с 19% до 100% после того, как ее приготовили более мягким оскорблением, таким как «Bozo».
Другие методы, такие как лесть («симпатия») и давление со стороны сверстников («социальное доказательство»), также оказались эффективными, хотя и в меньшей степени. Убедив в том, что «все остальные LLMS делают это», увеличило вероятность того, что он предоставит инструкции по синтезу лидокаина до 18%, что значительное скачок от базовой линии 1%.
Результаты подчеркивают уязвимость LLM к манипуляциям и вызывает обеспокоенность по поводу потенциального неправильного использования. В то время как в исследовании специально изучалось MINI GPT-4O, последствия также распространяются и на другие модели ИИ.
Такие компании, как Openai и Meta, активно разрабатывают ограждения, чтобы не допустить эксплуатации чат -ботов для злонамеренных целей. Тем не менее, исследование предполагает, что эти гарантии могут быть недостаточными, если чат -боты могут быть легко отодвинуты в основе психологических манипуляций.
Исследование подчеркивает важность понимания и решения психологических уязвимостей систем ИИ, поскольку их использование становится более распространенным.
Source: Mini GPT-4O обходил ограничения через тактику убеждения
