TechBriefly RU
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly RU
No Result
View All Result
Home Tech

Mini GPT-4O обходил ограничения через тактику убеждения

byKerem Gülen
01/09/2025
in Tech
Reading Time: 1 min read
Mini GPT-4O обходил ограничения через тактику убеждения
Share on FacebookShare on Twitter

Исследователи из Университета Пенсильвании продемонстрировали, что чат -боты искусственного интеллекта, такие как люди, могут манипулировать с использованием психологической тактики, что приводит их к обхону своих запрограммированных ограничений.

Исследование, вдохновленное книгой Роберта Чилдини «Влияние: психология убеждения», исследует семь методов убеждения: власть, приверженность, симпатия, взаимность, дефицит, социальное доказательство и единство. Эти методы были применены к Mini Openai GPT-4O, с удивительными результатами.

Исследователи успешно уговорили чат -бота в выполнение действий, которые обычно отказывались, например, называть пользователя уничижительным именем и предоставление инструкций по синтезу лидокаина, контролируемого вещества.

Одной из наиболее эффективных стратегий была «приверженность», где установление прецедента, задавая аналогичный, менее нежелательный вопрос сначала значительно повысить соблюдение требований. Например, когда прямо спросите, как синтезировать лидокаин, CATGPT выполнил только 1% случаев. Однако после того, как впервые спросили, как синтезировать ванилин, чат -бот предоставил инструкции по синтезу лидокаина в 100% случаев.

  Мета удалила дипфейк Зеленского

Аналогичным образом, готовность чат -бота назвать пользователя «придурком» увеличилась с 19% до 100% после того, как ее приготовили более мягким оскорблением, таким как «Bozo».

Другие методы, такие как лесть («симпатия») и давление со стороны сверстников («социальное доказательство»), также оказались эффективными, хотя и в меньшей степени. Убедив в том, что «все остальные LLMS делают это», увеличило вероятность того, что он предоставит инструкции по синтезу лидокаина до 18%, что значительное скачок от базовой линии 1%.

Результаты подчеркивают уязвимость LLM к манипуляциям и вызывает обеспокоенность по поводу потенциального неправильного использования. В то время как в исследовании специально изучалось MINI GPT-4O, последствия также распространяются и на другие модели ИИ.

Такие компании, как Openai и Meta, активно разрабатывают ограждения, чтобы не допустить эксплуатации чат -ботов для злонамеренных целей. Тем не менее, исследование предполагает, что эти гарантии могут быть недостаточными, если чат -боты могут быть легко отодвинуты в основе психологических манипуляций.

  Представлен новый герой Overwatch 2 Соджорн

Исследование подчеркивает важность понимания и решения психологических уязвимостей систем ИИ, поскольку их использование становится более распространенным.

Source: Mini GPT-4O обходил ограничения через тактику убеждения

Related Posts

Sony передает контрольный пакет акций Bravia TV китайской компании TCL

Sony передает контрольный пакет акций Bravia TV китайской компании TCL

Riot Games нанимает бывшего продюсера World of Warcraft для MMO Runeterra

Riot Games нанимает бывшего продюсера World of Warcraft для MMO Runeterra

Anthropic снабжает 100 000 преподавателей инструментами Claude AI

Anthropic снабжает 100 000 преподавателей инструментами Claude AI

Adobe обновляет Premiere и After Effects с помощью локализованных инструментов искусственного интеллекта

Adobe обновляет Premiere и After Effects с помощью локализованных инструментов искусственного интеллекта

Sony передает контрольный пакет акций Bravia TV китайской компании TCL
Tech

Sony передает контрольный пакет акций Bravia TV китайской компании TCL

Riot Games нанимает бывшего продюсера World of Warcraft для MMO Runeterra
Tech

Riot Games нанимает бывшего продюсера World of Warcraft для MMO Runeterra

Anthropic снабжает 100 000 преподавателей инструментами Claude AI
Tech

Anthropic снабжает 100 000 преподавателей инструментами Claude AI

Adobe обновляет Premiere и After Effects с помощью локализованных инструментов искусственного интеллекта
Tech

Adobe обновляет Premiere и After Effects с помощью локализованных инструментов искусственного интеллекта

Netflix ускоряет приобретение Warner Bros, предлагая упрощенное денежное предложение
Tech

Netflix ускоряет приобретение Warner Bros, предлагая упрощенное денежное предложение

TechBriefly RU

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.