Новое исследование филиалов MIT Sloan показывает, что улучшения в производительности генеративного искусственного интеллекта (ИИ) не связаны только с достижениями в крупных языковых моделях (LLMS). Крупномасштабный эксперимент показал, что только половина результатов производительности, наблюдаемой после перехода к более продвинутой модели ИИ, связана с самой моделью. Оставшаяся половина была связана с тем, что пользователи адаптировали свои подсказки – письменные инструкции, предоставленные ИИ, – для эффективного использования новой системы.
Этот вывод подчеркивает решающую реальность для бизнеса: инвестиции в новые инструменты искусственного интеллекта не принесут их ожидаемой стоимости, если сотрудники также не уточнит их использование. Исследование предполагает, что подсказка – это обучаемый навык, который люди могут быстро улучшить, даже без официальных инструкций.
Дэвид Хольц, SM ’18, PhD ’21, доцент профессора в Колумбийском университете и филиал по исследованию по инициативе MIT по цифровой экономике, и соавтор исследования, заявил: «Люди часто предполагают, что лучшие результаты приходят в основном из-за лучших моделей. Тот факт, что почти половина улучшения, поведение пользователя, действительно вызовет, что убеждение».
В эксперименте участвовало почти 1900 участников, которые были случайным образом назначены на одну из трех версий системы генерации изображений Dallai Dallai: Dall-E 2, более продвинутый Dall-E 3 или Dall-E 3 с подсказками пользователей, автоматически переписанным GPT-4 LLM без их знания. Участникам было поручено воссоздать справочное изображение, такое как фотография, графический дизайн или произведение искусства, введя инструкции в ИИ. У них было 25 минут, чтобы представить не менее 10 подсказок, и они были стимулированы бонусным платежом для лучших 20% исполнителей, поощряя их протестировать и уточнить свои инструкции.
Исследователи сообщили о нескольких ключевых выводах:
- Участники, использующие базовую версию Dall-E 3, создали изображения, которые были более похожи на целевое изображение по сравнению с теми, которые генерируются пользователями Dall-E 2.
- Участники, использующие базовый уровень Dall-E 3, написали подсказки, которые были на 24% длиннее, чем у пользователей Dall-E 2. Эти подсказки также демонстрировали большее сходство друг с другом и содержали более высокую долю описательных слов.
- Приблизительно половина улучшения сходства изображений была связана с расширенной моделью, в то время как другая половина была получена из -за того, что пользователи корректировали свои подсказки, чтобы использовать возможности улучшенных моделей.
В то время как это исследование было сосредоточено на генерации изображений, исследователи считают, что такая же модель, вероятно, будет применяться к другим задачам, включая письмо и кодирование.
Исследование показало, что способность адаптировать подсказки с течением времени не была исключительной для технических пользователей. Хольц прокомментировал: «Люди часто думают, что вам нужно быть инженером -программистом, чтобы подготовить хорошо и извлечь выгоду из искусственного интеллекта. Но наши участники пришли из широкого спектра рабочих мест, уровней образования и возрастных групп – и даже тех, у кого не было технического происхождения, смогли максимально использовать возможности новой модели».
Данные свидетельствуют о том, что эффективная подсказка – это больше о четкой общении, чем кодировании. Хольц отметил: «Лучшими подопечными не были инженерами -программистом. Это были люди, которые знали, как ясно выражать идеи на повседневном языке, не обязательно в коде».
Эта доступность может также способствовать снижению различий в производительности среди пользователей с различными уровнями квалификации и опытом. Иаман Джахани, доктор философии 22 года, доцент профессора Университета Мэриленда и цифровой научный сотрудник по инициативе MIT по цифровой экономике, и соавтор исследования, отметил, что генеративный искусственный интеллект имеет потенциал для узких пробелов в производительности между пользователями. «Люди, которые начинают в нижней части [performance] Масштаб принесла пользу больше всего, что означает, что различия в результатах стали меньше, – сказал Джахани. – «Достижения модели могут фактически помочь уменьшить неравенство в выпуске».
Джахани пояснил, что выводы команды применимы к задачам с четкими, измеримыми результатами и идентифицируемым верхним пределом для хорошего результата. Он отметил, что еще не ясно, будет ли та же шаблон для более открытых задач без единого правильного ответа и с потенциально значительными выплатами, такими как создание преобразующих новых идей.
Одним из наиболее неожиданных выводов было то, что переписывание подсказок с использованием генеративного искусственного интеллекта привело к значительному снижению производительности. Группа, которая использовала Dall-E 3 с генеративным AI, автоматически переписывает свои подсказки, испытывала 58% деградацию в производительности по сравнению с базовой группой Dall-E 3. Исследователи обнаружили, что автоматические переписывания часто вводили посторонние детали или изменяли предполагаемое значение ввода пользователя, в результате чего ИИ создавал неправильное изображение.
Хольц объяснил, «[Automatic prompt rewriting] Просто не очень хорошо работает для такой задачи, где цель состоит в том, чтобы соответствовать целевому изображению как можно ближе. Что еще более важно, это показывает, как системы ИИ могут сломаться, когда дизайнеры делают предположения о том, как люди будут их использовать. Если вы скрытые инструкции с твердым кодом в инструмент, они могут легко противоречить тому, что пользователь на самом деле пытается сделать ».
Последствия исследования для предприятий ясны: помимо выбора «правильной» модели ИИ, лидеры должны определить приоритеты в обеспечении эффективного обучения пользователей и экспериментов. Джахани подчеркнул, что подсказка не является навыком подключения и игры. «Компании должны постоянно инвестировать в свои человеческие ресурсы», – сказал он. «Люди должны быть пойманы на этих технологиях и знают, как хорошо их использовать».
Чтобы максимизировать преимущества генеративного ИИ, исследователи предлагают несколько ключевых приоритетов для бизнес-лидеров, стремящихся повысить эффективность системы ИИ в реальных условиях:
- Инвестировать в обучение и эксперименты: Только технических обновлений недостаточно. Предоставление сотрудникам времени и поддержки для уточнения их взаимодействия с системами ИИ имеет решающее значение для реализации полного повышения производительности.
- Дизайн для итерации: Пользовательские интерфейсы, которые поощряют тестирование, пересмотр и обучение – и четко отображают результаты – способствуют лучшим результатам с течением времени.
- Будьте осторожны с автоматизацией: Хотя автоматизированное переписывание быстрого приглашения может показаться удобным, он может препятствовать производительности, а не улучшить его, если он скрывает или переопределяет намерения пользователя.
Документ был соавтором аспирантов MIT Sloan Benjamin S. Manning, SM ’24; Hong-Yi Tuye, SM ’23; и Мохаммед Алсобай, 16, SM ’24; а также аспирант Стэнфордского университета Джо Чжан, компьютерный социолог Microsoft Сиддхарт Сури и доцент кипрского университета Кристос Николаид, SM ’11, PhD ’14.
Source: Быстрое качество учетных записей для половины прибыли от искусственного интеллекта








