Недавнее исследование, в соавторстве с исследователями Apple, демонстрирует, что крупные языковые модели (LLMS) могут значительно улучшить их эффективность, используя простую технику производительности: самостоятельно проверять их работу.
Исследование углубляется в качество рафинирования LLM посредством после тренировки, обычно достигаемой путем обучения подкреплению от обратной связи человека (RLHF). RLHF включает в себя человеческие майки, которые оценивают ответы моделей, обеспечивая «большие пальцы» для положительных ответов и «большие пальцы» для негативных. Этот цикл обратной связи помогает модели научиться генерировать выходы, которые с большей вероятностью получат положительную обратную связь, повышая ее общую полезность.
Эта фаза после тренировки тесно связана с более широкой областью «выравнивания», которая фокусируется на разработке методов для обеспечения того, чтобы LLM были полезны и безопасны. Смешанная модель может научиться манипулировать обратной связью с человека, генерируя поверхностно правильные, но в конечном итоге неверные результаты.
В то время как существуют различные методы для повышения надежности и выравнивания модели во время предварительного обучения, обучения и после тренировки, это исследование концентрируется на RLHF. Исследование Apple под названием «Контрольные списки лучше, чем модели вознаграждений для выравнивания языковых моделей», представляет собой схему обучения подкрепления на основе контрольного списка, называемая подкрепление обучения из обратной связи контрольного списка (RLCF).
RLCF оценивает ответы по шкале от 0 до 100 в зависимости от того, насколько хорошо они удовлетворяют каждый элемент в контрольном списке. Первоначальные результаты являются многообещающими. По мнению исследователей, «мы сравниваем RLCF с другими методами выравнивания, применяемыми к сильной инструкции, следующей модели (QWEN2.5-7B-синструкция) на пяти широко изученных критериях-RLCF является единственным методом для повышения производительности на каждом эталонном этапе, включая 4-балльный усилитель по скорости удовлетворенности на уровне на 6 пунктов на увеличение на 6 пунктов на уровне Infobench, и на 3-in-an-rescep-rescel-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-necplist rescence rescence rescence. обратная связь как ключевой инструмент для улучшения поддержки языковых моделей запросов, которые выражают множество потребностей ».
Это особенно актуально для помощников, основанных на AI, которые становятся стандартным интерфейсом для пользователей, взаимодействующих со своими устройствами. Исследователи утверждают, что «языковые модели должны следить за инструкциями пользователей, чтобы быть полезными. Поскольку широкая общественность интегрирует ассистентов на основе языковых моделей в их выполнение ежедневных задач, существует ожидание, что языковые модели могут добросовестно следовать запросам пользователей. Поскольку пользователи развивают большую уверенность в способности моделей в соответствии с сложными запросами, эти модели все чаще получают богатые, многоуровневые инструкции, которые требуют тщательного внимания».
Ключевым аспектом исследования является процесс генерации контрольных списков и назначения важности важности для каждого элемента. Это достигается с использованием LLM. Опираясь на предыдущие исследования, исследователи Apple создали контрольные списки для 130 000 инструкций, создав новый набор данных под названием WildCheckLists. «Чтобы генерировать ответы кандидатов для нашего метода, мы используем QWEN2.5-0.5b, QWEN2.5-1.5b, QWEN2.5-3B и QWEN2.5-7B. QWEN2.5-72B-Instruct-модель генератора контрольного списка (…)».
По сути, каждая пользовательская инструкция автоматически дополняется контрольным списком конкретных требований «да/нет» (например, «это переводится на испанский?»). Большая модель учителя затем оценивает ответы кандидатов по каждому элементу контрольного списка, и эти взвешенные оценки становятся сигналом вознаграждения, используемого для тонкой настройки модели студента.
Исследователи наблюдали до 8,2% прироста в одном из тестов при тестировании своего метода, причем правильные системы создают наилучший возможный контрольный список для каждой подсказки. Кроме того, это решение превзошло альтернативные методы в нескольких других критериях.
Исследователи подчеркивают, что их исследование было сосредоточено на «сложных инструкциях» и что RLCF может не быть оптимальным методом обучения подкрепления для всех вариантов использования. Они также признают, что их метод опирается на более мощную модель для оценки и настройки меньшей модели, которая представляет собой значительное ограничение. Важно отметить, что они утверждают, что «RLCF улучшает сложные инструкции, но не предназначено для выравнивания безопасности».
Несмотря на эти ограничения, в исследовании представлен новый и простой подход к повышению надежности во взаимодействиях Human-LLM, который становится все более важным, поскольку эти помощники получают агентские возможности, где инструкция следующая и выравнивание имеет первостепенное значение.
Таким образом, исследование Apple представляет RLCF, на основе контрольного списка схема обучения подкрепления, которая значительно повышает производительность LLM в сложных инструкциях после задач. Показав LLMS проверить свою собственную работу против предопределенных контрольных списков, метод RLCF повышает надежность и точность ответов LLM, особенно в сценариях, включающих многоэтапные инструкции и разнообразные потребности пользователей. Несмотря на то, что RLCF не предназначен для выравнивания безопасности, предлагает ценный инструмент для повышения общей полезности и достоверности помощников на основе LLM.
Source: Apple использует RLCF для улучшения инструкции LLM после








