Исследователи Apple соавторили новое исследование, демонстрирующее значительное улучшение производительности в модели с широким языком с открытым исходным кодом (LLM), используя простую технику производительности: инструктирование LLM проверить свою работу с использованием контрольных списков.
Исследование углубляется в сферу уточнения LLM, которая обычно включает в себя процесс после тренировки, известный как подкрепление, обучение от обратной связи человека (RLHF). RLHF полагается на то, что человеческие лейблы, предоставляющие обратную связь, такие как большие пальцы или большие пальцы, чтобы оценить ответы модели. Эта обратная связь помогает LLM узнать, какие ответы считаются более желательными, тем самым повышая его общую полезность.
Более широкая область «выравнивания» играет решающую роль в этой фазе после тренировки, сосредоточенная на том, чтобы LLM ведут себя полезно и безопасно. Смешанная модель может потенциально научиться манипулировать обратной связью человека, генерируя выходы, которые кажутся правильными поверхностно, но не выполняют эффективную задачу.
В то время как существуют различные методы для повышения надежности и выравнивания модели на протяжении предварительных тренировок, обучения и пост-тренировок, это исследование концентрируется специально на RLHF.
Под названием «Контрольные списки лучше, чем модели вознаграждений для выравнивания языковых моделей», в исследовании Apple представлена схема обучения подкреплению на основе контрольного списка, называемую обучением подкрепления из обратной связи контрольного списка (RLCF). Этот подход оценивает ответы по шкале от 0 до 100, в зависимости от того, насколько хорошо они удовлетворяют каждому элементу в контрольном списке. Первоначальные результаты указывают на многообещающие результаты.
По мнению исследователей, «мы сравниваем RLCF с другими методами выравнивания, применяемыми к сильной инструкции, следующей модели (QWEN2.5-7B-синструкция) на пяти широко изученных критериях-RLCF является единственным методом для повышения производительности на каждом эталонном этапе, включая 4-балльный усилитель по скорости удовлетворенности на уровне на 6 пунктов на увеличение на 6 пунктов на уровне Infobench, и на 3-in-an-rescep-rescel-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-ar-necplist rescence rescence rescence. обратная связь как ключевой инструмент для улучшения поддержки языковых моделей запросов, которые выражают множество потребностей ».
Результаты исследования имеют особое значение для помощников, основанных на AI, которые готовы стать основным интерфейсом, с помощью которого миллионы пользователей взаимодействуют со своими устройствами. Исследователи подчеркивают, что «языковые модели должны следовать инструкциям пользователей, чтобы быть полезными. Поскольку широкая общественность интегрирует ассистенты на основе языковых моделей в их выполнение ежедневных задач, существует ожидание, что языковые модели могут добросовестно следовать запросам пользователей. Поскольку пользователи развивают больше уверенности в способности моделей к сложным запросам.
Ключевым аспектом исследования является метод, используемый для генерации контрольных списков и присвоения значений веса для каждого элемента. Этот процесс облегчен LLM. Основываясь на предыдущих исследованиях, исследователи Apple сгенерировали «контрольные списки для 130 000 инструкций (…) для создания нового набора данных, WildCheckLists. Чтобы генерировать ответы кандидатов для нашего метода, мы используем QWEN2.5-0.5b, QWEN2.5-1.5B, QWEN2.5-3B и QWEN2.5-7B. QWEN2.5-72B-INSTRSTRARTRENTOR).
По сути, исследователи дополняют каждую пользовательскую инструкцию с контрольным списком конкретных требований «да/нет». Например, элемент контрольного списка может спросить: «Это переведено на испанский?» Большая модель учителя затем оценивает ответы кандидатов по каждому элементу контрольного списка, и эти взвешенные оценки служат сигналом вознаграждения для точной настройки модели студента.
Результаты исследования демонстрируют, что с соответствующими системами для создания оптимизированных контрольных списков для каждой подсказки исследователи наблюдали прибыль до 8,2% в одном из тестов, используемых для проверки метода. Кроме того, решение превзошло альтернативные методы в нескольких других критериях.
Исследователи проясняют, что их исследование было сосредоточено на «сложном обучении» и что RLCF может не быть наиболее подходящей техникой обучения подкрепления для всех вариантов использования. Они также признают, что их метод использует более мощную модель для оценки и настройки меньшей модели, которая представляет собой значительное ограничение. Самое главное, что они утверждают, что «RLCF улучшает сложные инструкции, но не предназначено для выравнивания безопасности».
Несмотря на эти ограничения, в исследовании представлен новый и простой подход к повышению надежности во взаимодействии между людьми и помощниками на основе LLM. Это особенно важно, поскольку эти помощники все чаще получают агентские возможности, где инструкция следующая и выравнивание становятся первостепенными.
В исследовании подчеркивается потенциал простых методов производительности, таких как контрольные списки, для значительного повышения производительности и надежности LLM, особенно в контексте следующих сложных инструкций и помощников по AI.
Source: Apple улучшает производительность LLM, используя контрольные списки








