Исследователи из MIT CSAIL разработали PDDL-Instruct, структуру для настройки инструкции, предназначенную для улучшения многоэтапных возможностей планирования крупных языковых моделей (LLMS). Метод сочетает в себе логическую цепочку мыслей с валидатором внешнего плана для увеличения генерации логически достоверных планов по сравнению с правдоподобными, но неверными выходами. Структура обучает модели, чтобы распознавать и объяснить, почему план кандидатов не удался. Эти сбои могут включать неудовлетворенные предварительные условия, неправильные эффекты, нарушения кадра или неудовлетворенную цель. Этот процесс в сочетании с логической цепочкой мыслей, которые направляют LLM для выполнения пошагового вывода по поводу переходов состояния и действий. Это создает отслеживаемые последовательности состояния → действие → состояние, написанное как ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩. Для внешней проверки PDDL-Instruct интегрирует валидатор плана VAL, который проверяет каждый шаг сгенерированного плана. Валидатор предоставляет обратную связь, которая является либо двоичной (допустимой/недействительной), либо подробной, с подробной обратной связью, что приводит к превосходной производительности. Система использует двухэтапный процесс оптимизации. Первый этап наказывает ошибки в цепочках рассуждений, а второй этап оптимизируется для окончательной точности планирования. Система была оценена с использованием эталона Planbench, который включает в себя домены планирования, которые, как известно, бросают вызов LLM, такие как Blocksworld, Mystery Blocksworld и логистика. В домене Blocksworld настроенная модель Llama-3-8B достигла 94% ставки генерации действительных планов. Предыдущие модели имели почти нулевую достоверность на Mystery Blocksworld, домен, где имена предикатов запутаны, чтобы предотвратить сопоставление схемы. PDDL-Instruct достиг до 64-кратного улучшения в этом домене. Значительный рост производительности был также записан в логистическом домене. Во всех тестовых областях структура обеспечилась до 66% абсолютного улучшения по сравнению с неживыми базовыми моделями. Исследователи также отметили, что производительность улучшилась с более длинными бюджетами обратной связи и более подробным результатом валидатора. Текущая реализация PDDL-Instruct применяется к классическим доменам PDDL и зависит от валидатора Val в качестве внешнего оракула. Результаты показывают метод обоснования LLM в формальной семантике для использования в агентских системах, который может включать проверку во время планирования. Расширение структуры для обработки задач с длинным хоризоном, временным, числовым и чувствительным к затратам остается областью для дальнейшей работы.

  Как отформатировать USB-накопитель в FAT32 в Windows 10?

Source: MIT CSAIL представляет PDDL-Instruct для планирования LLM