Можно ли заставить языковую модель с 8 миллиардами параметров создавать доказательно верные многошаговые планы, а не просто правдоподобные предположения?
Исследователи из MIT CSAIL представили PDDL-INSTRUCT — систему настройки инструкций, которая сочетает логическую цепочку рассуждений с внешней проверкой планов (VAL) для повышения эффективности символьного планирования в языковых моделях.
На PlanBench настроенная модель Llama-3-8B достигает 94% валидных планов в Blocksworld, с заметным улучшением в Mystery Blocksworld и Logistics. В целом сообщается об улучшении на 66% по сравнению с базовыми показателями.
Что нового?
Исследовательская группа решает известную проблему: языковые модели часто генерируют «правдоподобно звучащие», но логически неверные многошаговые планы. PDDL-INSTRUCT сочетает явную семантику состояния/действия с проверкой по истине:
* Обучение на ошибках: модели обучаются объяснять, почему планы-кандидаты терпят неудачу (невыполненные предварительные условия, неправильные эффекты, нарушения фреймов или недостижение цели).
* Логическая цепочка рассуждений (CoT): подсказки требуют пошагового вывода по предварительным условиям и добавлению/удалению эффектов, что приводит к трассировке состояния → действия → состояния ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.
* Внешняя проверка (VAL): каждый шаг проверяется с помощью классического планировщика VAL; обратная связь может быть двоичной (действительный/недействительный) или подробной (какая предварительная условие/эффект не выполнен). Детальная обратная связь дала наибольший прирост.
* Двухэтапная оптимизация:
* Этап 1 оптимизирует цепочки рассуждений (штрафуя за ошибки перехода между состояниями);
* Этап 2 оптимизирует точность планирования конечных задач.
Насколько это хорошо? Бенчмарки
Оценка проводится по PlanBench — Blocksworld, Mystery Blocksworld (имена предикатов скрыты, чтобы нарушить сопоставление по шаблону) и Logistics — установленным стресс-тестам, где общие языковые модели исторически демонстрируют низкую производительность при генерации планов.
Авторы подчёркивают, что Mystery Blocksworld является особенно сложной задачей; в предыдущих исследованиях без инструментальной поддержки сообщалось о <5% валидности.
* Blocksworld: до 94% валидных планов с Llama-3-8B под PDDL-INSTRUCT.
* Mystery Blocksworld: значительное относительное улучшение; в статье сообщается о драматическом улучшении по сравнению с почти нулевым базовым уровнем (указано как порядки величины, например, 64× в сводных таблицах).
* Logistics: существенное увеличение количества валидных планов.
В целом исследовательская группа демонстрирует улучшение на 66% по сравнению с ненастроенными базовыми показателями. Детальная обратная связь от валидатора превосходит двоичные сигналы, а более длительные бюджеты обратной связи также помогают.
Резюме
PDDL-INSTRUCT показывает, что сочетание логической цепочки рассуждений с внешней проверкой планов может существенно улучшить планирование в языковых моделях, но его текущая область применения — это классические домены PDDL (Blocksworld, Mystery Blocksworld, Logistics) и он полагается на VAL как на внешнего оракула.
Сообщаемые достижения — например, 94% валидных планов в Blocksworld и значительное относительное улучшение в Mystery Blocksworld с Llama-3-8B — демонстрируют жизнеспособный путь для нейросимволического обучения, где шаги рассуждения основаны на формальной семантике и проверяются автоматически. Это предполагает непосредственную полезность для конвейеров агентов, которые могут допускать верификатор в цикле, в то время как долгосрочное, временное/числовое и затратно-чувствительное планирование остаётся открытыми направлениями для расширения.
1. Какие проблемы решает система PDDL-INSTRUCT в контексте планирования в языковых моделях?
Система PDDL-INSTRUCT решает проблему генерации языковыми моделями логически неверных многошаговых планов, которые звучат правдоподобно. Она сочетает логическую цепочку рассуждений с внешней проверкой планов, что позволяет повысить эффективность символьного планирования.
2. Какие методы используются в PDDL-INSTRUCT для улучшения планирования в языковых моделях?
В PDDL-INSTRUCT используются следующие методы:
* обучение на ошибках (модели обучаются объяснять, почему планы-кандидаты терпят неудачу);
* логическая цепочка рассуждений (подсказки требуют пошагового вывода по предварительным условиям и добавлению/удалению эффектов);
* внешняя проверка (каждый шаг проверяется с помощью классического планировщика VAL);
* двухэтапная оптимизация (этап 1 оптимизирует цепочки рассуждений, этап 2 — точность планирования конечных задач).
3. Какие результаты были получены при использовании PDDL-INSTRUCT на PlanBench?
На PlanBench настроенная модель Llama-3-8B достигает 94% валидных планов в Blocksworld, значительное улучшение в Mystery Blocksworld и Logistics. В целом сообщается об улучшении на 66% по сравнению с базовыми показателями.
4. Какие задачи использовались для оценки эффективности PDDL-INSTRUCT?
Для оценки эффективности PDDL-INSTRUCT использовались следующие задачи:
* Blocksworld;
* Mystery Blocksworld;
* Logistics.
Эти задачи являются классическими стресс-тестами, где общие языковые модели исторически демонстрируют низкую производительность при генерации планов.
5. Какие выводы можно сделать из результатов исследования?
Исследование показывает, что сочетание логической цепочки рассуждений с внешней проверкой планов может существенно улучшить планирование в языковых моделях. Однако текущая область применения PDDL-INSTRUCT ограничена классическими доменами PDDL и полагается на VAL как на внешнего оракула. Тем не менее, результаты демонстрируют жизнеспособный путь для нейросимволического обучения, где шаги рассуждения основаны на формальной семантике и проверяются автоматически.