Apple и Duke представили подход на основе обучения с подкреплением, который позволяет большим языковым моделям (LLM) предоставлять промежуточные ответы, повышая скорость и точность

Исследование учёных из Apple и Университета Дьюка посвящено Interleaved Reasoning — новому подходу в обучении с подкреплением (RL), который позволяет языковым моделям чередовать процессы размышления и генерации ответов при решении сложных многошаговых задач.

Проблема длинных цепочек рассуждений (CoT reasoning)

Длинные цепочки рассуждений улучшают производительность больших языковых моделей при выполнении сложных задач, но имеют недостатки. Типичный метод «подумай — ответь» замедляет время отклика, нарушая взаимодействие в реальном времени, например, в чат-ботах. Кроме того, существует риск неточностей, поскольку ошибки на ранних этапах рассуждения могут привести к введению в заблуждение окончательного ответа.

В отличие от людей, которые часто делятся частичными мыслями или выводами во время разговоров, LLM задерживают ответы до завершения всех рассуждений. Хотя RL обычно используется для обучения моделей рассуждения, он в основном вознаграждает за окончательные ответы, упуская из виду полезные промежуточные идеи.

Типы вознаграждений в RL

Два распространённых типа вознаграждений в RL:
* вознаграждения, основанные на результатах (ORM), которые фокусируются на конечном ответе;
* вознаграждения, основанные на процессе (PRM), которые предоставляют обратную связь на промежуточных этапах рассуждения.

PRM предлагают более детальный контроль, но часто зависят от аннотаций человека и дополнительных моделей, что делает их сложными и подверженными таким проблемам, как «взлом вознаграждения».

Подход Interleaved Reasoning

Учёные из Apple и Университета Дьюка предлагают новый подход в RL, который позволяет языковым моделям чередовать процессы размышления и генерации ответов. Вместо того чтобы ждать до конца, модели предоставляют информативные промежуточные ответы, что улучшает обратную связь для пользователей и направляет их рассуждения.

Используя простое правило вознаграждения, модель обучается генерировать полезные этапы рассуждения, что приводит к более чем 80% ускорению ответов и повышению точности до 19,3%. Метод демонстрирует сильное обобщение на более сложных тестах, таких как MATH, GPQA и MMLU.

Оценка подхода

Подход Interleaved Reasoning был оценён на знакомых и незнакомых наборах данных с использованием моделей Qwen2.5 (1.5B и 7B). В отличие от традиционных методов, которые разделяют процессы мышления и ответа, интерлейвированный метод предоставляет ответы поэтапно, улучшая скорость и полезность.

В сочетании с промежуточными вознаграждениями это значительно повышает производительность модели при одновременном сокращении задержек ответов более чем на 80%. Даже без знакомства с новыми доменами во время обучения модель хорошо адаптируется, демонстрируя сильное обобщение.

Результаты подчёркивают ценность интерлейвированного рассуждения в повышении отзывчивости и эффективности систем ИИ при выполнении реальных многошаговых задач.

Заключение

Исследование показывает, как интерлейвированное рассуждение, при котором модели чередуют процессы рассуждения и генерации промежуточных ответов, может значительно улучшить производительность и скорость реагирования. Используя модель Qwen2.5-1.5B, авторы демонстрируют, что предоставление своевременной промежуточной обратной связи во время обучения повышает точность и ускоряет генерацию ответов.

Различные стратегии RL были протестированы, причём PPO показал стабильные результаты, а условные, дисконтированные по времени вознаграждения оказались наиболее эффективными. Метод хорошо масштабируется для сложных задач и превосходит традиционные базовые методы «подумай — ответь». В отличие от моделей вознаграждения на уровне токенов, этот подход использует простые правила вознаграждения после завершения полных этапов рассуждения, избегая тем самым «взлома вознаграждения».

В конечном счёте, интерлейвированное рассуждение повышает качество и эффективность рассуждений без использования внешних инструментов.

Источник

Оставьте комментарий