Как сократить длину ответов больших языковых моделей без потери качества: двухэтапный подход RL

Недавние достижения в области больших языковых моделей (LLM) значительно улучшили их способности к рассуждению, особенно благодаря дообучению с помощью метода обучения с подкреплением (RL). Первоначально модели обучаются с использованием контролируемого обучения для прогнозирования токенов, а затем подвергаются дообучению с помощью RL, исследуя различные пути рассуждений для получения правильных ответов. Этот процесс похож на то, как агент осваивает игру. В результате у моделей появляются такие новые способности, как самокоррекция, которую часто называют «моментом озарения». Модели начинают исправлять свои ошибки без явных указаний на это. Хотя это повышает точность, оно также приводит к значительно более длинным ответам, увеличивая использование токенов, вычислительные затраты и время ожидания.

Несмотря на предположения, что более длинные ответы соответствуют более качественному рассуждению, исследования показывают неоднозначные результаты: в некоторых случаях улучшения наблюдаются, но чрезмерно длинные ответы могут снизить производительность, указывая на убывающую отдачу.

Исследователи ищут способы сбалансировать качество рассуждений и эффективность. Методы включают использование меньших и более быстрых моделей, применение инженерии запросов для сокращения многословности и разработку техник формирования вознаграждений, поощряющих краткое, но эффективное рассуждение. Один из заметных подходов — дистилляция «из длинного в короткое», когда модели учатся на подробных объяснениях и тренируются давать более короткие, но точные ответы. Используя эти техники, такие модели, как Kimi, продемонстрировали конкурентоспособную производительность даже по сравнению с более крупными моделями, такими как GPT-4, при этом потребляя меньше токенов.

Исследования также выделяют концепцию «сложности токена», показывая, что для точного решения задач требуется минимальный порог количества токенов, и стратегии запросов, направленные на краткость, часто не достигают этой оптимальной точки. В целом, результаты подчёркивают важность разработки более эффективных методов рассуждения без ущерба для производительности.

Исследователи из Wand AI ставят под сомнение мнение о том, что более длинные ответы неизбежно приводят к более качественному рассуждению в больших языковых моделях. С помощью теоретического анализа и экспериментов они показывают, что многословность является побочным продуктом оптимизации RL, а не необходимостью для точности. Интересно, что краткие ответы часто коррелируют с более высокой корректностью, а правильные ответы короче неправильных. Они предлагают двухэтапный подход к обучению с подкреплением: первый этап повышает способность к рассуждению, а второй обеспечивает краткость, используя небольшой набор данных. Этот метод сокращает длину ответов без ущерба для точности, предлагая повышенную эффективность и производительность при минимальных вычислительных затратах.

Двухэтапный подход RL привёл к заметному повышению производительности для моделей разного размера. Обучение на задачах разной сложности показало, что более простые задачи помогают моделям сокращать ответы, сохраняя или повышая точность. Второй этап RL, использующий всего восемь математических задач, позволил получить более краткие и надёжные результаты в таких бенчмарках, как AIME, AMC и MATH-500, аналогичные тенденции наблюдались и в STEM-задачах из MMLU. Даже минимальное дообучение с помощью RL повысило точность и стабильность при низкотемпературном сэмплинге. Кроме того, модели без предварительного уточнения с помощью RL, такие как Qwen-Math-v2.5, продемонстрировали значительный рост точности — до 30% после обучения всего на четырёх математических задачах.

В заключение, исследование представляет двухэтапный метод дообучения с помощью RL, который улучшает рассуждение и краткость в языковых моделях. Первый этап повышает точность, а второй фокусируется на сокращении ответов без ущерба для производительности. Применительно к моделям R1 этот подход сократил длину ответов более чем на 40%, сохраняя точность, особенно при низких температурах. Результаты показывают, что более длинные ответы не всегда лучше и что целевое обучение с подкреплением может обеспечить краткое рассуждение. Исследование также подчёркивает, что даже минимальное обучение с подкреплением может принести большую пользу моделям, не ориентированным на рассуждение, подчёркивая ценность включения умеренно решаемых задач и тщательной настройки параметров PPO.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *