ReasonFlux-PRM: модель вознаграждения, учитывающая траекторию и улучшающая рассуждение в цепочке мыслей в больших языковых моделях

Понимание роли цепочки мыслей в больших языковых моделях

Большие языковые модели (LLMs) всё чаще используются для решения сложных задач, таких как математика и научное рассуждение, с помощью структурированных подходов «цепочки мыслей». Эти модели не просто выдают ответы — они рассуждают через промежуточные шаги, которые имитируют логические мыслительные процессы. Этот метод позволяет повысить точность рассуждений и упростить отслеживание ошибок.

По мере усложнения моделей стало важно оценивать не только конечные ответы, но и шаги рассуждений, которые к ним привели.

Ограничения традиционных PRM в оценке рассуждений

Одной из актуальных проблем является то, что большинство современных моделей вознаграждения оценивают только конечные ответы, игнорируя то, как были получены эти выводы. Однако передовые модели, такие как Deepseek-R1, теперь выдают обширные пути рассуждений перед выдачей окончательных ответов. Эти пары траекторий и ответов используются для обучения более мелких моделей.

Проблема в том, что текущие модели вознаграждения за процессы (PRM) не предназначены для оценки этих полных траекторий. Это несоответствие приводит к ненадёжному контролю, который может ухудшить производительность более мелких моделей, обученных на данных о траекториях ответов.

Проблемы обработки неорганизованных цепочек рассуждений

Традиционные PRM в основном откалиброваны для структурированных, чистых выходных данных, а не для длинных и иногда неорганизованных цепочек рассуждений, генерируемых продвинутыми LLM. Даже продвинутые PRM, такие как Qwen2.5-Math-PRM-72B, демонстрируют ограниченную способность различать высококачественное и низкокачественное промежуточное рассуждение.

При применении к выводам траектории ответов от Gemini или Deepseek-R1 эти модели часто выдают перекрывающиеся оценки вознаграждения, что указывает на слабую дискриминацию. Их ограниченная чувствительность приводит к плохому выбору данных для последующей тонкой настройки, и эксперименты подтверждают, что модели, обученные на данных, выбранных с помощью PRM, работают хуже, чем те, которые обучены на наборах данных, курируемых людьми.

Введение ReasonFlux-PRM для контроля на уровне траектории

Исследователи из Университета Иллинойса в Урбане-Шампейне (UIUC), Принстонского университета, Корнельского университета и ByteDance Seed представили ReasonFlux-PRM. Это модель, учитывающая траекторию, которая оценивает как промежуточные шаги рассуждения, так и окончательные ответы. Она объединяет пошаговую и траекторную оценку, обеспечивая более тонкое понимание качества рассуждений.

ReasonFlux-PRM обучена на наборе данных из 10 000 тщательно отобранных математических и научных задач, специально разработанных для отражения реальных форматов траектории ответов.

Техническая основа ReasonFlux-PRM

Технически ReasonFlux-PRM работает, оценивая каждый промежуточный шаг в траектории с точки зрения его вклада в конечный ответ. Она использует эталонную функцию вознаграждения, которая учитывает запрос, предыдущие шаги рассуждения и конечный результат для присвоения пошаговых оценок. Затем они агрегируются для получения общей оценки траектории.

Модель поддерживает несколько приложений, включая автономную фильтрацию высококачественных обучающих данных, плотное вознаграждение во время обучения с подкреплением с использованием оптимизации политики на основе GRPO и выбор ответов в режиме «лучший из N» во время тестирования для повышения качества вывода. Эти возможности делают ReasonFlux-PRM более гибкой и всеобъемлющей, чем предыдущие PRM.

Эмпирические результаты на бенчмарках рассуждений

В ходе оценки производительности по таким задачам, как AIME, MATH500 и GPQA-Diamond, ReasonFlux-PRM-7B превзошла Qwen2.5-Math-PRM-72B и данные, курируемые людьми, по нескольким ключевым показателям. В частности, она достигла прироста точности на 12,1% при контролируемой тонкой настройке, улучшения на 4,5% во время обучения с подкреплением и увеличения на 6,3% во время масштабирования во время тестирования.

Эти достижения особенно значительны, учитывая, что ReasonFlux-PRM меньше по размеру модели. Таблица 1 показывает, что модель Qwen2.5-14B-Instruct, обученная на данных, выбранных с помощью ReasonFlux-PRM, достигла уровня производительности, близкого к человеческим или превышающего их. В отличие от этого, другие PRM привели к значительному падению производительности до 26,6% в определённых тестах.

Влияние и будущее направление ReasonFlux-PRM

Это исследование устраняет критическое ограничение в обучении и оценке современных моделей рассуждений. Позволяя контролировать как траектории мышления, так и окончательные ответы, ReasonFlux-PRM повышает качество обучающих данных и надёжность ответов моделей. Это задаёт новое направление для систематической оценки и улучшения процессов рассуждения в больших моделях.

Ознакомьтесь с [статьёй](ссылка на статью) и [страницей GitHub](ссылка на GitHub). Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в [Twitter](ссылка на Twitter) и присоединяйтесь к нашему [ML SubReddit](ссылка на SubReddit) и подписывайтесь на [наш Newsletter](ссылка на Newsletter).

Статья впервые опубликована на MarkTechPost.

1. Какие проблемы существуют в традиционных моделях вознаграждения за процессы (PRM) при оценке рассуждений в больших языковых моделях?

В традиционных PRM есть проблема оценки только конечных ответов, игнорируя процесс рассуждений. Они не предназначены для оценки полных траекторий рассуждений, что приводит к ненадёжному контролю и ухудшению производительности более мелких моделей, обученных на данных о траекториях ответов.

2. Как работает ReasonFlux-PRM и чем она отличается от других PRM?

ReasonFlux-PRM — это модель, учитывающая траекторию, которая оценивает как промежуточные шаги рассуждения, так и окончательные ответы. Она использует эталонную функцию вознаграждения, которая учитывает запрос, предыдущие шаги рассуждения и конечный результат для присвоения пошаговых оценок. Затем они агрегируются для получения общей оценки траектории. В отличие от других PRM, ReasonFlux-PRM поддерживает несколько приложений, включая автономную фильтрацию высококачественных обучающих данных, плотное вознаграждение во время обучения с подкреплением и выбор ответов в режиме «лучший из N» во время тестирования.

3. Какие эмпирические результаты были получены при использовании ReasonFlux-PRM на бенчмарках рассуждений?

В ходе оценки производительности по таким задачам, как AIME, MATH500 и GPQA-Diamond, ReasonFlux-PRM-7B превзошла Qwen2.5-Math-PRM-72B и данные, курируемые людьми, по нескольким ключевым показателям. Она достигла прироста точности на 12,1% при контролируемой тонкой настройке, улучшения на 4,5% во время обучения с подкреплением и увеличения на 6,3% во время масштабирования во время тестирования.

4. Какое влияние может оказать внедрение ReasonFlux-PRM на качество обучающих данных и надёжность ответов моделей?

Внедрение ReasonFlux-PRM может повысить качество обучающих данных и надёжность ответов моделей, позволяя контролировать как траектории мышления, так и окончательные ответы. Это задаёт новое направление для систематической оценки и улучшения процессов рассуждения в больших моделях.

5. Каковы перспективы развития и применения ReasonFlux-PRM в будущем?

Перспективы развития и применения ReasonFlux-PRM включают улучшение качества обучающих данных, повышение надёжности ответов моделей и систематическую оценку и улучшение процессов рассуждения в больших моделях. Это может привести к созданию более эффективных и точных систем искусственного интеллекта.

Источник

Оставьте комментарий