Открытые мысли: масштабируемый механизм тонкой настройки под контролем для моделей рассуждений

Рост сложности работы с данными для рассуждений

Недавние модели рассуждений, такие как DeepSeek-R1 и o3, показали выдающуюся производительность в математических, кодировочных и научных областях, используя методы пост-тренировки, такие как контролируемая тонкая настройка (SFT) и обучение с подкреплением (RL). Однако полные методологии, лежащие в основе этих передовых моделей рассуждений, не являются общедоступными, что затрудняет исследования по созданию моделей рассуждений.

Хотя тонкая настройка данных с помощью SFT стала мощным подходом для развития сильных способностей к рассуждению, большинство существующих усилий исследуют лишь ограниченный выбор дизайна, например, полагаясь исключительно на вопросы, написанные человеком, или на модели с одним учителем. Более того, изучение обширного пространства проектирования различных методов генерации пар «вопрос-ответ» требует высоких затрат на вывод данных учителем и обучение модели.

Следы рассуждений, предоставленные такими моделями, как Gemini, QwQ и DeepSeek-R1, позволили использовать методы дистилляции знаний для обучения небольших моделей рассуждений. Проекты, такие как OpenR1, OpenMathReasoning и OpenCodeReasoning, собирают вопросы с публичных форумов и сайтов соревнований, в то время как Natural Reasoning использует предварительно обученные корпуса в качестве исходных данных.

Некоторые усилия, такие как S1 и LIMO, сосредоточены на ручном подборе небольших наборов данных высокого качества со сложными подсказками. Другие методы, такие как DeepMath-103K и Nvidia Nemotron, внедряют инновации на этапах поиска, фильтрации и масштабирования данных. Методы RL, включая AceReason и Skywork-OR1, расширили возможности рассуждений за пределы традиционных методов SFT.

OpenThoughts: масштабируемая структура для разработки наборов данных SFT

Исследователи из Стэнфордского университета, Вашингтонского университета, BespokeLabs.ai, Toyota Research Institute, UC Berkeley и 12 дополнительных организаций предложили OpenThoughts — новый рецепт открытых данных для рассуждений. OpenThoughts использует прогрессивный подход в трёх итерациях:

* OpenThoughts-114K масштабирует конвейер Sky-T1 с помощью автоматизированной проверки;
* OpenThoughts2-1M увеличивает масштаб данных за счёт расширения разнообразия вопросов и стратегий синтетического генерирования;
* OpenThoughts3-1.2M объединяет результаты более чем 1000 экспериментов по удалению отдельных компонентов, чтобы разработать простой, масштабируемый и высокопроизводительный механизм курирования данных.

Модель OpenThinker3-7B достигает современного уровня производительности среди моделей с открытым доступом в масштабе 7B.

Оценка проекта OpenThoughts

Экспериментальная часть включает строгий процесс обеззараживания для удаления образцов с высоким сходством и поддерживает отдельный набор тестов для проверки обобщения. Evalchemy служит основным инструментом оценки, обеспечивая согласованные протоколы оценки.

Эксперименты по поиску вопросов показывают, что вопросы для CodeGolf и соревновательного программирования достигают наивысшей производительности для кодовых задач (средние баллы 25,3–27,5), в то время как вопросы, сгенерированные LLM, и вопросы, написанные человеком, превосходят в математике (баллы 58,8–58,5), а вопросы из физики StackExchange с извлечениями из химического учебника показывают лучшие результаты в науке (баллы 43,2–45,3).

Смешивание вопросов показывает, что объединение нескольких источников вопросов снижает производительность, при этом оптимальные результаты составляют 5% точности по сравнению с различными стратегиями смешивания. В модели учителя QwQ-32B превосходит DeepSeek-R1 в дистилляции знаний, достигая улучшения точности на 1,9–2,6%.

В заключение исследователи представляют проект OpenThoughts, показывая, что систематические эксперименты могут значительно продвинуть разработку наборов данных SFT для моделей рассуждений. Исследователи разработали OpenThoughts3-1.2M — передовой набор данных для рассуждений с открытым доступом в области науки, математики и кодирования.

Ограничения и направления будущих исследований

Однако некоторые ограничения остаются неисследованными, включая подходы RL, поэтапную тонкую настройку и стратегии обучения по учебным программам. Будущие направления исследований включают изучение эффектов переноса между доменами при оптимизации отдельных доменов по сравнению с общей производительностью, а также понимание динамики масштабирования по мере приближения моделей-учеников к возможностям учителя.

Источник

Оставьте комментарий