MiroMind-M1: развитие математических рассуждений в открытых источниках с помощью контекстно-зависимого многоэтапного обучения с подкреплением

Большие языковые модели (LLMs) недавно продемонстрировали значительный прогресс в многошаговом рассуждении, что позволило использовать решение математических задач в качестве строгого критерия для оценки продвинутых возможностей. Хотя проприетарные модели, такие как GPT-4o и Claude Sonnet 4, лидируют по производительности, их закрытый исходный код препятствует прозрачности и воспроизводимости.

Для устранения этих пробелов компания MiroMind AI выпустила серию MiroMind-M1 — полностью открытый набор инструментов, включающий наборы данных, модели, обучающий код и скрипты для оценки. Это устанавливает новые стандарты открытости и передовых математических рассуждений в экосистеме моделей Qwen-2.5.

Архитектурный фундамент и мотивация

MiroMind-M1 построен на надёжной основе Qwen-2.5 с усовершенствованиями, специально предназначенными для математических рассуждений. Команда использует двухэтапный протокол обучения:

1. Supervised Fine-Tuning (SFT): модель настраивается на 719 тыс. тщательно отобранных и проверенных математических задач, что обеспечивает ей сильные способности к пошаговым рассуждениям.
2. Reinforcement Learning with Verifiable Rewards (RLVR): затем модель проходит обучение с подкреплением на 62 тыс. сложных и тщательно верифицируемых математических задачах, используя сигналы вознаграждения от надёжного внешнего верификатора.

Этот подход обусловлен как необходимостью сильной математической логики, так и уроками, извлечёнными из ведущих RLMs: имитация примеров цепочек рассуждений улучшает общие способности к рассуждению, а обучение с подкреплением, управляемое точными вознаграждениями, дополнительно повышает точность и эффективность.

Прозрачность и качество данных

Отличительной чертой проекта MiroMind-M1 является полная открытость и чистота его обучающих данных:

* Состав корпуса SFT: включает OpenR1, OpenThoughts, Light-R1 и Synthetic-1, обеспечивая наличие у задач проверенных решений и богатых многошаговых следов рассуждений.
* Строгая дедупликация и очистка данных: используется фильтрация по N-граммам для устранения дублирования и утечки данных в наборах для оценки (например, AIME24, AIME25, MATH500).
* Предпочтение длинных траекторий: эксперименты показывают, что обучение на выборках с более длинными следами рассуждений последовательно приводит к более высоким показателям в тестах, подчёркивая важность глубокого семантического содержания в сигнале рассуждения.

В результате набор данных содержит 719 тыс. проверенных обучающих следов, что значительно продвигает открытые воспроизводимые исследования по сравнению с предыдущими усилиями.

Supervised Fine-Tuning: эмпирическое совершенство

Для SFT MiroMind-SFT-7B инициализируется из Qwen2.5-Math-7B и обучается с большим контекстным окном (максимум 32 768 токенов) и стратегией без упаковки, чтобы избежать загрязнения внимания между выборками. Его производительность по ключевым математическим тестам превосходит аналогичные открытые модели:

| Model | AIME24 | AIME25 | MATH500 |
| — | — | — | — |
| DeepSeek-R1-Distill | 55,5 | 40,4 | 92,8 |
| MiMo-7B-SFT | 58,7 | 44,3 | 93,0 |
| MiroMind-SFT-7B | 60,4 | 45,0 | 94,6 |

Эти результаты подтверждают эффективность курирования данных и дизайна обучения: более богатые и глубокие выборки и отсутствие упаковки приводят к последовательно более высокой производительности.

CAMPO: контекстно-зависимая многоэтапная оптимизация политики

Ключевым нововведением на этапе RLVR в MiroMind-M1 является алгоритм CAMPO. CAMPO решает две критические задачи обучения с подкреплением — нестабильность обучения и неэффективность использования токенов — путём:

* Многоэтапного обучения с расширением контекстных ограничений: обучение начинается с ограниченных длин выходных данных (например, 16 тыс. токенов), затем постепенно увеличивается, чтобы обеспечить более глубокие рассуждения, балансируя эффективность и тщательность.
* Динамического штрафа за повторение: специальный критик повторения штрафует выходные данные, демонстрирующие раннее или чрезмерное повторение, предотвращая коллапс полезности и обеспечивая разнообразие выходных данных.
* Точного внешнего верификатора: система обратной связи с вознаграждением существенно улучшена для надёжной оценки математических ответов (включая сложные случаи с единицами измерения, π и процентами), обеспечивая точное соответствие сигналов обучения истинной правильности.

CAMPO не только стабилизирует динамику RL, но и приводит к созданию моделей, которые решают задачи с меньшим количеством более релевантных токенов — ускоряя вывод и снижая затраты без ущерба для точности.

Эталонная производительность: эффективность на уровне состояния искусства

Открытые модели MiroMind достигают высококонкурентных или передовых результатов для открытых математических моделей на основе Qwen-2.5 (7B/32B параметров):

| Model | AIME24 | AIME25 | MATH500 |
| — | — | — | — |
| DeepSeek-R1-7B | 55,5 | 39,2 | – |
| MiMo-7B-RL | 68,2 | 55,4 | 95,8 |
| Skywork-OR1-7B | 72,2 | 54,6 | – |
| MiroMind-RL-7B | 73,4 | 57,8 | 96,7 |
| Skywork-OR1-32B | 77,1 | 68,2 | 97,5 |
| MiroMind-RL-32B | 77,5 | 65,6 | 96,4 |

Примечательно, что модели MiroMind-M1-RL не только соответствуют или превосходят точность аналогов, но и делают это с большей эффективностью использования токенов — модель 32B выдаёт более короткие и лаконичные решения без потери точности благодаря обучению по CAMPO.

Полный стек и воспроизводимость

Каждый компонент стека MiroMind-M1 открыт для общего доступа:

* Веса моделей (контрольные точки SFT и RL для масштабов 7B и 32B).
* Наборы данных (полные 719 тыс. SFT, 62 тыс. RLVR).
* Обучающие скрипты (поддержка многоузлового распределённого обучения на Ray).
* Код оценки (стандартизированные скрипты и конфигурации тестов).

Исследователи могут воспроизводить, проверять и расширять MiroMind-M1 от необработанных данных до обученных моделей, повышая воспроизводимость и ускоряя новые открытые исследования.

Заключение

MiroMind-M1 демонстрирует, что при тщательном курировании данных, инновационных алгоритмах RL (CAMPO) и радикальной прозрачности открытые языковые модели могут конкурировать с проприетарными системами в продвинутых математических рассуждениях. Этот проект устанавливает новую планку для воспроизводимости и совместного продвижения в области рассуждающих LLM, предоставляя как высококачественный ресурс, так и надёжную платформу для будущих инноваций.

1. Какие ключевые этапы включает в себя процесс обучения модели MiroMind-M1 для математических рассуждений, и как они способствуют улучшению производительности модели?

Ответ:

Процесс обучения MiroMind-M1 включает два ключевых этапа: Supervised Fine-Tuning (SFT) и Reinforcement Learning with Verifiable Rewards (RLVR). На этапе SFT модель настраивается на 719 тыс. математических задач, что обеспечивает ей сильные способности к пошаговым рассуждениям. Затем модель проходит обучение с подкреплением на 62 тыс. сложных математических задачах, используя сигналы вознаграждения от надёжного внешнего верификатора.

2. Какие преимущества предоставляет использование алгоритма CAMPO на этапе RLVR в MiroMind-M1, и как он решает проблемы нестабильности обучения и неэффективности использования токенов?

Ответ:

CAMPO решает две критические задачи обучения с подкреплением — нестабильность обучения и неэффективность использования токенов — путём многоэтапного обучения с расширением контекстных ограничений, динамического штрафа за повторение и точного внешнего верификатора. Это стабилизирует динамику RL и приводит к созданию моделей, которые решают задачи с меньшим количеством более релевантных токенов, ускоряя вывод и снижая затраты без ущерба для точности.

3. Какие открытые наборы данных используются для обучения модели MiroMind-M1, и как они способствуют повышению качества и воспроизводимости результатов?

Ответ:

Для обучения модели MiroMind-M1 используются открытые наборы данных, такие как OpenR1, OpenThoughts, Light-R1 и Synthetic-1. Эти наборы данных обеспечивают наличие у задач проверенных решений и богатых многошаговых следов рассуждений. Строгая дедупликация и очистка данных также способствуют повышению качества и воспроизводимости результатов.

4. Какие результаты были получены при тестировании модели MiroMind-M1 на математических тестах AIME24, AIME25 и MATH500, и как они сравниваются с результатами других открытых моделей?

Ответ:

При тестировании модели MiroMind-M1 на математических тестах AIME24, AIME25 и MATH500 были получены высокие результаты. Например, на тесте AIME24 модель MiroMind-SFT-7B показала результат 60,4%, что превосходит аналогичные открытые модели, такие как DeepSeek-R1-Distill (55,5%) и MiMo-7B-SFT (58,7%). На тесте MATH500 модель MiroMind-SFT-7B достигла результата 94,6%, что также выше результатов других моделей.

5. Какие компоненты стека MiroMind-M1 открыты для общего доступа, и как это способствует повышению воспроизводимости и ускорению новых открытых исследований?

Ответ:

Каждый компонент стека MiroMind-M1 открыт для общего доступа: веса моделей, наборы данных, обучающие скрипты и код оценки. Исследователи могут воспроизводить, проверять и расширять MiroMind-M1 от необработанных данных до обученных моделей, повышая воспроизводимость и ускоряя новые открытые исследования.

Источник