Исследователи из MetaStone-AI и USTC представили рефлексивную генеративную модель MetaStone-S1, которая достигает производительности OpenAI o3-mini с помощью новой рефлексивной генеративной формы.
Ключевые инновации
Рефлексивная генеративная форма
- Единая модель политики и вознаграждения: MetaStone-S1 объединяет модель политики (для генерации траекторий рассуждений) и пошаговую модель вознаграждения процесса (PRM) в единую архитектуру с использованием общих параметров. Это требует лишь лёгкого дополнения (всего 53 миллиона параметров для верификатора в основной модели объёмом 32 миллиарда параметров), что значительно снижает вычислительные затраты по сравнению с традиционными автономными PRM.
- Самостоятельная модель вознаграждения процесса (SPRM): SPRM устраняет необходимость в дорогостоящих данных с метками на уровне процесса. Она использует функцию потерь с самостоятельным контролем, которая использует только правильность конечного ответа для оценки качества промежуточных шагов рассуждения, поддерживаемая механизмом динамического взвешивания для фильтрации шумовых меток.
Масштабирование во время тестирования (TTS) переосмыслено
Традиционные LLM часто улучшают свои характеристики за счёт масштабирования параметров во время обучения. MetaStone-S1 использует отличный подход — TTS — повышая производительность логического вывода за счёт увеличения вычислительной глубины, а не просто увеличения размера модели:
- Внутреннее TTS: расширяет цепочку мыслей для более глубокого последовательного решения задач, но может потребовать значительных вычислительных затрат.
- Внешнее TTS: генерирует несколько путей рассуждения параллельно и выбирает лучший с помощью PRM. Обычно это требует дополнительных моделей и отдельной маркировки.
- Подход MetaStone-S1: сочетает обе парадигмы в единую архитектуру, предлагая эффективный и точный выбор траектории с минимальными дополнительными требованиями к ресурсам.
Производительность и тестирование
MetaStone-S1 доступен в трёх размерах (1,5 миллиарда, 7 миллиардов и 32 миллиарда параметров). Самый большой, MetaStone-S1-32B, соответствует или превосходит ведущие проприетарные и открытые модели, включая OpenAI o3-mini, по ключевым показателям рассуждений и математики.
Каждый размер демонстрирует сильные свойства масштабирования и эффективное использование параметров. Например, MetaStone-S1-1,5B превосходит модели сопоставимого размера по математическим задачам, а размеры 7B и 32B эффективно масштабируются как по ёмкости, так и по стратегии TTS.
Эффективность и «момент озарения»
- Минимальные накладные расходы: интеграция SPRM добавляет лишь малую долю параметров по сравнению с традиционными PRM (например, 26 миллионов против 72 миллиардов), что позволяет получать современные результаты по всем задачам.
- «Момент озарения»: анализ обучения показывает определённую точку, в которой модель начинает точно оценивать правильные и неправильные пути рассуждений, что приводит к улучшению дискриминации и конечной производительности.
- Закон масштабирования: производительность MetaStone-S1 растёт логарифмически с вычислительным бюджетом (размер модели × токены рассуждения), достигая плато вокруг выборки Best-of-32 — эффективного компромисса для развёртывания.
Гибкие режимы рассуждений
Чтобы сбалансировать производительность и использование ресурсов, MetaStone-S1 предлагает три режима логического вывода TTS:
- Низкий (k=2): самый быстрый вывод для быстрых ответов.
- Средний (k=8): более высокая точность при умеренных вычислениях.
- Высокий (k=32): максимальная глубина для сложных задач.
Заключение
Благодаря своей новой рефлексивной генеративной структуре MetaStone-S1 объединяет решение проблем и проверку решений в едином эффективном фреймворке. Достигая производительности OpenAI o3-mini с гораздо меньшими ресурсами, он демонстрирует, что инновации в архитектуре LLM могут конкурировать с масштабированием методом грубой силы — открывая новые возможности для развития и доступности рассуждений в ИИ.
1. Какие ключевые инновации лежат в основе модели MetaStone-S1 и как они способствуют её эффективности?
Ответ: ключевые инновации MetaStone-S1 включают в себя:
* единую модель политики и вознаграждения, которая объединяет модель политики (для генерации траекторий рассуждений) и пошаговую модель вознаграждения процесса (PRM) в единую архитектуру с использованием общих параметров;
* самостоятельную модель вознаграждения процесса (SPRM), которая устраняет необходимость в дорогостоящих данных с метками на уровне процесса и использует функцию потерь с самостоятельным контролем;
* подход масштабирования во время тестирования (TTS), который повышает производительность логического вывода за счёт увеличения вычислительной глубины, а не просто увеличения размера модели.
2. Как модель MetaStone-S1 сочетает в себе внутреннюю и внешнюю TTS и какие преимущества это даёт?
Ответ: MetaStone-S1 сочетает в себе внутреннюю и внешнюю TTS в единую архитектуру. Внутренняя TTS расширяет цепочку мыслей для более глубокого последовательного решения задач, а внешняя TTS генерирует несколько путей рассуждения параллельно и выбирает лучший с помощью PRM. Это позволяет модели эффективно и точно выбирать траекторию с минимальными дополнительными требованиями к ресурсам.
3. Какие размеры модели MetaStone-S1 доступны и как они соотносятся с другими моделями по ключевым показателям рассуждений и математики?
Ответ: MetaStone-S1 доступен в трёх размерах: 1,5 миллиарда, 7 миллиардов и 32 миллиарда параметров. Самый большой размер, MetaStone-S1-32B, соответствует или превосходит ведущие проприетарные и открытые модели, включая OpenAI o3-mini, по ключевым показателям рассуждений и математики. Каждый размер демонстрирует сильные свойства масштабирования и эффективное использование параметров.
4. Какие режимы логического вывода TTS предлагает MetaStone-S1 и для каких задач они подходят?
Ответ: MetaStone-S1 предлагает три режима логического вывода TTS:
* низкий (k=2): самый быстрый вывод для быстрых ответов;
* средний (k=8): более высокая точность при умеренных вычислениях;
* высокий (k=32): максимальная глубина для сложных задач.
5. Как модель MetaStone-S1 достигает высокой производительности при меньших ресурсах по сравнению с другими моделями?
Ответ: MetaStone-S1 достигает высокой производительности при меньших ресурсах благодаря своей новой рефлексивной генеративной структуре, которая объединяет решение проблем и проверку решений в едином эффективном фреймворке. Это позволяет модели достигать производительности OpenAI o3-mini с гораздо меньшими ресурсами.