Большие языковые модели (LLM) произвели революцию в таких областях, как понимание естественного языка, логическое мышление и генерация кода. Однако их способность рассуждать на поистине сверхчеловеческом уровне ограничивается необходимостью в огромных объёмах высококачественных данных, размеченных человеком.
Команда исследователей из Tencent AI Seattle Lab, Вашингтонского университета, Университета Мэриленда и Техасского университета предложила R-Zero — систему, предназначенную для обучения моделей LLM, способных к саморазвитию без использования внешних меток данных.
За пределами данных, подготовленных человеком
Большинство достижений в области рассуждений LLM связано с наборами данных, тщательно подготовленными людьми. Этот подход требует значительных ресурсов и ограничен человеческими знаниями. Даже методы без использования меток, использующие собственные выходные данные LLM в качестве сигналов вознаграждения, по-прежнему зависят от существующих коллекций нерешённых задач.
Эти зависимости ограничивают масштабируемость и препятствуют реализации открытого искусственного интеллекта, способного рассуждать за пределами человеческих возможностей.
R-Zero: саморазвитие с нуля данных
R-Zero прокладывает новый путь, полностью отказываясь от внешних задач и меток. Вместо этого он вводит коэволюционную динамику между двумя экземплярами базовой модели:
* Испытатель (Challenger): отвечает за создание новых сложных задач для решения на грани возможностей Решателя (Solver).
* Решатель (Solver): обучен решать всё более сложные задачи, поставленные Испытателем, улучшаясь итеративно.
Эта синергия позволяет учебному плану — набору обучающих данных — генерироваться и адаптироваться самостоятельно, постоянно адаптируясь к сильным и слабым сторонам модели.
Процесс работы:
1. Обучение Испытателя: обучен с помощью обучения с подкреплением (конкретно, с помощью групповой относительной оптимизации политики [GRPO]), он генерирует разнообразные, сложные для решения вопросы. Вознаграждение за каждый вопрос основано на неопределённости Решателя: максимальное, когда ответы Решателя максимально противоречивы (эмпирическая точность приближается к 50 %).
2. Обучение Решателя: Решатель настраивается на задачах, подготовленных Испытателем. Псевдо-метки (ответы) определяются большинством голосов среди собственных ответов Решателя. Для обучения используются только вопросы с ответами, которые не являются слишком согласованными и не слишком разбросанными (то есть в информативном диапазоне).
3. Итеративный цикл: Испытатель и Решатель чередуются в ролях, коэволюционируя в течение нескольких раундов, постепенно улучшая способности к рассуждению без вмешательства человека.
Ключевые технические инновации
Групповая относительная оптимизация политики (GRPO)
GRPO — это алгоритм обучения с подкреплением, который нормализует вознаграждение за каждый сгенерированный ответ относительно группы ответов на одно и то же задание. Этот метод эффективно настраивает политики LLM без отдельной функции ценности.
Учебный план, основанный на неопределённости
Испытатель получает вознаграждение за постановку задач на границе возможностей Решателя — ни слишком простых, ни невозможных. Функция вознаграждения достигает максимума для задач, в которых Решатель достигает 50 % точности, максимизируя эффективность обучения.
Штраф за повторение и проверка формата
Чтобы гарантировать разнообразие и структурированность обучающих данных, штраф за повторение препятствует появлению похожих вопросов в одном пакете, а строгие проверки формата обеспечивают качество данных.
Контроль качества псевдо-меток
Для обучения используются только пары вопрос-ответ с промежуточной согласованностью ответов, что позволяет отфильтровать неоднозначные или некорректно поставленные задачи и откалибровать точность меток.
Эмпирические результаты
Математические тесты на рассуждения
R-Zero был оценён с использованием семи строгих математических тестов, включая AMC, Minerva, MATH-500, GSM8K, Olympiad-Bench и соревнования AIME. По сравнению с базовой моделью и не обученным испытателем, три итерации R-Zero привели к существенному улучшению точности рассуждений во всех размерах моделей и архитектурах (например, Qwen3-8B-Base улучшил средний балл с 49,18 до 54,69 после трёх итераций).
Общие тесты на рассуждения
Важно отметить, что улучшения R-Zero распространяются не только на математику. Тесты, включая MMLU-Pro, SuperGPQA и BIG-Bench Extra Hard (BBEH), показывают значительный рост точности рассуждений в общем домене (например, общий средний балл Qwen3-8B-Base увеличился с 34,49 до 38,73), демонстрируя сильный эффект переноса.
Заключение
R-Zero знаменует собой важную веху на пути к самодостаточным, сверхчеловеческим моделям рассуждений LLM. Его полностью автономный коэволюционный механизм обучения предлагает не только значительные эмпирические преимущества в рассуждениях, но и новый взгляд на масштабируемое развитие искусственного интеллекта без использования данных.
Исследователи и практики могут экспериментировать с этой системой уже сегодня, используя открытые инструменты для разработки следующей эры языковых моделей, ориентированных на рассуждения.
Ознакомиться с документом и GitHub-страницей можно по ссылкам. Не стесняйтесь посетить нашу GitHub-страницу, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.
1. Какие ключевые инновации используются в системе R-Zero для обучения моделей LLM?
В системе R-Zero используются несколько ключевых инноваций:
* Групповая относительная оптимизация политики (GRPO) — алгоритм обучения с подкреплением, который нормализует вознаграждение за каждый сгенерированный ответ относительно группы ответов на одно и то же задание.
* Учебный план, основанный на неопределённости — Испытатель получает вознаграждение за постановку задач на границе возможностей Решателя.
* Штраф за повторение и проверка формата — чтобы гарантировать разнообразие и структурированность обучающих данных, штраф за повторение препятствует появлению похожих вопросов в одном пакете, а строгие проверки формата обеспечивают качество данных.
* Контроль качества псевдо-меток — для обучения используются только пары вопрос-ответ с промежуточной согласованностью ответов, что позволяет отфильтровать неоднозначные или некорректно поставленные задачи и откалибровать точность меток.
2. Какие преимущества предлагает система R-Zero по сравнению с традиционными методами обучения LLM?
Система R-Zero предлагает несколько преимуществ по сравнению с традиционными методами обучения LLM:
* Автономность — R-Zero может обучаться без использования внешних меток данных, что делает его более гибким и масштабируемым.
* Саморазвитие — система способна адаптироваться и улучшать свои способности к рассуждению без вмешательства человека.
* Эффективность — R-Zero демонстрирует значительное улучшение точности рассуждений в различных тестах, включая математические и общие тесты на рассуждения.
3. Какие эмпирические результаты были получены при тестировании системы R-Zero?
При тестировании системы R-Zero были получены следующие эмпирические результаты:
* Существенное улучшение точности рассуждений во всех размерах моделей и архитектурах после трёх итераций.
* Значительный рост точности рассуждений в общем домене, включая общий средний балл Qwen3-8B-Base, который увеличился с 34,49 до 38,73.
* Улучшение среднего балла Qwen3-8B-Base с 49,18 до 54,69 после трёх итераций в математических тестах на рассуждения.
4. Какие методы используются для обучения Решателя в системе R-Zero?
Для обучения Решателя в системе R-Zero используются следующие методы:
* Решатель настраивается на задачах, подготовленных Испытателем.
* Псевдо-метки (ответы) определяются большинством голосов среди собственных ответов Решателя.
* Используются только вопросы с ответами, которые не являются слишком согласованными и не слишком разбросанными (то есть в информативном диапазоне).
5. Какие задачи решает Испытатель в системе R-Zero?
Испытатель в системе R-Zero отвечает за создание новых сложных задач для решения на грани возможностей Решателя. Он генерирует разнообразные, сложные для решения вопросы, используя обучение с подкреплением (конкретно, с помощью групповой относительной оптимизации политики [GRPO]). Вознаграждение за каждый вопрос основано на неопределённости Решателя: максимальное, когда ответы Решателя максимально противоречивы (эмпирическая точность приближается к 50 %).