Улучшение способности больших языковых моделей (БЯМ) к рассуждению без архитектурных изменений — ключевая задача в развитии согласованности ИИ и удобства его использования. Исследователи из Meta AI и Вашингтонского университета представили ASTRO — Autoregressive Search-Taught Reasoner (авторегрессионный поисковый механизм обучения рассуждениям). Это новая система посттренинга, разработанная для улучшения рассуждений в Llama-3.1-70B-Instruct.
Особенности ASTRO
ASTRO уникален тем, что обучает модели выполнять поиск в контексте, саморефлексию и возврат назад — механизмы, часто связанные с решением проблем человеком и традиционными алгоритмами поиска.
Методология ASTRO начинается с поиска по дереву Монте-Карло (MCTS) по траекториям решения математических задач. Этот поиск исследует как правильные, так и неправильные пути рассуждений. Ключевым нововведением является клонирование процедур: целые деревья поиска преобразуются в длинные цепочки рассуждений (CoT), которые естественным образом кодируют как неудачи, так и восстановления через самоанализ и возврат назад. Эти линейные следы переписываются на естественном языке и используются в качестве основы для контролируемой тонкой настройки (SFT).
В результате получается модель, которая не просто решает задачи шаг за шагом, но и переоценивает свою траекторию, часто возвращаясь назад после самооценки, чтобы исправить промежуточные ошибки в рассуждениях. Например, модель может вставлять фразы вроде «Давайте вернёмся туда, где мы составили уравнение», когда её внутренняя уверенность падает.
Контролируемая тонкая настройка: внедрение поисковых априорных данных
ASTRO проводит тонкую настройку Llama-3.1-70B-Instruct на 36,1 тыс. тщательно отобранных решениях CoT из наборов данных MATH, AMC/AIME и AoPS. Модель, обученная с помощью ASTRO-SFT, достигает следующих результатов:
* MATH 500: 69,6%;
* AMC 2023: 51,9%;
* AIME 2024: 16,3%.
Эти показатели конкурентоспособны или превышают показатели базовых вариантов и вариантов SPOC/Step-KTO, обученных без явных поисковых априорных данных. Важно отметить, что даже тонкая настройка сама по себе — без обучения с подкреплением — даёт прирост производительности, подвергая модель воздействию данных, структурированных для поиска.
Обучение с подкреплением с инициализацией, учитывающей поиск
ASTRO переходит к обучению с подкреплением (RL), инициализируя его с контрольной точки SFT и выполняя цикл RL с использованием модифицированной групповой относительной оптимизации политики (GRPO). В отличие от стандартного RL, основанного на предпочтениях, ASTRO использует поддающиеся проверке сигналы вознаграждения (+1 за правильное, -1 за неправильное) на 8,7 тыс. умеренно сложных подсказок.
В результате модель ASTRO-RL достигает следующих результатов:
* MATH 500: 81,8%;
* AMC 2023: 64,4%;
* AIME 2024: 30,0%.
Эти результаты конкурируют или превышают показатели моделей с большим количеством параметров и подтверждают важность инициализации ASTRO, учитывающей поиск.
Поведение при возврате назад коррелирует с успехом в рассуждениях
Поразительным эмпирическим наблюдением является положительная корреляция между частотой возврата назад и производительностью. По мере обучения ASTRO-RL демонстрирует больше самокорректирующих действий и более глубокое исследование. Коэффициенты корреляции Пирсона по всем бенчмаркам превышают 0,8, что указывает на то, что самоанализ и возврат назад функционально связаны с более высокой точностью, а не являются просто косметическими действиями.
Сравнительные выводы и более широкое влияние
Контрольные эксперименты, сравнивающие ASTRO с моделями, обученными на прямых решениях CoT (без поисковых априорных данных), показывают, что даже при обучении на тех же наборах задач и поисковых деревьях ASTRO последовательно превосходит их. Например, ASTRO-RL превосходит Direct-RL на:
* +2% по MATH 500;
* +3,9% по AMC 2023;
* +2,9% по AIME 2024.
Кроме того, результаты ASTRO можно визуализировать в виде ориентированных графов, где узлы представляют собой шаги рассуждения, а рёбра — переходы, размышления и исправления, что облегчает интерпретацию.
Ключевые выводы ASTRO
ASTRO демонстрирует, что БЯМ, такие как Llama 3, могут научиться рассуждать более эффективно не за счёт увеличения размера моделей или более длительного предварительного обучения, а благодаря продуманным методам посттренинга. Имитируя алгоритмы поиска на естественном языке, ASTRO позволяет моделям думать, прежде чем отвечать, сомневаться в своих действиях и исправлять ошибки в процессе рассуждения.
Эта система устанавливает новый стандарт для тонкой настройки открытых БЯМ для приближения к человеческому мышлению через поведение, вдохновлённое поиском.
1. Какие механизмы обучения используются в системе ASTRO для улучшения рассуждений в Llama-3?
В системе ASTRO используются механизмы обучения, такие как поиск по дереву Монте-Карло (MCTS) по траекториям решения математических задач, клонирование процедур и контролируемая тонкая настройка (SFT).
2. Какие результаты показала модель Llama-3.1-70B-Instruct после тонкой настройки с помощью ASTRO?
Модель Llama-3.1-70B-Instruct после тонкой настройки с помощью ASTRO достигла следующих результатов:
* MATH 500: 69,6%;
* AMC 2023: 51,9%;
* AIME 2024: 16,3%.
3. В чём заключается ключевое нововведение системы ASTRO?
Ключевым нововведением системы ASTRO является клонирование процедур: целые деревья поиска преобразуются в длинные цепочки рассуждений (CoT), которые естественным образом кодируют как неудачи, так и восстановления через самоанализ и возврат назад.
4. Как влияет частота возврата назад на производительность модели ASTRO-RL?
Частота возврата назад коррелирует с успехом в рассуждениях. По мере обучения ASTRO-RL демонстрирует больше самокорректирующих действий и более глубокое исследование. Коэффициенты корреляции Пирсона по всем бенчмаркам превышают 0,8, что указывает на то, что самоанализ и возврат назад функционально связаны с более высокой точностью.
5. Какие выводы можно сделать о влиянии системы ASTRO на способность больших языковых моделей к рассуждению?
Система ASTRO демонстрирует, что большие языковые модели, такие как Llama 3, могут научиться рассуждать более эффективно не за счёт увеличения размера моделей или более длительного предварительного обучения, а благодаря продуманным методам посттренинга. Имитируя алгоритмы поиска на естественном языке, ASTRO позволяет моделям думать, прежде чем отвечать, сомневаться в своих действиях и исправлять ошибки в процессе рассуждения.