Можно ли улучшить способность Llama 3 к рассуждению только за счёт посттренинга? ASTRO демонстрирует прирост показателей на +16–20%

Улучшение способности больших языковых моделей (БЯМ) к рассуждению без архитектурных изменений — ключевая задача в развитии согласованности ИИ и удобства его использования. Исследователи из Meta AI и Вашингтонского университета представили ASTRO — Autoregressive Search-Taught Reasoner (авторегрессионный поисковый механизм обучения рассуждениям). Это новая система посттренинга, разработанная для улучшения рассуждений в Llama-3.1-70B-Instruct.

Особенности ASTRO

ASTRO уникален тем, что обучает модели выполнять поиск в контексте, саморефлексию и возврат назад — механизмы, часто связанные с решением проблем человеком и традиционными алгоритмами поиска.

Методология ASTRO начинается с поиска по дереву Монте-Карло (MCTS) по траекториям решения математических задач. Этот поиск исследует как правильные, так и неправильные пути рассуждений. Ключевым нововведением является клонирование процедур: целые деревья поиска преобразуются в длинные цепочки рассуждений (CoT), которые естественным образом кодируют как неудачи, так и восстановления через самоанализ и возврат назад. Эти линейные следы переписываются на естественном языке и используются в качестве основы для контролируемой тонкой настройки (SFT).

В результате получается модель, которая не просто решает задачи шаг за шагом, но и переоценивает свою траекторию, часто возвращаясь назад после самооценки, чтобы исправить промежуточные ошибки в рассуждениях. Например, модель может вставлять фразы вроде «Давайте вернёмся туда, где мы составили уравнение», когда её внутренняя уверенность падает.

Контролируемая тонкая настройка: внедрение поисковых априорных данных

ASTRO проводит тонкую настройку Llama-3.1-70B-Instruct на 36,1 тыс. тщательно отобранных решениях CoT из наборов данных MATH, AMC/AIME и AoPS. Модель, обученная с помощью ASTRO-SFT, достигает следующих результатов:
* MATH 500: 69,6%;
* AMC 2023: 51,9%;
* AIME 2024: 16,3%.

Эти показатели конкурентоспособны или превышают показатели базовых вариантов и вариантов SPOC/Step-KTO, обученных без явных поисковых априорных данных. Важно отметить, что даже тонкая настройка сама по себе — без обучения с подкреплением — даёт прирост производительности, подвергая модель воздействию данных, структурированных для поиска.

Обучение с подкреплением с инициализацией, учитывающей поиск

ASTRO переходит к обучению с подкреплением (RL), инициализируя его с контрольной точки SFT и выполняя цикл RL с использованием модифицированной групповой относительной оптимизации политики (GRPO). В отличие от стандартного RL, основанного на предпочтениях, ASTRO использует поддающиеся проверке сигналы вознаграждения (+1 за правильное, -1 за неправильное) на 8,7 тыс. умеренно сложных подсказок.

В результате модель ASTRO-RL достигает следующих результатов:
* MATH 500: 81,8%;
* AMC 2023: 64,4%;
* AIME 2024: 30,0%.

Эти результаты конкурируют или превышают показатели моделей с большим количеством параметров и подтверждают важность инициализации ASTRO, учитывающей поиск.

Поведение при возврате назад коррелирует с успехом в рассуждениях

Поразительным эмпирическим наблюдением является положительная корреляция между частотой возврата назад и производительностью. По мере обучения ASTRO-RL демонстрирует больше самокорректирующих действий и более глубокое исследование. Коэффициенты корреляции Пирсона по всем бенчмаркам превышают 0,8, что указывает на то, что самоанализ и возврат назад функционально связаны с более высокой точностью, а не являются просто косметическими действиями.

Сравнительные выводы и более широкое влияние

Контрольные эксперименты, сравнивающие ASTRO с моделями, обученными на прямых решениях CoT (без поисковых априорных данных), показывают, что даже при обучении на тех же наборах задач и поисковых деревьях ASTRO последовательно превосходит их. Например, ASTRO-RL превосходит Direct-RL на:
* +2% по MATH 500;
* +3,9% по AMC 2023;
* +2,9% по AIME 2024.

Кроме того, результаты ASTRO можно визуализировать в виде ориентированных графов, где узлы представляют собой шаги рассуждения, а рёбра — переходы, размышления и исправления, что облегчает интерпретацию.

Ключевые выводы ASTRO

ASTRO демонстрирует, что БЯМ, такие как Llama 3, могут научиться рассуждать более эффективно не за счёт увеличения размера моделей или более длительного предварительного обучения, а благодаря продуманным методам посттренинга. Имитируя алгоритмы поиска на естественном языке, ASTRO позволяет моделям думать, прежде чем отвечать, сомневаться в своих действиях и исправлять ошибки в процессе рассуждения.

Эта система устанавливает новый стандарт для тонкой настройки открытых БЯМ для приближения к человеческому мышлению через поведение, вдохновлённое поиском.

1. Какие механизмы обучения используются в системе ASTRO для улучшения рассуждений в Llama-3?

В системе ASTRO используются механизмы обучения, такие как поиск по дереву Монте-Карло (MCTS) по траекториям решения математических задач, клонирование процедур и контролируемая тонкая настройка (SFT).

2. Какие результаты показала модель Llama-3.1-70B-Instruct после тонкой настройки с помощью ASTRO?

Модель Llama-3.1-70B-Instruct после тонкой настройки с помощью ASTRO достигла следующих результатов:
* MATH 500: 69,6%;
* AMC 2023: 51,9%;
* AIME 2024: 16,3%.

3. В чём заключается ключевое нововведение системы ASTRO?

Ключевым нововведением системы ASTRO является клонирование процедур: целые деревья поиска преобразуются в длинные цепочки рассуждений (CoT), которые естественным образом кодируют как неудачи, так и восстановления через самоанализ и возврат назад.

4. Как влияет частота возврата назад на производительность модели ASTRO-RL?

Частота возврата назад коррелирует с успехом в рассуждениях. По мере обучения ASTRO-RL демонстрирует больше самокорректирующих действий и более глубокое исследование. Коэффициенты корреляции Пирсона по всем бенчмаркам превышают 0,8, что указывает на то, что самоанализ и возврат назад функционально связаны с более высокой точностью.

5. Какие выводы можно сделать о влиянии системы ASTRO на способность больших языковых моделей к рассуждению?

Система ASTRO демонстрирует, что большие языковые модели, такие как Llama 3, могут научиться рассуждать более эффективно не за счёт увеличения размера моделей или более длительного предварительного обучения, а благодаря продуманным методам посттренинга. Имитируя алгоритмы поиска на естественном языке, ASTRO позволяет моделям думать, прежде чем отвечать, сомневаться в своих действиях и исправлять ошибки в процессе рассуждения.

Источник