Исследователи Meta представили метод, который сжимает повторяющиеся шаблоны рассуждений в короткие именованные процедуры — «поведения» — и затем обучает модели использовать их при выводе или дистиллирует их посредством тонкой настройки.
Результат:
* сокращение количества токенов для рассуждений на MATH до 46% при сохранении или повышении точности;
* повышение точности на 10% в условиях самосовершенствования на AIME без изменения весов модели.
Работа представляет это как процедурную память для LLM — как рассуждать, а не только что вспоминать, — реализованную с помощью тщательно отобранного, доступного для поиска «справочника поведений».
Решение какой проблемы это предлагает?
Длинные цепочки мыслей (CoT) неоднократно воспроизводят общие подпроцедуры (например, включение–исключение, преобразования оснований, суммы геометрических углов). Эта избыточность приводит к расходу токенов, увеличению задержки и может вытеснять исследование.
Идея Meta заключается в том, чтобы абстрагировать повторяющиеся шаги в краткие именованные поведения (имя + однострочная инструкция), извлечённые из предыдущих трассировок с помощью конвейера рефлексии на основе LLM, а затем повторно использовать их в ходе будущих рассуждений. На математических тестах (MATH-500; AIME-24/25) это существенно сокращает длину выходных данных при сохранении или повышении качества решения.
Как работает конвейер?
Три роли, один справочник:
* Метакогнитивный стратег (R1-Llama-70B): решает задачу, чтобы получить трассировку, отражает трассировку, чтобы определить обобщаемые шаги, и выдаёт поведения в виде записей (имя поведения → инструкция). Они заполняют справочник поведений (процедурная память).
* Учитель (LLM B): генерирует ответы, обусловленные поведением, используемые для создания обучающих корпусов.
* Ученик (LLM C): использует поведения в контексте (вывод) или подвергается тонкой настройке на данных, обусловленных поведением.
Извлечение основано на теме MATH и на основе встраивания (BGE-M3 + FAISS) на AIME.
Режимы оценки
* Вывод, обусловленный поведением (BCI): извлечение K релевантных поведений и добавление их к подсказке.
* Самосовершенствование под руководством поведения: извлечение поведений из собственных более ранних попыток модели и использование их в качестве подсказок для доработки.
* Тонкая настройка на основе поведения (BC-SFT): ученики подвергаются тонкой настройке на основе выходных данных учителя, которые уже следуют рассуждениям, основанным на поведении, так что использование поведения становится параметрическим (без извлечения во время тестирования).
Ключевые результаты (MATH, AIME-24/25)
* Эффективность использования токенов: на MATH-500 BCI сокращает количество токенов для рассуждений до 46% по сравнению с той же моделью без поведений, при этом сохраняя или повышая точность. Это справедливо как для R1-Llama-70B, так и для студентов Qwen3-32B при различных бюджетах токенов (2 048–16 384).
* Повышение самосовершенствования: на AIME-24 самосовершенствование под руководством поведения превосходит базовую линию критики и доработки почти при каждом бюджете, с повышением точности до 10% при увеличении бюджета, что указывает на лучшее масштабирование точности во время тестирования (не только более короткие трассировки).
* Повышение качества BC-SFT: среди Llama-3.1-8B-Instruct, Qwen2.5-14B-Base, Qwen2.5-32B-Instruct и Qwen3-14B BC-SFT последовательно превосходит (по точности) стандартную SFT и оригинал в рамках бюджетов, оставаясь при этом более эффективным с точки зрения использования токенов.
Почему это работает?
Справочник хранит процедурные знания (стратегии), отличные от декларативных знаний (фактов) в классическом RAG. Преобразуя многословные выводы в короткие, многократно используемые шаги, модель пропускает повторное выведение и перераспределяет вычислительные ресурсы на новые подзадачи.
Что внутри «поведения»?
Поведения варьируются от общих рассуждений до точных математических инструментов, например:
* `behaviorinclusionexclusion_principle`: избегайте двойного подсчёта, вычитая пересечения;
* `behaviortranslateverbaltoequation`: систематически формализуйте текстовые задачи;
* `behaviordistancefrompointto_line`: применяйте |Ax+By+C|/√(A²+B²) для проверки касательности.
Во время BCI ученик явно ссылается на поведения, когда они используются, что делает трассировки проверяемыми и компактными.
Рассмотрение затрат на извлечение и поиск
На MATH поведения извлекаются по теме; на AIME топ-K поведения выбираются с помощью встраиваний BGE-M3 и FAISS. Хотя BCI вводит дополнительные входные токены (поведения), входные токены являются предварительно вычислимыми и неавторегрессионными, и часто их стоимость ниже, чем у выходных токенов в коммерческих API. Поскольку BCI сокращает выходные токены, общая стоимость может снизиться при улучшении задержки. BC-SFT полностью исключает извлечение во время тестирования.
Резюме
Подход Meta к справочнику поведений реализует процедурную память для LLM: он абстрагирует повторяющиеся шаги рассуждений в повторно используемые «поведения», применяет их с помощью вывода, обусловленного поведением, или дистиллирует их с помощью BC-SFT и эмпирически обеспечивает сокращение количества токенов для рассуждений на 46% при точности, которая сохраняется или улучшается (≈10% прирост в режимах самокоррекции).
Метод прост в интеграции — индекс, ритревер, необязательная тонкая настройка — и отображает проверяемые трассировки, хотя масштабирование за пределы математики и управление растущим корпусом поведений остаются открытыми инженерными задачами.
1. Какие проблемы решает метод Meta и как он это делает?
Метод Meta решает проблему избыточности в длинных цепочках мыслей (CoT), которые многократно воспроизводят общие подпроцедуры. Это приводит к расходу токенов, увеличению задержки и может вытеснять исследование. Идея Meta заключается в том, чтобы абстрагировать повторяющиеся шаги в краткие именованные поведения (имя + однострочная инструкция), извлечённые из предыдущих трассировок с помощью конвейера рефлексии на основе LLM, а затем повторно использовать их в ходе будущих рассуждений.
2. Какие роли участвуют в работе конвейера Meta и какие задачи они выполняют?
В работе конвейера Meta участвуют три роли:
* Метакогнитивный стратег (R1-Llama-70B) решает задачу, чтобы получить трассировку, отражает трассировку, чтобы определить обобщаемые шаги, и выдаёт поведения в виде записей (имя поведения → инструкция). Они заполняют справочник поведений (процедурная память).
* Учитель (LLM B) генерирует ответы, обусловленные поведением, используемые для создания обучающих корпусов.
* Ученик (LLM C) использует поведения в контексте (вывод) или подвергается тонкой настройке на данных, обусловленных поведением.
3. Какие ключевые результаты были получены при использовании метода Meta на математических тестах MATH-500 и AIME-24/25?
На MATH-500 BCI сокращает количество токенов для рассуждений до 46% по сравнению с той же моделью без поведений, при этом сохраняя или повышая точность. На AIME-24 самосовершенствование под руководством поведения превосходит базовую линию критики и доработки почти при каждом бюджете, с повышением точности до 10% при увеличении бюджета.
4. Какие примеры «поведений» приведены в статье и как они используются?
Примеры «поведений» включают:
* `behaviorinclusionexclusion_principle`: избегайте двойного подсчёта, вычитая пересечения;
* `behaviortranslateverbaltoequation`: систематически формализуйте текстовые задачи;
* `behaviordistancefrompointto_line`: применяйте |Ax+By+C|/√(A²+B²) для проверки касательности.
Во время BCI ученик явно ссылается на поведения, когда они используются, что делает трассировки проверяемыми и компактными.
5. Какие затраты связаны с использованием метода Meta и как они компенсируются?
Хотя BCI вводит дополнительные входные токены (поведения), входные токены являются предварительно вычислимыми и неавторегрессионными, и часто их стоимость ниже, чем у выходных токенов в коммерческих API. Поскольку BCI сокращает выходные токены, общая стоимость может снизиться при улучшении задержки. BC-SFT полностью исключает извлечение во время тестирования.