Tiny Recursive Model (TRM): модель на 7 миллионов параметров, превосходящая DeepSeek-R1, Gemini 2.5 Pro и o3-mini в логических задачах на ARG-AGI 1 и ARC-AGI 2

Samsung SAIT (Монреаль) выпустила Tiny Recursive Model (TRM) — двухуровневую рекурсивную модель с примерно 7 миллионами параметров, которая демонстрирует высокую точность тестирования на ARC-AGI-1 (44,6–45%) и ARC-AGI-2 (7,8–8%), превосходя результаты значительно более крупных языковых моделей, таких как DeepSeek-R1, o3-mini-high и Gemini 2.5 Pro.

Что нового?

TRM устраняет двухмодульную иерархию HRM и приближение градиента с фиксированной точкой в пользу единой крошечной сети, которая рекурсивно использует скрытый «блокнот» (z) и текущее вложение решения (y):

* Одно ядро с крошечной рекуррентной структурой. Заменяет двухмодульную иерархию HRM одной двухуровневой сетью, которая совместно поддерживает скрытый «блокнот» 𝑧 𝑧 и текущее вложение решения 𝑦 𝑦. Модель чередует: 𝑧 ← 𝑓 ( 𝑥 , 𝑦 , 𝑧 ) для 𝑛 внутренних шагов; 𝑦 ← 𝑔 ( 𝑦 , 𝑧 ).
* Глубоко контролируемая рекурсия. Блок think→act разворачивается до 16 раз с глубоким контролем и изученной остановкой, используемой во время обучения (полный разворот во время тестирования). Сигналы передаются между шагами через (y,z).
* Полная обратная связь через цикл. В отличие от HRM, где используется одношаговое неявное (с фиксированной точкой) приближение градиента, TRM выполняет обратную связь через все рекурсивные шаги, что, по мнению исследовательской группы, важно для обобщения.

https://arxiv.org/pdf/2510.04871v1

Архитектурно наиболее эффективная настройка для ARC/Maze сохраняет самовнимание; для небольших фиксированных сеток Sudoku исследовательская группа заменяет самовнимание на токен-миксер в стиле MLP-Mixer.

Небольшая EMA (экспоненциально скользящее среднее) по весам стабилизирует обучение на ограниченных данных. Глубина сети эффективно создаётся за счёт рекурсии (например, T = 3, n = 6), а не за счёт наложения слоёв; в абляции два слоя обобщаются лучше, чем более глубокие варианты при тех же эффективных вычислениях.

Понимание результатов

ARC-AGI-1 / ARC-AGI-2 (две попытки): TRM-Attn (7M): 44,6% / 7,8% против HRM (27M): 40,3% / 5,0%.

Исследовательская группа сообщила об исходных данных LLM: DeepSeek-R1 (671B) 15,8% / 1,3%, o3-mini-high 34,5% / 3,0%, Gemini 2.5 Pro 37,0% / 4,9%; более крупные специальные записи Grok-4 выше (66,7–79,6% / 16–29,4%).

* Sudoku-Extreme (9×9, 1K train / 423K test): 87,4% с микшером без внимания против HRM 55,0%.
* Maze-Hard (30×30): 85,3% против HRM 74,5%.

https://arxiv.org/pdf/2510.04871v1

Эти модели прямого прогнозирования обучаются с нуля на небольших, сильно дополненных наборах данных, а не на нескольких примерах. ARC остаётся канонической целью; более широкий контекст и правила доски лидеров (например, порог гран-при ARC-AGI-2 на уровне 85% в частном наборе) отслеживаются Фондом ARC Prize.

Почему модель на 7 миллионов параметров может превзойти гораздо более крупные LLM в этих задачах?

* Решение, а затем его доработка вместо токен-бай-токен: TRM составляет полный вариант решения, а затем улучшает его с помощью скрытых итеративных проверок согласованности с входными данными, что снижает предвзятость экспозиции при авторегрессионном декодировании структурированных выходных данных.
* Вычисления, затрачиваемые на рассуждения во время тестирования, а не количество параметров: эффективная глубина возникает за счёт рекурсии (эмулируемая глубина ≈ T·(n+1)·layers), что, по мнению исследователей, обеспечивает лучшее обобщение при постоянных вычислениях, чем добавление слоёв.
* Более жёсткий индуктивный уклон к рассуждению по сетке: для небольших фиксированных сеток (например, Sudoku) микширование без внимания снижает избыточную ёмкость и улучшает компромисс между смещением и дисперсией; самовнимание сохраняется для более крупных сеток 30×30.

Ключевые выводы

* Архитектура: двухуровневый рекурсивный решатель с примерно 7 миллионами параметров, который чередует скрытые «мысленные» обновления 𝑧 ← 𝑓 ( 𝑥 , 𝑦 , 𝑧 ) и уточнение «действия» 𝑦 ← 𝑔 ( 𝑦 , 𝑧 ), развёрнутые до 16 шагов с глубоким контролем; градиенты распространяются через полную рекурсию (без приближения с фиксированной точкой/IFT).
* Результаты: сообщается о показателях примерно 44,6–45% на ARC-AGI-1 и 7,8–8% на ARC-AGI-2 (две попытки), превосходя несколько гораздо более крупных LLM, как указано в сравнительном исследовании (например, Gemini 2.5 Pro, o3-mini-high, DeepSeek-R1).
* Эффективность/шаблон: демонстрирует, что выделение вычислений во время тестирования на рекурсивную доработку (глубина за счёт развёртывания) может превзойти масштабирование параметров в задачах символьно-геометрического характера, предлагая компактный рецепт с нуля с общедоступным кодом.

Редакционные комментарии

Это исследование демонстрирует модель с примерно 7 миллионами параметров, двухуровневый рекурсивный решатель, который разворачивается до 16 циклов доработки с примерно 6 скрытыми обновлениями за цикл и сообщает о 45% на ARC-AGI-1 и 8% (две попытки) на ARC-AGI-2. Исследовательская группа разместила код на GitHub. ARC-AGI остаётся нерешённым в масштабе (цель — 85% на ARC-AGI-2), так что вклад заключается в результате архитектурной эффективности, а не в прорыве в общем рассуждении.

1. В чём заключается инновационность модели Tiny Recursive Model (TRM) по сравнению с другими языковыми моделями?

Ответ: модель TRM отличается от других языковых моделей своей двухуровневой рекурсивной структурой с примерно 7 миллионами параметров. Она устраняет двухмодульную иерархию HRM и приближение градиента с фиксированной точкой, заменяя их единой крошечной сетью, которая рекурсивно использует скрытый «блокнот» (z) и текущее вложение решения (y).

2. Какие ключевые архитектурные особенности TRM способствуют её высокой точности в логических задачах?

Ответ: ключевые архитектурные особенности TRM включают:
* одно ядро с крошечной рекуррентной структурой, которое чередует скрытые «мысленные» обновления и уточнение «действия»;
* глубоко контролируемую рекурсию, где блок think→act разворачивается до 16 раз с глубоким контролем и изученной остановкой;
* полную обратную связь через цикл, что позволяет модели выполнять обратную связь через все рекурсивные шаги.

3. Какие результаты показала TRM на ARC-AGI-1 и ARC-AGI-2 по сравнению с другими языковыми моделями?

Ответ: TRM показала высокие результаты на ARC-AGI-1 (44,6–45%) и ARC-AGI-2 (7,8–8%), превосходя результаты значительно более крупных языковых моделей, таких как DeepSeek-R1, o3-mini-high и Gemini 2.5 Pro.

4. Какие выводы можно сделать из исследования о TRM?

Ответ: из исследования можно сделать следующие выводы:
* архитектура TRM эффективна для решения логических задач;
* модель демонстрирует, что выделение вычислений во время тестирования на рекурсивную доработку может превзойти масштабирование параметров в задачах символьно-геометрического характера;
* TRM предлагает компактный рецепт с нуля с общедоступным кодом.

5. Какие потенциальные преимущества может иметь модель TRM для разработчиков и исследователей в области искусственного интеллекта?

Ответ: потенциальные преимущества TRM для разработчиков и исследователей включают:
* возможность использования компактной и эффективной модели для решения логических задач;
* понимание того, как архитектура и параметры модели влияют на её производительность;
* возможность адаптации и модификации модели для решения различных задач в области искусственного интеллекта.

Источник