Технологический инновационный институт Абу-Даби выпустил Falcon H1R-7B: новая модель рассуждений, превосходящая другие в математике и кодировании с 7 миллиардами параметров и контекстным окном в 256 тысяч токенов

Технология и особенности

Technology Innovation Institute (TII), Абу-Даби, представил Falcon-H1R-7B — специализированную модель рассуждений с 7 миллиардами параметров, которая соответствует или превосходит многие модели с параметрами от 14 до 47 миллиардов в математике, кодировании и общих тестах, оставаясь при этом компактной и эффективной. Она основана на Falcon H1 7B Base и доступна на Hugging Face в коллекции Falcon-H1R.

Falcon-H1R-7B интересен тем, что сочетает в себе три конструктивных решения в одной системе: гибридный Transformer вместе с Mamba2 backbone, очень длинный контекст, достигающий 256 тысяч токенов в стандартных развёртываниях vLLM, и рецепт обучения, который сочетает в себе контролируемое рассуждение в длинной форме с подкрепляющим обучением с помощью GRPO.

Гибридный Transformer плюс архитектура Mamba2

Falcon-H1R-7B — это модель с декодером только для причинно-следственных связей, имеющая гибридную архитектуру, которая сочетает в себе слои Transformer и компоненты пространства состояний Mamba2. Блоки Transformer обеспечивают стандартное рассуждение на основе внимания, а блоки Mamba2 дают моделирование последовательностей за линейное время и лучшее масштабирование памяти по мере увеличения длины контекста.

Эта конструкция нацелена на три оси эффективности рассуждений, которые описывает команда: скорость, эффективность использования токенов и точность. Модель работает с максимальным значением —max-model-len равным 262144 при обслуживании через vLLM, что соответствует практическому контекстному окну в 256 тысяч токенов. Это позволяет использовать очень длинные цепочки следов мышления, журналы использования инструментов в несколько шагов и большие многодокументные подсказки за один проход. Гибридная основа помогает контролировать использование памяти при таких длинах последовательностей и улучшает пропускную способность по сравнению с чистой базовой моделью Transformer 7B на том же оборудовании.

Рецепт обучения для задач рассуждения

Falcon H1R 7B использует двухэтапный конвейер обучения:

1. На первом этапе команда запускает холодный старт с тонкой настройкой под наблюдением на базе Falcon-H1-7B. Данные SFT (supervised fine tuning) включают пошаговые следы рассуждений в длинной форме по трём основным областям: математике, кодированию и естественным наукам, а также в нелогических областях, таких как чат, вызов инструментов и безопасность. Фильтрация с учётом сложности повышает вес более сложных задач и снижает вес тривиальных. Цели могут достигать 48 тысяч токенов, поэтому модель видит длинные выводы и полные пути решения во время обучения.

2. На втором этапе контрольная точка SFT уточняется с помощью GRPO, который представляет собой метод групповой относительной оптимизации политики для обучения с подкреплением. Вознаграждения выдаются, когда созданная цепочка рассуждений поддаётся проверке. Для математических задач система использует символические проверки конечного ответа. Для кода выполняется сгенерированная программа с помощью модульных тестов. Этот этап RL подталкивает модель к сохранению полезных промежуточных шагов, оставаясь в пределах бюджета токенов.

В результате получается модель на 7 миллиардов параметров, настроенная специально для рассуждений в цепочке мыслей, а не для общего чата.

Результаты тестов в математике, кодировании и общем рассуждении

Результаты тестов Falcon-H1R-7B сгруппированы по математике, коду и агентским задачам, а также по общим задачам рассуждения.

В математической группе Falcon-H1R-7B достигает совокупного балла 73,96%, опережая Apriel-1.5-15B с 69,32% и более крупные модели, такие как Qwen3-32B и Nemotron-H-47B.

Производительность модели

Команда также провела тестирование Falcon-H1R-7B на масштабирование пропускной способности и времени тестирования в реалистичных условиях пакетной обработки. Для ввода в 512 токенов и вывода в 32 тысячи токенов Falcon-H1R-7B достигает около 1000 токенов в секунду на GPU при размере пакета 32 и около 1500 токенов в секунду на GPU при размере пакета 64, что почти вдвое превышает пропускную способность Qwen3-8B в той же конфигурации.

Falcon-H1R-7B также предназначен для масштабирования во время тестирования с помощью Deep Think с уверенностью, известной как DeepConf. Идея состоит в том, чтобы запустить множество цепочек мыслей параллельно, а затем использовать собственные оценки уверенности модели в следующем токене, чтобы отфильтровать зашумленные следы и оставить только высококачественных кандидатов.

На AIME 24 и AIME 25 Falcon-H1R-7B достигает 96,7% точности, используя менее 100 миллионов сгенерированных токенов, что ставит его на благоприятную границу Парето точности по сравнению с другими моделями 8B, 14B и 32B.

Ключевые выводы

Falcon-H1R-7B — это модель рассуждений с 7 миллиардами параметров, которая использует гибридный Transformer вместе с архитектурой Mamba2 и поддерживает контекст в 256 тысяч токенов для длинных цепочек мыслительных подсказок. Модель обучена в два этапа: сначала тонкая настройка под наблюдением на длинных следах рассуждений в математике, кодировании и науке до 48 тысяч токенов, затем обучение с подкреплением на основе GRPO с проверяемыми вознаграждениями за математику и код.

Falcon-H1R-7B демонстрирует высокие результаты в математике, включая около 88,1% на AIME 24, 83,1% на AIME 25 и совокупный математический балл 73,96%, что конкурентоспособно по сравнению с более крупными моделями с 14–47 миллиардами параметров. В задачах кодирования и агентских задачах Falcon-H1R-7B получает 33,95% в качестве группового балла и 68,6% на LiveCodeBench v6. Модель также конкурентоспособна в общих тестах на рассуждение, таких как MMLU Pro и GPQA D.

Гибридная конструкция улучшает пропускную способность, достигая примерно 1000–1800 токенов в секунду на GPU в указанных настройках, а модель поддерживает масштабирование во время тестирования с помощью Deep Think с уверенностью для повышения точности с использованием нескольких образцов рассуждений в рамках контролируемого бюджета токенов.

1. Какие особенности архитектуры Falcon-H1R-7B способствуют повышению эффективности и точности модели?

Ответ: Falcon-H1R-7B имеет гибридную архитектуру, которая сочетает в себе слои Transformer и компоненты пространства состояний Mamba2. Блоки Transformer обеспечивают стандартное рассуждение на основе внимания, а блоки Mamba2 дают моделирование последовательностей за линейное время и лучшее масштабирование памяти по мере увеличения длины контекста.

2. Какие методы обучения используются для Falcon-H1R-7B и как они влияют на его производительность?

Ответ: Falcon H1R 7B использует двухэтапный конвейер обучения:
1. На первом этапе команда запускает холодный старт с тонкой настройкой под наблюдением на базе Falcon-H1-7B. Данные SFT (supervised fine tuning) включают пошаговые следы рассуждений в длинной форме по трём основным областям: математике, кодированию и естественным наукам, а также в нелогических областях, таких как чат, вызов инструментов и безопасность.
2. На втором этапе контрольная точка SFT уточняется с помощью GRPO, который представляет собой метод групповой относительной оптимизации политики для обучения с подкреплением. Вознаграждения выдаются, когда созданная цепочка рассуждений поддаётся проверке.

3. Какие результаты показала модель Falcon-H1R-7B в математических задачах по сравнению с другими моделями?

Ответ: В математической группе Falcon-H1R-7B достигает совокупного балла 73,96%, опережая Apriel-1.5-15B с 69,32% и более крупные модели, такие как Qwen3-32B и Nemotron-H-47B.

4. Какие преимущества предлагает Falcon-H1R-7B в плане масштабируемости и пропускной способности?

Ответ: Falcon-H1R-7B предназначен для масштабирования во время тестирования с помощью Deep Think с уверенностью, известной как DeepConf. Идея состоит в том, чтобы запустить множество цепочек мыслей параллельно, а затем использовать собственные оценки уверенности модели в следующем токене, чтобы отфильтровать зашумленные следы и оставить только высококачественных кандидатов. Для ввода в 512 токенов и вывода в 32 тысячи токенов Falcon-H1R-7B достигает около 1000 токенов в секунду на GPU при размере пакета 32 и около 1500 токенов в секунду на GPU при размере пакета 64, что почти вдвое превышает пропускную способность Qwen3-8B в той же конфигурации.

5. Какие выводы можно сделать о конкурентоспособности Falcon-H1R-7B на основе предоставленных результатов тестов?

Ответ: Falcon-H1R-7B демонстрирует высокие результаты в математике, включая около 88,1% на AIME 24, 83,1% на AIME 25 и совокупный математический балл 73,96%, что конкурентоспособно по сравнению с более крупными моделями с 14–47 миллиардами параметров. В задачах кодирования и агентских задачах Falcon-H1R-7B получает 33,95% в качестве группового балла и 68,6% на LiveCodeBench v6. Модель также конкурентоспособна в общих тестах на рассуждение, таких как MMLU Pro и GPQA D.

Источник