Университет Mohamed bin Zayed в области искусственного интеллекта выпускает K2 Think V2: полностью автономную модель рассуждений на 70 миллиардов параметров для математики, кода и науки

Исследователи из Университета Mohamed bin Zayed в области искусственного интеллекта (MBZUAI) выпустили K2 Think V2 — полностью автономную модель рассуждений, разработанную для проверки возможностей открытых и полностью документированных систем в области долгосрочных рассуждений по математике, коду и науке.

Особенности модели K2 Think V2

K2 Think V2 берёт за основу модель K2 V2 Instruct с 70 миллиардами параметров и применяет тщательно разработанный подход к обучению с подкреплением, чтобы превратить её в высокоточную модель рассуждений, которая остаётся полностью открытой как по весам, так и по данным.

Как работает K2 V2

K2 V2 — это плотный трансформер-декодер с 80 слоями, скрытым размером 8192 и 64 головами внимания с сгруппированным запросом внимания и вращающимися позиционными вложениями. Он обучен на примерно 12 триллионах токенов, взятых из корпуса TxT360 и связанных с ним курируемых наборов данных, которые охватывают веб-текст, математику, код, многоязычные данные и научную литературу.

Обучение проходит в три этапа:
1. Предварительное обучение работает при длине контекста в 8192 токена на естественных данных для формирования надёжных общих знаний.
2. Среднее обучение увеличивает контекст до 512 тысяч токенов с помощью TxT360 Midas, который смешивает длинные документы, синтетические следы мышления и разнообразные модели рассуждений, сохраняя при этом не менее 30% коротких контекстных данных на каждом этапе.
3. Контролируемая точная настройка, называемая TxT360 3efforts, вводит сигналы следования инструкциям и структурированного рассуждения.

Важно отметить, что K2 V2 не является универсальной базовой моделью. Она явно оптимизирована для согласованности длинного контекста и воздействия на поведение при рассуждениях во время среднего обучения. Это делает её естественной основой для этапа пост-обучения, который фокусируется только на качестве рассуждений, что и делает K2 Think V2.

Обучение K2 Think V2

K2 Think V2 обучен с помощью рецепта RLVR в стиле GRPO на основе K2 V2 Instruct. Команда использует набор данных Guru, версия 1.5, который фокусируется на математике, коде и вопросах STEM.

GRPO устраняет обычные вспомогательные потери KL и энтропии и использует асимметричное ограничение коэффициента политики с высоким ограничением, установленным на уровне 0,28. Обучение полностью ведётся по политике с температурой 1,2 для увеличения разнообразия развёртывания, глобальным размером пакета 256 и без микропакетной обработки. Это позволяет избежать внеполитических коррекций, которые, как известно, вносят нестабильность в обучение по методу GRPO.

RLVR проходит в два этапа. На первом этапе длина ответа ограничена 32 тысячами токенов, и модель обучается около 200 шагов. На втором этапе максимальная длина ответа увеличивается до 64 тысяч токенов, и обучение продолжается около 50 шагов с теми же гиперпараметрами. Этот график специально использует возможности длинного контекста, унаследованные от K2 V2, чтобы модель могла практиковать полные траектории мысли, а не короткие решения.

Профиль бенчмарка

K2 Think V2 ориентирован на тесты рассуждений, а не только на тесты знаний. На AIME 2025 он достигает результата 1 из 90,42. На HMMT 2025 он набирает 84,79 балла. На GPQA Diamond, сложном научном бенчмарке для выпускников, он достигает 72,98. На SciCode он фиксирует 33,00, а на Humanity’s Last Exam он достигает 9,5 в соответствии с настройками бенчмарка.

Эти результаты представлены как средние значения за 16 запусков и напрямую сопоставимы только в рамках одного и того же протокола оценки. Команда MBZUAI также подчёркивает улучшения на IFBench и в наборе инструментов оценки Artificial Analysis, особенно в снижении частоты галлюцинаций и улучшении рассуждений в длинном контексте по сравнению с предыдущим выпуском K2 Think.

Безопасность и открытость

Исследовательская группа сообщает об анализе в стиле Safety 4, который объединяет четыре поверхности безопасности. Содержание и общественная безопасность, правдивость и надёжность, а также социальная согласованность достигают макросредних уровней риска в низком диапазоне. Риски, связанные с данными и инфраструктурой, остаются более высокими и отмечены как критические, что отражает опасения по поводу обработки конфиденциальной личной информации, а не только поведения модели.

Команда заявляет, что K2 Think V2 по-прежнему имеет общие ограничения больших языковых моделей, несмотря на эти смягчения. По индексу открытости Artificial Analysis K2 Think V2 находится на передовой вместе с K2 V2 и Olmo-3.

Ключевые выводы

* K2 Think V2 — это полностью автономная модель рассуждений на 70 миллиардов параметров, построенная на K2 V2 Instruct, с открытыми весами, открытыми рецептами данных, подробными журналами обучения и полным конвейером RL, выпущенным через Reasoning360.
* Базовая модель оптимизирована для длинного контекста и рассуждений перед RL: K2 V2 — это плотный трансформер-декодер, обученный на примерно 12 триллионах токенов, со средним обучением, увеличивающим длину контекста до 512 тысяч токенов, и контролируемой точной настройкой «3 усилий» SFT для структурированного рассуждения.
* Рассуждения согласованы с помощью RLVR на основе GRPO в наборе данных Guru: обучение использует двухэтапную настройку GRPO на Guru v1.5 с асимметричным ограничением, температурой 1,2 и ограничениями ответа в 32 тысячи, а затем в 64 тысячи токенов для изучения длинных цепочек мысли.
* Конкурентные результаты на сложных тестах рассуждений: K2 Think V2 сообщает о высоких результатах, таких как 90,42 на AIME 2025, 84,79 на HMMT 2025 и 72,98 на GPQA Diamond, позиционируя себя как высокоточную открытую модель рассуждений для математики, кода и науки.

1. Какие основные характеристики отличают модель K2 Think V2 от других моделей искусственного интеллекта?

Ответ: модель K2 Think V2 отличается полностью автономным подходом к рассуждениям и наличием 70 миллиардов параметров. Она разработана для проверки возможностей открытых и полностью документированных систем в области долгосрочных рассуждений по математике, коду и науке. Также модель использует тщательно разработанный подход к обучению с подкреплением, чтобы превратить её в высокоточную модель рассуждений, которая остаётся полностью открытой как по весам, так и по данным.

2. Какие этапы включает в себя обучение модели K2 V2?

Ответ: обучение модели K2 V2 проходит в три этапа:
1. Предварительное обучение работает при длине контекста в 8192 токена на естественных данных для формирования надёжных общих знаний.
2. Среднее обучение увеличивает контекст до 512 тысяч токенов с помощью TxT360 Midas, который смешивает длинные документы, синтетические следы мышления и разнообразные модели рассуждений.
3. Контролируемая точная настройка, называемая TxT360 3efforts, вводит сигналы следования инструкциям и структурированного рассуждения.

3. Какие результаты показала модель K2 Think V2 на различных бенчмарках?

Ответ: на AIME 2025 модель достигает результата 1 из 90,42, на HMMT 2025 она набирает 84,79 балла, на GPQA Diamond достигает 72,98, на SciCode фиксирует 33,00, а на Humanity’s Last Exam достигает 9,5 в соответствии с настройками бенчмарка. Эти результаты представлены как средние значения за 16 запусков и напрямую сопоставимы только в рамках одного и того же протокола оценки.

4. Какие меры предпринимаются для обеспечения безопасности модели K2 Think V2?

Ответ: исследовательская группа сообщает об анализе в стиле Safety 4, который объединяет четыре поверхности безопасности: содержание и общественная безопасность, правдивость и надёжность, а также социальная согласованность. Содержание и общественная безопасность, правдивость и надёжность, а также социальная согласованность достигают макросредних уровней риска в низком диапазоне. Риски, связанные с данными и инфраструктурой, остаются более высокими и отмечены как критические.

5. Какие общие ограничения больших языковых моделей сохраняются у K2 Think V2, несмотря на проведённые смягчения?

Ответ: несмотря на проведённые смягчения, у K2 Think V2 сохраняются общие ограничения больших языковых моделей. По индексу открытости Artificial Analysis K2 Think V2 находится на передовой вместе с K2 V2 и Olmo-3, но конкретные ограничения в тексте не перечислены.

Источник