DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом

TNG Technology Consulting представила DeepSeek-TNG R1T2 Chimera — новую модель Assembly-of-Experts (AoE), сочетающую интеллект и скорость благодаря инновационной стратегии объединения моделей.

Assembly-of-Experts: эффективная композиция моделей в масштабе

Традиционное обучение и тонкая настройка больших языковых моделей (LLM) требуют огромных вычислительных ресурсов. TNG решает эту проблему с помощью подхода Assembly-of-Experts (AoE), объединяя крупномасштабные модели Mixture-of-Experts (MoE) на уровне весовых тензоров без переобучения. Эта стратегия позволяет создавать новые модели с линейным временем, которые наследуют возможности от нескольких родительских моделей.

Архитектура R1T2 сочетает экспертные тензоры от R1 с базой V3-0324 и выборочно включает улучшения от R1-0528, оптимизируя соотношение между стоимостью вывода и качеством рассуждений.

Прирост скорости и компромиссы в интеллекте

В сравнительных тестах R1T2 на 20 % быстрее R1 и более чем в два раза быстрее R1-0528. Эти показатели во многом обусловлены уменьшенной длиной выходных токенов и выборочной интеграцией экспертных тензоров. Хотя R1T2 немного уступает R1-0528 по уровню интеллекта, он значительно превосходит R1 по таким высокоуровневым бенчмаркам, как GPQA Diamond и AIME-2024/2025.

Более того, модель сохраняет… (далее обрывается).

Эмерджентные свойства в пространстве параметров

R1T2 подтверждает выводы из сопроводительной исследовательской работы о том, что объединение моделей может привести к созданию жизнеспособных моделей во всём пространстве интерполяции. Интересно, что свойства интеллекта изменяются постепенно, но поведенческие маркеры (например, последовательное использование) появляются резко при достижении определённого порога веса R1 в 50 %. Это указывает на то, что определённые черты находятся в отдельных подпространствах ландшафта весов LLM.

Объединяя только маршрутизируемые экспертные тензоры и оставляя другие компоненты (например, внимание и общие MLP) от V3-0324 без изменений, R1T2 поддерживает высокий уровень рассуждений, избегая при этом многословности. Такая конструкция приводит к тому, что TNG называет «консистентностью мысли-токена» — поведенческой чертой, при которой рассуждения являются не только точными, но и краткими.

Обратная связь сообщества Reddit

Первые обсуждения в сообществе LocalLLaMA на Reddit подчёркивают практическое впечатление от R1T2. Пользователи хвалят модель за оперативность, эффективность использования токенов и баланс между скоростью и связностью. Один из пользователей отметил: «Впервые модель Chimera ощущается как реальное улучшение как по скорости, так и по качеству». Другой указал, что модель лучше справляется с математически насыщенными контекстами по сравнению с предыдущими вариантами R1.

Некоторые участники Reddit также отметили, что R1T2 демонстрирует более обоснованную личность, более последовательно избегая галлюцинаций, чем модели R1 или на основе V3. Такие эмерджентные черты особенно актуальны для разработчиков, ищущих стабильные бэкенды LLM для производственных сред.

Open-Weights и доступность

R1T2 доступен публично под лицензией MIT на Hugging Face: DeepSeek-TNG R1T2 Chimera. Выпуск поощряет эксперименты в сообществе, включая последующую тонкую настройку и обучение с подкреплением. По данным TNG, внутренние развёртывания через бессерверную платформу вывода Chutes уже обрабатывают около 5 миллиардов токенов ежедневно.

Заключение

DeepSeek-TNG R1T2 Chimera демонстрирует потенциал конструкции Assembly-of-Experts для создания производительных и эффективных LLM без необходимости градиентного обучения. Стратегически сочетая возможности рассуждений R1, дизайн с эффективным использованием токенов V3-0324 и улучшения от R1-0528, R1T2 устанавливает новый стандарт для сбалансированной разработки моделей. Его открытый выпуск под лицензией MIT обеспечивает доступность, что делает его сильным кандидатом для разработчиков, ищущих быстрые, способные и настраиваемые большие языковые модели.

Благодаря доказанной жизнеспособности объединения моделей даже в масштабе 671 миллиарда параметров, R1T2 от TNG может служить основой для будущих экспериментов по интерполяции в пространстве параметров, позволяя разрабатывать более модульные и интерпретируемые LLM.

Ознакомьтесь с документом и Open Weights на Hugging Face. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку.

Статья «DeepSeek R1T2 Chimera: в 2 раза быстрее R1-0528, с улучшенной логикой и компактным выводом» впервые опубликована на MarkTechPost.

1. Какие преимущества предлагает модель DeepSeek-TNG R1T2 Chimera по сравнению с предыдущими версиями?

Ответ: DeepSeek-TNG R1T2 Chimera предлагает более высокую скорость работы (на 20% быстрее R1 и более чем в два раза быстрее R1-0528), улучшенную логику и компактный вывод. Она также сохраняет высокий уровень рассуждений и избегает многословности.

2. Какие особенности архитектуры R1T2 позволяют ему достигать высокой производительности?

Ответ: Архитектура R1T2 сочетает экспертные тензоры от R1 с базой V3-0324 и выборочно включает улучшения от R1-0528. Это позволяет оптимизировать соотношение между стоимостью вывода и качеством рассуждений. Кроме того, R1T2 поддерживает высокий уровень рассуждений, избегая при этом многословности, благодаря «консистентности мысли-токена».

3. Какие выводы можно сделать из сравнительных тестов R1T2 с другими моделями?

Ответ: В сравнительных тестах R1T2 на 20% быстрее R1 и более чем в два раза быстрее R1-0528. Хотя R1T2 немного уступает R1-0528 по уровню интеллекта, он значительно превосходит R1 по таким высокоуровневым бенчмаркам, как GPQA Diamond и AIME-2024/2025. Это указывает на то, что R1T2 является сбалансированной моделью, которая сочетает в себе скорость и качество рассуждений.

4. Какие практические впечатления от R1T2 были отмечены пользователями на Reddit?

Ответ: Пользователи на Reddit хвалят модель R1T2 за оперативность, эффективность использования токенов и баланс между скоростью и связностью. Один из пользователей отметил, что модель впервые ощущается как реальное улучшение как по скорости, так и по качеству. Другой указал, что модель лучше справляется с математически насыщенными контекстами по сравнению с предыдущими вариантами R1.

5. Какие возможности предоставляет открытый выпуск R1T2 под лицензией MIT?

Ответ: Открытый выпуск R1T2 под лицензией MIT обеспечивает доступность модели для экспериментов в сообществе. Это делает R1T2 сильным кандидатом для разработчиков, ищущих быстрые, способные и настраиваемые большие языковые модели.

Источник

Оставьте комментарий