Компания YuanLab AI выпустила Yuan 3.0 Ultra — флагманскую мультимодальную модель Mixture-of-Experts (MoE) с общим количеством параметров 1 триллион и 68,8 миллиарда активированных параметров. Модель разработана для оптимизации производительности в корпоративных задачах, сохраняя при этом конкурентоспособные возможности общего назначения.
Как модель с триллионом параметров может обеспечить корпоративную производительность, одновременно сократив общее количество параметров на 33,3% и повысив эффективность предварительного обучения на 49%?
В основе Yuan 3.0 Ultra лежит алгоритм Layer-Adaptive Expert Pruning (LAEP), который позволяет оптимизировать производительность модели в корпоративных задачах.
Основные инновации в обучении Yuan 3.0 Ultra:
- Алгоритм Layer-Adaptive Expert Pruning (LAEP). В отличие от традиционных плотных моделей, Yuan 3.0 Ultra использует разреженность для масштабирования производительности без линейного увеличения вычислительных затрат.
- Распределение нагрузки экспертов. Исследование распределения нагрузки экспертов выявило две фазы:
— Начальная переходная фаза. Характеризуется высокой волатильностью нагрузок экспертов, унаследованных от случайной инициализации.
— Стабильная фаза. Нагрузки экспертов сходятся, и относительный рейтинг экспертов на основе назначения токенов остаётся в основном фиксированным.
После достижения стабильной фазы LAEP применяет обрезку на основе двух ограничений:
- Индивидуальное ограничение нагрузки (⍺). Направлено на экспертов, чья нагрузка по токенам значительно ниже среднего по слою.
- Совокупное ограничение нагрузки (β). Определяет подмножество экспертов, вносящих наименьший вклад в общую обработку токенов.
Применяя LAEP с β=0,1 и изменяя ⍺, модель была сокращена с первоначальных 1,5 триллиона параметров до 1 триллиона параметров. Это сокращение на 33,3% сохранило производительность модели в нескольких доменах, значительно снизив требования к памяти для развёртывания.
Эффективность аппаратного обеспечения и перестановка экспертов
Модели MoE часто страдают от дисбаланса нагрузки на уровне устройств, когда эксперты распределены по вычислительному кластеру. Для решения этой проблемы Yuan 3.0 Ultra реализует алгоритм перестановки экспертов.
Этот алгоритм ранжирует экспертов по нагрузке на токены и использует жадную стратегию для их распределения по графическим процессорам (GPU) таким образом, чтобы минимизировать совокупную дисперсию токенов.
| Модель | TFLOPS на GPU |
| — | — |
| Base Model (1515B) | 62,14 |
| DeepSeek-V3 Aux Loss | 80,82 |
| Yuan 3.0 Ultra (LAEP) | 92,60 |
Общая эффективность предварительного обучения улучшилась на 49%. Это улучшение обусловлено двумя факторами:
- Обрезка модели: внесла 32,4% в прирост эффективности.
- Перестановка экспертов: внесла 15,9% в прирост эффективности.
Снижение перебора с помощью пересмотренного RIRM
На этапе обучения с подкреплением (RL) модель использует усовершенствованный механизм вознаграждения за подавление рефлексии (RIRM), чтобы предотвратить чрезмерно длинные цепочки рассуждений для простых задач.
Оценка производительности на корпоративных бенчмарках
Yuan 3.0 Ultra была оценена по сравнению с несколькими отраслевыми моделями, включая GPT-5.2 и Gemini 3.1 Pro, по специализированным корпоративным бенчмаркам.
| Бенчмарк | Категория задач | Оценка Yuan 3.0 Ultra | Оценка ведущего конкурента |
| — | — | — | — |
| Docmatix | Мультимодальный RAG | 67,4% | 48,4% (GPT-5.2) |
| ChatRAG | Извлечение текста (среднее значение) | 68,2% | 53,6% (Kimi K2.5) |
| MMTab | Логика работы с таблицами | 62,3% | 66,2% (Kimi K2.5) |
| SummEval | Суммирование текста | 62,8% | 49,9% (Claude Opus 4.6) |
| Spider 1.0 | Text-to-SQL | 83,9% | 82,7% (Kimi K2.5) |
| BFCL V3 | Вызов инструментов | 67,8% | 78,8% (Gemini 3.1 Pro) |
Результаты показывают, что Yuan 3.0 Ultra достигает высочайшей точности в мультимодальном извлечении (Docmatix) и длинном контексте (ChatRAG), сохраняя при этом надёжную производительность в обработке структурированных данных и вызове инструментов.
1. Какие инновации в обучении модели Yuan 3.0 Ultra позволяют ей оптимизировать производительность в корпоративных задачах?
Ответ: в основе Yuan 3.0 Ultra лежит алгоритм Layer-Adaptive Expert Pruning (LAEP), который позволяет оптимизировать производительность модели в корпоративных задачах. Этот алгоритм использует разреженность для масштабирования производительности без линейного увеличения вычислительных затрат. Кроме того, модель использует алгоритм перестановки экспертов для балансировки нагрузки на уровне устройств и минимизации совокупной дисперсии токенов.
2. Как сокращение количества параметров на 33,3% влияет на производительность модели Yuan 3.0 Ultra?
Ответ: сокращение количества параметров на 33,3% позволило сохранить производительность модели в нескольких доменах, значительно снизив требования к памяти для развёртывания. Это подтверждает эффективность алгоритма LAEP в оптимизации производительности модели.
3. Какие преимущества даёт использование алгоритма перестановки экспертов в модели Yuan 3.0 Ultra?
Ответ: алгоритм перестановки экспертов в Yuan 3.0 Ultra позволяет минимизировать совокупную дисперсию токенов и балансировать нагрузку на уровне устройств. Это улучшает общую эффективность предварительного обучения и оптимизирует использование вычислительных ресурсов.
4. Какие результаты показала модель Yuan 3.0 Ultra по сравнению с другими отраслевыми моделями на специализированных корпоративных бенчмарках?
Ответ: Yuan 3.0 Ultra достигла высочайшей точности в мультимодальном извлечении (Docmatix) и длинном контексте (ChatRAG), сохраняя при этом надёжную производительность в обработке структурированных данных и вызове инструментов. Результаты показывают, что модель Yuan 3.0 Ultra превосходит другие отраслевые модели, такие как GPT-5.2 и Gemini 3.1 Pro, по специализированным корпоративным бенчмаркам.
5. Какие факторы способствовали улучшению общей эффективности предварительного обучения модели Yuan 3.0 Ultra на 49%?
Ответ: улучшение общей эффективности предварительного обучения на 49% обусловлено двумя факторами: обрезка модели внесла 32,4% в прирост эффективности, а перестановка экспертов — 15,9%. Это подтверждает, что оптимизация структуры и распределения нагрузки в модели может значительно улучшить её производительность.