Компания Ant Group выпустила Ling 2.0 — серию языковых моделей, ориентированных на рассуждения. В основе серии лежит принцип, согласно которому каждая активация должна приводить к улучшению способности к рассуждениям.
Как создать языковую модель, которая растёт в мощности, но при этом сохраняет вычисления для каждого токена практически неизменными?
Команда Inclusion AI из Ant Group методично продвигает разреженные большие модели, выпустив Ling 2.0. Ling 2.0 — это семейство языковых моделей, основанное на идее, что каждая активация должна напрямую приводить к улучшению поведения в рассуждениях. Это один из последних подходов, который показывает, как можно сохранить активацию небольшой, переходя от 16B к 1T, не переписывая при этом рецепт.
Серия имеет три версии:
* Ling mini 2.0 — 16B всего с 1,4B активированных;
* Ling flash 2.0 — в классе 100B с 6,1B активированных;
* Ling 1T — 1T всего и около 50B активных на токен.
Разреженная MoE как центральный элемент дизайна
Каждая модель Ling 2.0 использует один и тот же разреженный слой Mixture of Experts (MoE). В каждом слое 256 направленных экспертов и один общий эксперт. Маршрутизатор выбирает 8 направленных экспертов для каждого токена, общий эксперт всегда активен, таким образом, для каждого токена используется около 9 экспертов из 257, что составляет примерно 3,5% активации. Это соответствует соотношению активации 1/32.
Исследовательская группа сообщает о семикратном повышении эффективности по сравнению с эквивалентной плотной моделью, поскольку вы обучаете и обслуживаете только небольшую часть сети на токен, сохраняя при этом очень большой пул параметров.
Ling 2.0: согласованные достижения на четырёх уровнях стека
Ling 2.0 вносит согласованные улучшения на четырёх уровнях стека:
* Архитектура модели: архитектура выбрана с использованием законов масштабирования Ling, а не методом проб и ошибок. Чтобы поддержать законы масштабирования Ling, команда запускает то, что они называют Ling Wind Tunnel, — фиксированный набор небольших запусков MoE, обученных по тем же данным и правилам маршрутизации, а затем подобранных к степенным законам для прогнозирования потерь, активации и баланса экспертов при гораздо больших размерах. Это даёт им недорогой способ выбрать активацию 1/32, 256 направленных экспертов и 1 общего эксперта, прежде чем выделять графические процессоры для масштаба 1T.
* Предварительное обучение: серия обучена на более чем 20 триллионах токенов, начиная с контекста в 4 тыс. и постепенно увеличивая количество источников, требующих рассуждений, таких как математика и код, почти до половины корпуса. На более позднем этапе среднего обучения контекст расширяется примерно до 32 тыс. на выбранном срезе в 150 млрд токенов, затем добавляется ещё 600 млрд токенов высококачественной цепочки мыслей, прежде чем окончательно растянуться до 128 тыс. с YaRN, сохраняя при этом качество короткого контекста.
* Пост-тренинг: согласование разделено на этап проверки возможностей и этап проверки предпочтений. Сначала Decoupled Fine Tuning обучает модель переключаться между быстрыми ответами и глубокими рассуждениями с помощью различных системных подсказок, затем эволюционный этап CoT расширяет и разнообразит цепочки, и, наконец, оптимизация политики на уровне предложений с помощью Group Arena Reward приводит выходные данные в соответствие с человеческими суждениями с высокой точностью.
* Инфраструктура: Ling 2.0 обучается изначально в FP8 с защитными мерами, поддерживая кривую потерь в небольшом диапазоне BF16, при этом получая около 15% использования на заявленном оборудовании. Более значительное ускорение, около 40%, достигается за счёт гетерогенного конвейерного параллелизма, поочерёдного выполнения прямого и обратного выполнения и разделения, учитывающего блок MTP, а не только за счёт точности.
Понимание результатов
Оценки последовательны по шаблону: модели с малой активацией MoE обеспечивают конкурентоспособное качество, сохраняя при этом низкие вычисления на токен.
* Ling mini 2.0 имеет 16 млрд общих параметров, активирует 1,4 млрд на токен и, как сообщается, работает в диапазоне 7–8 млрд плотных моделей.
* Ling flash 2.0 использует тот же рецепт, имеет 100 млрд и активирует 6,1 млрд на токен.
* Ling 1T — это флагманская модель без мышления, она имеет 1 трлн общих параметров и около 50 млрд активных на токен, сохраняя разреженность 1/32 и распространяя те же законы масштабирования Ling до триллионного масштаба.
Ключевые выводы
* Ling 2.0 построена на основе архитектуры MoE с активацией 1/32, выбранной с помощью законов масштабирования Ling, так что 256 направленных экспертов плюс 1 общий эксперт остаются оптимальными от 16B до 1T.
* Ling mini 2.0 имеет 16 млрд общих параметров с 1,4 млрд активированных на токен и, как сообщается, соответствует плотным моделям от 7B до 8B, генерируя более 300 токенов в секунду в простом QA на H20.
* Ling flash 2.0 использует тот же рецепт, имеет 6,1 млрд активных параметров и находится в диапазоне 100B, предоставляя более мощный вариант без увеличения вычислений на токен.
* Ling 1T раскрывает полный дизайн: 1 трлн общих параметров с примерно 50 млрд активных на токен, контекст 128K и стек пост-тренинга в стиле Evo CoT плюс LPO для продвижения эффективного рассуждения.
На всех размерах эффективность в 7 раз выше плотных базовых показателей достигается за счёт сочетания разреженной активации, обучения в FP8 и общего графика обучения, поэтому качество масштабируется предсказуемо без перенастройки вычислений.
Редакционные комментарии
Этот выпуск демонстрирует полный стек разреженных MoE. Законы масштабирования Ling определяют активацию 1/32 как оптимальную, архитектура фиксирует 256 направленных экспертов плюс 1 общий эксперт, и та же форма используется от 16B до 1T. Обучение, расширение контекста и оптимизация предпочтений согласованы с этим выбором, поэтому малая активация не блокирует математику, код или длинный контекст, а FP8 плюс гетерогенные конвейеры удерживают затраты в практическом диапазоне.
Это чёткий сигнал о том, что рассуждения триллионного масштаба могут быть организованы вокруг фиксированной разреженности, а не за счёт растущих плотных вычислений.
1. Какие основные принципы лежат в основе создания серии языковых моделей Ling 2.0?
Ответ: серия языковых моделей Ling 2.0 основана на принципе, согласно которому каждая активация должна приводить к улучшению способности к рассуждениям.
2. Какие версии серии Ling 2.0 представлены и каковы их основные характеристики?
Ответ: серия Ling 2.0 включает в себя три версии: Ling mini 2.0 (16B всего с 1,4B активированных), Ling flash 2.0 (в классе 100B с 6,1B активированных) и Ling 1T (1T всего и около 50B активных на токен).
3. Как достигается повышение эффективности в серии Ling 2.0 по сравнению с эквивалентной плотной моделью?
Ответ: повышение эффективности в серии Ling 2.0 достигается за счёт использования разреженного слоя Mixture of Experts (MoE), который позволяет обучать и обслуживать только небольшую часть сети на токен, сохраняя при этом очень большой пул параметров.
4. Какие улучшения вносит Ling 2.0 на четырёх уровнях стека?
Ответ: Ling 2.0 вносит согласованные улучшения на четырёх уровнях стека: архитектура модели, предварительное обучение, пост-тренинг и инфраструктура. На уровне архитектуры модели используется архитектура, выбранная с использованием законов масштабирования Ling. На уровне предварительного обучения серия обучена на более чем 20 триллионах токенов. На уровне пост-тренинга согласование разделено на этап проверки возможностей и этап проверки предпочтений. На уровне инфраструктуры Ling 2.0 обучается изначально в FP8 с защитными мерами, поддерживая кривую потерь в небольшом диапазоне BF16.
5. Какие ключевые выводы можно сделать о серии Ling 2.0?
Ответ: ключевые выводы о серии Ling 2.0 включают в себя то, что она построена на основе архитектуры MoE с активацией 1/32, выбранной с помощью законов масштабирования Ling, и что эффективность в 7 раз выше плотных базовых показателей достигается за счёт сочетания разреженной активации, обучения в FP8 и общего графика обучения.
