Cohere AI Labs выпустила Tiny Aya — семейство небольших языковых моделей (SLMs), которые переопределяют возможности многоязычного общения. В то время как многие модели масштабируются за счёт увеличения параметров, Tiny Aya использует архитектуру с 3,35 миллиарда параметров для обеспечения передовых технологий перевода и генерации на 70 языках.
В релиз вошли 5 моделей:
* Tiny Aya Base (предварительно обученная);
* Tiny Aya Global (сбалансированная по инструкциям);
* три варианта для конкретных регионов — Earth (Африка/Западная Азия), Fire (Южная Азия) и Water (Азиатско-Тихоокеанский регион/Европа).
Архитектура
Tiny Aya построена на основе плотной архитектуры Transformer только с декодером. Ключевые характеристики включают:
* Параметры: 3,35 миллиарда (2,8 миллиарда без встраивания).
* Слои: 36.
* Словарь: 262 тысячи токенов, разработанных для справедливого представления языков.
* Внимание: перемежающееся скользящее окно и полное внимание (соотношение 3:1) с сгруппированным запросом внимания (GQA).
* Контекст: 8192 токена для ввода и вывода.
Модель была предварительно обучена на 6 триллионах токенов по графику Warmup-Stable-Decay (WSD). Для поддержания стабильности команда использовала активации SwiGLU и удалила все смещения из плотных слоёв.
Продвинутая постобработка: FUSION и SimMerge
Чтобы сократить разрыв в языках с ограниченными ресурсами, Cohere использовала конвейер синтетических данных.
* Fusion-of-N (FUSION): запросы отправляются «команде учителей» (COMMAND A, GEMMA3-27B-IT, DEEPSEEK-V3). Модель-судья Fusor извлекает и объединяет наиболее сильные компоненты их ответов.
* Региональная специализация: модели были дообучена на 5 региональных кластерах (например, Южная Азия, Африка).
* SimMerge: чтобы предотвратить «катастрофическое забывание» глобальной безопасности, региональные контрольные точки были объединены с глобальной моделью с помощью SimMerge, который выбирает лучших операторов слияния на основе сигналов сходства.
Показатели производительности
Tiny Aya Global последовательно превосходит более крупные или сопоставимые по масштабу модели-конкуренты в многоязычных задачах:
* Перевод: модель превосходит GEMMA3-4B на 46 из 61 языков в WMT24++.
* Рассуждения: в математическом бенчмарке GlobalMGSM для африканских языков Tiny Aya достигла 39,2% точности, превзойдя GEMMA3-4B (17,6%) и QWEN3-4B (6,25%).
* Безопасность: модель демонстрирует наивысший средний показатель безопасных ответов (91,1%) в MultiJail.
* Языковая целостность: модель достигает 94% языковой точности, что означает, что она редко переключается на английский, когда требуется ответить на другом языке.
Развёртывание на устройствах
Tiny Aya оптимизирована для периферийных вычислений. Используя 4-битную квантизацию (Q4KM), модель занимает 2,14 ГБ памяти.
* iPhone 13: 10 токенов/с.
* iPhone 17 Pro: 32 токена/с.
Такая схема квантизации приводит к минимальному падению качества генерации на 1,4 пункта, что делает её жизнеспособным решением для автономных, частных и локализованных приложений искусственного интеллекта.
Ключевые выводы
* Эффективная многоязычная мощность: Tiny Aya — это семейство моделей с 3,35 миллиарда параметров, которое обеспечивает передовые технологии перевода и высококачественную генерацию на 70 языках. Это доказывает, что для высокой многоязычной производительности не требуется массовый масштаб, если модели разработаны с учётом целенаправленного курирования данных.
* Инновационный тренировочный конвейер: модели были разработаны с использованием новой стратегии, включающей Fusion-of-N (FUSION), где «команда учителей» (например, Command A и DeepSeek-V3) генерировала синтетические данные. Модель-судья затем объединяла наиболее сильные компоненты для обеспечения высококачественных обучающих сигналов даже для языков с ограниченными ресурсами.
* Региональная специализация через слияние: Cohere выпустила специализированные варианты — Tiny Aya Earth, Fire и Water, — которые настроены для конкретных регионов, таких как Африка, Южная Азия и Азиатско-Тихоокеанский регион. Они были созданы путём слияния региональных дообученных моделей с глобальной моделью с помощью SimMerge для сохранения безопасности при одновременном повышении производительности на местных языках.
* Превосходная производительность в бенчмарках: Tiny Aya Global превосходит конкурентов, таких как Gemma3-4B, по качеству перевода на 46 из 61 языка в WMT24++. Она также значительно сокращает различия в математических рассуждениях для африканских языков, достигая 39,2% точности по сравнению с 17,6% у Gemma3-4B.
* Оптимизирована для развёртывания на устройствах: модель отличается высокой мобильностью и эффективно работает на периферийных устройствах; она обеспечивает ~10 токенов/с на iPhone 13 и 32 токена/с на iPhone 17 Pro с использованием 4-битной квантизации Q4KM. Этот формат 4-битной квантизации обеспечивает высокое качество с минимальным падением качества на 1,4 пункта.
Ознакомьтесь с техническими деталями, статьёй, весами моделей и площадкой. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit, подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие ключевые характеристики архитектуры Tiny Aya и как они способствуют её эффективности?
Ключевые характеристики архитектуры Tiny Aya включают:
* 3,35 миллиарда параметров (2,8 миллиарда без встраивания).
* 36 слоёв.
* Словарь из 262 тысяч токенов.
* Перемежающееся скользящее окно и полное внимание (соотношение 3:1) с сгруппированным запросом внимания (GQA).
* Контекст на 8192 токена для ввода и вывода.
2. Какие модели входят в релиз Tiny Aya и для каких регионов они адаптированы?
В релиз Tiny Aya вошли 5 моделей:
* Tiny Aya Base (предварительно обученная).
* Tiny Aya Global (сбалансированная по инструкциям).
* Три варианта для конкретных регионов — Earth (Африка/Западная Азия), Fire (Южная Азия) и Water (Азиатско-Тихоокеанский регион/Европа).
3. Какие показатели производительности демонстрирует Tiny Aya Global по сравнению с другими моделями?
Tiny Aya Global последовательно превосходит более крупные или сопоставимые по масштабу модели-конкуренты в многоязычных задачах. Показатели производительности включают:
* Перевод: модель превосходит GEMMA3-4B на 46 из 61 языков в WMT24++.
* Рассуждения: в математическом бенчмарке GlobalMGSM для африканских языков Tiny Aya достигла 39,2% точности, превзойдя GEMMA3-4B (17,6%) и QWEN3-4B (6,25%).
* Безопасность: модель демонстрирует наивысший средний показатель безопасных ответов (91,1%) в MultiJail.
* Языковая целостность: модель достигает 94% языковой точности.
4. Как Tiny Aya оптимизирована для развёртывания на устройствах?
Tiny Aya оптимизирована для периферийных вычислений. Используя 4-битную квантизацию (Q4KM), модель занимает 2,14 ГБ памяти. Это делает её жизнеспособным решением для автономных, частных и локализованных приложений искусственного интеллекта. На iPhone 13 модель обеспечивает 10 токенов/с, а на iPhone 17 Pro — 32 токена/с.