Apriel-5B: инновационное семейство малых языковых моделей от ServiceNow AI

По мере увеличения размера и сложности языковых моделей растут и требования к ресурсам, необходимым для их обучения и использования. Хотя крупномасштабные модели демонстрируют впечатляющие результаты в различных тестах, они часто недоступны для многих организаций из-за ограничений инфраструктуры и высоких операционных затрат. Этот разрыв между возможностями и практическим применением представляет собой серьёзную проблему, особенно для предприятий, стремящихся внедрить языковые модели в системы реального времени или в среды с ограниченным бюджетом.

В последние годы малые языковые модели (СЯМ) стали потенциальным решением, предлагая сниженные требования к памяти и вычислительным ресурсам без полного ущерба для производительности. Однако многие СЯМ struggle to provide consistent results across diverse tasks, and their design often involves trade-offs that limit generalization or usability («зачастую не могут обеспечить стабильные результаты при выполнении разнообразных задач, а их архитектура нередко предполагает компромиссы, ограничивающие обобщающую способность или удобство использования»).

ServiceNow AI выпускает Apriel-5B: шаг к практическому ИИ в масштабных проектах

Чтобы решить эти проблемы, ServiceNow AI выпустила Apriel-5B — новое семейство малых языковых моделей, разработанных с акцентом на скорость логического вывода, эффективность обучения и универсальность в разных областях. Имея 4,8 миллиарда параметров, Apriel-5B достаточно мал для развёртывания на скромном оборудовании, но при этом показывает конкурентоспособные результаты в ряде задач, требующих следования инструкциям и рассуждений.

Семейство Apriel включает две версии:
* Apriel-5B-Base — предварительно обученная модель, предназначенная для дальнейшего настройки или встраивания в конвейеры.
* Apriel-5B-Instruct — версия, настроенная на выполнение инструкций, подходящая для чата, рассуждений и выполнения задач.

Обе модели выпущены под лицензией MIT, что поддерживает открытые эксперименты и более широкое распространение в исследовательских и коммерческих проектах.

Архитектурное проектирование и технические особенности

Apriel-5B был обучен на наборе данных, состоящем из более чем 4,5 триллионов токенов, тщательно сконструированном для охвата нескольких категорий задач, включая понимание естественного языка, рассуждения и многоязычные возможности. Модель использует плотную архитектуру, оптимизированную для эффективности логического вывода, с такими ключевыми техническими особенностями, как:
* rotary positional embeddings (RoPE) с контекстным окном в 8192 токена, поддерживающие задачи с длинными последовательностями;
* FlashAttention-2, обеспечивающий более быстрое вычисление внимания и улучшенное использование памяти;
* grouped-query attention (GQA), сокращающий накладные расходы памяти во время авторегрессионного декодирования;
* обучение в BFloat16, которое обеспечивает совместимость с современными ускорителями при сохранении числовой стабильности.

Эти архитектурные решения позволяют Apriel-5B сохранять отзывчивость и скорость без необходимости использования специализированного оборудования или обширной параллелизации. Версия, настроенная на выполнение инструкций, была дообучена с использованием тщательно подобранных наборов данных и методов под наблюдением, что позволяет ей хорошо справляться с рядом задач, требующих следования инструкциям, при минимальном количестве подсказок.

Оценка и сравнение с бенчмарками

Apriel-5B-Instruct был оценён по сравнению с несколькими широко используемыми открытыми моделями, включая Meta’s LLaMA 3.1–8B, Allen AI’s OLMo-2–7B и Mistral-Nemo-12B. Несмотря на меньший размер, Apriel показывает конкурентоспособные результаты во многих тестах:
* превосходит OLMo-2–7B-Instruct и Mistral-Nemo-12B-Instruct в среднем по задачам общего назначения;
* демонстрирует более высокие результаты, чем LLaMA-3.1–8B-Instruct, в задачах, ориентированных на математику, и в IF Eval, который оценивает последовательность выполнения инструкций;
* требует значительно меньше вычислительных ресурсов — в 2,3 раза меньше часов работы GPU, чем OLMo-2–7B, что подчёркивает его эффективность обучения.

Эти результаты свидетельствуют о том, что Apriel-5B находит продуктивный баланс между лёгкостью развёртывания и универсальностью задач, особенно в областях, где важны производительность в реальном времени и ограниченные ресурсы.

Заключение: практическое дополнение к экосистеме моделей

Apriel-5B представляет собой вдумчивый подход к проектированию малых моделей, подчёркивающий баланс, а не масштаб. Сосредоточившись на скорости логического вывода, эффективности обучения и основных показателях следования инструкциям, ServiceNow AI создала семейство моделей, которые легко развёртываются, адаптируются к различным случаям использования и открыто доступны для интеграции.

Высокая производительность Apriel-5B в математических и логических тестах в сочетании с разрешительной лицензией и эффективным профилем вычислений делает его привлекательным выбором для команд, внедряющих возможности ИИ в продукты, агентов или рабочие процессы. В области, где всё больше внимания уделяется доступности и применимости в реальном мире, Apriel-5B является практичным шагом вперёд.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *