Mistral AI выпускает серию Magistral: продвинутые модели больших языковых моделей для корпоративных и открытых приложений

Компания Mistral AI официально представила серию Magistral — новейшие модели больших языковых моделей (LLM), оптимизированные для рассуждений. Это значительный шаг вперёд в развитии возможностей LLM.

Серия Magistral включает:
* Magistral Small — модель с 24 миллиардами параметров, открытая для общего доступа под лицензией Apache 2.0.
* Magistral Medium — проприетарный вариант для корпоративного сегмента.

С запуском Magistral Mistral укрепляет свои позиции на мировой арене искусственного интеллекта, уделяя особое внимание рассуждениям в режиме вывода.

Ключевые особенности Magistral: переход к структурированным рассуждениям

1. Управление цепочкой мыслей (Chain-of-Thought Supervision).
Обе модели оптимизированы с помощью техники Chain-of-Thought (CoT), которая позволяет пошагово генерировать промежуточные выводы. Это повышает точность, интерпретируемость и надёжность. Особенно важно это для задач многошагового рассуждения, распространённых в математике, юридическом анализе и решении научных задач.

2. Поддержка многоязычного рассуждения (Multilingual Reasoning Support).
Magistral Small изначально поддерживает несколько языков, включая французский, испанский, арабский и упрощённый китайский. Это расширяет возможности применения модели в глобальном контексте.

3. Открытый и проприетарный варианты развёртывания (Open vs Proprietary Deployment).
Magistral Small доступен публично через Hugging Face. Он предназначен для исследований, кастомизации и коммерческого использования без лицензионных ограничений.

Magistral Medium оптимизирован для развёртывания в реальном времени через облако Mistral и API-сервисы. Эта модель обеспечивает повышенную пропускную способность и масштабируемость.

4. Результаты тестирования (Benchmark Results).
Внутренние оценки показывают точность Magistral Medium на уровне 73,6% на AIME2024, которая возрастает до 90% при использовании мажоритарного голосования. Magistral Small достигает 70,7%, увеличиваясь до 83,3% при аналогичных конфигурациях ансамбля.

5. Пропускная способность и задержка (Throughput and Latency).
Скорость вывода достигает 1000 токенов в секунду, что обеспечивает высокую пропускную способность. Модель оптимизирована для сред с чувствительностью к задержкам.

Архитектура модели

В технической документации Mistral подчёркивается разработка собственного конвейера тонкой настройки с использованием методов обучения с подкреплением (Reinforcement Learning, RL). Вместо использования существующих шаблонов RLHF инженеры Mistral разработали собственную систему, оптимизированную для обеспечения согласованности и высокого качества рассуждений.

Кроме того, модели оснащены механизмами, которые явно направляют генерацию шагов рассуждения — это называется «выравнивание языка рассуждений». Это обеспечивает согласованность сложных выходных данных. Архитектура поддерживает совместимость с инструкционной настройкой, пониманием кода и примитивами вызова функций из семейства базовых моделей Mistral.

Влияние на отрасль и будущая траектория

Внедрение в корпоративном секторе:
Благодаря расширенным возможностям рассуждений и многоязычной поддержке Magistral хорошо подходит для развёртывания в регулируемых отраслях, таких как здравоохранение, финансы и юридические технологии.

Эффективность модели:
Сосредоточившись на рассуждениях в режиме вывода, а не на простом масштабировании, Mistral отвечает растущему спросу на эффективные модели. Эти эффективные модели не требуют чрезмерных вычислительных ресурсов.

Стратегическая дифференциация:
Двухуровневая стратегия выпуска — открытая и проприетарная — позволяет Mistral одновременно обслуживать сообщество разработчиков с открытым исходным кодом и корпоративный рынок.

Открытые тесты:
Хотя первоначальные показатели производительности основаны на внутренних наборах данных, публичное тестирование будет иметь решающее значение. Платформы, такие как MMLU, GSM8K и Big-Bench-Hard, помогут определить более широкую конкурентоспособность серии.

Заключение

Серия Magistral демонстрирует переход от превосходства в масштабе параметров к оптимизации рассуждений. Благодаря технической строгости, многоязычному охвату и приверженности принципам открытого исходного кода модели Mistral AI представляют собой важный переломный момент в разработке LLM.

Серия Magistral предлагает своевременную высокопроизводительную альтернативу, основанную на прозрачности, эффективности и лидерстве в области искусственного интеллекта в Европе.

Источник

Оставьте комментарий