Mistral AI выпустила обновлённую модель Mistral Small 3.2

Основные улучшения:
* более точное выполнение инструкций;
* снижение количества повторяющихся ошибок;
* повышение стабильности при вызове функций.

Новые возможности модели Mistral Small 3.2

С частым выпуском новых больших языковых моделей (LLM) разработчики постоянно совершенствуют их возможности, чтобы обеспечить плавную интеграцию в различных реальных сценариях.

Mistral AI выпустила обновлённую версию своей предыдущей модели — Mistral Small 3.2 (Mistral-Small-3.2-24B-Instruct-2506). Хотя это незначительный релиз, Mistral Small 3.2 включает фундаментальные обновления, направленные на повышение общей надёжности и эффективности модели, особенно при обработке сложных инструкций, избегании избыточных результатов и поддержании стабильности в сценариях вызова функций.

Значимые улучшения в Mistral Small 3.2:
* Точность выполнения инструкций. Успешное взаимодействие с пользователем часто требует точности при выполнении тонких команд. Показатели тестов точно отражают это улучшение: в тесте Wildbench v2 модель Mistral Small 3.2 достигла точности 65,33%, что является улучшением по сравнению с 55,6% у её предшественника.
* Снижение ошибок повторения. Mistral Small 3.2 значительно сокращает количество бесконечных или повторяющихся результатов, что является распространённой проблемой в длинных диалоговых сценариях. Внутренние оценки показывают, что Small 3.2 эффективно сокращает количество ошибок бесконечной генерации вдвое — с 2,11% в Small 3.1 до 1,29%.
* Улучшенная надёжность при вызове функций. Новая модель также демонстрирует большую способность вызывать функции, что делает её идеальной для задач автоматизации. Улучшенная надёжность в шаблонах вызова функций обеспечивает более стабильное и надёжное взаимодействие.

Результаты тестов, связанных с STEM:
* Точность в тесте HumanEval Plus Pass@5 увеличилась с 88,99% в Small 3.1 до 92,90%.
* Результаты теста MMLU Pro увеличились с 66,76% до 69,06%.
* Оценки GPQA Diamond улучшились с 45,96% до 46,13%, что свидетельствует об общей компетентности в научных и технических областях.

Результаты тестов, основанных на визуальных данных, были непоследовательными:
* Точность ChartQA улучшилась с 86,24% до 87,4%.
* DocVQA незначительно улучшился с 94,08% до 94,86%.

Некоторые тесты, такие как MMMU и Mathvista, испытали небольшие снижения, что указывает на специфические компромиссы, возникшие в процессе оптимизации.

Ключевые обновления в Mistral Small 3.2 по сравнению с Small 3.1 включают:
* Повышенную точность выполнения инструкций, при этом точность Wildbench v2 выросла с 55,6% до 65,33%.
* Снижение ошибок повторения, сокращение бесконечных генераций с 2,11% до 1,29%.
* Улучшение надёжности в шаблонах вызова функций, что обеспечивает более стабильную интеграцию.
* Заметное повышение производительности в STEM-областях, особенно в HumanEval Plus Pass@5 (92,90%) и MMLU Pro (69,06%).

В заключение, Mistral Small 3.2 предлагает целенаправленные и практические улучшения по сравнению с предшественником, предоставляя пользователям более высокую точность, снижение избыточности и улучшенные возможности интеграции. Эти достижения помогают позиционировать модель как надёжный выбор для сложных задач, управляемых искусственным интеллектом, в различных областях применения.

Ознакомьтесь с карточкой модели на Hugging Face. Все заслуги за это исследование принадлежат исследователям проекта. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.

Источник

Оставьте комментарий