Microsoft выпускает модель Phi-4-mini-Flash-Reasoning: эффективное долгосрочное рассуждение с компактной архитектурой

Phi-4-mini-Flash-Reasoning — это новая модель семейства Phi-4 от Microsoft. Она представляет собой открытую, лёгкую языковую модель, разработанную для эффективного долгосрочного рассуждения при сохранении высокой производительности при выводе.

Модель выпущена на Hugging Face. Она имеет 3,8 миллиарда параметров и представляет собой дистиллированную версию Phi-4-mini, настроенную для решения сложных задач, таких как решение математических задач и ответы на вопросы, требующие нескольких шагов.

Архитектура: Gated Memory встречает гибридное декодирование

В основе Phi-4-mini-Flash-Reasoning лежит архитектура SambaY — новая модель гибридного декодера, которая объединяет модели пространства состояний (SSM) со слоями внимания с помощью лёгкого механизма под названием Gated Memory Unit (GMU).

Эта структура обеспечивает эффективное совместное использование памяти между слоями, значительно сокращая задержки при выводе в сценариях с долгосрочным контекстом и долгосрочным генерированием.

В отличие от архитектур на основе Transformer, которые в значительной степени полагаются на ресурсоёмкие вычисления с памятью, SambaY использует Samba (гибридную архитектуру SSM) в самодекодере и заменяет примерно половину слоёв кросс-внимания в кросс-декодере на GMU.

GMU служат дешёвыми поточными функциями, которые повторно используют скрытое состояние из последнего слоя SSM, избегая таким образом избыточных вычислений. Это приводит к линейной сложности предварительного заполнения и снижению ввода-вывода при декодировании, что обеспечивает существенное ускорение во время вывода.

Этапы обучения и возможности рассуждения

Модель Phi-4-mini-Flash предварительно обучена на 5 триллионах токенов из высококачественных синтетических и отфильтрованных реальных данных. После предварительного обучения она проходит многоэтапную тонкую настройку под контролем (SFT) и прямую оптимизацию предпочтений (DPO) с использованием наборов данных инструкций, ориентированных на рассуждения.

Примечательно, что, в отличие от Phi-4-mini-Reasoning, она полностью исключает обучение с подкреплением (RLHF).

Несмотря на это, Phi-4-mini-Flash-Reasoning превосходит Phi-4-mini-Reasoning в наборе сложных задач на рассуждение. В бенчмарке Math500 она достигает точности pass@1 92,45%, превосходя Phi-4-mini-Reasoning (91,2%) и другие открытые модели, такие как Qwen-1.5B и Bespoke-Stratos-7B.

В AIME24/25 модель также демонстрирует значительные улучшения, достигая более 52% точности в AIME24. Этот скачок производительности объясняется способностью архитектуры генерировать длинные цепочки мыслей (CoT).

Эффективная обработка долгосрочного контекста

Благодаря гибридному дизайну декодера модель достигает конкурентной производительности в тестах долгосрочного контекста, таких как Phonebook и RULER. Например, при размере скользящего окна внимания (SWA) всего 256 она поддерживает высокую точность извлечения, что указывает на то, что долгосрочные зависимости токенов хорошо улавливаются с помощью SSM и совместного использования памяти на основе GMU.

Эти архитектурные инновации приводят к снижению вычислительных и ресурсных затрат. Например, во время декодирования слои GMU заменяют операции внимания, которые в противном случае потребовали бы времени O(N·d) на токен, сокращая это до O(d), где N — длина последовательности, а d — скрытая размерность.

В результате модель способна работать в режиме реального времени даже в сценариях с несколькими поворотами или на уровне документов.

Открытые веса и варианты использования

Microsoft открыла исходные коды модели и настройки через Hugging Face, предоставив полный доступ сообществу. Модель поддерживает длину контекста 64K, работает в стандартных средах Hugging Face и vLLM и оптимизирована для быстрой обработки токенов на GPU A100.

Потенциальные варианты использования Phi-4-mini-Flash-Reasoning включают:
* математические рассуждения (например, SAT, задачи уровня AIME);
* многоэтапное решение вопросов;
* анализ юридических и научных документов;
* автономные агенты с долгосрочной памятью;
* системы чата с высокой пропускной способностью.

Сочетание открытого доступа, способности к рассуждению и эффективного вывода делает её сильным кандидатом для развёртывания в средах, где вычислительные ресурсы ограничены, но сложность задач высока.

Заключение

Phi-4-mini-Flash-Reasoning демонстрирует, как архитектурные инновации — особенно гибридные модели, использующие SSM и эффективное управление потоками данных — могут привести к значительным улучшениям в производительности рассуждений без увеличения размера или стоимости модели.

Это знаменует новое направление в эффективном долгосрочном языковом моделировании, открывая путь для агентов рассуждений в режиме реального времени и масштабируемых открытых альтернатив коммерческим LLM.

1. Какие преимущества предлагает модель Phi-4-mini-Flash-Reasoning по сравнению с другими языковыми моделями?

Модель Phi-4-mini-Flash-Reasoning предлагает несколько преимуществ, включая эффективное долгосрочное рассуждение, высокую производительность при выводе и сокращение задержек при работе с долгосрочным контекстом. Она также имеет более низкую вычислительную сложность и ресурсные затраты благодаря использованию гибридного декодера и механизма Gated Memory Unit (GMU).

2. Какие задачи может решать модель Phi-4-mini-Flash-Reasoning?

Модель Phi-4-mini-Flash-Reasoning может решать сложные задачи, требующие многоэтапного рассуждения, такие как математические задачи, анализ юридических и научных документов, а также многоэтапное решение вопросов. Она также подходит для использования в автономных агентах с долгосрочной памятью и в системах чата с высокой пропускной способностью.

3. Какие архитектурные инновации используются в модели Phi-4-mini-Flash-Reasoning?

В модели Phi-4-mini-Flash-Reasoning используется архитектура SambaY, которая объединяет модели пространства состояний (SSM) со слоями внимания с помощью механизма Gated Memory Unit (GMU). Это позволяет эффективно использовать память между слоями и сокращает задержки при выводе в сценариях с долгосрочным контекстом.

4. Как модель Phi-4-mini-Flash-Reasoning обучается и настраивается?

Модель Phi-4-mini-Flash предварительно обучена на 5 триллионах токенов из высококачественных синтетических и отфильтрованных реальных данных. После предварительного обучения она проходит многоэтапную тонкую настройку под контролем (SFT) и прямую оптимизацию предпочтений (DPO) с использованием наборов данных инструкций, ориентированных на рассуждения.

5. Какие потенциальные варианты использования модели Phi-4-mini-Flash-Reasoning в различных областях?

Потенциальные варианты использования модели Phi-4-mini-Flash-Reasoning включают математические рассуждения (например, SAT, задачи уровня AIME), многоэтапное решение вопросов, анализ юридических и научных документов, автономные агенты с долгосрочной памятью и системы чата с высокой пропускной способностью.

Источник

Оставьте комментарий