Лаборатория Microsoft AI представляет MAI-Voice-1 и MAI-1-Preview: новые внутренние модели для голосового ИИ

Лаборатория Microsoft AI официально запустила модели MAI-Voice-1 и MAI-1-Preview, что знаменует новый этап в исследованиях и разработках компании в области искусственного интеллекта. В объявлении поясняется, как Microsoft AI Lab участвует в исследованиях ИИ без привлечения третьих сторон. Модели MAI-Voice-1 и MAI-1-Preview выполняют различные, но дополняющие друг друга функции в области синтеза речи и понимания языка общего назначения.

Технические детали и возможности MAI-Voice-1

MAI-Voice-1 — это модель генерации речи, которая создаёт аудио высокой точности. Она генерирует одну минуту естественно звучащего аудио менее чем за одну секунду с использованием одного GPU, поддерживая такие приложения, как интерактивные помощники и озвучивание подкастов с низкой задержкой и минимальными требованиями к оборудованию.

Модель использует архитектуру на основе трансформера, обученную на разнообразном многоязычном наборе данных речи. Она обрабатывает сценарии с одним и несколькими дикторами, обеспечивая выразительную и соответствующую контексту голосовую озвучку.

MAI-Voice-1 интегрирована в продукты Microsoft, такие как Copilot Daily, для голосовых обновлений и сводок новостей. Она доступна для тестирования в Copilot Labs, где пользователи могут создавать аудиорассказы или управляемые повествования по текстовым подсказкам.

Технически модель ориентирована на качество, универсальность и скорость. Её работа на одном GPU отличает её от систем, требующих нескольких GPU, что позволяет интегрировать её в потребительские устройства и облачные приложения за пределами исследовательских условий.

Архитектура и производительность MAI-1-Preview

MAI-1-Preview — это первая комплексная базовая языковая модель Microsoft, разработанная собственными силами. В отличие от предыдущих моделей, которые Microsoft интегрировала или лицензировала извне, MAI-1-Preview была обучена полностью на собственной инфраструктуре Microsoft с использованием архитектуры «смесь экспертов» и примерно 15 000 графических процессоров NVIDIA H100.

Команда Microsoft AI разместила MAI-1-Preview на платформе LMArena рядом с несколькими другими моделями. MAI-1-Preview оптимизирована для выполнения инструкций и повседневных разговорных задач, что делает её пригодной для приложений, ориентированных на потребителя, а не для корпоративных или узкоспециализированных сценариев использования.

Microsoft начала предоставлять доступ к модели для некоторых текстовых сценариев в Copilot, планируя постепенное расширение по мере сбора отзывов и доработки системы.

Инфраструктура разработки и обучения

Разработка MAI-Voice-1 и MAI-1-Preview поддерживалась кластером GPU следующего поколения GB200, специально оптимизированной инфраструктурой для обучения крупных генеративных моделей. Помимо аппаратного обеспечения, Microsoft вложила значительные средства в таланты, собрав команду с глубоким опытом в области генеративного ИИ, синтеза речи и крупномасштабного системного инжиниринга.

Подход компании к разработке моделей подчёркивает баланс между фундаментальными исследованиями и практическим внедрением, стремясь создавать системы, которые не только теоретически впечатляют, но и надёжны и полезны в повседневных сценариях.

Приложения

MAI-Voice-1 может использоваться для голосовой помощи в реальном времени, создания аудиоконтента в СМИ и образовании или функций доступности. Её способность имитировать нескольких дикторов поддерживает использование в интерактивных сценариях, таких как рассказывание историй, изучение языков или симуляция разговоров. Эффективность модели также позволяет её развёртывать на потребительском оборудовании.

MAI-1-Preview ориентирована на общее понимание и генерацию языка, помогая с такими задачами, как составление электронных писем, ответы на вопросы, обобщение текста или помощь в понимании и выполнении школьных заданий в разговорном формате.

Заключение

Выпуск Microsoft MAI-Voice-1 и MAI-1-Preview показывает, что компания теперь может разрабатывать основные генеративные модели ИИ собственными силами, опираясь на значительные инвестиции в инфраструктуру обучения и технические таланты. Обе модели предназначены для практического использования в реальных условиях и совершенствуются с учётом отзывов пользователей.

Этот проект добавляет разнообразия в архитектуры моделей и методы обучения в этой области, уделяя особое внимание созданию систем, которые эффективны, надёжны и подходят для интеграции в повседневные приложения. Подход Microsoft — использование крупномасштабных ресурсов, постепенное развёртывание и прямое взаимодействие с пользователями — является примером того, как организации могут развивать возможности ИИ, делая акцент на практических, постепенных улучшениях.

1. Какие функции выполняют модели MAI-Voice-1 и MAI-1-Preview?

* MAI-Voice-1 — это модель генерации речи, которая создаёт аудио высокой точности. Она генерирует одну минуту естественно звучащего аудио менее чем за одну секунду с использованием одного GPU, поддерживая такие приложения, как интерактивные помощники и озвучивание подкастов с низкой задержкой и минимальными требованиями к оборудованию.
* MAI-1-Preview — это первая комплексная базовая языковая модель Microsoft, разработанная собственными силами. Она оптимизирована для выполнения инструкций и повседневных разговорных задач, что делает её пригодной для приложений, ориентированных на потребителя.

2. Какие технические характеристики отличают модель MAI-Voice-1 от других систем генерации речи?

* MAI-Voice-1 использует архитектуру на основе трансформера, обученную на разнообразном многоязычном наборе данных речи. Она обрабатывает сценарии с одним и несколькими дикторами, обеспечивая выразительную и соответствующую контексту голосовую озвучку. Модель ориентирована на качество, универсальность и скорость. Её работа на одном GPU отличает её от систем, требующих нескольких GPU, что позволяет интегрировать её в потребительские устройства и облачные приложения за пределами исследовательских условий.

3. Какие задачи может решать модель MAI-1-Preview?

* MAI-1-Preview оптимизирована для выполнения инструкций и повседневных разговорных задач, что делает её пригодной для приложений, ориентированных на потребителя. Она может использоваться для составления электронных писем, ответов на вопросы, обобщения текста или помощи в понимании и выполнении школьных заданий в разговорном формате.

4. Какие ресурсы и инфраструктура использовались для разработки MAI-Voice-1 и MAI-1-Preview?

* Разработка MAI-Voice-1 и MAI-1-Preview поддерживалась кластером GPU следующего поколения GB200, специально оптимизированной инфраструктурой для обучения крупных генеративных моделей. Помимо аппаратного обеспечения, Microsoft вложила значительные средства в таланты, собрав команду с глубоким опытом в области генеративного ИИ, синтеза речи и крупномасштабного системного инжиниринга.

5. Какие приложения могут использовать модели MAI-Voice-1 и MAI-1-Preview?

* MAI-Voice-1 может использоваться для голосовой помощи в реальном времени, создания аудиоконтента в СМИ и образовании или функций доступности. Её способность имитировать нескольких дикторов поддерживает использование в интерактивных сценариях, таких как рассказывание историй, изучение языков или симуляция разговоров.
* MAI-1-Preview ориентирована на общее понимание и генерацию языка, помогая с такими задачами, как составление электронных писем, ответы на вопросы, обобщение текста или помощь в понимании и выполнении школьных заданий в разговорном формате.

Источник