Команда Google Magenta представила Magenta RealTime (Magenta RT) — модель для генерации музыки в реальном времени с открытым весом. Она обеспечивает беспрецедентную интерактивность при создании аудио.
Модель Magenta RT лицензирована под Apache 2.0 и доступна на GitHub и Hugging Face. Это первая крупномасштабная модель для генерации музыки, которая поддерживает вывод в реальном времени с динамическими, управляемыми пользователем подсказками стиля.
Основы генерации музыки в реальном времени
Контроль в реальном времени и интерактивность в прямом эфире являются основой музыкального творчества. Хотя предыдущие проекты Magenta, такие как Piano Genie и DDSP, делали упор на выразительный контроль и моделирование сигналов, Magenta RT расширяет эти возможности до синтеза звука в полном спектре.
Она устраняет разрыв между генеративными моделями и композицией с участием человека, обеспечивая мгновенную обратную связь и динамическую эволюцию музыки.
Magenta RT основана на методах моделирования MusicLM и MusicFX. Однако, в отличие от их API- или пакетных режимов генерации, Magenta RT поддерживает потоковый синтез с коэффициентом опережения в реальном времени (RTF) >1 — это означает, что она может генерировать звук быстрее, чем в реальном времени, даже на TPU бесплатного уровня в Google Colab.
Технический обзор
Magenta RT — это языковая модель на основе трансформера, обученная на дискретных аудиотокенах. Эти токены создаются с помощью нейронного аудиокодека, который работает со стереофонической точностью 48 кГц.
Модель использует архитектуру трансформера с 800 миллионами параметров, оптимизированную для:
* потоковой генерации аудиосегментов по 2 секунды;
* временной адаптации с окном аудиоистории в 10 секунд;
* мультимодального управления стилем с использованием текстовых подсказок или эталонного аудио.
Для поддержки этого архитектура модели адаптирует конвейер поэтапного обучения MusicLM, интегрируя новый модуль совместного встраивания музыки и текста, известный как MusicCoCa (гибрид MuLan и CoCa). Это позволяет семантически осмысленно управлять жанром, инструментами и стилистикой в реальном времени.
Данные и обучение
Magenta RT обучена на ~190 000 часах инструментальной фонограммы. Этот большой и разнообразный набор данных обеспечивает обобщение по жанрам и плавную адаптацию в различных музыкальных контекстах.
Данные для обучения были токенизированы с помощью иерархического кодека, который позволяет создавать компактные представления без потери точности. Каждый 2-секундный фрагмент обусловлен не только заданной пользователем подсказкой, но и скользящим контекстом из 10 секунд предшествующего аудио, что обеспечивает плавное и согласованное развитие.
Модель поддерживает два режима ввода для стилевых подсказок:
* текстовые подсказки, которые преобразуются в встраивания с помощью MusicCoCa;
* аудиоподсказки, закодированные в то же пространство встраивания с помощью изученного кодировщика.
Такое сочетание модальностей позволяет выполнять преобразование жанров в реальном времени и динамическое смешение инструментов — возможности, необходимые для живых выступлений и сценариев, подобных работе диджея.
Производительность и вывод
Несмотря на масштаб модели (800 миллионов параметров), Magenta RT обеспечивает скорость генерации 1,25 секунды на каждые 2 секунды аудио. Этого достаточно для использования в реальном времени (RTF ~0,625), а вывод можно выполнять на TPU бесплатного уровня в Google Colab.
Процесс генерации разделён на части, чтобы обеспечить непрерывный потоковый вывод: каждый 2-секундный сегмент синтезируется в прямом конвейере с перекрывающимся окном для обеспечения непрерывности и согласованности. Задержка дополнительно минимизируется за счёт оптимизации компиляции модели (XLA), кэширования и планирования аппаратных средств.
Применение и варианты использования
Magenta RT предназначена для интеграции в:
* живые выступления, где музыканты или диджеи могут управлять генерацией музыки на лету;
* инструменты для творческого прототипирования, предлагающие быстрое прослушивание музыкальных стилей;
* образовательные инструменты, помогающие студентам понять структуру, гармонию и слияние жанров;
* интерактивные инсталляции, позволяющие создавать интерактивные среды с генеративным аудио.
Google намекнул на предстоящую поддержку вывода на устройстве и индивидуальной настройки, что позволит создателям адаптировать модель к своим уникальным стилистическим особенностям.
Сравнение с родственными моделями
Magenta RT дополняет модели MusicFX (DJ Mode) от Google DeepMind и RealTime API от Lyria, но критически отличается тем, что является открытым исходным кодом и может быть размещена на собственном сервере.
Она также отличается от моделей с латентной диффузией (например, Riffusion) и авторегрессионных декодеров (например, Jukebox), фокусируясь на предсказании токена-кодека с минимальной задержкой.
По сравнению с такими моделями, как MusicGen или MusicLM, Magenta RT обеспечивает более низкую задержку и позволяет осуществлять интерактивную генерацию, чего часто не хватает в текущих конвейерах от подсказки к аудио, требующих предварительной генерации всего трека.
Заключение
Magenta RealTime расширяет границы генеративного аудио в реальном времени. Сочетая синтез высокой точности с динамическим управлением со стороны пользователя, она открывает новые возможности для создания музыки с помощью ИИ.
Архитектура модели балансирует масштаб и скорость, а открытая лицензия обеспечивает доступность и вклад сообщества. Для исследователей, разработчиков и музыкантов Magenta RT представляет собой основополагающий шаг на пути к созданию отзывчивых, совместных систем музыкальной ИИ.
Ознакомьтесь с моделью на Hugging Face, на странице GitHub, техническими деталями и ноутбуком Colab. Вся заслуга в проведении этого исследования принадлежит исследователям этого проекта. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit ML с более чем 100 тысячами участников и подписывайтесь на наш новостной бюллетень.
Бесплатная регистрация: miniCON AI Infrastructure 2025 (2 августа 2025 года) [Спикеры: Джессика Лю, вице-президент по управлению продуктами в Cerebras, Андреас Шик, директор по искусственному интеллекту в US FDA, Фолькмар Ухлиг, вице-президент по инфраструктуре искусственного интеллекта в IBM, Даниеле Строппа, старший партнёр-архитектор решений в Amazon, Адитья Гаутам, руководитель отдела машинного обучения в Meta, Серкан Арик, менеджер по исследованиям в Google Cloud AI, Валентина Педойя, старший директор по искусственному интеллекту/машинному обучению в Altos Labs, Сандип Каипу, менеджер по программному обеспечению в Broadcom].
Эта статья впервые опубликована на MarkTechPost.