Google DeepMind выпускает Lyria 3: продвинутую модель для создания музыки, которая превращает фотографии и текст в пользовательские треки с текстом и вокалом

Компания Google DeepMind снова расширяет границы генеративного искусственного интеллекта. На этот раз основное внимание уделяется не тексту или изображениям, а музыке. Недавно команда Google представила Lyria 3 — свою самую передовую модель для создания музыки на сегодняшний день.

Lyria 3 представляет собой значительный сдвиг в том, как машины обрабатывают сложные аудиосигналы и творческие замыслы. Модель доступна в приложении Gemini, что позволяет пользователям создавать музыкальные треки длиной 30 секунд, вводя текстовые подсказки или загружая изображения.

Вызовы, связанные с созданием музыки с помощью ИИ

Создание музыкальной модели гораздо сложнее, чем текстовой. Текст дискретен и линейен. Музыка непрерывна и многослойна. Модель должна одновременно обрабатывать мелодию, гармонию, ритм и тембр. Она также должна поддерживать долгосрочную согласованность, чтобы песня звучала одинаково с первой по тридцатую секунду.

Lyria 3 разработана для решения этих проблем. Она создаёт высококачественный аудиоконтент, включая вокальные и многоинструментальные треки. Модель не просто собирает петли, а генерирует полноценные музыкальные аранжировки с нуля.

Интеграция Lyria 3 с Gemini

Lyria 3 теперь доступна в приложении Gemini. Пользователи могут вводить подсказки или загружать изображения, чтобы получить 30-секундный музыкальный трек. Интересно, как Google интегрирует это в мультимодальную экосистему.

В приложении Gemini Lyria 3 обеспечивает быстрый рабочий процесс «подсказка-аудио». Вы можете описать настроение, жанр или набор инструментов. Модель выводит высококачественный файл. Эта интеграция показывает, что Google рассматривает аудио как основной модальности наряду с текстом и зрением.

Ключевые технические характеристики Lyria 3

Реальный контроль времени: Lyria RealTime

API Lyria RealTime — это место, где происходят настоящие инновации. В отличие от традиционных моделей, которые работают как «музыкальный автомат» (введите подсказку и подождите файл), Lyria RealTime работает на основе системы авторегрессии на основе фрагментов.

Она использует двунаправленное соединение WebSocket для поддержания живого потока. Модель генерирует аудиофрагменты по 2 секунды. Она смотрит на предыдущий контекст, чтобы сохранить «грув», и на пользовательские элементы управления, чтобы определить стиль. Это позволяет управлять аудио с помощью WeightedPrompts.

Песочница Music AI

Для музыкантов и любителей Google DeepMind создал Music AI Sandbox. Это набор инструментов, предназначенных для творческого процесса. Он позволяет пользователям:
* преобразовывать аудио: взять простой гул или базовую партию фортепиано и превратить её в полноценную оркестровую аранжировку;
* передавать стиль: использовать MIDI-аккорды для генерации вокального хора;
* манипулировать инструментами: использовать текстовые подсказки для смены инструментов при сохранении мелодии.

Это яркий пример взаимодействия человека и ИИ. Он использует представления в скрытом пространстве, чтобы пользователи могли «импровизировать» с моделью.

Безопасность и атрибуция: SynthID

Создание музыки поднимает множество вопросов об авторских правах. Команда Google DeepMind решила эту проблему, используя SynthID. Этот инструмент маркирует аудиоконтент, созданный с помощью ИИ, встраивая цифровую подпись непосредственно в аудиосигнал.

SynthID невидим и неслышим для человеческого уха. Однако его можно обнаружить с помощью программного обеспечения. Даже если аудиофайл сжат до MP3, замедлен или записан через микрофон («аналоговый канал»), водяной знак остаётся. Это важный шаг в этике ИИ. Он предоставляет техническое решение проблемы атрибуции ИИ.

Как это работает?

Lyria 3 предлагает несколько уроков в области архитектуры моделей:
* Высокая точность: генерация аудио на частоте 48 кГц требует эффективных нейронных сетей, которые могут обрабатывать огромные объёмы данных в секунду.
* Потоковая передача в реальном времени: модель должна генерировать аудио быстрее, чем оно воспроизводится (коэффициент реального времени > 1).
* Кросс-модальные вложения: способность управлять моделью с помощью текста или изображений требует глубокого понимания того, как разные типы данных отображаются в одном скрытом пространстве.

Сравнение Lyria 3 с другими моделями

Основные выводы

* Мультимодальная интеграция в Gemini: Lyria 3 теперь является ключевой частью экосистемы Gemini, позволяя пользователям создавать высококачественные музыкальные треки длиной 30 секунд, используя текстовые, графические или аудиоподсказки непосредственно в приложении.
* Высококачественный рабочий процесс «подсказка-аудио»: модель создаёт сложные, многослойные музыкальные аранжировки, включая вокал и инструменты, на частоте дискретизации 48 кГц, выходя за рамки простых петель и создавая полноценные композиции.
* Продвинутая долгосрочная согласованность: основным техническим прорывом Lyria 3 является её способность поддерживать музыкальную непрерывность, обеспечивая сохранение мелодии, ритма и стиля с первой по последнюю секунду трека.
* Реальное творческое управление: через Music AI Sandbox и API Lyria RealTime разработчики и художники могут «управлять» ИИ в реальном времени, превращая простые входные данные, такие как гудение, в полноценные оркестровые произведения с помощью манипуляций в скрытом пространстве.
* Встроенная безопасность с SynthID: для решения вопросов об авторских правах и подлинности каждый трек, созданный с помощью Lyria, включает в себя водяной знак SynthID. Эта цифровая подпись невидима для человека, но обнаруживаема программным обеспечением даже после сильного сжатия или редактирования.

1. Какие технические характеристики у модели Lyria 3 и как они влияют на её возможности в создании музыки?

Lyria 3 имеет следующие технические характеристики:
* длина вывода — 30 секунд;
* частота дискретизации — 48 кГц;
* формат аудио — 16-битный PCM (стерео);
* входные модальности — текст, изображение, аудио;
* водяной знак — SynthID;
* задержка — менее 2 секунд для управления изменениями.

Эти характеристики позволяют модели создавать высококачественный аудиоконтент, включая вокальные и многоинструментальные треки.

2. Как интеграция Lyria 3 с приложением Gemini влияет на процесс создания музыки?

Интеграция Lyria 3 с приложением Gemini позволяет пользователям создавать музыкальные треки длиной 30 секунд, вводя текстовые подсказки или загружая изображения. Это обеспечивает быстрый рабочий процесс «подсказка-аудио» и позволяет музыкантам и любителям экспериментировать с созданием музыки.

3. Какие проблемы решает модель Lyria 3 при создании музыкальных треков?

Создание музыкальной модели сложнее, чем текстовой, так как музыка непрерывна и многослойна. Модель должна одновременно обрабатывать мелодию, гармонию, ритм и тембр, а также поддерживать долгосрочную согласованность. Lyria 3 разработана для решения этих проблем и создаёт высококачественный аудиоконтент.

4. Какие возможности предоставляет Music AI Sandbox для музыкантов и любителей?

Music AI Sandbox — это набор инструментов, предназначенных для творческого процесса. Он позволяет пользователям:
* преобразовывать аудио: взять простой гул или базовую партию фортепиано и превратить её в полноценную оркестровую аранжировку;
* передавать стиль: использовать MIDI-аккорды для генерации вокального хора;
* манипулировать инструментами: использовать текстовые подсказки для смены инструментов при сохранении мелодии.

5. Как решается проблема авторских прав при создании музыки с помощью ИИ?

Команда Google DeepMind решила проблему авторских прав, используя SynthID. Этот инструмент маркирует аудиоконтент, созданный с помощью ИИ, встраивая цифровую подпись непосредственно в аудиосигнал. SynthID невидим и неслышим для человеческого уха, но его можно обнаружить с помощью программного обеспечения. Это важный шаг в этике ИИ и предоставляет техническое решение проблемы атрибуции ИИ.

Источник