Google AI представляет VISTA: самосовершенствующийся агент для генерации видео по тексту

Что такое VISTA?

VISTA (Video Iterative Self improvementT Agent) — это система, которая улучшает генерацию видео по тексту во время вывода. Она представляет собой многоагентную структуру, которая планирует структурированные подсказки в виде сцен, проводит парные турниры для выбора наилучшего кандидата, использует специализированных судей по визуальным, аудио и контекстуальным критериям, а затем переписывает подсказку с помощью агента Deep Thinking Prompting Agent.

Как работает VISTA?

Шаг 1: планирование структурированных видеоподсказок

Пользовательская подсказка разбивается на сцены с временными метками. Каждая сцена имеет 9 свойств: длительность, тип сцены, персонажи, действия, диалоги, визуальная среда, камера, звуки, настроение. Многомодальная LLM заполняет недостающие свойства и по умолчанию применяет ограничения на реалистичность, релевантность и креативность. Система также сохраняет исходную подсказку пользователя в наборе кандидатов, чтобы позволить моделям, которые не выигрывают от декомпозиции.

Шаг 2: выбор видео с помощью парного турнира

Система выбирает несколько пар видео и подсказок. Многомодальная LLM выступает в роли судьи с помощью бинарных турниров и двунаправленной замены, чтобы уменьшить предвзятость порядка токенов. Критерии по умолчанию включают визуальную точность, физическое здравый смысл, соответствие текста и видео, соответствие аудио и видео, а также вовлечённость.

Шаг 3: многомерная многоагентная критика

Чемпионское видео и подсказка получают критику по трём направлениям: визуальному, аудио и контекстуальному. Каждое измерение использует триаду: обычного судью, состязательного судью и метасудью, который объединяет обе стороны.

Шаг 4: агент Deep Thinking Prompting Agent

Модуль рассуждений читает метакритику и проводит шестишаговую интроспекцию:
* выявляет низкооценённые метрики;
* уточняет ожидаемые результаты;
* проверяет достаточность подсказок;
* отделяет ограничения модели от проблем с подсказками;
* обнаруживает конфликты или неясность;
* предлагает действия по модификации, затем выбирает уточнённые подсказки для следующего цикла генерации.

Понимание результатов

* Автоматическая оценка. Исследование сообщает о выигрышах, ничьих и поражениях по десяти критериям, используя многомодальную LLM в качестве судьи. VISTA достигает уровня выигрыша над прямым обращением, который растёт с каждой итерацией, достигая 45,9% в односценарном и 46,3% в многосценарном режимах на пятой итерации.
* Человеческие исследования. Аннотаторы с опытом оптимизации подсказок предпочитают VISTA в 66,4% прямых сравнений с лучшим базовым уровнем на пятой итерации. Эксперты оценивают траектории оптимизации выше для VISTA и оценивают визуальное и аудио качество выше, чем при прямом обращении.
* Стоимость и масштабирование. Среднее количество токенов на итерацию составляет около 0,7 миллиона на двух наборах данных. Использование токенов в основном приходится на отбор и критику, которые обрабатывают видео как длинные контекстные входные данные. Уровень выигрыша имеет тенденцию к увеличению с ростом количества отснятых видео и токенов на итерацию.

Ключевые выводы

* VISTA — это многоагентная система, которая оптимизирует визуальные, аудио и контекстуальные аспекты генерации видео по тексту.
* Она планирует подсказки в виде сцен с 9 атрибутами: длительностью, типом сцены, персонажами, действиями, диалогами, визуальной средой, камерой, звуками, настроением.
* Кандидаты на видео выбираются с помощью парных турниров с использованием многомодальной LLM в качестве судьи.
* Результаты показывают 45,9% побед в односценарном и 46,3% в многосценарном режимах на пятой итерации над прямым обращением.
* Эксперты предпочитают VISTA в 66,4% испытаний, средняя стоимость токена на итерацию составляет около 0,7 миллиона.

Комментарии редакции

VISTA — это практический шаг к надёжной генерации видео по тексту. Она рассматривает вывод как цикл оптимизации и сохраняет генератор как чёрный ящик. Структурированное планирование видеоподсказок полезно для начинающих инженеров, а девять атрибутов сцены дают конкретный контрольный список. Парный турнирный отбор с многомодальным LLM-судьёй и двунаправленной заменой — это разумный способ уменьшить предвзятость порядка. Критерии нацелены на реальные сбои: визуальную точность, физический здравый смысл, соответствие текста и видео, соответствие аудио и видео, вовлечённость. Многомерная критика разделяет визуальные, аудио и контекстуальные аспекты, а обычный, состязательный и метасудьи выявляют слабые места, которые пропускают одиночные судьи.

1. Какие основные этапы включает в себя работа системы VISTA?

Ответ: работа системы VISTA включает в себя четыре основных этапа: планирование структурированных видеоподсказок, выбор видео с помощью парного турнира, многомерная многоагентная критика и использование агента Deep Thinking Prompting Agent для модификации подсказок.

2. Какие критерии используются для оценки видео в системе VISTA?

Ответ: для оценки видео в системе VISTA используются следующие критерии: визуальная точность, физическое соответствие здравому смыслу, соответствие текста и видео, соответствие аудио и видео, а также вовлечённость.

3. Как система VISTA обеспечивает уменьшение предвзятости порядка токенов при выборе видео?

Ответ: система VISTA использует многомодальную LLM в качестве судьи для проведения бинарных турниров и двунаправленной замены, что позволяет уменьшить предвзятость порядка токенов при выборе видео.

4. Какие результаты были получены при использовании системы VISTA в сравнении с прямым обращением?

Ответ: исследование показало, что VISTA достигает уровня выигрыша над прямым обращением, который растёт с каждой итерацией. На пятой итерации в односценарном режиме уровень выигрыша составляет 45,9%, а в многосценарном режиме — 46,3%. Эксперты также предпочитают VISTA в 66,4% прямых сравнений с лучшим базовым уровнем на пятой итерации.

5. Какие практические преимущества предоставляет система VISTA для инженеров, работающих с генерацией видео по тексту?

Ответ: система VISTA предоставляет инженерам структурированное планирование видеоподсказок с использованием девяти атрибутов сцены, что облегчает процесс создания видео. Кроме того, парные турниры с многомодальным LLM-судьёй и двунаправленная замена помогают уменьшить предвзятость порядка, что способствует более объективному выбору видео.

Источник