Fish Audio выпускает Fish Audio S2: новое поколение выразительных систем преобразования текста в речь (TTS) с абсурдно контролируемыми эмоциями

Ландшафт технологий преобразования текста в речь (TTS)

Технологии преобразования текста в речь (TTS) движутся в сторону интегрированных больших аудиомоделей (LAMs), отходя от модульных конвейеров. Выпуск Fish Audio S2-Pro, флагманской модели в экосистеме Fish Speech, представляет собой сдвиг в сторону открытых архитектур, способных к высококачественному многоголосному синтезу с задержкой менее 150 мс.

Архитектура: Dual-AR Framework и RVQ

Основным техническим отличием Fish Audio S2-Pro является его иерархическая архитектура Dual-AR. Традиционные модели TTS часто сталкиваются с компромиссом между длиной последовательности и акустической детализацией. S2-Pro решает эту проблему, разделяя процесс генерации на два специализированных этапа: модель «Slow AR» и модель «Fast AR».

* Модель Slow AR (4 миллиарда параметров): этот компонент работает во временной области. Он отвечает за обработку лингвистического ввода и генерацию семантических токенов.
* Модель Fast AR (400 миллионов параметров): этот компонент обрабатывает акустическое измерение. Он прогнозирует остаточные кодовые книги для каждого семантического токена.

Система полагается на остаточное векторное квантование (RVQ). В этой настройке необработанный аудиосигнал сжимается в дискретные токены на нескольких уровнях (кодовые книги).

Эмоциональный контроль через обучение в контексте и встроенные теги

Fish Audio S2-Pro достигает «абсурдно контролируемых эмоций» через два основных механизма: нулевое обучение в контексте и управление на естественном языке.

* Обучение в контексте (ICL): в отличие от предыдущих поколений TTS, которым требовалась явная тонкая настройка для имитации определённого голоса, S2-Pro использует способность Transformer выполнять обучение в контексте.
* Встроенные теги управления: модель поддерживает динамические эмоциональные переходы в рамках одного прохода генерации.

Интеграция SGLang и RadixAttention

Интегрируя TTS в приложения реального времени, основным ограничением является «время до первого аудио» (TTFA). Fish Audio S2-Pro оптимизирован для задержки менее 150 мс, с бенчмарками на оборудовании NVIDIA H200, достигающими примерно 100 мс.

Технические оптимизации

* SGLang и RadixAttention: S2-Pro разработан для работы с SGLang, высокопроизводительной средой обслуживания.
* Multi-Speaker Single-Pass Generation: архитектура позволяет использовать несколько идентификаторов динамиков в одном окне контекста.

Как построить самонастраивающийся метаагент, который автоматически конструирует, создаёт экземпляры и совершенствует агентов для выполнения конкретных задач

Мы реализуем MetaAgent, который анализирует задачи, проектирует конфигурации агентов, создаёт экземпляры среды выполнения, оценивает производительность и совершенствует архитектуру по мере необходимости. Мы применяем эвристики возможностей для динамического выбора инструментов, стратегии памяти и глубины планировщика.

Класс LocalLLM

Мы реализуем оболочку LocalLLM, которая обеспечивает рассуждения и выбор инструментов. Мы настраиваем облегчённую модель с открытым исходным кодом с безопасным механизмом отказоустойчивости для обеспечения надёжности в Colab.

Класс ToolResult

Мы определяем класс ToolResult для представления результатов работы инструментов.

Класс Tool

Мы определяем класс Tool для представления инструментов.

Класс ToolRegistry

Мы определяем класс ToolRegistry для регистрации инструментов.

Класс AgentRuntime

Мы реализуем основной класс AgentRuntime, который выполняет сконфигурированный агент.

Класс MetaAgent

Мы реализуем класс MetaAgent, который анализирует задачи, проектирует конфигурации агентов, создаёт экземпляры среды выполнения, оценивает производительность и совершенствует архитектуру по мере необходимости.

Демонстрация

Мы демонстрируем полный конвейер сборки и запуска, включая необязательный цикл самосовершенствования, чтобы завершить жизненный цикл автоматизированного проектирования агентов.

В заключение мы продемонстрировали, как метаагент может перейти от пассивного выполнения задач к активной настройке архитектуры. Мы спроектировали агентов программно, создали их экземпляры автоматически, оценили их выходные данные и усовершенствовали их конфигурации в цикле самосовершенствования. Мы показали, что агентские системы могут рассуждать не только о задачах, но и об их собственной структуре, возможностях и ограничениях. Этот подход подталкивает нас к созданию самоэволюционирующих систем искусственного интеллекта, в которых архитектура становится адаптивной, автоматизированной и всё более автономной, приближая нас к полностью самопроектируемым экосистемам агентов.

Проверьте полный код здесь. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в 120k+ ML SubReddit и подписывайтесь на нашу рассылку. Подождите! Вы в Telegram? Теперь вы можете присоединиться к нам и там.

Статья «How to Build a Self-Designing Meta-Agent That Automatically Constructs, Instantiates, and Refines Task-Specific AI Agents» впервые появилась на MarkTechPost.

1. Какие ключевые особенности отличают Fish Audio S2-Pro от предыдущих поколений систем TTS?

Ответ: Fish Audio S2-Pro отличается от предыдущих поколений TTS благодаря своей иерархической архитектуре Dual-AR, которая решает проблему компромисса между длиной последовательности и акустической детализацией. Модель Slow AR (4 миллиарда параметров) работает во временной области и отвечает за обработку лингвистического ввода и генерацию семантических токенов, а модель Fast AR (400 миллионов параметров) обрабатывает акустическое измерение и прогнозирует остаточные кодовые книги для каждого семантического токена.

2. Как Fish Audio S2-Pro обеспечивает контроль над эмоциями в синтезе речи?

Ответ: Fish Audio S2-Pro обеспечивает контроль над эмоциями через два основных механизма: нулевое обучение в контексте (ICL) и управление на естественном языке. В отличие от предыдущих поколений TTS, которым требовалась явная тонкая настройка для имитации определённого голоса, S2-Pro использует способность Transformer выполнять обучение в контексте. Модель поддерживает динамические эмоциональные переходы в рамках одного прохода генерации.

3. Какие технические оптимизации были внедрены в Fish Audio S2-Pro для обеспечения высокой производительности?

Ответ: В Fish Audio S2-Pro были внедрены следующие технические оптимизации:
* интеграция с SGLang, высокопроизводительной средой обслуживания;
* использование Multi-Speaker Single-Pass Generation, что позволяет использовать несколько идентификаторов динамиков в одном окне контекста;
* оптимизация для задержки менее 150 мс, с бенчмарками на оборудовании NVIDIA H200, достигающими примерно 100 мс.

4. Какие классы и инструменты используются для реализации MetaAgent?

Ответ: Для реализации MetaAgent используются следующие классы и инструменты:
* LocalLLM — оболочка, которая обеспечивает рассуждения и выбор инструментов;
* ToolResult — класс для представления результатов работы инструментов;
* Tool — класс для представления инструментов;
* ToolRegistry — класс для регистрации инструментов;
* AgentRuntime — основной класс, который выполняет сконфигурированный агент;
* MetaAgent — класс, который анализирует задачи, проектирует конфигурации агентов, создаёт экземпляры среды выполнения, оценивает производительность и совершенствует архитектуру по мере необходимости.

5. Как MetaAgent может переходить от пассивного выполнения задач к активной настройке архитектуры?

Ответ: MetaAgent может переходить от пассивного выполнения задач к активной настройке архитектуры благодаря своей способности анализировать задачи, проектировать конфигурации агентов, создавать экземпляры среды выполнения, оценивать производительность и совершенствовать архитектуру по мере необходимости. Это позволяет агентским системам рассуждать не только о задачах, но и об их собственной структуре, возможностях и ограничениях, что приближает нас к созданию самоэволюционирующих систем искусственного интеллекта.

Источник