Компания Google выпустила модель Gemini 3.1 Flash Live в формате предварительного просмотра для разработчиков через Gemini Live API в Google AI Studio. Эта модель ориентирована на голосовое взаимодействие в реальном времени с низкой задержкой, более естественное и надёжное. Согласно заявлению Google, это «модель аудио и речи высочайшего качества на сегодняшний день».
Конец «Wait-Time Stack»?
Основная проблема предыдущих реализаций голосового ИИ заключалась в «стеке ожидания»: сначала происходило обнаружение голосовой активности (Voice Activity Detection, VAD), затем транскрибация (Speech-to-Text, STT), затем генерация (Large Language Model, LLM), затем синтез (Text-to-Speech, TTS). К тому времени, когда ИИ начинал говорить, человек уже успевал сменить тему.
Gemini 3.1 Flash Live сворачивает этот стек за счёт нативной обработки аудио. Модель не просто «читает» транскрипцию, она обрабатывает акустические нюансы напрямую. Согласно внутренним метрикам Google, модель значительно эффективнее распознаёт высоту тона и темп, чем предыдущая модель 2.5 Flash Native Audio.
Ещё более впечатляющей является её производительность в «шумных» условиях реального мира. В тестах, где присутствовал уличный шум или фоновый гул, модель 3.1 Flash Live с беспрецедентной точностью выделяла релевантную речь из окружающих звуков. Это критически важно для разработчиков, создающих мобильных помощников или агентов обслуживания клиентов, которые работают в реальных условиях, а не в тихой студии.
Мультимодальный Live API
Для разработчиков ИИ реальный сдвиг происходит в рамках Мультимодального Live API. Это потоковый интерфейс с сохранением состояния, который использует WebSockets (WSS) для поддержания постоянного соединения между клиентом и моделью.
В отличие от стандартных RESTful API, которые обрабатывают по одному запросу за раз, Live API позволяет передавать непрерывный поток данных.
* Аудиовход: модель ожидает необработанный 16-битный аудиосигнал PCM с частотой 16 кГц, младший байт.
* Аудиовыход: модель возвращает необработанные данные PCM, эффективно минуя задержку отдельного этапа преобразования текста в речь.
* Визуальный контекст: можно передавать видеокадры в виде отдельных изображений JPEG или PNG со скоростью примерно 1 кадр в секунду (FPS).
* Протокол: одно серверное событие теперь может объединять несколько частей контента одновременно — например, аудиофрагменты и соответствующие транскрипции. Это значительно упрощает синхронизацию на стороне клиента.
Модель также поддерживает функцию Barge-in, позволяя пользователям прерывать ИИ посреди фразы. Поскольку соединение является двунаправленным, API может немедленно остановить генерацию аудио и обработать новый входящий аудиосигнал, имитируя темп человеческого диалога.
Бенчмаркинг агентского мышления
Исследовательская группа Google по искусственному интеллекту оптимизирует не только скорость, но и полезность. В релизе подчёркивается производительность модели на ComplexFuncBench Audio. Этот бенчмарк измеряет способность ИИ выполнять многошаговый вызов функций с различными ограничениями на основе исключительно аудиовхода.
Модель Gemini 3.1 Flash Live набрала ошеломляющие 90,8% по этому бенчмарку. Для разработчиков это означает, что голосовой агент теперь может рассуждать через сложную логику — например, находить определённые счета и отправлять их по электронной почте на основе ценового порога — без необходимости сначала думать с помощью текстового посредника.
Контроли разработчика: thinkingLevel
Отличительной чертой для разработчиков ИИ является возможность настройки глубины рассуждений модели. Используя параметр thinkingLevel, разработчики могут выбирать между минимальным, низким, средним и высоким уровнями.
* Минимальный: это значение по умолчанию для живых сессий, приоритетом является минимально возможное время до первого токена (TTFT).
* Высокий: хотя это увеличивает задержку, это позволяет модели выполнять более глубокие «шаги мышления» перед ответом, что необходимо для решения сложных задач или задач по отладке, выполняемых в режиме реального времени через видео.
Закрытие информационного разрыва: навыки Gemini
Поскольку API ИИ быстро развиваются, обновление документации в рамках собственных инструментов разработчика является сложной задачей. Чтобы решить эту проблему, команда Google по искусственному интеллекту ведёт репозиторий google-gemini/gemini-skills. Это библиотека «навыков» — курируемого контекста и документации — которые можно внедрить в подсказку помощника по программированию ИИ для повышения его производительности.
Репозиторий включает в себя специальный навык gemini-live-api-dev, ориентированный на нюансы сеансов WebSocket и обработки аудио/видео данных. Более широкий репозиторий Gemini Skills сообщает, что добавление соответствующего навыка повысило точность генерации кода до 87% с Gemini 3 Flash и до 96% с Gemini 3 Pro.
Ключевые выводы
* Нативная мультимодальная архитектура: она сворачивает традиционный стек «транскрибировать-рассуждать-синтезировать» в единый нативный процесс аудио-в-аудио, значительно сокращая задержку и обеспечивая более естественное распознавание высоты тона и темпа.
* Состояние двунаправленной потоковой передачи: модель использует WebSockets (WSS) для полнодуплексной связи, что позволяет осуществлять «Barge-in» (прерывание пользователя) и одновременную передачу аудио, видеокадров и транскриптов.
* Высокоточное агентское мышление: модель оптимизирована для запуска внешних инструментов напрямую с помощью голоса, достигая результата в 90,8% по ComplexFuncBench Audio для многошагового вызова функций.
* Настраиваемые элементы управления «мышлением»: разработчики могут балансировать между скоростью разговора и глубиной рассуждений, используя новый параметр thinkingLevel (от минимального до высокого) в пределах контекстного окна в 128 тысяч токенов.
* Предварительный статус и ограничения: в настоящее время модель доступна в формате предварительного просмотра для разработчиков, требует 16-битный аудиосигнал PCM (16 кГц на входе/24 кГц на выходе) и в настоящее время поддерживает только синхронный вызов функций и специальное пакетирование частей контента.
1. Какие преимущества модели Gemini 3.1 Flash Live по сравнению с предыдущими версиями голосового ИИ?
Gemini 3.1 Flash Live имеет несколько преимуществ по сравнению с предыдущими версиями голосового ИИ. Во-первых, она сворачивает традиционный стек обработки аудио, транскрибирования, генерации и синтеза в единый нативный процесс аудио-в-аудио, что значительно сокращает задержку. Во-вторых, модель более эффективно распознаёт высоту тона и темп, чем предыдущая модель 2.5 Flash Native Audio. В-третьих, она демонстрирует высокую производительность в «шумных» условиях реального мира, с беспрецедентной точностью выделяя релевантную речь из окружающих звуков.
2. Какие новые возможности предоставляет Мультимодальный Live API для разработчиков ИИ?
Мультимодальный Live API предоставляет разработчикам новые возможности для работы с голосовым ИИ. Он позволяет передавать непрерывный поток данных, включая аудиовход и аудиовыход, а также визуальный контекст в виде видеокадров. Это упрощает синхронизацию на стороне клиента и позволяет разработчикам создавать более сложные и функциональные голосовые агенты.
3. Как модель Gemini 3.1 Flash Live оптимизирована для решения сложных задач?
Модель Gemini 3.1 Flash Live оптимизирована для решения сложных задач за счёт своей способности рассуждать через сложную логику на основе аудиовхода. Она может выполнять многошаговый вызов функций с различными ограничениями, что позволяет ей решать задачи, требующие глубокого анализа и рассуждений.
4. Какие параметры настройки доступны разработчикам для Gemini 3.1 Flash Live?
Разработчики могут настраивать глубину рассуждений модели Gemini 3.1 Flash Live с помощью параметра thinkingLevel. Они могут выбирать между минимальным, низким, средним и высоким уровнями, чтобы балансировать между скоростью разговора и глубиной рассуждений.
5. Какие инструменты и ресурсы предоставляет Google для помощи разработчикам в работе с Gemini 3.1 Flash Live?
Google предоставляет разработчикам репозиторий google-gemini/gemini-skills, который включает в себя библиотеку «навыков» — курируемого контекста и документации — для повышения производительности голосовых агентов. Репозиторий также включает специальный навык gemini-live-api-dev, ориентированный на нюансы сеансов WebSocket и обработки аудио/видео данных.