Google выпускает экономичную модель Gemini 3.1 Flash-Lite с настраиваемыми уровнями мышления для крупномасштабного ИИ

Компания Google выпустила модель Gemini 3.1 Flash-Lite — наиболее экономичную модель в серии Gemini 3. Она предназначена для «интеллекта в масштабе» и оптимизирована для задач с большим объёмом данных, где низкая задержка и стоимость на токен являются основными техническими ограничениями.

Основные особенности:

  • Переменные «уровни мышления». Значительным архитектурным обновлением в серии 3.1 стало введение уровней мышления. Эта функция позволяет разработчикам программно регулировать глубину рассуждений модели в зависимости от сложности запроса.

Выбирая между минимальными, низкими, средними или высокими уровнями мышления, можно оптимизировать соотношение между задержкой и логической точностью.

Минимальный/низкий уровень: идеально подходит для задач с высокой пропускной способностью и низкой задержкой, таких как классификация, базовый анализ настроений или простое извлечение данных.
Средний/высокий уровень: использует логику Deep Think Mini для выполнения сложных инструкций, многошаговых рассуждений и генерации структурированных данных.

Показатели производительности и эффективности

Модель Gemini 3.1 Flash-Lite разработана для замены Gemini 2.5 Flash в производственных рабочих нагрузках, требующих более быстрого вывода данных без ущерба для качества. Модель обеспечивает в 2,5 раза более быстрое время до первого токена (TTFT) и на 45% более высокую общую скорость вывода по сравнению с предшественником.

На бенчмарке GPQA Diamond — мере экспертного мышления — Gemini 3.1 Flash-Lite набрала 86,9%, соответствуя или превосходя качество более крупных моделей предыдущего поколения при значительно меньших вычислительных затратах.

Сравнение: Gemini 3.1 Flash-Lite vs. Gemini 2.5 Flash

| Метрика | Gemini 2.5 Flash | Gemini 3.1 Flash-Lite |
|———|——————|———————-|
| Входные затраты (на 1 млн токенов) | выше | $0,25 |
| Выходные затраты (на 1 млн токенов) | выше | $1,50 |
| TTFT скорость | базовый | в 2,5 раза быстрее |
| Производительность вывода | базовый | на 45% быстрее |
| Рассуждения (GPQA Diamond) | конкурентноспособно | 86,9% |

Варианты технического использования в производстве

Модель 3.1 Flash-Lite специально настроена для рабочих нагрузок, связанных со сложными структурами и логикой длинных последовательностей:

  • Генерация пользовательских интерфейсов и приборных панелей: модель оптимизирована для генерации иерархического кода (HTML/CSS, компоненты React) и структурированного JSON, необходимого для визуализации сложных данных.

  • Системное моделирование: поддерживает логическую согласованность в течение длительного времени, что делает её пригодной для создания симуляций среды или агентских рабочих процессов, требующих отслеживания состояния.

  • Генерация синтетических данных: благодаря низкой стоимости ввода ($0,25/1 млн токенов) она служит эффективным механизмом для извлечения знаний из более крупных моделей, таких как Gemini 3.1 Ultra, в меньшие, специфичные для домена наборы данных.

Ключевые выводы

  • Превосходное соотношение цены и производительности: Gemini 3.1 Flash-Lite — самая экономичная модель в серии Gemini 3, стоимостью $0,25 за 1 млн входных токенов и $1,50 за 1 млн выходных токенов.

  • Введение «уровней мышления»: новая архитектурная особенность позволяет разработчикам программно переключать между минимальными, низкими, средними и высокими уровнями интенсивности рассуждений.

  • Высокий уровень рассуждений: несмотря на обозначение «Lite», модель поддерживает высокоуровневую логику, набрав 86,9% на бенчмарке GPQA Diamond.

  • Оптимизация для структурированных рабочих нагрузок: модель специально настроена для «интеллекта в масштабе», превосходно справляясь с генерацией сложных пользовательских интерфейсов/панелей, созданием системных симуляций и поддержанием логической согласованности при генерации кода длинных последовательностей.

  • Бесшовная интеграция с API: в настоящее время модель доступна в предварительной версии, использует конечную точку gemini-3.1-flash-lite-preview через Gemini API и Vertex AI. Она поддерживает мультимодальные входные данные (текст, изображение, видео), сохраняя стандартное окно контекста в 128 тыс. токенов.

1. Какие основные преимущества модели Gemini 3.1 Flash-Lite по сравнению с предыдущей моделью Gemini 2.5 Flash?

Ответ: модель Gemini 3.1 Flash-Lite обеспечивает в 2,5 раза более быстрое время до первого токена (TTFT) и на 45% более высокую общую скорость вывода по сравнению с Gemini 2.5 Flash. Кроме того, она имеет более низкие входные затраты ($0,25 за 1 млн токенов) и более низкие выходные затраты ($1,50 за 1 млн токенов).

2. Какие уровни мышления доступны в модели Gemini 3.1 Flash-Lite и для каких задач они подходят?

Ответ: в модели Gemini 3.1 Flash-Lite доступны минимальные, низкие, средние и высокие уровни мышления. Минимальные и низкие уровни подходят для задач с высокой пропускной способностью и низкой задержкой, таких как классификация, базовый анализ настроений или простое извлечение данных. Средние и высокие уровни используют логику Deep Think Mini для выполнения сложных инструкций, многошаговых рассуждений и генерации структурированных данных.

3. Какие технические задачи может решать модель Gemini 3.1 Flash-Lite в производстве?

Ответ: модель Gemini 3.1 Flash-Lite может использоваться для генерации пользовательских интерфейсов и приборных панелей, системного моделирования и генерации синтетических данных. Она оптимизирована для генерации иерархического кода (HTML/CSS, компоненты React) и структурированного JSON, необходимого для визуализации сложных данных, поддерживает логическую согласованность в течение длительного времени и служит эффективным механизмом для извлечения знаний из более крупных моделей.

4. Какие выводы можно сделать о модели Gemini 3.1 Flash-Lite на основе предоставленных данных?

Ответ: на основе предоставленных данных можно сделать следующие выводы:
* Gemini 3.1 Flash-Lite имеет превосходное соотношение цены и производительности.
* Введение «уровней мышления» позволяет разработчикам программно переключать между различными уровнями интенсивности рассуждений.
* Модель поддерживает высокоуровневую логику, набрав 86,9% на бенчмарке GPQA Diamond.
* Gemini 3.1 Flash-Lite оптимизирована для структурированных рабочих нагрузок и может использоваться для генерации сложных пользовательских интерфейсов/панелей, создания системных симуляций и поддержания логической согласованности при генерации кода длинных последовательностей.
* Модель доступна в предварительной версии и поддерживает мультимодальные входные данные (текст, изображение, видео).

Источник