Google выпустил обновлённую версию предварительных моделей Gemini 2.5 Flash и Gemini 2.5 Flash-Lite в AI Studio и Vertex AI, а также ввёл псевдонимы gemini-flash-latest и gemini-flash-lite-latest, которые всегда указывают на новейший предварительный просмотр в каждом семействе. Для обеспечения стабильности производства Google рекомендует использовать фиксированные строки (gemini-2.5-flash, gemini-2.5-flash-lite). Google отправит электронное уведомление за две недели до перенацеливания псевдонима -latest и отмечает, что ограничения скорости, функции и стоимость могут меняться при обновлении псевдонимов.
Что изменилось?
Flash:
* Улучшено использование агентских инструментов и более эффективное «мышление» (многоэтапное рассуждение).
* Google сообщает о повышении на 5 пунктов в SWE-Bench Verified по сравнению с майским предварительным просмотром (48,9 % → 54,0 %), что указывает на лучшее планирование на длительный срок/навигацию по коду.
Flash-Lite:
* Настроена более строгая последовательность инструкций, уменьшена многословность и улучшена мультимодальность/перевод.
* Внутренние данные Google показывают примерно на 50 % меньше выходных токенов для Flash-Lite и примерно на 24 % меньше для Flash, что напрямую сокращает расходы на выходные токены и время в службах, ориентированных на пропускную способность.
Независимые статистические данные из сообщества
Artificial Analysis (учётная запись, стоящая за сайтом бенчмаркинга ИИ) получила предварительный доступ и опубликовала внешние измерения интеллекта и скорости. Основные моменты из потока обсуждений и сопутствующих страниц:
* Пропускная способность: в конечных тестах Gemini 2.5 Flash-Lite (Preview 09-2025, reasoning) сообщается как самая быстрая проприетарная модель, которую они отслеживают, около 887 выходных токенов/с в AI Studio в их настройке.
* Индексы интеллекта: сентябрьские предварительные версии для Flash и Flash-Lite улучшают совокупные оценки «интеллекта» по сравнению с предыдущими стабильными выпусками (на страницах сайта разбиты рассуждения и нерассуждающие треки и смешанные ценовые предположения).
* Эффективность токенов: в потоке повторяется утверждение Google об уменьшении количества токенов (−24 % Flash, −50 % Flash-Lite), и выигрыш представлен как улучшение стоимости за успех для жёстких бюджетов задержки.
Стоимость и бюджеты контекста
Цена GA для Flash-Lite составляет 0,10 доллара США за 1 миллион входных токенов и 0,40 доллара США за 1 миллион выходных токенов (пост Google за июль и страница модели DeepMind). Этот базовый уровень, где сокращение многословности приводит к немедленной экономии.
Контекст: Flash-Lite поддерживает контекст объёмом около 1 миллиона токенов с настраиваемыми «бюджетами мышления» и возможностью подключения инструментов (привязка к поиску, выполнение кода) — полезно для стеков агентов, которые чередуют чтение, планирование и вызовы нескольких инструментов.
Угол браузера-агента и утверждение o3
Ходят слухи, что «новая модель Gemini Flash имеет точность уровня o3, но она в 2 раза быстрее и в 4 раза дешевле для задач браузера-агента». Это сообщение сообщества, а не официальное сообщение Google. Оно, вероятно, связано с частными/ограниченными наборами задач (навигация по DOM, планирование действий) с определёнными бюджетами инструментов и тайм-аутами. Используйте это как гипотезу для своих собственных оценок; не относитесь к этому как к абсолютной истине.
Практические рекомендации для команд
* Закрепление vs. отслеживание -latest: если вы зависите от строгих соглашений об уровне обслуживания или фиксированных ограничений, закрепите стабильные строки. Если вы постоянно проверяете стоимость/задержку/качество, псевдонимы -latest уменьшают трение при обновлении (Google предоставляет уведомление за две недели до переключения указателя).
* Конечные точки с высоким QPS или с учётом токенов: начните с предварительного просмотра Flash-Lite; обновления многословности и следования инструкциям сокращают исходящие токены. Проверьте мультимодальные и длинные контекстные трассировки при производственной нагрузке.
* Конвейеры агентов/инструментов: A/B предварительный просмотр, где многоэтапное использование инструментов преобладает над стоимостью или режимами отказа; подъём Google SWE-Bench Verified и цифры сообщества в токенах/с указывают на лучшее планирование в условиях ограниченных бюджетов мышления.
Строки модели (текущие)
* Предварительные версии: gemini-2.5-flash-preview-09-2025, gemini-2.5-flash-lite-preview-09-2025.
* Стабильные: gemini-2.5-flash, gemini-2.5-flash-lite.
* Псевдонимы с прокруткой: gemini-flash-latest, gemini-flash-lite-latest (семантика указателя; могут меняться функции/ограничения/ценообразование).
Резюме
Новый выпуск Google повышает компетентность использования инструментов (Flash) и эффективность использования токенов/задержек (Flash-Lite) и вводит псевдонимы -latest для более быстрой итерации. Внешние тесты от Artificial Analysis указывают на значительный прирост пропускной способности и индекса интеллекта для предварительных версий сентября 2025 года, при этом Flash-Lite теперь тестируется как самая быстрая проприетарная модель в их системе. Проверьте свою рабочую нагрузку — особенно стеки браузеров-агентов — прежде чем использовать псевдонимы в производстве.
1. Какие улучшения были внесены в модель Gemini 2.5 Flash?
В модель Gemini 2.5 Flash были внесены улучшения в использовании агентских инструментов и «мышлении» (многоэтапное рассуждение). Также сообщается о повышении на 5 пунктов в SWE-Bench Verified по сравнению с майским предварительным просмотром (48,9 % → 54,0 %), что указывает на лучшее планирование на длительный срок и навигацию по коду.
2. Какие изменения были внесены в модель Gemini 2.5 Flash-Lite?
В модель Gemini 2.5 Flash-Lite была настроена более строгая последовательность инструкций, уменьшена многословность и улучшена мультимодальность/перевод. Внутренние данные Google показывают примерно на 50 % меньше выходных токенов для Flash-Lite и примерно на 24 % меньше для Flash.
3. Какие практические рекомендации даёт автор статьи для команд, использующих модели Gemini?
Автор статьи даёт следующие практические рекомендации:
* Закрепление vs. отслеживание -latest: если вы зависите от строгих соглашений об уровне обслуживания или фиксированных ограничений, закрепите стабильные строки. Если вы постоянно проверяете стоимость/задержку/качество, псевдонимы -latest уменьшают трение при обновлении.
* Конечные точки с высоким QPS или с учётом токенов: начните с предварительного просмотра Flash-Lite; обновления многословности и следования инструкциям сокращают исходящие токены. Проверьте мультимодальные и длинные контекстные трассировки при производственной нагрузке.
* Конвейеры агентов/инструментов: A/B предварительный просмотр, где многоэтапное использование инструментов преобладает над стоимостью или режимами отказа.
4. Какие строки модели Gemini 2.5 Flash и Gemini 2.5 Flash-Lite являются текущими?
Текущие строки модели Gemini 2.5 Flash и Gemini 2.5 Flash-Lite:
* Предварительные версии: gemini-2.5-flash-preview-09-2025, gemini-2.5-flash-lite-preview-09-2025.
* Стабильные: gemini-2.5-flash, gemini-2.5-flash-lite.
* Псевдонимы с прокруткой: gemini-flash-latest, gemini-flash-lite-latest.
5. Какие внешние тесты были проведены для моделей Gemini 2.5 Flash и Gemini 2.5 Flash-Lite?
Внешние тесты были проведены Artificial Analysis. Основные моменты из потока обсуждений и сопутствующих страниц:
* Пропускная способность: в конечных тестах Gemini 2.5 Flash-Lite (Preview 09-2025, reasoning) сообщается как самая быстрая проприетарная модель, которую они отслеживают, около 887 выходных токенов/с в AI Studio в их настройке.
* Индексы интеллекта: сентябрьские предварительные версии для Flash и Flash-Lite улучшают совокупные оценки «интеллекта» по сравнению с предыдущими стабильными выпусками.