Google представляет Agentic Vision в Gemini 3 Flash для активного понимания изображений

Компания Google внедрила новую функцию Agentic Vision в модель Gemini 3 Flash, которая позволяет более активно и точно обрабатывать изображения.

Как работает Agentic Vision?

Обычно мультимодальные модели обрабатывают изображение за один проход. Если они пропускают серийный номер на чипе или маленький символ на плане здания, они часто делают предположения. Новая возможность Agentic Vision в Gemini 3 Flash меняет это, превращая понимание изображений в активный процесс с использованием инструментов, основанных на визуальных доказательствах.

Команда Google сообщает, что включение выполнения кода с помощью Gemini 3 Flash повышает качество работы на 5–10% по большинству тестов зрения, что является значительным преимуществом для производственных задач.

Что делает Agentic Vision?

Agentic Vision — это новая возможность, встроенная в Gemini 3 Flash, которая сочетает визуальный анализ с выполнением кода на Python. Вместо того чтобы рассматривать зрение как фиксированный этап встраивания, модель может:
* сформулировать план того, как осмотреть изображение;
* запустить Python, который манипулирует или анализирует это изображение;
* повторно изучить преобразованное изображение, прежде чем ответить.

Основное поведение заключается в том, чтобы рассматривать понимание изображений как активное исследование, а не как застывший снимок. Это важно для задач, требующих точного чтения мелкого текста, плотных таблиц или сложных инженерных диаграмм.

Цикл «Подумай, действуй, наблюдай»

Agentic Vision вводит структурированный цикл «Подумай, действуй, наблюдай» в задачи понимания изображений.

1. Подумай: Gemini 3 Flash анализирует запрос пользователя и исходное изображение. Затем он формулирует многошаговый план. Например, он может решить увеличить несколько областей, проанализировать таблицу, а затем вычислить статистику.
2. Действуй: модель генерирует и выполняет код Python для манипулирования или анализа изображений. Официальные примеры включают:
* обрезку и масштабирование;
* поворот или аннотирование изображений;
* выполнение вычислений;
* подсчёт ограничивающих рамок или других обнаруженных элементов.
3. Наблюдай: преобразованные изображения добавляются в контекстное окно модели. Затем модель изучает эти новые данные с более подробным визуальным контекстом и, наконец, выдаёт ответ на первоначальный запрос пользователя.

Это означает, что модель не ограничивается своим первым просмотром изображения. Она может итеративно уточнять свои доказательства, используя внешние вычисления, а затем рассуждать над обновлённым контекстом.

Использование Agentic Vision для автоматического масштабирования планов с высоким разрешением

Ключевым вариантом использования является автоматическое масштабирование при работе с входными данными высокого разрешения. Gemini 3 Flash обучен неявно увеличивать масштаб, когда обнаруживает мелкие детали, имеющие значение для задачи.

Команда Google выделяет PlanCheckSolver.com, платформу проверки строительных планов на базе искусственного интеллекта:
* PlanCheckSolver позволяет выполнять код с помощью Gemini 3 Flash.
* Модель генерирует код Python для обрезки и анализа участков крупных архитектурных планов, таких как края крыш или секции зданий.
* Эти обрезанные участки рассматриваются как новые изображения и добавляются обратно в контекстное окно.
* На основе этих участков модель проверяет соответствие сложным строительным нормам.

PlanCheckSolver сообщает об улучшении точности на 5% после включения выполнения кода.

Этот рабочий процесс напрямую актуален для инженерных команд, работающих с экспортом CAD, структурными схемами или нормативными чертежами, которые нельзя безопасно уменьшить без потери деталей.

Аннотирование изображений как визуальный блокнот

Agentic Vision также предоставляет возможность аннотирования, где Gemini 3 Flash может рассматривать изображение как визуальный блокнот.

Визуальная математика и построение графиков с детерминированным кодом

Большие языковые модели часто допускают ошибки при выполнении многошаговой визуальной арифметики или чтении плотных таблиц из скриншотов. Agentic Vision решает эту проблему, перенося вычисления в детерминированную среду Python.

Демонстрация Google в Google AI Studio показывает следующий рабочий процесс:
* Gemini 3 Flash анализирует таблицу с высокой плотностью из изображения.
* Он идентифицирует необработанные числовые значения, необходимые для анализа.
* Он пишет код Python, который:
* нормализует предыдущие значения SOTA до 1,0;
* использует Matplotlib для создания гистограммы относительной производительности.

Сгенерированный график и нормализованные значения возвращаются как часть контекста, и окончательный ответ основан на этих вычисленных результатах.

Для команд, занимающихся наукой о данных, это создаёт чёткое разделение:
* модель обрабатывает восприятие и планирование;
* Python обрабатывает числовые вычисления и построение графиков.

Как разработчики могут использовать Agentic Vision сегодня?

Agentic Vision доступна сейчас с Gemini 3 Flash через несколько сервисов Google:
* Gemini API в Google AI Studio: разработчики могут попробовать демонстрационное приложение или использовать игровую площадку AI Studio. В игровой площадке Agentic Vision включается путём включения «Code Execution» в разделе «Инструменты».
* Vertex AI: та же возможность доступна через Gemini API в Vertex AI, настройка осуществляется через обычные настройки модели и инструментов.
* Приложение Gemini: Agentic Vision начинает внедряться в приложении Gemini. Пользователи могут получить к нему доступ, выбрав «Thinking» в раскрывающемся списке моделей.

Основные выводы:
* Agentic Vision превращает Gemini 3 Flash в активного агента зрения: понимание изображений больше не является одиночным проходом вперёд. Модель может планировать, вызывать инструменты Python для изображений и затем повторно проверять преобразованные изображения перед ответом.
* Цикл «Подумай, действуй, наблюдай» является основным шаблоном выполнения: Gemini 3 Flash планирует многошазовый визуальный анализ, выполняет Python для обрезки, аннотирования или вычислений на изображениях, затем наблюдает за новым визуальным контекстом, добавленным в его контекстное окно.
* Выполнение кода обеспечивает прирост на 5–10% по визуальным тестам: включение выполнения кода Python с помощью Agentic Vision обеспечивает повышение качества на 5–10% по большинству визуальных тестов, при этом PlanCheckSolver.com демонстрирует улучшение точности примерно на 5% при проверке строительных планов.
* Детерминированный Python используется для визуальной математики, таблиц и построения графиков: модель анализирует таблицы из изображений, извлекает числовые значения, затем использует Python и Matplotlib для нормализации показателей и построения графиков, уменьшая галлюцинации при многошаговой визуальной арифметике и анализе.

Вопросы по тексту статьи и ответы на них:

1. Какие преимущества даёт функция Agentic Vision в модели Gemini 3 Flash?

Agentic Vision в модели Gemini 3 Flash позволяет более активно и точно обрабатывать изображения. Она сочетает визуальный анализ с выполнением кода на Python, что повышает качество работы на 5–10% по большинству тестов зрения. Это особенно полезно для производственных задач, требующих точного чтения мелкого текста, плотных таблиц или сложных инженерных диаграмм.

2. Как работает цикл «Подумай, действуй, наблюдай» в задачах понимания изображений с использованием Agentic Vision?

В задачах понимания изображений с использованием Agentic Vision модель Gemini 3 Flash сначала анализирует запрос пользователя и исходное изображение, формулируя многошаговый план. Затем модель генерирует и выполняет код Python для манипулирования или анализа изображений. Наконец, модель изучает преобразованные изображения и выдаёт ответ на первоначальный запрос пользователя.

3. Какие возможности предоставляет Agentic Vision для аннотирования изображений?

Agentic Vision предоставляет возможность аннотирования, где Gemini 3 Flash может рассматривать изображение как визуальный блокнот. Это позволяет модели планировать, вызывать инструменты Python для изображений и затем повторно проверять преобразованные изображения перед ответом.

4. Как разработчики могут использовать Agentic Vision сегодня?

Разработчики могут использовать Agentic Vision сегодня через несколько сервисов Google. Они могут попробовать демонстрационное приложение или использовать игровую площадку AI Studio в Gemini API. Также возможность доступна через Gemini API в Vertex AI и в приложении Gemini, где пользователи могут получить к нему доступ, выбрав «Thinking» в раскрывающемся списке моделей.

5. Какие задачи может решать Agentic Vision в инженерных командах?

Agentic Vision может решать задачи автоматического масштабирования при работе с входными данными высокого разрешения, проверки соответствия сложным строительным нормам и аннотирования изображений. Это особенно актуально для инженерных команд, работающих с экспортом CAD, структурными схемами или нормативными чертежами, которые нельзя безопасно уменьшить без потери деталей.

Источник