Google выпускает Gemini 3 Pro: новый шаг в развитии мультимодальных систем

Google представила семейство моделей Gemini 3, в центре которого находится Gemini 3 Pro. Эта модель позиционируется как значительный шаг к созданию более универсальных систем искусственного интеллекта.

Как мы переходим от языковых моделей, которые только отвечают на запросы, к системам, способным рассуждать над контекстом в миллион токенов, понимать сигналы реального мира и действовать как агенты от нашего имени?

Google выпустила семейство Gemini 3, в центре которого — модель Gemini 3 Pro. Исследовательская команда описывает Gemini 3 как свою самую интеллектуальную модель на данный момент, обладающую передовыми возможностями в области рассуждений, сильным мультимодальным пониманием и улучшенными способностями в области агентского и виб-кодирования.

Основные характеристики Gemini 3 Pro

Gemini 3 Pro — это разрежённая модель трансформатора со смесью экспертов (Sparse MoE) с встроенной мультимодальной поддержкой для текста, изображений, аудио- и видеовходов. Слои Sparse MoE направляют каждый токен к небольшому подмножеству экспертов, поэтому модель может масштабировать общее количество параметров без пропорциональных вычислительных затрат на каждый токен.

Входы могут охватывать до 1 миллиона токенов, а модель может генерировать до 64 тысяч выходных токенов, что значительно для кодовых баз, длинных документов или многочасовых транскриптов. Модель обучена с нуля, а не как тонкая настройка Gemini 2.5.

Данные для обучения включают крупномасштабные общедоступные веб-тексты, код на многих языках, изображения, аудио и видео в сочетании с лицензионными данными, данными о взаимодействии с пользователями и синтетическими данными. После обучения используется мультимодальная настройка инструкций и обучение с подкреплением на основе обратной связи от человека и критика для улучшения многошагового рассуждения, решения проблем и доказательства теорем.

Результаты тестирования

На публичных бенчмарках Gemini 3 Pro явно превосходит Gemini 2.5 Pro и конкурирует с другими передовыми моделями, такими как GPT 5.1 и Claude Sonnet 4.5.

  • На экзамене Humanity’s Last Exam, который объединяет вопросы уровня PhD по многим научным и гуманитарным дисциплинам, Gemini 3 Pro набирает 37,5% без использования инструментов, по сравнению с 21,6% для Gemini 2.5 Pro, 26,5% для GPT 5.1 и 13,7% для Claude Sonnet 4.5. С включёнными поиском и выполнением кода Gemini 3 Pro достигает 45,8%.

  • На визуальных логических задачах ARC AGI 2 Gemini 3 Pro набирает 31,1%, по сравнению с 4,9% для Gemini 2.5 Pro, и опережает GPT 5.1 на 17,6% и Claude Sonnet 4.5 на 13,6%.

  • В ответах на научные вопросы в GPQA Diamond Gemini 3 Pro достигает 91,9%, немного опережая GPT 5.1 на 88,1% и Claude Sonnet 4.5 на 83,4%.

Мультимодальное понимание и поведение в длинном контексте

Gemini 3 Pro разработана как нативная мультимодальная модель, а не как текстовая модель с дополнительными модулями. На MMMU Pro, которая измеряет мультимодальное рассуждение по многим предметам университетского уровня, она набирает 81% по сравнению с 68% для Gemini 2.5 Pro и Claude Sonnet 4.5 и 76% для GPT 5.1.

Интерфейс пользователя и понимание документов

Gemini 3 Pro также демонстрирует более сильные пользовательский интерфейс и понимание документов. ScreenSpot Pro, бенчмарк для поиска элементов на экране, показывает Gemini 3 Pro на уровне 72,7%, по сравнению с 11,4% для Gemini 2.5 Pro, 36,2% для Claude Sonnet 4.5 и 3,5% для GPT 5.1.

Кодирование, агенты и Google Antigravity

Для разработчиков программного обеспечения основная история связана с кодированием и агентским поведением. Gemini 3 Pro занимает первое место в таблице лидеров LMArena с рейтингом Эло 1501 и достигает 1487 Эло в WebDev Arena, которая оценивает задачи веб-разработки.

Google Antigravity

Gemini 3 Pro также хорошо работает на τ2 bench для использования инструментов на уровне 85,4% и на Vending Bench 2, который оценивает долгосрочное планирование для моделируемого бизнеса.

Эти возможности представлены в Google Antigravity, среде разработки, ориентированной на агентов. Antigravity сочетает Gemini 3 Pro с моделью использования компьютера Gemini 2.5 для управления браузером и моделью изображений Nano Banana, поэтому агенты могут планировать, писать код, запускать его в терминале или браузере и проверять результаты в рамках единого рабочего процесса.

Ключевые выводы:

  • Gemini 3 Pro — это разрежённая модель трансформатора со смесью экспертов с встроенной мультимодальной поддержкой и окном контекста в 1 миллион токенов, разработанная для крупномасштабных рассуждений над длинными входными данными.

  • Модель демонстрирует значительные улучшения по сравнению с Gemini 2.5 Pro на сложных бенчмарках рассуждений, таких как Humanity’s Last Exam, ARC AGI 2, GPQA Diamond и MathArena Apex, и конкурирует с GPT 5.1 и Claude Sonnet 4.5.

  • Gemini 3 Pro демонстрирует сильные мультимодальные характеристики на таких бенчмарках, как MMMU Pro, Video MMMU, ScreenSpot Pro и OmniDocBench, которые нацелены на вопросы университетского уровня, понимание видео и сложных документов или пользовательского интерфейса.

  • Кодирование и агентские варианты использования являются основным направлением, с высокими оценками на SWE Bench Verified, WebDev Arena, Terminal Bench и в тестах по использованию инструментов и планированию, таких как τ2 bench и Vending Bench 2.

1. Какие ключевые особенности отличают модель Gemini 3 Pro от предыдущих версий и других моделей искусственного интеллекта?

Gemini 3 Pro отличается от предыдущих версий и других моделей искусственного интеллекта следующими ключевыми особенностями:
* это разрежённая модель трансформатора со смесью экспертов (Sparse MoE) с встроенной мультимодальной поддержкой для текста, изображений, аудио- и видеовходов;
* модель может масштабировать общее количество параметров без пропорциональных вычислительных затрат на каждый токен;
* входы могут охватывать до 1 миллиона токенов, а модель может генерировать до 64 тысяч выходных токенов;
* модель обучена с нуля, а не как тонкая настройка Gemini 2.5;
* данные для обучения включают крупномасштабные общедоступные веб-тексты, код на многих языках, изображения, аудио и видео в сочетании с лицензионными данными, данными о взаимодействии с пользователями и синтетическими данными.

2. В чём заключается преимущество мультимодального понимания Gemini 3 Pro по сравнению с текстовыми моделями?

Gemini 3 Pro разработана как нативная мультимодальная модель, а не как текстовая модель с дополнительными модулями. Это позволяет ей обрабатывать не только текстовые данные, но и изображения, аудио и видео. Такая мультимодальность делает модель более универсальной и способной к более глубокому пониманию контекста.

3. Какие результаты тестирования подтверждают превосходство Gemini 3 Pro над другими моделями?

На публичных бенчмарках Gemini 3 Pro явно превосходит Gemini 2.5 Pro и конкурирует с другими передовыми моделями, такими как GPT 5.1 и Claude Sonnet 4.5. Например:
* на экзамене Humanity’s Last Exam Gemini 3 Pro набирает 37,5% без использования инструментов, по сравнению с 21,6% для Gemini 2.5 Pro, 26,5% для GPT 5.1 и 13,7% для Claude Sonnet 4.5;
* на визуальных логических задачах ARC AGI 2 Gemini 3 Pro набирает 31,1%, по сравнению с 4,9% для Gemini 2.5 Pro, и опережает GPT 5.1 на 17,6% и Claude Sonnet 4.5 на 13,6%;
* в ответах на научные вопросы в GPQA Diamond Gemini 3 Pro достигает 91,9%, немного опережая GPT 5.1 на 88,1% и Claude Sonnet 4.5 на 83,4%.

4. Какие задачи и сценарии использования особенно хорошо подходят для Gemini 3 Pro?

Gemini 3 Pro особенно хорошо подходит для задач, требующих мультимодального понимания и работы с длинными контекстами. Это включает в себя:
* сложные рассуждения над длинными входными данными;
* понимание видео и сложных документов;
* пользовательский интерфейс и понимание документов;
* кодирование и агентские варианты использования, такие как планирование, написание кода, запуск его в терминале или браузере и проверка результатов.

5. Как Gemini 3 Pro может быть использована в среде разработки Google Antigravity?

Gemini 3 Pro может быть использована в среде разработки Google Antigravity для управления браузером, планирования, написания кода, запуска его в терминале или браузере и проверки результатов в рамках единого рабочего процесса. Это позволяет разработчикам программного обеспечения эффективно использовать модель для решения сложных задач и автоматизации процессов.

Источник