Google объявила о крупном обновлении Gemini 3 Deep Think. Это обновление специально разработано для ускорения современной науки, исследований и разработок. Похоже, это больше, чем просто выпуск новой модели. Это поворот к «режиму рассуждений», который использует внутреннюю проверку для решения задач, ранее требовавших вмешательства человека-эксперта.
Обновлённая модель достигает контрольных показателей, которые переопределяют границы интеллекта. Сосредоточившись на вычислениях во время тестирования — способности модели «думать» дольше, прежде чем сгенерировать ответ, — Google выходит за рамки простого сопоставления шаблонов.
Переосмысление AGI с результатом 84,6% в ARC-AGI-2
Тест ARC-AGI — это окончательный тест интеллекта. В отличие от традиционных тестов, которые проверяют запоминание, ARC-AGI измеряет способность модели осваивать новые навыки и применять их для решения новых задач, с которыми она никогда не сталкивалась. Команда Google сообщила, что Gemini 3 Deep Think достигла 84,6% в ARC-AGI-2, результат подтверждён Фондом ARC Prize.
Результат в 84,6% — это огромный скачок для отрасли. Для сравнения: люди в среднем показывают около 60% в этих задачах на визуальное рассуждение, а предыдущие модели ИИ часто с трудом преодолевали отметку в 20%. Это означает, что модель больше не просто предсказывает наиболее вероятное следующее слово. Она разрабатывает гибкое внутреннее представление логики. Эта возможность критически важна для сред исследований и разработок, где инженеры работают с грязными, неполными или новыми данными, которых нет в обучающем наборе.
Сдача «Последнего экзамена человечества»
Google также установила новый стандарт на «Последнем экзамене человечества» (HLE), набрав 48,4% (без использования инструментов). HLE — это тест, состоящий из тысяч вопросов, разработанных экспертами в предметной области, чтобы быть лёгкими для людей, но почти невозможными для современного ИИ. Эти вопросы охватывают специализированные академические темы, где данных мало, а логика сложна.
Достижение 48,4% без использования внешних поисковых инструментов — это знаковый результат для моделей рассуждений. Такая производительность указывает на то, что Gemini 3 Deep Think может решать задачи высокоуровневого концептуального планирования. Она может работать с многошаговыми логическими цепочками в таких областях, как продвинутое право, философия и математика, не уходя в «галлюцинации». Это доказывает, что внутренние системы проверки модели эффективно работают, отсеивая неверные пути рассуждений.
Кодирование соревнований: рубеж в 3455 Эло
Наиболее ощутимое обновление — в соревновательном программировании. Gemini 3 Deep Think теперь имеет рейтинг 3455 Эло на Codeforces. В мире кодирования рейтинг 3455 Эло ставит модель в категорию «Легендарный гроссмейстер», уровень, которого достигает лишь крошечная часть программистов-людей во всём мире.
Этот рейтинг означает, что модель отличается алгоритмической строгостью. Она может работать со сложными структурами данных, оптимизировать временную сложность и решать задачи, требующие глубокого управления памятью. Эта модель служит элитным напарником-кодером. Она особенно полезна для «агентного кодирования», когда ИИ ставит перед собой высокоуровневую цель и самостоятельно выполняет сложное, многофайловое решение.
Во время внутреннего тестирования команда Google отметила, что Gemini 3 Pro показала на 35% более высокую точность в решении задач по разработке программного обеспечения, чем предыдущие версии.
Развитие науки: физика, химия и математика
Обновление Google специально настроено для научных открытий. Gemini 3 Deep Think достигла результатов, соответствующих уровню золотой медали, в письменных разделах Международной олимпиады по физике 2025 года и Международной олимпиады по химии 2025 года. Она также достигла уровня золотой медали на Международной олимпиаде по математике 2025 года.
Помимо этих студенческих соревнований, модель работает на профессиональном уровне исследований. Она набрала 50,5% на CMT-Benchmark, который проверяет знания в области передовой теоретической физики. Для исследователей и специалистов по работе с данными в биотехнологии или материаловедении это означает, что модель может помочь в интерпретации экспериментальных данных или моделировании физических систем.
Практическая инженерия и 3D-моделирование
Рассуждения модели не просто абстрактны; они имеют практическую инженерную полезность. Новая возможность, выделенная командой Google, — способность модели превращать набросок в объект, пригодный для 3D-печати. Deep Think может анализировать 2D-чертёж, моделировать сложные 3D-формы с помощью кода и генерировать окончательный файл для 3D-принтера.
Это отражает «агентскую» природу модели. Она может преодолеть разрыв между визуальной идеей и физическим продуктом, используя код в качестве инструмента. Для инженеров это снижает трение между проектированием и прототипированием. Она также отлично справляется с решением сложных задач оптимизации, таких как разработка рецептов выращивания тонких плёнок в специализированных химических процессах.
Ключевые выводы
* Прорыв в абстрактном мышлении: модель достигла 84,6% в ARC-AGI-2 (подтверждено Фондом ARC Prize), доказав, что она может осваивать новые задачи и обобщать логику, а не полагаться на заученные обучающие данные.
* Элитная производительность в кодировании: с рейтингом 3455 Эло на Codeforces Gemini 3 Deep Think работает на уровне «Легендарного гроссмейстера», превосходя подавляющее большинство программистов-людей в алгоритмической сложности и системной архитектуре.
* Новый стандарт экспертной логики: модель набрала 48,4% на «Последнем экзамене человечества» (без использования инструментов), продемонстрировав способность решать многоуровневые логические цепочки, которые ранее считались «слишком человеческими» для решения ИИ.
* Успех на научных олимпиадах: модель достигла результатов, соответствующих уровню золотой медали, на письменных разделах Международной олимпиады по физике и химии 2025 года, продемонстрировав свою способность к исследованиям профессионального уровня и сложному физическому моделированию.
* Масштабируемый вывод во время тестирования: в отличие от традиционных LLM, этот «режим глубокого мышления» использует вычисления во время тестирования для внутренней проверки и самокоррекции своей логики перед ответом, значительно снижая количество технических «галлюцинаций».
Ознакомьтесь с техническими подробностями здесь. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в Telegram.
1. Какие ключевые достижения продемонстрировала обновлённая модель Gemini 3 Deep Think в сравнении с предыдущими версиями ИИ?
В статье указано, что обновлённая модель Gemini 3 Deep Think достигла значительных результатов в различных областях. Она показала 84,6% в тесте ARC-AGI-2, что является огромным скачком для отрасли. Также модель набрала 48,4% на «Последнем экзамене человечества» и получила рейтинг 3455 Эло на Codeforces, что ставит её в категорию «Легендарный гроссмейстер» в мире кодирования.
2. Какие практические применения имеет обновлённая модель Gemini 3 Deep Think в инженерии и 3D-моделировании?
В тексте указано, что модель может превращать набросок в объект, пригодный для 3D-печати. Она может анализировать 2D-чертёж, моделировать сложные 3D-формы с помощью кода и генерировать окончательный файл для 3D-принтера. Это отражает «агентскую» природу модели и снижает трение между проектированием и прототипированием для инженеров.
3. Какие новые стандарты в области экспертной логики установила модель Gemini 3 Deep Think?
В статье говорится, что модель набрала 48,4% на «Последнем экзамене человечества», продемонстрировав способность решать многоуровневые логические цепочки, которые ранее считались «слишком человеческими» для решения ИИ. Это указывает на то, что модель может работать с многошаговыми логическими цепочками в таких областях, как продвинутое право, философия и математика, не уходя в «галлюцинации».
4. Какие результаты показала модель Gemini 3 Deep Think на научных олимпиадах?
В тексте указано, что модель достигла результатов, соответствующих уровню золотой медали, на письменных разделах Международной олимпиады по физике и химии 2025 года. Это демонстрирует её способность к исследованиям профессионального уровня и сложному физическому моделированию.
5. Какие особенности «режима глубокого мышления» использует модель Gemini 3 Deep Think для внутренней проверки и самокоррекции своей логики?
В статье говорится, что в отличие от традиционных LLM, этот «режим глубокого мышления» использует вычисления во время тестирования для внутренней проверки и самокоррекции своей логики перед ответом. Это значительно снижает количество технических «галлюцинаций» и повышает точность модели.