Команда Google DeepMind представила Aletheia — специализированного ИИ-агента, предназначенного для преодоления разрыва между математическими соревнованиями и профессиональными исследованиями. В то время как модели достигли стандартов, соответствующих золотым медалям на Международной математической олимпиаде (IMO) 2025 года, исследования требуют работы с обширной литературой и построения долгосрочных доказательств. Aletheia решает эту задачу, итеративно генерируя, проверяя и корректируя решения на естественном языке.
Архитектура: агентский цикл
Aletheia работает на продвинутой версии Gemini Deep Think. Она использует трёхкомпонентную «агентскую упряжь» для повышения надёжности:
* Генератор: предлагает решение исследовательской задачи.
* Верификатор: неформальный механизм на естественном языке, который проверяет наличие ошибок или «галлюцинаций».
* Корректор: исправляет ошибки, выявленные верификатором, до тех пор, пока окончательный результат не будет утверждён.
Такое разделение обязанностей имеет решающее значение; исследователи отметили, что явное разделение проверки помогает модели распознавать ошибки, которые она изначально упускает при генерации.
Ключевые технические выводы
Разработка Aletheia позволила сделать несколько выводов о том, как ИИ справляется со сложными рассуждениями:
* Масштабирование времени вывода: предоставление модели дополнительных вычислительных ресурсов во время запроса — «более длительное обдумывание» — значительно повышает точность. Версия Deep Think за январь 2026 года сократила объём вычислений, необходимых для решения задач уровня IMO, в 100 раз по сравнению с версией 2025 года.
* Производительность: Aletheia достигла точности 95,1% на IMO-Proof Bench Advanced, что стало значительным прорывом по сравнению с предыдущим рекордом в 65,7%. Она также продемонстрировала современную производительность на FutureMath Basic — внутреннем бенчмарке упражнений уровня PhD.
* Использование инструментов: чтобы предотвратить «галлюцинации» с цитированием, Aletheia использует Google Search и веб-браузинг. Это помогает ей синтезировать математическую литературу из реального мира.
Этапы исследования
Aletheia уже внесла свой вклад в несколько рецензируемых публикаций:
* Полностью автономный (Feng26): Aletheia сгенерировала исследовательскую статью, вычисляющую структурные константы, называемые собственными весами, без какого-либо участия человека.
* Совместная работа (LeeSeo26): агент предоставил общую дорожную карту и стратегию «большой картины» для доказательства границ независимых множеств, которые затем были превращены авторами-людьми в строгое доказательство.
* Гипотезы Эрдеша: Aletheia была задействована для решения 700 открытых задач, нашла 63 технически правильных решения и самостоятельно разрешила 4 открытых вопроса.
Таксономия для автономности ИИ
DeepMind предложила стандарт для классификации математических вкладов ИИ, аналогичный уровням, используемым для автономных транспортных средств.
| Уровень | Описание | Значимость (пример) |
| — | — | — |
| Уровень 0 | В основном человеческий | Незначительная новизна (уровень олимпиады) |
| Уровень 1 | Сотрудничество человека и ИИ | Незначительная новизна (Erdős-1051) |
| Уровень 2 | По сути автономный | Опубликуемые исследования (Feng26) |
Статья Feng26 классифицирована как Уровень A2, что означает, что она по сути автономна и имеет публикуемое качество.
Ключевые выводы
* Введение ИИ-агента исследовательского уровня: Aletheia — это математический исследовательский агент, который выходит за рамки решения задач на соревнованиях и может автономно генерировать, проверять и корректировать математические доказательства на естественном языке.
* Значительные достижения за счёт масштабирования времени вывода: исследователи DeepMind обнаружили, что предоставление модели большего «времени на размышления» во время вывода даёт существенные преимущества в точности.
* Вехи в автономных исследованиях: система достигла нескольких «первых», включая исследовательскую статью (Feng26), сгенерированную полностью без участия человека в области арифметической геометрии.
* Критическая роль использования инструментов и проверки: чтобы бороться с «галлюцинациями», такими как фальсификация цитат в статьях, Aletheia в значительной степени полагается на Google Search и веб-браузинг.
* Предложение новой таксономии автономности: в статье предлагается стандартизированная система для документирования результатов, полученных с помощью ИИ, с осями для автономности (от уровня H до уровня A) и математической значимости (от уровня 0 до уровня 4).
1. Какие ключевые технические выводы были сделаны в процессе разработки ИИ-агента Aletheia?
В процессе разработки ИИ-агента Aletheia были сделаны следующие ключевые технические выводы:
* Масштабирование времени вывода: предоставление модели дополнительных вычислительных ресурсов во время запроса значительно повышает точность.
* Производительность: Aletheia достигла точности 95,1% на IMO-Proof Bench Advanced, что стало значительным прорывом по сравнению с предыдущим рекордом в 65,7%.
* Использование инструментов: чтобы предотвратить «галлюцинации» с цитированием, Aletheia использует Google Search и веб-браузинг. Это помогает ей синтезировать математическую литературу из реального мира.
2. Какие этапы исследования демонстрирует ИИ-агент Aletheia?
ИИ-агент Aletheia демонстрирует следующие этапы исследования:
* Полностью автономный (Feng26): Aletheia сгенерировала исследовательскую статью, вычисляющую структурные константы, называемые собственными весами, без какого-либо участия человека.
* Совместная работа (LeeSeo26): агент предоставил общую дорожную карту и стратегию «большой картины» для доказательства границ независимых множеств, которые затем были превращены авторами-людьми в строгое доказательство.
* Гипотезы Эрдеша: Aletheia была задействована для решения 700 открытых задач, нашла 63 технически правильных решения и самостоятельно разрешила 4 открытых вопроса.
3. Какие уровни автономности ИИ были предложены в статье для классификации математических вкладов ИИ?
В статье была предложена следующая таксономия для классификации математических вкладов ИИ:
* Уровень 0: в основном человеческий, незначительная новизна (уровень олимпиады).
* Уровень 1: сотрудничество человека и ИИ, незначительная новизна (Erdős-1051).
* Уровень 2: по сути автономный, публикуемые исследования (Feng26).
4. Какие достижения Aletheia можно считать вехами в автономных исследованиях?
Среди достижений Aletheia, которые можно считать вехами в автономных исследованиях, можно выделить:
* Исследовательскую статью (Feng26), сгенерированную полностью без участия человека в области арифметической геометрии.
* Общую дорожную карту и стратегию «большой картины» для доказательства границ независимых множеств, предоставленные агентом (LeeSeo26).
* Решение 700 открытых задач, нахождение 63 технически правильных решений и самостоятельное разрешение 4 открытых вопросов (гипотезы Эрдеша).