Google предлагает TUMIX: мультиагентное масштабирование времени тестирования с помощью смеси инструментов использования

Google Cloud AI Research совместно с коллегами из MIT, Гарварда и Google DeepMind представили TUMIX (Tool-Use Mixture) — фреймворк времени тестирования, который объединяет разнородные стили агентов (только текст, код, поиск, управляемые варианты) и позволяет им обмениваться промежуточными ответами в течение нескольких раундов уточнения, а затем досрочно прекращать работу с помощью судьи на основе LLM.

Как это работает?

TUMIX запускает группу разнородных агентов — только текстовые Chain-of-Thought, исполняющие код, выполняющие веб-поиск и управляемые варианты — параллельно, затем выполняет небольшое количество раундов уточнения, где каждый агент учитывает исходный вопрос и предыдущие ответы других агентов (структурированное совместное использование заметок). После каждого раунда судья на основе LLM оценивает согласованность/последовательность, чтобы решить, прекратить ли работу досрочно; если уверенности недостаточно, запускается ещё один раунд, в противном случае система завершает работу путём простого агрегирования (например, путём голосования большинства или выбора).

Этот механизм использования инструментов позволяет отказаться от простой пересборки в пользу разнообразных путей рассуждений, улучшая охват правильных кандидатов при одновременном контроле бюджетов токенов/инструментов; эмпирически преимущества насыщаются примерно при 12–15 стилях агентов, а досрочное прекращение работы сохраняет разнообразие и снижает затраты без ущерба для точности.

Результаты

При сопоставимых бюджетах на выводы TUMIX обеспечивает лучшую среднюю точность по сравнению с сильными базовыми показателями, дополненными инструментами (Self-MoA, Symbolic-MoE, DEI, SciMaster, GSA).

* HLE (Humanity’s Last Exam): Pro: 21,6% → 34,1% (TUMIX+); Flash: 9,7% → 23,1%.
* GPQA-Diamond: Pro: до 88,3%; Flash: до 82,1%.
* AIME 2024/25: Pro: 96,7%; Flash: 86,7% с TUMIX(+) во время тестирования.

В среднем TUMIX показывает улучшение на +3,55% по сравнению с лучшим предыдущим базовым уровнем масштабирования времени тестирования с использованием инструментов при аналогичных затратах и на +7,8% / +17,4% по сравнению с отсутствием масштабирования для Pro/Flash соответственно.

Наши комментарии

TUMIX — отличный подход от Google, поскольку он рассматривает масштабирование времени тестирования как задачу поиска среди разнородных политик инструментов, а не как метод грубой пересборки. Параллельный комитет (текст, код, поиск) улучшает охват кандидатов, а судья на основе LLM позволяет досрочно прекратить работу, сохраняя разнообразие и сокращая расходы на токены/инструменты — что полезно при ограничениях по задержкам.

Результаты HLE (34,1% с Gemini-2.5 Pro) соответствуют окончательному дизайну теста из 2500 вопросов, а «золотая середина» примерно из 12–15 стилей агентов указывает на то, что ограничивающим фактором является выбор, а не генерация.

1. Что такое TUMIX и какие задачи он решает?

TUMIX (Tool-Use Mixture) — это фреймворк времени тестирования, разработанный Google Cloud AI Research совместно с коллегами из MIT, Гарварда и Google DeepMind. Он объединяет разнородные стили агентов (только текст, код, поиск, управляемые варианты) и позволяет им обмениваться промежуточными ответами в течение нескольких раундов уточнения. Основная задача TUMIX — улучшение точности и эффективности при выполнении задач за счёт использования разнообразных путей рассуждений и контроля бюджетов токенов/инструментов.

2. Какие агенты задействованы в работе TUMIX и как они взаимодействуют между собой?

В работе TUMIX задействованы агенты, которые могут выполнять различные задачи: только текстовые Chain-of-Thought, исполняющие код, выполняющие веб-поиск и управляемые варианты. Они запускаются параллельно, затем выполняют небольшое количество раундов уточнения, где каждый агент учитывает исходный вопрос и предыдущие ответы других агентов. После каждого раунда судья на основе LLM оценивает согласованность/последовательность, чтобы решить, прекратить ли работу досрочно.

3. Какие результаты были получены при использовании TUMIX по сравнению с базовыми показателями?

При сопоставимых бюджетах на выводы TUMIX обеспечивает лучшую среднюю точность по сравнению с сильными базовыми показателями, дополненными инструментами. Например, в задаче HLE (Humanity’s Last Exam) результаты улучшились с 21,6% до 34,1% для Pro и с 9,7% до 23,1% для Flash. В задаче GPQA-Diamond результаты улучшились до 88,3% для Pro и до 82,1% для Flash. В среднем TUMIX показывает улучшение на +3,55% по сравнению с лучшим предыдущим базовым уровнем масштабирования времени тестирования с использованием инструментов при аналогичных затратах и на +7,8% / +17,4% по сравнению с отсутствием масштабирования для Pro/Flash соответственно.

4. Какие преимущества даёт использование TUMIX по сравнению с другими методами масштабирования времени тестирования?

Использование TUMIX позволяет отказаться от простой пересборки в пользу разнообразных путей рассуждений, улучшая охват правильных кандидатов при одновременном контроле бюджетов токенов/инструментов. Эмпирически преимущества насыщаются примерно при 12–15 стилях агентов, а досрочное прекращение работы сохраняет разнообразие и снижает затраты без ущерба для точности. Это особенно полезно при ограничениях по задержкам.

5. Какие выводы можно сделать на основе результатов тестирования TUMIX?

Результаты тестирования TUMIX показывают, что он обеспечивает лучшую точность по сравнению с базовыми показателями при аналогичных затратах. Это указывает на то, что TUMIX является эффективным инструментом для масштабирования времени тестирования и может быть использован для улучшения точности и эффективности выполнения задач.

Источник