Google AI представляет Test-Time Diffusion Deep Researcher (TTD-DR): диффузионную систему для продвинутых исследовательских агентов, вдохновлённую человеческим подходом

Агенты для глубоких исследований (Deep Research, DR) быстро завоевали популярность как в научных кругах, так и в промышленности благодаря недавнему прогрессу в области больших языковых моделей (LLM). Однако большинство популярных публичных агентов DR не учитывают особенности человеческого мышления и процесса написания. Им часто не хватает структурированных шагов, которые поддерживают исследователей-людей, таких как составление черновиков, поиск и использование обратной связи.

Текущие агенты DR собирают алгоритмы и различные инструменты для тестирования без целостных фреймворков, что подчёркивает острую необходимость в специально разработанных системах, которые могут соответствовать или превосходить возможности человека в исследованиях. Отсутствие когнитивных процессов, вдохновлённых человеком, в текущих методах создаёт разрыв между тем, как люди проводят исследования, и тем, как ИИ-агенты справляются со сложными исследовательскими задачами.

Существующие подходы

В существующих работах, таких как масштабирование во время тестирования, используются алгоритмы итеративного уточнения, механизмы дебатов, турниры для ранжирования гипотез и системы самокритики для генерации исследовательских предложений. Многоагентные системы используют планировщиков, координаторов, исследователей и репортёров для создания подробных ответов, а некоторые фреймворки позволяют использовать режим «человеческого пилота» для интеграции обратной связи.

Подходы к настройке агентов сосредоточены на обучении с помощью многозадачных целей, компонентной контролируемой тонкой настройке и обучении с подкреплением для улучшения возможностей поиска и просмотра. Модели диффузии LLM пытаются сломать предположения авторегрессионной выборки, генерируя полные зашумлённые черновики и итеративно очищая токены для получения высококачественных результатов.

Test-Time Diffusion Deep Researcher (TTD-DR)

Исследователи из Google представили TTD-DR, вдохновлённую итеративным характером человеческих исследований через повторяющиеся циклы поиска, мышления и уточнения. Концептуально генерация исследовательского отчёта представлена как диффузионный процесс, начиная с черновика, который служит обновлённым планом и эволюционирующей основой для направления исследования.

Черновик подвергается итеративному уточнению посредством процесса «очистки от шума», динамически информируемого механизмом извлечения, который включает внешнюю информацию на каждом этапе. Этот ориентированный на черновик дизайн делает написание отчётов более своевременным и последовательным, одновременно снижая потерю информации во время итеративных поисковых процессов. TTD-DR достигает современных результатов на контрольных примерах, требующих интенсивного поиска и многоэтапного рассуждения.

Структура TTD-DR

Фреймворк TTD-DR устраняет ограничения существующих агентов DR, которые используют линейные или параллельные процессы. Предлагаемый базовый агент DR содержит три основных этапа:

1. Генерация плана исследования.
2. Итеративный поиск и синтез.
3. Генерация окончательного отчёта.

Каждый этап содержит единичных агентов LLM, рабочие процессы и состояния агентов. Агент использует самоэволюционирующиеся алгоритмы для повышения производительности каждого этапа, помогая ему находить и сохранять высококачественный контекст.

Алгоритм, вдохновлённый недавней работой по самоэволюции, реализован в параллельном рабочем процессе наряду с последовательными и циклическими рабочими процессами. Этот алгоритм может быть применён ко всем трём этапам агентов для улучшения общего качества вывода.

Результаты

В сравнении с OpenAI Deep Research TTD-DR достигает 69,1% и 74,5% побед в задачах по созданию исследовательских отчётов в длинной форме, а также превосходит на 4,8%, 7,7% и 1,7% на трёх наборах данных для исследований с краткими ответами, соответствующими действительности. Он показывает высокие результаты по оценкам автоматических оценщиков полезности и полноты, особенно в наборах данных LongForm Research.

Более того, алгоритм самоэволюции достигает 60,9% и 59,8% побед против OpenAI Deep Research на LongForm Research и DeepConsult. Оценка правильности показывает улучшение на 1,5% и 2,8% на наборах данных HLE, хотя производительность на GAIA остаётся на 4,4% ниже, чем у OpenAI DR.

Включение диффузии с извлечением приводит к существенным преимуществам по сравнению с OpenAI Deep Research по всем контрольным показателям.

В заключение, Google представляет TTD-DR — метод, который устраняет фундаментальные ограничения за счёт когнитивного дизайна, вдохновлённого человеком. Подход фреймворка концептуализирует генерацию исследовательского отчёта как диффузионный процесс, используя обновляемый черновик-скелет, который направляет исследование. TTD-DR, усиленный самоэволюционными алгоритмами, применяемыми к каждому компоненту рабочего процесса, обеспечивает высококачественную генерацию контекста на протяжении всего процесса исследования.

Более того, оценки демонстрируют, что TTD-DR демонстрирует современные результаты по различным контрольным показателям, требующим интенсивного поиска и многоэтапного рассуждения, с превосходными результатами как в комплексных исследовательских отчётах в длинной форме, так и в задачах многоэтапного рассуждения в краткой форме.

Ознакомиться с документом можно здесь. Не стесняйтесь заглянуть на нашу страницу с учебными пособиями по ИИ-агентам и агентскому ИИ для различных приложений. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

1. Какие основные этапы включает в себя работа TTD-DR?

Ответ: TTD-DR включает в себя три основных этапа: генерацию плана исследования, итеративный поиск и синтез, генерацию окончательного отчёта.

2. В чём заключается инновационность подхода TTD-DR по сравнению с другими агентами для глубоких исследований?

Ответ: TTD-DR вдохновлён итеративным характером человеческих исследований и использует обновляемый черновик-скелет, который направляет исследование. Это позволяет сделать написание отчётов более своевременным и последовательным, одновременно снижая потерю информации во время итеративных поисковых процессов.

3. Какие результаты показал TTD-DR в сравнении с OpenAI Deep Research?

Ответ: TTD-DR достигает 69,1% и 74,5% побед в задачах по созданию исследовательских отчётов в длинной форме, а также превосходит на 4,8%, 7,7% и 1,7% на трёх наборах данных для исследований с краткими ответами, соответствующими действительности. Кроме того, алгоритм самоэволюции достигает 60,9% и 59,8% побед против OpenAI Deep Research на LongForm Research и DeepConsult.

4. Какие преимущества даёт использование диффузии с извлечением в TTD-DR по сравнению с OpenAI Deep Research?

Ответ: Включение диффузии с извлечением в TTD-DR приводит к существенным преимуществам по сравнению с OpenAI Deep Research по всем контрольным показателям. Это демонстрирует, что TTD-DR показывает современные результаты по различным контрольным показателям, требующим интенсивного поиска и многоэтапного рассуждения.

5. Какие методы используются для улучшения производительности каждого этапа работы TTD-DR?

Ответ: Для улучшения производительности каждого этапа работы TTD-DR используются самоэволюционирующиеся алгоритмы. Они помогают агенту находить и сохранять высококачественный контекст на каждом этапе работы.

Источник