Большие языковые модели (LLMs) быстро развиваются, и их потенциал в качестве мощных помощников в научных исследованиях растёт. Они всё чаще не просто отвечают на простые фактические вопросы, но и решают задачи «глубокого исследования», которые включают в себя многоэтапное рассуждение, оценку противоречивой информации, поиск данных в интернете и их синтез в связный результат.
Что такое Deep Research Bench?
Созданный командой FutureSearch, Deep Research Bench — это тщательно разработанный эталон, предназначенный для оценки производительности агентов искусственного интеллекта при выполнении многоэтапных исследовательских задач в интернете. Эти задачи не являются простыми вопросами с однозначными ответами — они отражают сложные, открытые задачи, с которыми сталкиваются аналитики, политики и исследователи в реальных условиях.
Эталон включает в себя 89 различных задач по 8 категориям, таким как:
* Find Number (например, «Сколько было отзывов медицинских устройств класса II FDA?»);
* Validate Claim (например, «Является ли ChatGPT в 10 раз более энергозатратным, чем Google Search?»);
* Compile Dataset (например, «Тенденции занятости разработчиков программного обеспечения в США с 2019 по 2023 год»).
Каждая задача тщательно структурирована с ответами, проверенными людьми, и оценивается с использованием замороженного набора данных веб-страниц, известного как RetroSearch. Это обеспечивает согласованность оценок моделей, избегая нестабильного состояния живого интернета.
Архитектура агента: ReAct и RetroSearch
В основе Deep Research Bench лежит архитектура ReAct, сокращение от «Reason + Act» («Рассуждать + Действовать»). Этот метод имитирует то, как человек-исследователь мог бы решить задачу — продумывая задачу, предпринимая действие, например, выполняя веб-поиск, наблюдая за результатами, а затем решая, повторять итерацию или делать вывод.
Хотя более ранние модели явно следуют этому циклу, новые «думающие» модели часто упрощают процесс, более плавно встраивая рассуждения в свои действия. Чтобы обеспечить согласованность оценок, DRB представляет RetroSearch — специально созданную статическую версию интернета. Вместо того чтобы полагаться на живой интернет, который постоянно меняется, агенты подключаются к архиву веб-страниц, собранных с помощью таких инструментов, как Serper, Playwright и ScraperAPI.
Какие ИИ-агенты работают лучше всего?
Среди всех участников конкурса модель OpenAI o3 стала лидером, набрав 0,51 балла из возможных 1,0 в Deep Research Bench. Хотя это может показаться скромным, важно понимать сложность эталона: из-за неоднозначности в определениях задач и подсчёте баллов даже безупречный агент, скорее всего, достигнет максимума около 0,8 — так называемый «потолок шума».
Тем не менее таблица лидеров предлагает интересные идеи. o3 не только лидировала, но делала это быстро и последовательно, демонстрируя высокую производительность почти по всем типам задач. Claude 3.7 Sonnet от Anthropic следовал за ней, демонстрируя универсальность как в «думающих», так и в «недумающих» режимах. Gemini 2.5 Pro, флагманская модель Google, выделялась своей способностью решать задачи, требующие структурированного планирования и пошагового рассуждения. Между тем модель с открытым весом DeepSeek-R1 преподнесла приятный сюрприз — она шла в ногу с GPT-4 Turbo и сократила разрыв в производительности между открытыми и закрытыми моделями.
Повсеместно прослеживалась чёткая закономерность: новые «думающие» модели последовательно превосходили своих более ранних предшественников, а закрытые модели сохраняли заметное преимущество перед альтернативами с открытым весом.
Где агенты сталкиваются с трудностями?
Просматривая закономерности неудач, выделенные в отчёте Deep Research Bench, я почувствовал себя удивительно знакомым. Одним из самых разочаровывающих аспектов, с которыми я лично сталкивался, особенно во время длительных исследований или сессий по созданию контента, является то, что агент искусственного интеллекта просто забывает, что мы делаем. По мере растяжения контекстного окна модель часто начинает терять нить: ключевые детали исчезают, цели смешиваются, и внезапно ответы кажутся разрозненными или бесцельными.
В отчёте также подчёркивается, как некоторые модели впадают в повторяющееся использование инструментов, выполняя один и тот же поиск снова и снова, как будто застряв в цикле. Другие демонстрируют плохую формулировку запросов, лениво сопоставляя ключевые слова вместо того, чтобы критически осмысливать, как искать эффективно. И слишком часто агенты становятся жертвами преждевременных выводов — выдавая наполовину сформированный ответ, который технически соответствует требованиям, но не достигает реального понимания.
Даже среди топовых моделей различия разительны. Например, GPT-4 Turbo показал заметную тенденцию забывать предыдущие шаги, в то время как DeepSeek-R1 был более склонен к галлюцинациям или изобретению правдоподобной, но неверной информации. В целом модели часто не проверяли источники и не подтверждали результаты перед окончательным оформлением своего вывода.
Что насчёт производительности на основе памяти?
Интересно, что Deep Research Bench также оценивал так называемых «агентов без инструментов» — языковые модели, работающие без доступа к внешним инструментам, таким как веб-поиск или поиск документов. Эти агенты полагаются исключительно на свои внутренние данные обучения и память, генерируя ответы исключительно на основе того, что они узнали во время обучения. На практике это означает, что они не могут ничего искать или проверять информацию — они угадывают, основываясь на том, что они «помнят».
Удивительно, но эти агенты без инструментов показали почти такие же результаты, как и полноценные исследовательские агенты, в определённых задачах. Например, в задаче Validate Claim, где цель состоит в том, чтобы оценить правдоподобие утверждения, они набрали 0,61 балла, что почти соответствует среднему показателю в 0,62 балла у агентов с инструментами. Это говорит о том, что такие модели, как o3 и Claude, имеют сильные внутренние априорные знания и часто могут распознать правдивость распространённых утверждений без необходимости поиска в интернете.
Но в более сложных задачах, таких как Derive Number, которые требуют сбора воедино множества значений из различных источников, или Gather Evidence, которые зависят от поиска и оценки разнообразных фактов в контексте, эти модели без инструментов полностью развалились. Без свежей информации или возможностей поиска в реальном времени у них просто не было средств для получения точных или исчерпывающих ответов.
Этот контраст подчёркивает важный нюанс: хотя современные LLM могут имитировать «знание» большого объёма информации, глубокие исследования зависят не только от памяти, но и от рассуждений с актуальной, проверяемой информацией — что-то, что могут по-настоящему предоставить только агенты с дополненными инструментами.
Заключительные мысли
Отчёт DRB ясно даёт понять: хотя лучшие на сегодняшний день агенты с искусственным интеллектом могут опережать среднестатистических людей в узко определённых задачах, они всё ещё отстают от квалифицированных исследователей-универсалов — особенно когда дело доходит до стратегического планирования, адаптации в середине процесса и рассуждений с нюансами.
Этот пробел становится особенно очевидным во время длительных или сложных сессий, что я испытал на собственном опыте, когда агент постепенно теряет представление о цели задачи, что приводит к разочаровывающему нарушению согласованности и полезности.
Что делает Deep Research Bench таким ценным, так это то, что он не просто проверяет поверхностные знания — он исследует пересечение использования инструментов, памяти, рассуждений и адаптации, предлагая более близкий аналог реальных исследований, чем такие тесты, как MMLU или GSM8k.
Поскольку LLM продолжают интегрироваться в серьёзную интеллектуальную работу, инструменты FutureSearch, такие как DRB, будут иметь важное значение для оценки не только того, что эти системы знают, но и того, насколько хорошо они на самом деле работают.