Google представила DS STAR (Data Science Agent via Iterative Planning and Verification) — мультиагентную систему, которая превращает открытые вопросы в области научных исследований данных в исполняемые скрипты на Python для работы с разнородными файлами.
Вместо того чтобы полагаться на чистую базу данных SQL и один запрос, DS STAR решает задачу преобразования текста в Python и работает напрямую со смешанными форматами данных, такими как CSV, JSON, Markdown и неструктурированный текст.
Существующие системы научных исследований данных
Существующие системы научных исследований данных часто полагаются на преобразование текста в SQL для реляционных баз данных. Это ограничение ограничивает их структурированными таблицами и простой схемой, что не соответствует многим корпоративным средам, где данные хранятся в документах, электронных таблицах и логах.
DS STAR меняет абстракцию. Она генерирует код на Python, который загружает и объединяет любые файлы, предоставленные в бенчмарке. Система сначала суммирует каждый файл, затем использует этот контекст для планирования, реализации и проверки многоэтапного решения.
Этапы работы DS STAR
1. Анализ файлов данных с помощью Aanalyzer.
На первом этапе создаётся структурированное представление озера данных. Для каждого файла (Dᵢ) агент Aanalyzer генерирует скрипт на Python (sᵢ_desc), который анализирует файл и выводит важную информацию, такую как имена столбцов, типы данных, метаданные и текстовые сводки. DS STAR выполняет этот скрипт и фиксирует выходные данные в виде краткого описания (dᵢ).
Этот процесс работает как для структурированных, так и для неструктурированных данных. Файлы CSV выдают статистику на уровне столбцов и выборки, в то время как файлы JSON или текстовые файлы создают структурные сводки и ключевые фрагменты. Коллекция {dᵢ} становится общим контекстом для всех последующих агентов.
2. Итеративное планирование, кодирование и проверка.
После анализа файлов DS STAR запускает итеративный цикл, который отражает то, как человек использует блокнот.
* Aplanner создаёт начальный исполняемый шаг (p₀) с использованием запроса и описаний файлов, например, загрузку соответствующей таблицы.
* Acoder превращает текущий план (p) в код на Python (s). DS STAR выполняет этот код, чтобы получить наблюдение (r).
* Averifier — это судья, основанный на LLM. Он получает совокупный план, запрос, текущий код и результат его выполнения и возвращает двоичное решение: достаточно или недостаточно.
Если план недостаточен, Arouter решает, как его уточнить. Он либо выводит токен Add Step, который добавляет новый шаг, либо индекс ошибочного шага, чтобы усечь и восстановить его.
Aplanner зависит от последних результатов выполнения (rₖ), поэтому каждый новый шаг явно отвечает на то, что пошло не так в предыдущей попытке. Цикл маршрутизации, планирования, кодирования, выполнения и проверки продолжается до тех пор, пока Averifier не отметит план как достаточный, или система не достигнет максимума в 20 раундов уточнения.
Чтобы соответствовать строгим форматам бенчмарков, отдельный агент Afinalyzer преобразует окончательный план в код решения, который применяет такие правила, как округление и вывод в формате CSV.
Модули надёжности, отладчик и модуль поиска
Реальные конвейеры терпят неудачу из-за дрейфа схемы и отсутствия столбцов. DS STAR добавляет Adebugger для исправления сломанных скриптов. Когда код не работает, Adebugger получает скрипт, обратную трассировку и описания анализатора ({dᵢ}). Он генерирует исправленный скрипт, основываясь на всех трёх сигналах, что важно, поскольку многие ошибки, связанные с данными, требуют знания заголовков столбцов, имён листов или схемы, а не только трассировки стека.
KramaBench вводит ещё одну проблему — тысячи файлов-кандидатов в каждом домене. DS STAR справляется с этим с помощью Retriever. Система встраивает пользовательский запрос и каждое описание (dᵢ) с помощью предварительно обученной модели встраивания и выбирает 100 наиболее похожих файлов для контекста агента или все файлы, если их меньше 100.
Результаты бенчмарков на DABStep, KramaBench и DA Code
Все основные эксперименты запускают DS STAR с Gemini 2.5 Pro в качестве базовой LLM и допускают до 20 раундов уточнения на задачу.
На DABStep модель только Gemini 2.5 Pro достигает точности на сложном уровне 12,70%. DS STAR с той же моделью достигает 45,24% на сложных задачах и 87,50% на простых задачах. Это абсолютный прирост более чем на 32 процентных пункта на сложном разделении, и он превосходит другие агенты, такие как ReAct, AutoGen, Data Interpreter, DA Agent, и несколько коммерческих систем, зарегистрированных в общедоступном списке лидеров.
Исследовательская группа Google сообщает, что по сравнению с лучшей альтернативной системой в каждом бенчмарке DS STAR повышает общую точность с 41,0% до 45,2% на DABStep, с 39,8% до 44,7% на KramaBench и с 37,0% до 38,5% на DA Code.
Для KramaBench, который требует извлечения соответствующих файлов из больших доменных озер данных, DS STAR с поиском и Gemini 2.5 Pro достигает общего нормализованного балла 44,69. Самый сильный базовый уровень, DA Agent с той же моделью, достигает 39,79.
На DA Code DS STAR снова опережает DA Agent. На сложных задачах DS STAR достигает точности 37,1% по сравнению с 32,0% для DA Agent, когда оба используют Gemini 2.5 Pro.
Ключевые выводы
* DS STAR переосмысливает агентов научных исследований данных как Text to Python для работы с разнородными файлами, такими как CSV, JSON, Markdown и текст, вместо только Text to SQL для чистых реляционных таблиц.
* Система использует мультиагентный цикл с Aanalyzer, Aplanner, Acoder, Averifier, Arouter и Afinalyzer, который итеративно планирует, выполняет и проверяет код на Python, пока верификатор не пометит решение как достаточное.
* Модули Adebugger и Retriever повышают надёжность, исправляя неработающие скрипты с помощью подробных описаний схем и выбирая 100 наиболее релевантных файлов из больших доменных озёр данных.
* С Gemini 2.5 Pro и 20 раундами уточнения DS STAR достигает значительных успехов по сравнению с предыдущими агентами на DABStep, KramaBench и DA Code, например, повышая точность DABStep с 12,70% до 45,24%.
Редакционные комментарии
DS STAR показывает, что практическая автоматизация научных исследований данных нуждается в явной структуре вокруг больших языковых моделей, а не только в лучших подсказках. Комбинация Aanalyzer, Averifier, Arouter и Adebugger превращает свободные формы озёр данных в контролируемый цикл Text to Python, который можно измерить на DABStep, KramaBench и DA Code и перенести на Gemini 2.5 Pro и GPT 5. Эта работа переводит агентов данных от демонстраций таблиц к проверенным, сквозным системам аналитики.
1. Какие преимущества DS STAR имеет по сравнению с существующими системами научных исследований данных?
DS STAR имеет несколько преимуществ по сравнению с существующими системами научных исследований данных. Во-первых, она работает не только с реляционными базами данных и SQL-запросами, но и со смешанными форматами данных, такими как CSV, JSON, Markdown и неструктурированный текст. Это позволяет системе более гибко и эффективно обрабатывать разнообразные типы данных.
2. Какие этапы включает в себя работа DS STAR при обработке данных?
Работа DS STAR включает в себя несколько этапов:
* анализ файлов данных с помощью Aanalyzer для создания структурированного представления озера данных;
* итеративное планирование, кодирование и проверка, где Aplanner создаёт начальный исполняемый шаг, Acoder превращает текущий план в код на Python, а Averifier проверяет достаточность плана;
* уточнение плана с помощью Arouter, который либо добавляет новый шаг, либо исправляет ошибочный;
* преобразование окончательного плана в код решения с помощью Afinalyzer.
3. Какие модули включены в DS STAR для обеспечения надёжности и отладки?
Для обеспечения надёжности и отладки в DS STAR включены следующие модули:
* Adebugger для исправления сломанных скриптов, который получает скрипт, обратную трассировку и описания анализатора и генерирует исправленный скрипт;
* Retriever для выбора наиболее релевантных файлов из больших доменных озёр данных.
4. Какие результаты были получены при тестировании DS STAR на бенчмарках DABStep, KramaBench и DA Code?
При тестировании на бенчмарках DABStep, KramaBench и DA Code DS STAR показала значительные успехи по сравнению с предыдущими агентами. Например, на DABStep модель Gemini 2.5 Pro достигла точности на сложном уровне 12,70%, в то время как DS STAR с той же моделью достигла 45,24% на сложных задачах и 87,50% на простых задачах. Это абсолютный прирост более чем на 32 процентных пункта на сложном разделении.
5. Какие ключевые выводы можно сделать из представленного текста о DS STAR?
Ключевые выводы из представленного текста о DS STAR включают в себя:
* DS STAR переосмысливает агентов научных исследований данных как Text to Python для работы с разнородными файлами, вместо только Text to SQL для чистых реляционных таблиц.
* Система использует мультиагентный цикл с Aanalyzer, Aplanner, Acoder, Averifier, Arouter и Afinalyzer, который итеративно планирует, выполняет и проверяет код на Python.
* Модули Adebugger и Retriever повышают надёжность, исправляя неработающие скрипты и выбирая наиболее релевантные файлы из больших доменных озёр данных.
* С Gemini 2.5 Pro и 20 раундами уточнения DS STAR достигает значительных успехов по сравнению с предыдущими агентами на DABStep, KramaBench и DA Code.