DSGym предлагает субстрат на основе контейнеров для создания и тестирования агентов в области обработки данных

DSGym — это фреймворк, разработанный исследователями из Стэнфордского университета, Together AI, Дьюкского университета и Гарвардского университета. Он предназначен для оценки и обучения агентов в области обработки данных более чем на 1 тыс. задачах.

Почему существующие тесты не соответствуют требованиям?

Исследовательская группа провела анализ существующих тестов, которые утверждают, что проверяют агентов, работающих с данными. Когда файлы данных скрыты, модели всё равно сохраняют высокую точность. Однако многие вопросы можно решить, используя только текст, а не настоящий анализ данных. Также были обнаружены ошибки в аннотациях и несогласованные числовые допуски.

Задачи, агенты и среда

DSGym стандартизирует оценку в три объекта: задачу, агента и среду. Задачи могут быть либо анализом данных, либо прогнозированием данных. В задачах анализа данных предоставляются файлы и вопрос на естественном языке, на который нужно ответить с помощью кода. Задачи прогнозирования данных предоставляют обучающие и тестовые выборки вместе с явной метрикой и требуют от агента построить модель и выдать прогнозы.

Каждый объект задачи содержит файлы данных, запрос, функцию оценки и метаданные. Агенты взаимодействуют через цикл в стиле CodeAct. На каждом шаге агент пишет блок рассуждений, который описывает его план, блок кода, который запускается внутри среды, и блок ответа, когда он готов зафиксировать результат.

DSGym, DSBio и DSPredict

На основе этого фреймворка DSGym Tasks агрегирует и уточняет существующие наборы данных и добавляет новые. Исследовательская группа очищает QRData, DAEval, DABStep, MLEBench Lite и другие, удаляя элементы, которые нельзя оценить, и применяя фильтр-ускоритель, который удаляет вопросы, решаемые легко несколькими моделями без доступа к данным.

Для охвата научных открытий они представляют DSBio — набор из 90 биоинформатических задач, полученных из рецензируемых статей и открытых наборов данных. Задачи охватывают анализ отдельных клеток, пространственные и мультиомные данные, а также генетику человека.

DSPredict нацелен на моделирование реальных соревнований Kaggle. Собираются недавние соревнования, которые принимают CSV-заявки и соответствуют правилам по размеру и ясности. После предварительной обработки набор делится на DSPredict Easy с 38 соревнованиями в стиле плейграунда и вводными соревнованиями и DSPredict Hard с 54 задачами высокой сложности.

Что могут и чего не могут делать текущие агенты

Оценка охватывает закрытые модели, такие как GPT-5.1, GPT-5 и GPT-4o, модели с открытыми весами, такие как Qwen3-Coder-480B, Qwen3-235B-Instruct и GPT-OSS-120B, и более мелкие модели, такие как Qwen2.5-7B-Instruct и Qwen3-4B-Instruct. Все они запускаются с одинаковым агентом CodeAct, температурой 0 и отключёнными инструментами.

На очищенных общих тестах анализа, таких как QRData Verified, DAEval Verified и более лёгком разделе DABStep, топовые модели достигают точности совпадения от 60% до 90%. На DABStep Hard точность падает для каждой модели, что показывает, что многоэтапное количественное рассуждение над финансовыми таблицами всё ещё хрупко.

DSGym как фабрика данных и тренировочная площадка

Та же среда может синтезировать обучающие данные. Начиная с подмножества QRData и DABStep, исследовательская группа просит агентов исследовать наборы данных, предлагать вопросы, решать их с помощью кода и записывать траектории, что даёт 3700 синтетических запросов. Модель-судья фильтрует их до набора из 2 тыс. высококачественных пар запрос плюс траектория под названием DSGym-SFT.

Тонкая настройка модели Qwen3 на основе DSGym-SFT позволяет агенту достичь конкурентоспособной производительности с GPT-4o на стандартизированных тестах анализа, несмотря на то, что у него гораздо меньше параметров.

Как Tree-KG позволяет создавать иерархические графы знаний для контекстной навигации и объяснимого многоэтапного рассуждения

В этом руководстве мы реализуем Tree-KG — продвинутую систему иерархических графов знаний, которая выходит за рамки традиционного извлечения с дополнительным генерированием (RAG), сочетая семантические вложения с явной структурой графа. Мы покажем, как можно организовать знания в древовидной иерархии, которая отражает то, как люди учатся, от широких областей до детальных концепций, а затем рассуждать по этой структуре, используя контролируемое многоэтапное исследование.

Класс TreeKnowledgeGraph

Мы определяем основной класс TreeKnowledgeGraph, который структурирует знания как направленную иерархию, обогащённую семантическими вложениями. Мы храним как отношения в графе, так и плотные представления для навигации по концепциям структурно, одновременно выполняя поиск на основе сходства.

Класс MultiHopReasoningAgent

Мы реализуем агента с многоэтапным рассуждением, который активно перемещается по графу знаний, а не пассивно извлекает узлы. Мы начинаем с семантически релевантных концепций, расширяемся через предков, потомков и родственников и итеративно оцениваем соединения, чтобы направлять исследование по этапам.

Построение графа знаний по разработке программного обеспечения

Мы строим обширный иерархический граф знаний по разработке программного обеспечения. Мы явно кодируем отношения между родителями и детьми и междоменными отношениями, чтобы такие концепции, как Python performance, async I/O и микросервисы, были структурно связаны, а не изолированы.

Визуализация графа знаний

Мы визуализируем иерархическую структуру графа знаний, используя цвет и макет, чтобы различать домены, концепции, техники и инструменты, и при необходимости выделяем путь рассуждения.

Расширение Tree-KG

Мы расширяем базовый Tree-KG интеллектуальными возможностями на уровне графа, вычисляя важность узлов с помощью мер центральности. Мы комбинируем PageRank и меры центральности, чтобы определить концепции, которые играют структурно важную роль в соединении знаний по всему графу.

В заключение мы продемонстрировали, как Tree-KG позволяет глубже понять, объединяя семантический поиск, иерархический контекст и многоэтапное рассуждение в рамках единой системы. Мы показали, что вместо простого извлечения изолированных фрагментов текста можно перемещаться по значимым путям знаний, агрегировать идеи на разных уровнях и создавать объяснения, отражающие то, как формируются выводы.

Проверьте полный код здесь. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему ML SubReddit с более чем 100 тыс. участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там.

Статья впервые опубликована на MarkTechPost.

1. Какие проблемы существующих тестов для агентов, работающих с данными, были выявлены исследовательской группой?

В статье говорится, что существующие тесты не всегда соответствуют требованиям, так как модели сохраняют высокую точность даже при скрытых файлах данных. Кроме того, многие вопросы можно решить, используя только текст, а не настоящий анализ данных. Также были обнаружены ошибки в аннотациях и несогласованные числовые допуски.

2. Какие объекты стандартизирует оценка в DSGym?

Оценка в DSGym стандартизирует три объекта: задачу, агента и среду. Задачи могут быть либо анализом данных, либо прогнозированием данных. Агенты взаимодействуют через цикл в стиле CodeAct, выполняя блоки рассуждений, кода и ответов.

3. Какие задачи охватывают DSBio и DSPredict?

DSBio — это набор из 90 биоинформатических задач, полученных из рецензируемых статей и открытых наборов данных. Задачи охватывают анализ отдельных клеток, пространственные и мультиомные данные, а также генетику человека. DSPredict нацелен на моделирование реальных соревнований Kaggle, собирая недавние соревнования, которые принимают CSV-заявки и соответствуют правилам по размеру и ясности.

4. Какие модели были оценены на очищенных общих тестах анализа?

На очищенных общих тестах анализа были оценены закрытые модели, такие как GPT-5.1, GPT-5 и GPT-4o, модели с открытыми весами, такие как Qwen3-Coder-480B, Qwen3-235B-Instruct и GPT-OSS-120B, и более мелкие модели, такие как Qwen2.5-7B-Instruct и Qwen3-4B-Instruct.

5. Как Tree-KG позволяет создавать иерархические графы знаний?

Tree-KG позволяет создавать иерархические графы знаний, структурируя знания как направленную иерархию, обогащённую семантическими вложениями. Это позволяет организовать знания в древовидной иерархии, которая отражает то, как люди учатся, от широких областей до детальных концепций, и рассуждать по этой структуре, используя контролируемое многоэтапное исследование.

Источник