Alibaba выпускает Tongyi DeepResearch: агентскую языковую модель с 30 миллиардами параметров для долгосрочных исследований

Alibaba представила Tongyi DeepResearch-30B-A3B — агентскую языковую модель с открытым исходным кодом, созданную для глубокого поиска информации с помощью веб-инструментов.

Основные характеристики Tongyi DeepResearch-30B-A3B

* Архитектура и профиль вывода: модель использует архитектуру mixture-of-experts (MoE) с общим количеством параметров около 30,5 миллиарда и примерно 3–3,3 миллиарда активных параметров на токен. Это обеспечивает высокую производительность при сохранении сильных рассуждений.
* Длина контекста: 128 тысяч токенов, что подходит для длительных сеансов работы с инструментами и итеративного синтеза.
* Двойные режимы вывода:
* ReAct (родной) для прямой оценки внутреннего рассуждения и использования инструментов;
* IterResearch «Heavy» mode для масштабирования во время тестирования со структурированным многоразовым синтезом/реконструкцией контекста для уменьшения накопления ошибок.

Этапы обучения

Tongyi DeepResearch обучен от начала до конца как агент, а не только как чат-LLM, с использованием полностью автоматизированного масштабируемого механизма данных:
* Агентский непрерывный предварительный тренинг (CPT): крупномасштабные синтетические траектории, построенные из курируемых корпусов, исторических следов инструментов и структурированных знаний для обучения извлечению, просмотру и слиянию нескольких источников.
* Агентский SFT cold-start: траектории в форматах ReAct и IterResearch для согласованного по схеме планирования и использования инструментов.
* Обучение на основе политик (On-policy RL) с групповой относительной оптимизацией политики (GRPO), градиентами политики на уровне токенов, оценкой преимущества leave-one-out и фильтрацией отрицательных образцов для стабилизации обучения в нестационарной веб-среде.

Роль в рабочих процессах документальных и веб-исследований

Задачи глубокого исследования подчёркивают четыре возможности:
1. Долгосрочное планирование.
2. Итеративный поиск и проверка по источникам.
3. Отслеживание доказательств с низкой частотой галлюцинаций.
4. Синтез в больших контекстах.

Ключевые особенности Tongyi DeepResearch-30B-A3B

* Эффективность MoE в масштабе: около 30,5 миллиарда общих параметров с активацией примерно 3,0–3,3 миллиарда на токен (линия Qwen3-MoE), что обеспечивает низкую стоимость вывода модели малого размера с ёмкостью модели большого размера.
* Окно контекста 128K: для долгосрочных развёртываний с накоплением доказательств для многоэтапных веб-исследований.
* Двойные парадигмы вывода: родной ReAct для внутренней оценки использования инструментов и IterResearch «Heavy» (масштабирование во время тестирования) для более глубокого многоэтапного синтеза.
* Автоматизированный агентский механизм данных: полностью автоматизированный конвейер синтеза, обеспечивающий агентский непрерывный предварительный тренинг (CPT), контролируемую тонкую настройку (SFT) и RL.
* Сообщаемые SOTA по наборам для глубокого исследования: HLE 32,9, BrowseComp 43,4 (EN) / 46,7 (ZH), xbench-DeepSearch 75; сильные результаты по WebWalkerQA/GAIA/FRAMES/SimpleQA.

Для команд, разрабатывающих агентов для долгосрочных исследований, модель предлагает практичный баланс между стоимостью вывода и возможностями с заявленной высокой производительностью по бенчмаркам глубоких исследований, где точность и надёжность имеют решающее значение.

Ознакомьтесь с моделями на Hugging Face, на странице GitHub и с техническими деталями. Не стесняйтесь заглянуть на нашу страницу GitHub, чтобы найти учебные пособия, коды и блокноты. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

1. Какие уникальные характеристики отличают Tongyi DeepResearch-30B-A3B от других языковых моделей?

Ответ: Tongyi DeepResearch-30B-A3B отличается использованием архитектуры mixture-of-experts (MoE) с общим количеством параметров около 30,5 миллиарда и примерно 3–3,3 миллиарда активных параметров на токен. Модель имеет длину контекста в 128 тысяч токенов, что подходит для длительных сеансов работы с инструментами и итеративного синтеза. Также модель поддерживает двойные режимы вывода: ReAct и IterResearch «Heavy» mode.

2. Какие возможности предоставляет Tongyi DeepResearch-30B-A3B для глубокого исследования?

Ответ: Tongyi DeepResearch-30B-A3B предоставляет четыре ключевые возможности для глубокого исследования: долгосрочное планирование, итеративный поиск и проверка по источникам, отслеживание доказательств с низкой частотой галлюцинаций и синтез в больших контекстах.

3. Какие этапы включает в себя обучение Tongyi DeepResearch-30B-A3B?

Ответ: Обучение Tongyi DeepResearch-30B-A3B включает в себя агентский непрерывный предварительный тренинг (CPT), агентский SFT cold-start и обучение на основе политик (On-policy RL) с групповой относительной оптимизацией политики (GRPO), градиентами политики на уровне токенов, оценкой преимущества leave-one-out и фильтрацией отрицательных образцов.

4. Какие результаты демонстрирует Tongyi DeepResearch-30B-A3B по бенчмаркам глубоких исследований?

Ответ: Tongyi DeepResearch-30B-A3B демонстрирует высокие результаты по бенчмаркам глубоких исследований, таким как HLE 32,9, BrowseComp 43,4 (EN) / 46,7 (ZH), xbench-DeepSearch 75, а также сильные результаты по WebWalkerQA/GAIA/FRAMES/SimpleQA.

5. Для каких команд и проектов может быть полезна модель Tongyi DeepResearch-30B-A3B?

Ответ: Модель Tongyi DeepResearch-30B-A3B может быть полезна для команд, разрабатывающих агентов для долгосрочных исследований. Она предлагает практичный баланс между стоимостью вывода и возможностями с заявленной высокой производительностью по бенчмаркам глубоких исследований, где точность и надёжность имеют решающее значение.

Источник