Исследователи из NVIDIA выпустили ToolOrchestra — новый метод обучения небольшой языковой модели в качестве оркестратора, «мозга» агента, использующего разнообразные инструменты.
Как система ИИ может научиться выбирать подходящую модель или инструмент для каждого шага задачи, а не полагаться всегда на одну большую модель?
Большинство современных агентов следуют простой схеме: одна большая модель, такая как GPT-5, получает запрос, описывающий доступные инструменты, и решает, когда использовать веб-поиск или интерпретатор кода. Всё высокоуровневое рассуждение всё ещё остаётся внутри одной модели. ToolOrchestra меняет эту схему.
Инструмент обучает специальную модель-контроллер под названием Orchestrator-8B, которая рассматривает как классические инструменты, так и другие LLM как вызываемые компоненты.
Что такое Orchestrator-8B?
Orchestrator-8B — это декодер Transformer с 8 миллиардами параметров. Он создан путём тонкой настройки Qwen3-8B в качестве модели оркестрации и выпущен на Hugging Face.
Во время логического вывода система запускает многошаговый цикл, который чередует рассуждения и вызовы инструментов. Процесс включает три основных шага:
1. Orchestrator-8B читает инструкцию пользователя и необязательное описание предпочтений на естественном языке, например, запрос на приоритет низкой задержки или избегание веб-поиска.
2. Он генерирует внутреннюю цепочку рассуждений в стиле мышления и планирует действие.
3. Затем выбирает инструмент из доступного набора и выдаёт структурированный вызов инструмента в едином формате JSON.
Среда выполняет вызов, добавляет результат в виде наблюдения и возвращает его на следующий шаг. Процесс останавливается, когда генерируется сигнал завершения или достигается максимум в 50 шагов.
Инструменты охватывают три основные группы:
* базовые инструменты включают веб-поиск Tavily, интерпретатор кода Python и локальный индекс Faiss, построенный с помощью Qwen3-Embedding-8B;
* специализированные LLM включают Qwen2.5-Math-72B, Qwen2.5-Math-7B и Qwen2.5-Coder-32B;
* инструменты общего назначения LLM включают GPT-5, GPT-5 mini, Llama 3.3-70B-Instruct и Qwen3-32B.
Обучение с подкреплением с учётом нескольких целей
ToolOrchestra формулирует весь рабочий процесс как марковский процесс принятия решений. Состояние содержит историю разговора, прошлые вызовы инструментов и наблюдения, а также предпочтения пользователя. Действия — это следующий текстовый шаг, включая как токены рассуждений, так и схему вызова инструмента.
Эффективность разрыва больше. В конфигурации, использующей базовые инструменты плюс специализированные и общие инструменты LLM, Orchestrator-8B имеет среднюю стоимость 9,2 цента и задержку 8,2 минуты на запрос. В той же конфигурации GPT-5 стоит 30,2 цента и занимает в среднем 19,8 минуты.
Анализ использования инструментов подтверждает эту картину. Claude Opus 4.1, используемый в качестве оркестратора, вызывает GPT-5 большую часть времени. GPT-5, используемый в качестве оркестратора, предпочитает GPT-5 mini. Orchestrator-8B распределяет вызовы более равномерно между сильными моделями, более дешёвыми моделями, поиском, локальным извлечением и интерпретатором кода и достигает более высокой точности при меньших затратах в рамках одного и того же бюджета.
Эксперименты по обобщению заменяют инструменты времени обучения невидимыми моделями, такими как OpenMath Llama-2-70B, DeepSeek-Math-7B-Instruct, Codestral-22B-v0.1, Claude Sonnet-4.1 и Gemma-3-27B. Orchestrator-8B по-прежнему обеспечивает наилучший компромисс между точностью, стоимостью и задержкой среди всех базовых показателей в этой настройке.
Ключевые выводы
* ToolOrchestra обучает модель оркестрации с 8 миллиардами параметров, Orchestrator-8B, которая выбирает и упорядочивает инструменты и LLM для решения многошаговых агентских задач с помощью обучения с подкреплением с учётом результатов, эффективности и предпочтений.
* Orchestrator-8B выпускается как открытая весовая модель на Hugging Face. Она предназначена для координации различных инструментов, таких как веб-поиск, выполнение кода, поиск и специализированные LLM, через единую схему.
* На Humanity’s Last Exam Orchestrator-8B достигает 37,1% точности, превосходя GPT-5 с 35,1%, при этом будучи примерно в 2,5 раза более эффективным, а на τ² Bench и FRAMES он превосходит GPT-5, используя примерно 30% стоимости.
* Framework показывает, что наивное обращение к передовой LLM в качестве собственного маршрутизатора приводит к предвзятости самоулучшения, когда она чрезмерно использует себя или небольшой набор сильных моделей, в то время как обученный оркестратор изучает более сбалансированную, учитывающую затраты политику маршрутизации по нескольким инструментам.
Примечания редакции
NVIDIA’s ToolOrchestra — это практический шаг к созданию сложных систем искусственного интеллекта, в которых 8-битная модель оркестрации Orchestrator-8B изучает явную политику маршрутизации по инструментам и LLM вместо того, чтобы полагаться на одну передовую модель. Это показывает явные преимущества на Humanity’s Last Exam, FRAMES и τ² Bench примерно с 30% стоимости и примерно в 2,5 раза более высокой эффективностью по сравнению с базовыми показателями на основе GPT-5, что делает его непосредственно актуальным для команд, которые заботятся о точности, задержке и бюджете.
1. Какие преимущества предоставляет модель Orchestrator-8B по сравнению с использованием одной большой модели, такой как GPT-5?
Ответ: Orchestrator-8B использует обучение с подкреплением для выбора и упорядочивания инструментов и LLM для решения многошаговых задач. Это позволяет достичь более высокой точности при меньших затратах и более высокой эффективности по сравнению с использованием одной большой модели.
2. Какие инструменты охватывает Orchestrator-8B?
Ответ: Orchestrator-8B охватывает три основные группы инструментов: базовые инструменты (например, веб-поиск Tavily, интерпретатор кода Python и локальный индекс Faiss), специализированные LLM (например, Qwen2.5-Math-72B, Qwen2.5-Math-7B и Qwen2.5-Coder-32B) и инструменты общего назначения LLM (например, GPT-5, GPT-5 mini, Llama 3.3-70B-Instruct и Qwen3-32B).
3. Как работает процесс логического вывода в системе с Orchestrator-8B?
Ответ: во время логического вывода Orchestrator-8B читает инструкцию пользователя и необязательное описание предпочтений, генерирует внутреннюю цепочку рассуждений и планирует действие, выбирает инструмент из доступного набора и выдаёт структурированный вызов инструмента в едином формате JSON. Среда выполняет вызов, добавляет результат в виде наблюдения и возвращает его на следующий шаг. Процесс останавливается, когда генерируется сигнал завершения или достигается максимум в 50 шагов.
4. Какие ключевые выводы можно сделать из статьи о модели Orchestrator-8B?
Ответ: ключевые выводы включают то, что ToolOrchestra обучает модель оркестрации с 8 миллиардами параметров, Orchestrator-8B, которая выбирает и упорядочивает инструменты и LLM для решения многошаговых агентских задач. Orchestrator-8B выпускается как открытая весовая модель на Hugging Face и достигает высокой точности при меньших затратах и более высокой эффективности по сравнению с GPT-5.
5. Какие эксперименты были проведены для оценки эффективности Orchestrator-8B?
Ответ: эксперименты включали замену инструментов времени обучения невидимыми моделями, такими как OpenMath Llama-2-70B, DeepSeek-Math-7B-Instruct, Codestral-22B-v0.1, Claude Sonnet-4.1 и Gemma-3-27B. Orchestrator-8B по-прежнему обеспечивал наилучший компромисс между точностью, стоимостью и задержкой среди всех базовых показателей в этой настройке.