NVIDIA выпускает Nemotron-Terminal: системный конвейер обработки данных для масштабирования агентов LLM в терминальных средах

NVIDIA представила комплексный фреймворк для создания высокопроизводительных терминальных агентов. С помощью Terminal-Task-Gen и набора данных Terminal-Corpus компания NVIDIA предоставляет разработчикам чертежи для создания агентов, которые не просто «обсуждают» код, но и выполняют его с хирургической точностью.

Проблема нехватки данных

Обучение агента для командной строки сопряжено с двумя вызовами. Во-первых, существует нехватка основополагающих ресурсов — в частности, разнообразных задач и сложных файлов зависимостей, необходимых для создания реалистичных сред. Во-вторых, захват «траекторий» (пошаговых взаимодействий в терминале) затруднителен с логистической точки зрения.

Terminal-Task-Gen: двухкомпонентная стратегия

Решение NVIDIA — это конвейер генерации данных под названием Terminal-Task-Gen. Он использует две различные стратегии для масштабирования обучающих данных без значительных затрат.

1. Адаптация набора данных (грубый уровень)

Вместо того чтобы начинать с нуля, команда использует высококачественные существующие наборы данных для тонкой настройки под наблюдением (SFT) из областей математики, кодирования и разработки программного обеспечения (SWE). Они преобразуют эти статические подсказки в интерактивные терминальные задачи.

  • Математика и код: используя 163 тысячи математических подсказок и 35 тысяч подсказок по коду, они оформляют эти задачи в виде каркаса терминала.

  • SWE: они извлекают 32 тысячи уникальных подсказок из репозиториев вроде SWE-bench и SWE-reBench.

Этот процесс не требует участия LLM на начальном этапе адаптации, что делает его невероятно эффективным для масштабирования объёмов.

2. Генерация синтетических задач (точный уровень)

Чтобы преодолеть разрыв между общими рассуждениями и специфическими требованиями терминальной среды, NVIDIA использует Terminal-Task-Gen для создания новых выполнимых задач.

  • Генерация на основе семян: LLM использует существующие задачи научных вычислений или алгоритмические задачи в качестве «вдохновения» для синтеза новых задач. Агент вынужден устанавливать пакеты, читать входные файлы и записывать результаты, что отражает реальный рабочий процесс разработчика.

  • Генерация на основе навыков: NVIDIA разработала таксономию «примитивных терминальных навыков» в девяти областях, включая безопасность, науку о данных и системное администрирование. Затем LLM инструктируют комбинировать 3–5 из этих примитивов (например, обход графа + настройка сети + ввод-вывод файлов) в единую сложную задачу.

Решение проблемы с инфраструктурой

Одним из наиболее значительных инженерных прорывов в этом исследовании стал переход на готовые образы Docker. Предыдущие фреймворки часто генерировали уникальный Dockerfile для каждой задачи, что приводило к огромным накладным расходам на сборку и частым сбоям.

Команда NVIDIA вместо этого поддерживает девять общих базовых образов, предварительно настроенных с необходимыми библиотеками (например, pandas для обработки данных или инструменты криптографии для обеспечения безопасности). Этот метод «однократного прохода» позволяет массово распараллеливать процессы и значительно сократить объём используемых ресурсов.

Производительность: когда 32 миллиарда побеждают 480 миллиардов

Результаты этого подхода, ориентированного на данные, ошеломляют. Команда NVIDIA использовала этот конвейер для обучения семейства моделей Nemotron-Terminal, инициализированных с помощью Qwen3.

На бенчмарке Terminal-Bench 2.0, который тестирует агентов на сквозных рабочих процессах, таких как обучение моделей машинного обучения или отладка системных сред, улучшения были вертикальными:

  • Nemotron-Terminal-8B: подскочил с 2,5% до 13,0% успеха.

  • Nemotron-Terminal-32B: достиг точности 27,4%.

Для сравнения, модель 32B превзошла модель 480B Qwen3-Coder (23,9%) и сравнялась с производительностью закрытых гигантов вроде Grok 4 (23,1%) и GPT-5-Mini (24,0%). Это доказывает, что для терминальных агентов высококачественные и разнообразные данные траекторий являются более мощным рычагом, чем масштаб параметров.

Важные выводы

Исследование NVIDIA также развенчивает несколько распространённых мифов в области обработки данных:

  • Не фильтруйте ошибки: исследовательская группа обнаружила, что сохранение «неуспешных» траекторий в обучающих данных фактически улучшает производительность (12,4% против 5,06% при фильтрации только успешных).

  • Пропустите учебный план: они экспериментировали с «обучением по учебному плану» (обучение на простых данных перед сложными), но обнаружили, что простое смешанное обучение так же эффективно, если не лучше.

  • Ограничения длины контекста: хотя терминальные траектории могут быть длинными, большая часть высококачественного контроля помещается в стандартное окно в 32 768 токенов. Увеличение длины контекста немного ухудшило производительность, вероятно, потому, что траектории с длинным хвостом имеют тенденцию быть более шумными.

Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2602.21193) и [проектом HF](https://hf.co/). Подписывайтесь на нас в [Twitter](https://twitter.com/), присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) и подписывайтесь на нашу [рассылку](https://www.marktechpost.com/category/email-newsletter/). А если вы в Telegram, присоединяйтесь к нам и там!

1. Какие проблемы решает фреймворк Terminal-Task-Gen от NVIDIA?

Фреймворк Terminal-Task-Gen от NVIDIA решает проблему нехватки данных для обучения агентов в терминальных средах. Он позволяет масштабировать обучающие данные без значительных затрат, используя две стратегии: адаптацию существующих наборов данных и генерацию синтетических задач.

2. Какие стратегии использует Terminal-Task-Gen для масштабирования обучающих данных?

Terminal-Task-Gen использует две стратегии для масштабирования обучающих данных:
* Адаптация набора данных (грубый уровень): команда использует высококачественные существующие наборы данных для тонкой настройки под наблюдением (SFT) из областей математики, кодирования и разработки программного обеспечения (SWE). Они преобразуют эти статические подсказки в интерактивные терминальные задачи.
* Генерация синтетических задач (точный уровень): NVIDIA использует Terminal-Task-Gen для создания новых выполнимых задач на основе существующих задач научных вычислений или алгоритмических задач.

3. Какие преимущества предоставляет использование готовых образов Docker в исследовании NVIDIA?

Использование готовых образов Docker в исследовании NVIDIA позволяет массово распараллеливать процессы и значительно сократить объём используемых ресурсов. Предыдущие фреймворки часто генерировали уникальный Dockerfile для каждой задачи, что приводило к огромным накладным расходам на сборку и частым сбоям. Команда NVIDIA поддерживает девять общих базовых образов, предварительно настроенных с необходимыми библиотеками, что упрощает процесс сборки и уменьшает вероятность сбоев.

4. Какие результаты были получены при использовании конвейера Terminal-Task-Gen для обучения семейства моделей Nemotron-Terminal?

При использовании конвейера Terminal-Task-Gen для обучения семейства моделей Nemotron-Terminal были получены следующие результаты:
* Nemotron-Terminal-8B: подскочил с 2,5% до 13,0% успеха.
* Nemotron-Terminal-32B: достиг точности 27,4%.

Для сравнения, модель 32B превзошла модель 480B Qwen3-Coder (23,9%) и сравнялась с производительностью закрытых гигантов вроде Grok 4 (23,1%) и GPT-5-Mini (24,0%). Это доказывает, что для терминальных агентов высококачественные и разнообразные данные траекторий являются более мощным рычагом, чем масштаб параметров.

5. Какие выводы можно сделать из исследования NVIDIA о важности данных для обучения терминальных агентов?

Исследование NVIDIA развенчивает несколько распространённых мифов в области обработки данных и подчёркивает важность высококачественных и разнообразных данных для обучения терминальных агентов. Оно показывает, что сохранение «неуспешных» траекторий в обучающих данных фактически улучшает производительность, а простое смешанное обучение так же эффективно, если не лучше, чем обучение по учебному плану. Также исследование показывает, что большая часть высококачественного контроля помещается в стандартное окно в 32 768 токенов, и увеличение длины контекста немного ухудшает производительность.

Источник