NVIDIA представила комплексный фреймворк для создания высокопроизводительных терминальных агентов. С помощью Terminal-Task-Gen и набора данных Terminal-Corpus компания NVIDIA предоставляет разработчикам чертежи для создания агентов, которые не просто «обсуждают» код, но и выполняют его с хирургической точностью.
Проблема нехватки данных
Обучение агента для командной строки сопряжено с двумя вызовами. Во-первых, существует нехватка основополагающих ресурсов — в частности, разнообразных задач и сложных файлов зависимостей, необходимых для создания реалистичных сред. Во-вторых, захват «траекторий» (пошаговых взаимодействий в терминале) затруднителен с логистической точки зрения.
Terminal-Task-Gen: двухкомпонентная стратегия
Решение NVIDIA — это конвейер генерации данных под названием Terminal-Task-Gen. Он использует две различные стратегии для масштабирования обучающих данных без значительных затрат.
1. Адаптация набора данных (грубый уровень)
Вместо того чтобы начинать с нуля, команда использует высококачественные существующие наборы данных для тонкой настройки под наблюдением (SFT) из областей математики, кодирования и разработки программного обеспечения (SWE). Они преобразуют эти статические подсказки в интерактивные терминальные задачи.
- Математика и код: используя 163 тысячи математических подсказок и 35 тысяч подсказок по коду, они оформляют эти задачи в виде каркаса терминала.
- SWE: они извлекают 32 тысячи уникальных подсказок из репозиториев вроде SWE-bench и SWE-reBench.
Этот процесс не требует участия LLM на начальном этапе адаптации, что делает его невероятно эффективным для масштабирования объёмов.
2. Генерация синтетических задач (точный уровень)
Чтобы преодолеть разрыв между общими рассуждениями и специфическими требованиями терминальной среды, NVIDIA использует Terminal-Task-Gen для создания новых выполнимых задач.
- Генерация на основе семян: LLM использует существующие задачи научных вычислений или алгоритмические задачи в качестве «вдохновения» для синтеза новых задач. Агент вынужден устанавливать пакеты, читать входные файлы и записывать результаты, что отражает реальный рабочий процесс разработчика.
- Генерация на основе навыков: NVIDIA разработала таксономию «примитивных терминальных навыков» в девяти областях, включая безопасность, науку о данных и системное администрирование. Затем LLM инструктируют комбинировать 3–5 из этих примитивов (например, обход графа + настройка сети + ввод-вывод файлов) в единую сложную задачу.
Решение проблемы с инфраструктурой
Одним из наиболее значительных инженерных прорывов в этом исследовании стал переход на готовые образы Docker. Предыдущие фреймворки часто генерировали уникальный Dockerfile для каждой задачи, что приводило к огромным накладным расходам на сборку и частым сбоям.
Команда NVIDIA вместо этого поддерживает девять общих базовых образов, предварительно настроенных с необходимыми библиотеками (например, pandas для обработки данных или инструменты криптографии для обеспечения безопасности). Этот метод «однократного прохода» позволяет массово распараллеливать процессы и значительно сократить объём используемых ресурсов.
Производительность: когда 32 миллиарда побеждают 480 миллиардов
Результаты этого подхода, ориентированного на данные, ошеломляют. Команда NVIDIA использовала этот конвейер для обучения семейства моделей Nemotron-Terminal, инициализированных с помощью Qwen3.
На бенчмарке Terminal-Bench 2.0, который тестирует агентов на сквозных рабочих процессах, таких как обучение моделей машинного обучения или отладка системных сред, улучшения были вертикальными:
- Nemotron-Terminal-8B: подскочил с 2,5% до 13,0% успеха.
- Nemotron-Terminal-32B: достиг точности 27,4%.
Для сравнения, модель 32B превзошла модель 480B Qwen3-Coder (23,9%) и сравнялась с производительностью закрытых гигантов вроде Grok 4 (23,1%) и GPT-5-Mini (24,0%). Это доказывает, что для терминальных агентов высококачественные и разнообразные данные траекторий являются более мощным рычагом, чем масштаб параметров.
Важные выводы
Исследование NVIDIA также развенчивает несколько распространённых мифов в области обработки данных:
- Не фильтруйте ошибки: исследовательская группа обнаружила, что сохранение «неуспешных» траекторий в обучающих данных фактически улучшает производительность (12,4% против 5,06% при фильтрации только успешных).
- Пропустите учебный план: они экспериментировали с «обучением по учебному плану» (обучение на простых данных перед сложными), но обнаружили, что простое смешанное обучение так же эффективно, если не лучше.
- Ограничения длины контекста: хотя терминальные траектории могут быть длинными, большая часть высококачественного контроля помещается в стандартное окно в 32 768 токенов. Увеличение длины контекста немного ухудшило производительность, вероятно, потому, что траектории с длинным хвостом имеют тенденцию быть более шумными.
Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2602.21193) и [проектом HF](https://hf.co/). Подписывайтесь на нас в [Twitter](https://twitter.com/), присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) и подписывайтесь на нашу [рассылку](https://www.marktechpost.com/category/email-newsletter/). А если вы в Telegram, присоединяйтесь к нам и там!
1. Какие проблемы решает фреймворк Terminal-Task-Gen от NVIDIA?
Фреймворк Terminal-Task-Gen от NVIDIA решает проблему нехватки данных для обучения агентов в терминальных средах. Он позволяет масштабировать обучающие данные без значительных затрат, используя две стратегии: адаптацию существующих наборов данных и генерацию синтетических задач.
2. Какие стратегии использует Terminal-Task-Gen для масштабирования обучающих данных?
Terminal-Task-Gen использует две стратегии для масштабирования обучающих данных:
* Адаптация набора данных (грубый уровень): команда использует высококачественные существующие наборы данных для тонкой настройки под наблюдением (SFT) из областей математики, кодирования и разработки программного обеспечения (SWE). Они преобразуют эти статические подсказки в интерактивные терминальные задачи.
* Генерация синтетических задач (точный уровень): NVIDIA использует Terminal-Task-Gen для создания новых выполнимых задач на основе существующих задач научных вычислений или алгоритмических задач.
3. Какие преимущества предоставляет использование готовых образов Docker в исследовании NVIDIA?
Использование готовых образов Docker в исследовании NVIDIA позволяет массово распараллеливать процессы и значительно сократить объём используемых ресурсов. Предыдущие фреймворки часто генерировали уникальный Dockerfile для каждой задачи, что приводило к огромным накладным расходам на сборку и частым сбоям. Команда NVIDIA поддерживает девять общих базовых образов, предварительно настроенных с необходимыми библиотеками, что упрощает процесс сборки и уменьшает вероятность сбоев.
4. Какие результаты были получены при использовании конвейера Terminal-Task-Gen для обучения семейства моделей Nemotron-Terminal?
При использовании конвейера Terminal-Task-Gen для обучения семейства моделей Nemotron-Terminal были получены следующие результаты:
* Nemotron-Terminal-8B: подскочил с 2,5% до 13,0% успеха.
* Nemotron-Terminal-32B: достиг точности 27,4%.
Для сравнения, модель 32B превзошла модель 480B Qwen3-Coder (23,9%) и сравнялась с производительностью закрытых гигантов вроде Grok 4 (23,1%) и GPT-5-Mini (24,0%). Это доказывает, что для терминальных агентов высококачественные и разнообразные данные траекторий являются более мощным рычагом, чем масштаб параметров.
5. Какие выводы можно сделать из исследования NVIDIA о важности данных для обучения терминальных агентов?
Исследование NVIDIA развенчивает несколько распространённых мифов в области обработки данных и подчёркивает важность высококачественных и разнообразных данных для обучения терминальных агентов. Оно показывает, что сохранение «неуспешных» траекторий в обучающих данных фактически улучшает производительность, а простое смешанное обучение так же эффективно, если не лучше, чем обучение по учебному плану. Также исследование показывает, что большая часть высококачественного контроля помещается в стандартное окно в 32 768 токенов, и увеличение длины контекста немного ухудшает производительность.