Команда Nous Research выпустила Hermes 4 — семейство моделей с открытым весом (размерами параметров 14B, 70B и 405B, основанных на контрольных точках Llama 3.1), которые достигают передовых показателей с помощью методов пост-тренировки.
Hermes 4 вводит гибридное мышление — модели могут переключаться между стандартными ответами и явным мышлением с использованием тегов `
Что делает Hermes 4 особенно значимым?
Hermes 4 достигает передовых показателей среди моделей с открытым весом, сохраняя при этом полную прозрачность и нейтральность. Это демонстрирует, что сложные способности к мышлению могут быть разработаны полностью с помощью методологий с открытым исходным кодом.
DataForge: генерация синтетических данных на основе графов
DataForge — это революционная система генерации синтетических данных на основе графов, которая меняет подход к созданию обучающих данных. В отличие от традиционных подходов, DataForge работает через направленный ациклический граф (DAG), где каждый узел реализует интерфейс действий PDDL (Planning Domain Definition Language).
Каждый узел определяет предварительные условия, пост-условия и преобразования, облегчая автоматическое создание сложных конвейеров данных. Используя начальные данные для предварительного обучения из DCLM и FineWeb, система может преобразовать статью из Википедии в рэп-песню, а затем генерировать пары «инструкция-ответ» на основе этого преобразования.
Этот подход генерирует примерно 5 миллионов образцов общим объёмом 19 миллиардов токенов, причём образцы рассуждений намеренно содержат большое количество токенов — в среднем в пять раз больше, чем образцы без рассуждений, чтобы вместить следы мышления длиной до 16 000 токенов.
Выборка отклонения в беспрецедентном масштабе
Hermes 4 использует Atropos, среду обучения с открытым исходным кодом от Nous Research, для реализации выборки отклонения примерно на 1000 различных верификаторов, специфичных для задач. Эта масштабная верификационная инфраструктура фильтрует высококачественные траектории рассуждений в различных областях.
Ключевые среды верификации включают:
* Обучение формату ответов (награда за правильное форматирование более чем в 150 форматах вывода).
* Следование инструкциям (использование задач RLVR-IFEval со сложными ограничениями).
* Соблюдение схемы (для генерации JSON с использованием моделей Pydantic).
* Обучение использованию инструментов для агентского поведения.
Процесс выборки отклонения создаёт большой корпус проверенных траекторий рассуждений с несколькими уникальными путями решения для одного проверенного результата. Этот подход обеспечивает обучение модели надёжным моделям рассуждений, а не запоминанию конкретных шаблонов решений.
Контроль длины: решение проблемы слишком длинных рассуждений
Одним из наиболее инновационных вкладов Hermes 4 является решение проблемы слишком длинных рассуждений — когда модели рассуждений генерируют чрезмерно длинные цепочки мыслей без завершения.
Команда исследователей обнаружила, что их модель 14B достигала максимальной длины контекста в 60% случаев на LiveCodeBench в режиме рассуждений. Их высокоэффективное решение включает второй этап тонкой настройки под наблюдением, обучающий модели прекращать рассуждения ровно на 30 000 токенов:
* Генерируются трассы рассуждений по текущей политике.
* Вставляются токены `` ровно на 30 000 токенов.
* Обучение проводится только по решению о прекращении, а не по цепочке рассуждений.
* Градиентные обновления применяются исключительно к токенам `` и `
Этот подход достигает замечательных результатов:
* 78,4% снижение количества слишком длинных генераций на AIME’24,
* 65,3% на AIME’25,
* 79,8% на LiveCodeBench,
* при этом относительная стоимость точности составляет от 4,7% до 12,7%.
Производительность на бенчмарках и нейтральное выравнивание
Hermes 4 демонстрирует передовые показатели среди моделей с открытым весом. Модель 405B достигает 96,3% на MATH-500 (режим рассуждений), 81,9% на AIME’24, 78,1% на AIME’25, 70,5% на GPQA Diamond и 61,3% на LiveCodeBench.
Особенно примечательна его производительность на RefusalBench, достигающая 57,1% в режиме рассуждений — наивысший показатель среди оценённых моделей, значительно превосходящий GPT-4o (17,67%) и Claude Sonnet 4 (17%). Это демонстрирует готовность модели заниматься спорными темами, сохраняя при этом соответствующие границы, что отражает философию нейтрального выравнивания Nous Research.
Техническая архитектура и обучение
Обучение Hermes 4 использует модифицированный TorchTitan на 192 графических процессорах NVIDIA B200. Система обрабатывает сильно неоднородное распределение длины выборки с помощью эффективной упаковки (достигая >99,9% эффективности пакета), гибкого внимания и сложного маскирования потерь, где только токены в роли помощника вносят вклад в потери кросс-энтропии.
Обучение следует графику косинусного темпа обучения с 300 шагами прогрева и 9 000 общими шагами при длине контекста в 16 384 токена с глобальным размером пакета в 384 образца, сочетая параллелизм данных, тензорный параллелизм и полностью разделённый параллелизм данных.
Резюме
Hermes 4 знаменует значительный прогресс в разработке искусственного интеллекта с открытым исходным кодом, доказывая, что возможности рассуждений на передовом уровне могут быть достигнуты с помощью прозрачных, воспроизводимых методологий без использования проприетарных обучающих данных или закрытых процессов разработки.
Сочетая инновационную генерацию синтетических данных на основе графов, масштабную выборку отклонения и элегантные механизмы контроля длины, Nous Research создала модели, которые не только соответствуют производительности ведущих проприетарных систем, но также сохраняют нейтральность и управляемость, что делает их действительно полезными инструментами, а не ограничивающими помощниками.
1. Какие уникальные особенности отличают Hermes 4 от других моделей искусственного интеллекта?
Hermes 4 отличается использованием гибридного мышления, позволяющего моделям переключаться между стандартными ответами и явным мышлением с использованием тегов `
2. Как DataForge способствует созданию обучающих данных для моделей искусственного интеллекта?
DataForge — это система генерации синтетических данных на основе графов, которая работает через направленный ациклический граф (DAG). Каждый узел в DAG реализует интерфейс действий PDDL, определяя предварительные условия, пост-условия и преобразования. Это облегчает автоматическое создание сложных конвейеров данных.
3. Какие проблемы решает Hermes 4 в контексте длины рассуждений моделей?
Hermes 4 решает проблему слишком длинных рассуждений, когда модели генерируют чрезмерно длинные цепочки мыслей без завершения. Для этого используется второй этап тонкой настройки под наблюдением, обучающий модели прекращать рассуждения ровно на 30 000 токенов. Это позволяет снизить количество слишком длинных генераций на AIME’24 на 78,4%, на AIME’25 — на 65,3%, на LiveCodeBench — на 79,8%.
4. Какие ключевые среды верификации используются в Hermes 4 для обеспечения качества данных?
Ключевые среды верификации в Hermes 4 включают:
* обучение формату ответов (награда за правильное форматирование более чем в 150 форматах вывода);
* следование инструкциям (использование задач RLVR-IFEval со сложными ограничениями);
* соблюдение схемы (для генерации JSON с использованием моделей Pydantic);
* обучение использованию инструментов для агентского поведения.
5. Какие технические аспекты обучения Hermes 4 способствуют его высокой производительности?
Обучение Hermes 4 использует модифицированный TorchTitan на 192 графических процессорах NVIDIA B200. Система обрабатывает сильно неоднородное распределение длины выборки с помощью эффективной упаковки, гибкого внимания и сложного маскирования потерь. Обучение следует графику косинусного темпа обучения с 300 шагами прогрева и 9 000 общими шагами при длине контекста в 16 384 токена с глобальным размером пакета в 384 образца.