NVIDIA представила OpenReasoning-Nemotron: набор языковых моделей с улучшенными возможностями логического вывода

Компания NVIDIA AI выпустила OpenReasoning-Nemotron — семейство больших языковых моделей (LLM), которые предназначены для решения сложных задач, связанных с логическим выводом в математике, науке и программировании.

Основные характеристики

В набор входят версии с количеством параметров 1,5 млрд, 7 млрд, 14 млрд и 32 млрд. Эти модели были созданы на основе модели DeepSeek R1 0528 с 671 млрд параметров, что позволило сохранить её способности к логическому выводу в значительно меньших и более эффективных моделях.

Обзор моделей и архитектуры

В основе OpenReasoning-Nemotron лежит стратегия дистилляции, которая передаёт способность к логическому выводу от модели DeepSeek R1 (с 671 млрд параметров) в более компактные архитектуры. Процесс уделяет приоритетное внимание обобщению рассуждений, а не простому предсказанию токенов, что позволяет компактным моделям эффективно работать со структурированными задачами, требующими высокого уровня когнитивных способностей.

Набор данных для дистилляции делает акцент на математике, естественных науках и языках программирования, что соответствует ключевым областям логического вывода.

Варианты моделей и спецификации

Все модели совместимы с архитектурами трансформеров, поддерживают квантование FP16/INT8 и оптимизированы для графических процессоров NVIDIA и фреймворков NeMo.

Результаты тестирования

Модели OpenReasoning-Nemotron превосходят аналоги по размеру в широком спектре тестов, ориентированных на логический вывод, особенно в следующих областях:

Математика: GSM8K, MATH и MMLU (математическое подмножество).

Научные вопросы и ответы: ARC, OpenBookQA и PubMedQA.

Программирование/код: HumanEval и MBPP.

Данные обучения и специализация на рассуждениях

Обучающий корпус представляет собой дистиллированное высококачественное подмножество набора данных DeepSeek R1 0528. Ключевые особенности включают:

Тщательно отобранные данные о рассуждениях из математики, естественных наук и компьютерных дисциплин.

Тонкая настройка с помощью подсказок, разработанная для усиления многошаговых мыслительных цепочек.

Акцент на логической согласованности, удовлетворении ограничений и символическом мышлении.

Это целенаправленное курирование обеспечивает точное соответствие реальным задачам рассуждения, встречающимся как в академической среде, так и в прикладных областях машинного обучения.

Интеграция в экосистему

Все четыре модели OpenReasoning-Nemotron выпущены под открытой и коммерчески разрешительной лицензией. Карточки моделей, скрипты для оценки и готовые к использованию веса доступны на Hugging Face.

Эти модели предназначены для интеграции с фреймворком NVIDIA NeMo и поддерживают TensorRT-LLM, ONNX и инструментарии Hugging Face Transformers, что облегчает быстрое развёртывание в производственных и исследовательских условиях.

Основные варианты использования

Математические наставники и решатели теорем.

Научные агенты по вопросам и ответам и системы медицинского рассуждения.

Генерация кода и помощники по отладке.

Многоэтапное вопросно-ответное взаимодействие.

Генерация синтетических данных для структурированных доменов.

Заключение

Модели NVIDIA OpenReasoning-Nemotron предлагают прагматичный путь к масштабированию возможностей логического вывода с помощью открытого исходного кода без затрат на вычислительные ресурсы, необходимые для передовых моделей.

Для разработчиков, исследователей и предприятий, работающих над приложениями искусственного интеллекта, требующими интенсивной логики, OpenReasoning-Nemotron предоставляет убедительную основу, свободную от компромиссов, которые часто сопровождают проприетарные или чрезмерно обобщённые модели.

Часто задаваемые вопросы (FAQ)

1. В чём разница между OpenReasoning-Nemotron и общими моделями LLM, такими как LLaMA или Mixtral?

Модели OpenReasoning-Nemotron специально разработаны для улучшения логического вывода в математике, науке и коде. В то время как LLaMA и Mixtral обучены на обширных веб-корпусах, модели OpenReasoning делают упор на символическую и многошаговую логику, превосходя общие модели LLM в тестах по конкретным областям логического вывода.

2. Как эти модели были дистиллированы из модели DeepSeek R1 0528 с 671 млрд параметров?

Процесс дистилляции использовал высококачественные выходные данные из DeepSeek R1 для обучения более мелких моделей. Это включает в себя набор данных, ориентированный на рассуждения, и обучение на основе подсказок, что позволяет более мелким вариантам Nemotron воспроизвести поведение модели с гораздо большим количеством параметров.

3. Подходят ли модели OpenReasoning-Nemotron для коммерческого использования?

Да. Все модели в наборе выпущены с коммерчески разрешительными лицензиями и могут быть развёрнуты в корпоративных средах с использованием фреймворков NVIDIA NeMo, TensorRT-LLM или Hugging Face Transformers.

4. Какой размер модели мне следует использовать для моего приложения?

— 1,5 млрд: лёгкие задачи, вывод на периферии.
— 7 млрд: сбалансировано для академического использования или помощников по коду.
— 14 млрд: задачи с высоким уровнем рассуждений при умеренной задержке.
— 32 млрд: близко к передовым показателям для исследований и разработок или для агентов рассуждений производственного уровня.

1. Какие основные характеристики отличают OpenReasoning-Nemotron от других больших языковых моделей?

Ответ: OpenReasoning-Nemotron отличается от других больших языковых моделей тем, что специально разработана для решения сложных задач, связанных с логическим выводом в математике, науке и программировании. Модели созданы на основе модели DeepSeek R1 0528 с 671 млрд параметров, что позволило сохранить её способности к логическому выводу в значительно меньших и более эффективных моделях.

2. Какие версии OpenReasoning-Nemotron доступны и для каких задач они предназначены?

Ответ: В набор OpenReasoning-Nemotron входят версии с количеством параметров 1,5 млрд, 7 млрд, 14 млрд и 32 млрд. OpenReasoning-Nemotron-1.5B подходит для начального уровня рассуждений и выводов, OpenReasoning-Nemotron-7B — для среднего уровня рассуждений, подходит для кода/математики, OpenReasoning-Nemotron-14B — для расширенных возможностей рассуждений, OpenReasoning-Nemotron-32B — для задач, требующих интенсивной логики.

3. Какие преимущества предоставляют модели OpenReasoning-Nemotron для разработчиков и исследователей?

Ответ: Модели OpenReasoning-Nemotron предлагают прагматичный путь к масштабированию возможностей логического вывода с помощью открытого исходного кода без затрат на вычислительные ресурсы, необходимые для передовых моделей. Они предназначены для интеграции с фреймворком NVIDIA NeMo и поддерживают TensorRT-LLM, ONNX и инструментарии Hugging Face Transformers, что облегчает быстрое развёртывание в производственных и исследовательских условиях.

4. Какие результаты тестирования демонстрируют эффективность моделей OpenReasoning-Nemotron?

Ответ: Модели OpenReasoning-Nemotron превосходят аналоги по размеру в широком спектре тестов, ориентированных на логический вывод, особенно в математике (GSM8K, MATH и MMLU), научных вопросах и ответах (ARC, OpenBookQA и PubMedQA) и программировании/коде (HumanEval и MBPP).

5. Какие ключевые особенности обучающего корпуса обеспечивают точное соответствие реальным задачам рассуждения?

Ответ: Ключевые особенности обучающего корпуса включают тщательно отобранные данные о рассуждениях из математики, естественных наук и компьютерных дисциплин, тонкую настройку с помощью подсказок, разработанную для усиления многошаговых мыслительных цепочек, и акцент на логической согласованности, удовлетворении ограничений и символическом мышлении.

Источник