NVIDIA Llama-3.1-Nemotron-Ultra-253B-v1: революция в эффективности искусственного интеллекта

С ростом использования искусственного интеллекта в цифровой инфраструктуре предприятия и разработчики сталкиваются с возрастающим давлением, необходимостью балансировать вычислительные затраты с производительностью, масштабируемостью и адаптивностью. Быстрый прогресс в области больших языковых моделей (LLM) открыл новые горизонты в понимании естественного языка, рассуждении и диалоговом искусственном интеллекте. Однако их размер и сложность часто приводят к неэффективности, которая препятствует развёртыванию в больших масштабах.

В этих условиях возникает вопрос: могут ли архитектуры искусственного интеллекта эволюционировать так, чтобы поддерживать высокую производительность без чрезмерного увеличения вычислительных затрат или финансовых расходов?

NVIDIA представила Llama-3.1-Nemotron-Ultra-253B-v1 — языковую модель с 253 миллиардами параметров, представляющую значительный прогресс в возможностях рассуждений, эффективности архитектуры и готовности к производству. Эта модель является частью более широкой коллекции Llama Nemotron и непосредственно основана на архитектуре Llama-3.1-405B-Instruct от Meta. Две другие небольшие модели этой серии — Llama-3.1-Nemotron-Nano-8B-v1 и Llama-3.3-Nemotron-Super-49B-v1. Разработанная для коммерческого и корпоративного использования, Nemotron Ultra предназначена для поддержки задач, начиная от использования инструментов и дополненного извлечения информации (RAG) до многоходовых диалогов и сложного следования инструкциям.

Ядро модели представляет собой плотную структуру трансформера только с декодером, настроенную с помощью специализированного алгоритма поиска нейронной архитектуры (NAS). В отличие от традиционных моделей трансформеров, эта архитектура использует неповторяющиеся блоки и различные стратегии оптимизации. Среди таких инноваций — механизм пропуска внимания, при котором модули внимания в определённых слоях либо полностью пропускаются, либо заменяются более простыми линейными слоями. Кроме того, техника слияния feedforward-сетей (FFN) объединяет последовательности FFN в меньшее количество более широких слоёв, что значительно сокращает время логического вывода при сохранении производительности.

Эта тщательно настроенная модель поддерживает контекстное окно с 128 тысячами токенов, что позволяет ей обрабатывать и анализировать расширенные текстовые входные данные, делая её подходящей для продвинутых систем RAG и анализа множества документов. Кроме того, Nemotron Ultra подходит для рабочих нагрузок логического вывода на одном узле 8xH100, что знаменует собой важную веху в эффективности развёртывания. Такая компактная возможность логического вывода значительно снижает затраты на центры обработки данных и повышает доступность для корпоративных разработчиков.

Строгий многоэтапный процесс постобучения от NVIDIA включает в себя контролируемую тонкую настройку на таких задачах, как генерация кода, математика, чат, рассуждение и вызов инструментов. Затем следует обучение с подкреплением (RL) с использованием Group Relative Policy Optimization (GRPO) — алгоритма, предназначенного для тонкой настройки способности модели следовать инструкциям и вести диалоги. Эти дополнительные уровни обучения обеспечивают хорошую работу модели на контрольных примерах и соответствие предпочтениям человека во время интерактивных сеансов.

Разработанная с учётом готовности к производству, Nemotron Ultra регулируется открытой лицензией на модели NVIDIA. Её выпуск сопровождался выпуском других моделей того же семейства, включая Llama-3.1-Nemotron-Nano-8B-v1 и Llama-3.3-Nemotron-Super-49B-v1. Окно выпуска, с ноября 2024 года по апрель 2025 года, позволило модели использовать данные для обучения до конца 2023 года, что делает её относительно актуальной по знаниям и контексту.

Ключевые выводы из выпуска Llama-3.1-Nemotron-Ultra-253B-v1:
* **Дизайн, ориентированный на эффективность:** используя NAS и слияние FFN, NVIDIA снизила сложность модели без ущерба для точности, добившись превосходных показателей задержки и пропускной способности.
* **Длина контекста 128 тысяч токенов:** модель может одновременно обрабатывать большие документы, расширяя возможности RAG и понимания длинного контекста.
* **Готовность к использованию в предприятиях:** модель идеально подходит для коммерческих чат-ботов и систем с AI-агентами, так как её легко развернуть на узле 8xH100, и она хорошо следует инструкциям.
* **Продвинутая тонкая настройка:** RL с GRPO и контролируемое обучение по нескольким дисциплинам обеспечивают баланс между силой рассуждений и согласованностью чата.
* **Открытая лицензия:** лицензия NVIDIA Open Model License поддерживает гибкое развёртывание, а лицензирование для сообщества способствует совместному внедрению.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *