Компания Baidu официально открыла исходный код своей новейшей серии ERNIE 4.5 — мощного семейства базовых моделей, разработанных для улучшения понимания языка, рассуждений и генерации текста.
Основные характеристики:
* В релиз включены десять вариантов моделей — от компактных плотных моделей 0,3 млрд параметров до массивных архитектур Mixture-of-Experts (MoE) с общим количеством параметров до 424 млрд.
* Модели доступны бесплатно для глобального исследовательского сообщества и разработчиков через Hugging Face, что обеспечивает открытый эксперимент и более широкий доступ к передовым технологиям китайского и многоязычного языкового моделирования.
Технический обзор архитектуры ERNIE 4.5
Серия ERNIE 4.5 основана на предыдущих версиях моделей ERNIE от Baidu и включает передовые архитектуры моделей, в том числе плотные и с разрежённой активацией MoE.
Варианты MoE особенно примечательны эффективным масштабированием количества параметров: варианты ERNIE 4.5-MoE-3B и ERNIE 4.5-MoE-47B активируют только подмножество экспертов для каждого входного токена (обычно 2 из 64 экспертов), поддерживая управляемое количество активных параметров и сохраняя при этом выразительность модели и возможности обобщения.
Обучение моделей ERNIE 4.5
Модели ERNIE 4.5 обучаются с использованием комбинации контролируемой точной настройки (SFT), обучения с подкреплением с обратной связью от человека (RLHF) и методов контрастного выравнивания.
Обучающий корпус охватывает 5,6 триллиона токенов в различных областях как на китайском, так и на английском языках, используя собственный многоэтапный механизм предварительной подготовки Baidu.
Варианты моделей и открытый исходный код
* Плотные модели: ERNIE 4.5-0,3B, 0,5B, 1,8B и 4B.
* Модели MoE: ERNIE 4.5-MoE-3B, 4B, 6B, 15B, 47B и 424B (с различным количеством активных параметров).
Например, вариант MoE-47B активирует только 3 млрд параметров во время логического вывода, имея в общей сложности 47 млрд. Модель на 424 млрд параметров — самая большая из когда-либо выпущенных Baidu — использует стратегии разрежённой активации, чтобы сделать вывод возможным и масштабируемым.
Показатели производительности
Модели ERNIE 4.5 демонстрируют значительные улучшения по ряду ключевых задач китайского и многоязычного НЛП.
* Согласно официальному техническому отчёту, на CMMLU модель ERNIE 4.5 превосходит предыдущие версии ERNIE и достигает высочайшей точности в понимании китайского языка.
* На MMLU, многоязычном бенчмарке, ERNIE 4.5-47B демонстрирует конкурентоспособную производительность с другими ведущими LLM, такими как GPT-4 и Claude.
* Для генерации длинных текстов модель ERNIE 4.5 достигает более высоких показателей связности и достоверности при оценке с использованием внутренних метрик Baidu.
* В задачах следования инструкциям модели выигрывают от контрастной точной настройки, показывая улучшенное соответствие намерениям пользователя и снижение частоты галлюцинаций по сравнению с более ранними версиями ERNIE.
Приложения и развёртывание
Модели ERNIE 4.5 оптимизированы для широкого спектра приложений:
* Чат-боты и помощники: поддержка многоязычности и согласование с инструкциями делают модель подходящей для ИИ-помощников.
* Поиск и ответы на вопросы: высокая точность извлечения и генерации позволяют интегрировать модель с конвейерами RAG.
* Генерация контента: улучшенная фактологическая обоснованность способствует генерации длинных текстов и информационно насыщенного контента.
* Код и мультимодальные расширения: хотя текущий выпуск ориентирован на текст, Baidu указывает, что ERNIE 4.5 совместим с мультимодальными расширениями.
С поддержкой длины контекста до 128 тыс. токенов в некоторых вариантах семейство ERNIE 4.5 может использоваться в задачах, требующих памяти и рассуждений в длинных документах или сессиях.
Заключение
Серия ERNIE 4.5 представляет собой значительный шаг в развитии открытого исходного кода ИИ, предлагая универсальный набор моделей, адаптированных для масштабируемых, многоязычных и согласованных с инструкциями задач.
Решение Baidu выпустить модели, начиная от лёгких вариантов на 0,3 млрд параметров и заканчивая моделью MoE на 424 млрд параметров, подчёркивает приверженность компании инклюзивным и прозрачным исследованиям в области ИИ.
1. Какие основные характеристики и особенности серии моделей ERNIE 4.5?
Ответ: серия ERNIE 4.5 включает десять вариантов моделей с количеством параметров от 0,3 млрд до 424 млрд. Модели доступны бесплатно для глобального исследовательского сообщества и разработчиков через Hugging Face. Серия основана на предыдущих версиях моделей ERNIE от Baidu и включает передовые архитектуры моделей, в том числе плотные и с разрежённой активацией MoE.
2. Какие методы используются для обучения моделей ERNIE 4.5?
Ответ: модели ERNIE 4.5 обучаются с использованием комбинации контролируемой точной настройки (SFT), обучения с подкреплением с обратной связью от человека (RLHF) и методов контрастного выравнивания. Обучающий корпус охватывает 5,6 триллиона токенов в различных областях как на китайском, так и на английском языках.
3. Какие улучшения демонстрируют модели ERNIE 4.5 по сравнению с предыдущими версиями?
Ответ: модели ERNIE 4.5 демонстрируют значительные улучшения по ряду ключевых задач китайского и многоязычного НЛП. Согласно официальному техническому отчёту, на CMMLU модель ERNIE 4.5 превосходит предыдущие версии ERNIE и достигает высочайшей точности в понимании китайского языка. На MMLU, многоязычном бенчмарке, ERNIE 4.5-47B демонстрирует конкурентоспособную производительность с другими ведущими LLM, такими как GPT-4 и Claude.
4. Какие приложения и задачи могут быть оптимизированы с использованием моделей ERNIE 4.5?
Ответ: модели ERNIE 4.5 оптимизированы для широкого спектра приложений, включая чат-ботов и помощников, поиск и ответы на вопросы, генерацию контента, а также код и мультимодальные расширения. С поддержкой длины контекста до 128 тыс. токенов в некоторых вариантах семейство ERNIE 4.5 может использоваться в задачах, требующих памяти и рассуждений в длинных документах или сессиях.
5. Какие параметры и архитектуры используются в серии ERNIE 4.5 для эффективного масштабирования?
Ответ: в серии ERNIE 4.5 используются как плотные модели, так и модели с разрежённой активацией MoE. Варианты MoE особенно примечательны эффективным масштабированием количества параметров: варианты ERNIE 4.5-MoE-3B и ERNIE 4.5-MoE-47B активируют только подмножество экспертов для каждого входного токена, поддерживая управляемое количество активных параметров и сохраняя при этом выразительность модели и возможности обобщения.