Tencent открывает исходный код Hunyuan-A13B: модель MoE с 13 миллиардами активных параметров, двойным режимом рассуждений и контекстом в 256 тысяч

Команда Hunyuan от Tencent представила Hunyuan-A13B — новую большую языковую модель с открытым исходным кодом, построенную на разрежённой архитектуре Mixture-of-Experts (MoE).

Основные характеристики модели

  • Параметры: модель состоит из 80 миллиардов параметров, но во время логического вывода активны только 13 миллиардов.

  • Архитектура: Hunyuan-A13B использует 1 общего эксперта и 64 независимых эксперта, при этом во время прямого прохода активируются 8 экспертов.

  • Функции: модель поддерживает Grouped Query Attention (GQA), имеет длину контекста 256 тысяч и двойной механизм рассуждений, который переключается между быстрым и медленным мышлением.

Производительность

Hunyuan-A13B демонстрирует высокую производительность в различных задачах, включая BFCL-v3, τ-Bench, C3-Bench и ComplexFuncBench. Модель часто превосходит более крупные модели в сценариях вызова инструментов и работы с длинным контекстом.

Оптимизация логического вывода и развёртывания

Hunyuan-A13B полностью интегрирован с популярными фреймворками логического вывода, такими как vLLM, SGLang и TensorRT-LLM. Модель поддерживает форматы точности, такие как W16A16, W8A8 и KV Cache FP8, а также функции, такие как автоматическое префиксное кэширование и предварительное заполнение фрагментов.

Открытый исходный код и актуальность для отрасли

Hunyuan-A13B доступен на Hugging Face и GitHub под разрешительной лицензией с открытым исходным кодом. Модель разработана для эффективного использования в исследованиях и производстве, особенно в средах с чувствительностью к задержкам и задачах с длинным контекстом.

Комбинируя масштабируемость MoE, агентские рассуждения и доступность с открытым исходным кодом, Tencent Hunyuan-A13B предлагает убедительную альтернативу тяжёлым LLM, позволяя проводить более широкие эксперименты и развёртывание без потери функциональности.

🔬 Читайте статью в [MarkTechPost](https://www.marktechpost.com). Все заслуги за это исследование принадлежат исследователям этого проекта. Подписывайтесь на нас в [Twitter](https://twitter.com), присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) с более чем 100 тысячами участников и подписывайтесь на нашу [рассылку](https://www.marktechpost.com/subscribe/).

1. Какие уникальные характеристики отличают модель Hunyuan-A13B от других больших языковых моделей?

Ответ: Hunyuan-A13B отличается использованием разрежённой архитектуры Mixture-of-Experts (MoE), поддержкой Grouped Query Attention (GQA), длиной контекста в 256 тысяч и двойным механизмом рассуждений, который переключается между быстрым и медленным мышлением.

2. Какие задачи и сценарии использования особенно хорошо подходят для модели Hunyuan-A13B?

Ответ: Hunyuan-A13B демонстрирует высокую производительность в различных задачах, включая BFCL-v3, τ-Bench, C3-Bench и ComplexFuncBench. Модель особенно эффективна в сценариях вызова инструментов и работы с длинным контекстом.

3. Какие популярные фреймворки логического вывода интегрированы с Hunyuan-A13B?

Ответ: Hunyuan-A13B полностью интегрирован с популярными фреймворками логического вывода, такими как vLLM, SGLang и TensorRT-LLM.

4. Какие форматы точности поддерживает Hunyuan-A13B?

Ответ: Hunyuan-A13B поддерживает форматы точности, такие как W16A16, W8A8 и KV Cache FP8.

5. Какие преимущества предлагает Hunyuan-A13B для исследований и производства?

Ответ: Hunyuan-A13B предлагает убедительную альтернативу тяжёлым LLM, позволяя проводить более широкие эксперименты и развёртывание без потери функциональности. Модель разработана для эффективного использования в исследованиях и производстве, особенно в средах с чувствительностью к задержкам и задачах с длинным контекстом.

Источник

Оставьте комментарий