Знакомьтесь: SmallThinker — семейство эффективных больших языковых моделей, изначально обученных для локального использования

На рынке генеративного искусственного интеллекта доминируют массивные языковые модели, разработанные для огромных мощностей облачных дата-центров. Эти модели, несмотря на свою мощь, затрудняют или делают невозможным для обычных пользователей частное и эффективное развёртывание продвинутого ИИ на локальных устройствах, таких как ноутбуки, смартфоны или встроенные системы.

Вместо того чтобы сжимать облачные модели для использования на периферии — что часто приводит к существенным компромиссам в производительности — команда, стоящая за SmallThinker, задалась более фундаментальным вопросом: что, если бы языковая модель изначально проектировалась с учётом локальных ограничений?

SmallThinker — это семейство моделей Mixture-of-Experts (MoE), разработанное исследователями Шанхайского Jiao Tong University и Zenergize AI. Оно нацелено на высокопроизводительный вывод данных на устройствах с ограниченными ресурсами памяти и вычислительных возможностей.

Архитектурные инновации

Fine-Grained Mixture-of-Experts (MoE): в отличие от типичных монолитных LLM, основа SmallThinker имеет детализированную конструкцию MoE. Обучаются несколько специализированных экспертных сетей, но для каждого входного токена активируется только небольшое подмножество:
* SmallThinker-4B-A0.6B: 4 миллиарда параметров в общей сложности, из которых 600 миллионов активируются для каждого токена.
* SmallThinker-21B-A3B: 21 миллиард параметров, из которых одновременно активны только 3 миллиарда.

Это обеспечивает высокую производительность без затрат на память и вычисления, характерных для плотных моделей.

ReGLU-Based Feed-Forward Sparsity: разреженность активации дополнительно обеспечивается с помощью ReGLU. Даже внутри активированных экспертов более 60% нейронов простаивают на каждом шаге вывода, что позволяет существенно сократить вычислительные и объёмные затраты.

NoPE-RoPE Hybrid Attention: для эффективной обработки контекста SmallThinker использует новый подход к вниманию: чередование глобальных слоёв NoPositionalEmbedding (NoPE) и локальных слоёв RoPE со скользящим окном. Этот подход поддерживает большие длины контекста (до 32 тысяч токенов для 4B и 16 тысяч для 21B), но сокращает размер кэша Key/Value по сравнению с традиционным глобальным вниманием.

Pre-Attention Router and Intelligent Offloading: для использования на устройствах критически важно разделить скорость вывода и медленное хранилище. «Предварительный маршрутизатор внимания» SmallThinker прогнозирует, какие эксперты понадобятся перед каждым шагом внимания, чтобы их параметры предварительно загружались из SSD/flash параллельно с вычислениями. Система полагается на кэширование «горячих» экспертов в ОЗУ (с использованием политики LRU), в то время как менее используемые специалисты остаются на быстром хранилище. Такая конструкция, по сути, скрывает задержки ввода-вывода и максимизирует пропускную способность даже при минимальном объёме системной памяти.

Режим обучения и процедуры работы с данными

Модели SmallThinker обучались заново, а не путём дистилляции, по учебной программе, которая начинается с общих знаний и переходит к узкоспециализированным областям STEM, математическим и кодирующим данным:
* Вариант 4B обработал 2,5 триллиона токенов; модель 21B — 7,2 триллиона.

Данные поступают из смеси курируемых коллекций из открытых источников, дополненных синтетическими наборами математических и кодовых данных, а также под контролем корпусов, следующих инструкциям.

Методологии включали фильтрацию по качеству, синтез данных в стиле MGA и стратегии, ориентированные на персоны, особенно для повышения производительности в формальных областях и областях, требующих рассуждений.

Результаты тестирования

На академических задачах:
SmallThinker-21B-A3B, несмотря на активацию гораздо меньшего количества параметров, чем у конкурентов, демонстрирует результаты, сопоставимые с ними или превосходящие их в таких областях, как математика (MATH-500, GPQA-Diamond), генерация кода (HumanEval) и широкие оценки знаний (MMLU).

| Модель | MMLU | GPQA | Math-500 | IFEval | LiveBench | HumanEval | Average |
|———|——|——|———-|———|————|————|———|
| SmallThinker-21B-A3B | 84,4 | 55,1 | 82,4 | 58,6 | 0,38 | 9,67 | 6,3 |
| Qwen3-30B-A3B | 85,1 | 44,4 | 84,4 | 4,35 | 8,89 | 0,27 | 4,5 |
| Phi-4-14B | 84,6 | 55,8 | 80,2 | 63,2 | 44,2 | 7,26 | 8,8 |
| Gemma3-12B-it | 78,5 | 34,9 | 82,4 | 74,7 | 48,5 | 82,9 | 66,3 |

Модель 4B-A0.6B также превосходит или соответствует другим моделям с аналогичным количеством активированных параметров, особенно выделяясь в области рассуждений и кодирования.

На реальном оборудовании:
SmallThinker особенно эффективен на устройствах с ограниченным объёмом памяти:
* Модель 4B работает комфортно с 1 ГиБ ОЗУ, а модель 21B — с 8 ГиБ, без катастрофического падения скорости.
* Предварительная выборка и кэширование означают, что даже в этих условиях вывод остаётся значительно более быстрым и плавным, чем у базовых моделей, просто перенесённых на диск.

Например, вариант 21B-A3B поддерживает более 20 токенов в секунду на стандартном процессоре, в то время как Qwen3-30B-A3B почти выходит из строя при аналогичных ограничениях по памяти.

Влияние разреженности и специализации

Специализация экспертов: журналы активации показывают, что 70–80% экспертов используются редко, в то время как несколько основных «горячих» экспертов активизируются для конкретных доменов или языков — свойство, которое обеспечивает высокопредсказуемое и эффективное кэширование.

Разреженность на уровне нейронов: даже внутри активных экспертов медианный уровень неактивности нейронов превышает 60%. Ранние слои почти полностью разрежены, в то время как более глубокие слои сохраняют эту эффективность, что показывает, почему SmallThinker удаётся добиться многого при столь небольших вычислительных ресурсах.

Ограничения системы и перспективы

Хотя достижения существенны, SmallThinker не лишён недостатков:
* Размер обучающего набора: хотя корпус предварительного обучения и является масштабным, он всё же меньше, чем у некоторых передовых облачных моделей, что потенциально ограничивает обобщение в редких или малоизвестных областях.
* Настройка модели: применяется только контролируемая тонкая настройка; в отличие от ведущих облачных LLM, не используется обучение с подкреплением на основе обратной связи от человека, что может привести к некоторым пробелам в безопасности и полезности.
* Покрытие языков: английский и китайский с STEM доминируют в обучении — качество для других языков может быть снижено.

Авторы планируют расширить наборы данных и внедрить конвейеры RLHF в будущих версиях.

Заключение

SmallThinker представляет собой радикальный отход от традиции «сжимать облачные модели для периферийных устройств». Начиная с локальных ограничений, он обеспечивает высокую производительность, скорость и низкое потребление памяти за счёт архитектурных и системных инноваций. Это открывает двери для частного, отзывчивого и способного ИИ практически на любом устройстве, демократизируя передовые языковые технологии для гораздо более широкого круга пользователей и вариантов использования.

Модели SmallThinker-4B-A0.6B-Instruct и SmallThinker-21B-A3B-Instruct свободно доступны для исследователей и разработчиков и служат убедительным доказательством того, что возможно, когда проектирование модели основано на реалиях развёртывания, а не только на амбициях центров обработки данных.

1. Какие архитектурные инновации используются в SmallThinker для обеспечения высокой производительности на устройствах с ограниченными ресурсами?

В SmallThinker используются несколько архитектурных инноваций для обеспечения высокой производительности на устройствах с ограниченными ресурсами:
* Fine-Grained Mixture-of-Experts (MoE): вместо монолитной структуры используются несколько специализированных экспертных сетей, но для каждого входного токена активируется только небольшое подмножество.
* ReGLU-Based Feed-Forward Sparsity: разреженность активации дополнительно обеспечивается с помощью ReGLU, что позволяет сократить вычислительные и объёмные затраты.
* NoPE-RoPE Hybrid Attention: для эффективной обработки контекста используется новый подход к вниманию, который поддерживает большие длины контекста, но сокращает размер кэша Key/Value.
* Pre-Attention Router and Intelligent Offloading: система прогнозирует, какие эксперты понадобятся перед каждым шагом внимания, чтобы их параметры предварительно загружались из SSD/flash параллельно с вычислениями.

2. Какие результаты продемонстрировала модель SmallThinker-21B-A3B в академических задачах?

Модель SmallThinker-21B-A3B продемонстрировала результаты, сопоставимые с конкурентами или превосходящие их в таких областях, как математика (MATH-500, GPQA-Diamond), генерация кода (HumanEval) и широкие оценки знаний (MMLU).

3. Какие ограничения есть у системы SmallThinker?

4. Какие перспективы развития есть у системы SmallThinker?

Авторы планируют расширить наборы данных и внедрить конвейеры RLHF в будущих версиях. Это позволит улучшить обобщение в редких или малоизвестных областях, повысить безопасность и полезность модели, а также расширить покрытие языков.

5. Какие преимущества предоставляет система SmallThinker по сравнению с облачными моделями?

SmallThinker предоставляет несколько преимуществ по сравнению с облачными моделями:
* Высокая производительность на устройствах с ограниченными ресурсами.
* Низкая задержка и быстрое время отклика.
* Низкое потребление памяти.
* Возможность использования на широком спектре устройств, включая ноутбуки, смартфоны и встроенные системы.
* Демократизация передовых языковых технологий для более широкого круга пользователей и вариантов использования.

Источник