5 архитектур моделей искусственного интеллекта, которые должен знать каждый инженер в сфере ИИ

Сегодня экосистема искусственного интеллекта (ИИ) гораздо шире, чем просто языковые модели. За кулисами целое семейство специализированных архитектур незаметно меняет то, как машины видят, планируют, действуют, сегментируют, представляют концепции и даже эффективно работают на небольших устройствах. Каждая из этих моделей решает свою часть головоломки интеллекта, и вместе они формируют следующее поколение систем ИИ.

В этой статье мы рассмотрим пять основных игроков:
* большие языковые модели (LLMs);
* модели зрения и языка (VLMs);
* смесь экспертов (MoE);
* большие модели действий (LAMs);
* малые языковые модели (SLMs).

Большие языковые модели (LLMs)

Большие языковые модели (LLMs) принимают текст, разбивают его на токены, превращают токены в эмбеддинги, пропускают их через слои трансформеров и генерируют текст обратно. Модели вроде ChatGPT, Claude, Gemini, Llama и другие следуют этому базовому процессу.

По своей сути LLMs — это модели глубокого обучения, обученные на огромных объёмах текстовых данных. Это обучение позволяет им понимать язык, генерировать ответы, обобщать информацию, писать код, отвечать на вопросы и выполнять широкий спектр задач. Они используют архитектуру трансформеров, которая отлично справляется с обработкой длинных последовательностей и улавливанием сложных закономерностей в языке.

Сегодня LLMs широко доступны через потребительские инструменты и ассистентов — от ChatGPT от OpenAI и Claude от Anthropic до моделей Llama от Meta, Microsoft Copilot, Gemini и семейства BERT/PaLM от Google. Они стали основой современных приложений ИИ благодаря своей универсальности и простоте использования.

Модели зрения и языка (VLMs)

Модели зрения и языка (VLMs) сочетают два мира:
* кодировщик изображений или видео;
* кодировщик текста.

Оба потока встречаются в мультимодальном процессоре, и языковая модель генерирует конечный результат. Примеры включают GPT-4V, Gemini Pro Vision и LLaVA.

VLM — это по сути большая языковая модель, которой дали возможность видеть. Объединяя визуальные и текстовые представления, эти модели могут понимать изображения, интерпретировать документы, отвечать на вопросы о картинках, описывать видео и многое другое.

Традиционные модели компьютерного зрения обучены одной узкой задаче — например, классификации кошек и собак или извлечению текста из изображения — и не могут обобщать за пределы своих обучающих классов. Если вам нужен новый класс или задача, их нужно переобучать с нуля.

VLMs устраняют это ограничение. Обученные на огромных наборах данных изображений, видео и текста, они могут выполнять множество задач зрения без необходимости переобучения. Это делает VLMs одним из самых мощных достижений в современном ИИ.

Смесь экспертов (MoE)

Модели смеси экспертов (MoE) основаны на стандартной архитектуре трансформеров, но вводят ключевое обновление: вместо одной прямой сети на слой они используют множество меньших экспертных сетей и активируют только несколько для каждого токена. Это делает модели MoE чрезвычайно эффективными, предлагая при этом огромную ёмкость.

В обычном трансформере каждый токен проходит через одну и ту же прямую сеть, то есть все параметры используются для каждого токена. Слои MoE заменяют это пулом экспертов, а маршрутизатор решает, какие эксперты должны обрабатывать каждый токен (выбор Top-K). В результате модели MoE могут иметь гораздо больше общих параметров, но они вычисляют только с малой их частью за раз — давая разреженные вычисления.

Например, Mixtral 8×7B имеет более 46 миллиардов параметров, но каждый токен использует только около 13 миллиардов. Такая конструкция резко снижает стоимость вывода.

Большие модели действий (LAMs)

Большие модели действий (LAMs) идут дальше генерации текста — они превращают намерения в действия. Вместо того чтобы просто отвечать на вопросы, LAM может понять, чего хочет пользователь, разбить задачу на шаги, спланировать необходимые действия и затем выполнить их в реальном мире или на компьютере.

Малые языковые модели (SLMs)

Малые языковые модели (SLMs) — это лёгкие языковые модели, предназначенные для эффективной работы на периферийных устройствах, мобильном оборудовании и в других средах с ограниченными ресурсами. Они используют компактную токенизацию, оптимизированные слои трансформеров и агрессивное квантование, чтобы сделать локальное развёртывание на устройстве возможным. Примеры включают Phi-3, Gemma, Mistral 7B и Llama 3.2 1B.

В отличие от LLMs, которые могут иметь сотни миллиардов параметров, SLMs обычно варьируются от нескольких миллионов до нескольких миллиардов. Несмотря на меньший размер, они всё ещё могут понимать и генерировать естественный язык, что делает их полезными для чата, обобщения, перевода и автоматизации задач — без необходимости облачных вычислений.

Поскольку они требуют гораздо меньше памяти и вычислений, SLMs идеально подходят для:
* мобильных приложений;
* IoT и периферийных устройств;
* сценариев с ограниченным доступом в интернет или для обеспечения конфиденциальности;
* приложений с низкой задержкой, где облачные вызовы слишком медленные.

SLMs представляют растущий сдвиг в сторону быстрого, частного и экономичного ИИ, принося языкового интеллекта непосредственно на личные устройства.

Nanbeige4-3B-Thinking: как 23-триллионный токен Pipeline выводит 3B модели за пределы 30B класса рассуждений

Исследование Nanbeige LLM Lab в Boss Zhipin представило Nanbeige4-3B — семейство малых языковых моделей с 3 миллиардами параметров, обученных с особым упором на качество данных, планирование учебных программ, дистилляцию и обучение с подкреплением.

Исследовательская группа представила два основных контрольных пункта: Nanbeige4-3B-Base и Nanbeige4-3B-Thinking, и оценила настроенную на рассуждения модель по сравнению с контрольными точками Qwen3 от 4B до 32B параметров.

Результаты бенчмарков

На AIME 2024 Nanbeige4-3B-2511 сообщает 90,4, в то время как Qwen3-32B-2504 сообщает 81,4. На GPQA-Diamond Nanbeige4-3B-2511 сообщает 82,2, в то время как Qwen3-14B-2504 сообщает 64,0, а Qwen3-32B-2504 сообщает 68,7.

Исследовательская группа также демонстрирует значительные улучшения в использовании инструментов на BFCL-V4, где Nanbeige4-3B сообщает 53,8 по сравнению с 47,9 для Qwen3-32B и 48,6 для Qwen3-30B-A3B. На Arena-Hard V2 Nanbeige4-3B сообщает 60,0, соответствуя высшему баллу, указанному в сравнительной таблице внутри исследовательской работы.

В то же время модель не является лучшей во всех категориях: на Fullstack-Bench она сообщает 48,0, ниже Qwen3-14B на 55,7 и Qwen3-32B на 58,2, а на SuperGPQA она сообщает 53,2, немного ниже Qwen3-32B на 54,1.

Рецепт обучения

* Гибридная фильтрация данных, затем повторная выборка в масштабе.
* Для предварительного обучения исследовательская группа сочетает многомерную маркировку с оценкой на основе сходства. Они сокращают своё пространство меток до 20 измерений и сообщают о двух ключевых выводах: метки, связанные с содержанием, более предсказуемы, чем метки формата, а схема с детализированной оценкой от 0 до 9 превосходит бинарную маркировку.
* Для оценки на основе сходства они создают базу данных поиска с сотнями миллиардов записей, поддерживающих гибридный текстовый и векторный поиск.

Исследовательская группа фильтрует до 12,5 триллионов токенов высококачественных данных, затем выбирает подмножество из 6,5 триллионов более высокого качества и увеличивает его выборку в течение двух или более эпох, получая окончательный обучающий корпус из 23 триллионов токенов.

Это первое место, где отчёт расходится с типичным обучением малых моделей, где конвейер — это не просто «чистые данные», а они оцениваются, извлекаются и повторно выбираются с явными предположениями об утилите.

FG-WSD, планировщик полезности данных вместо равномерной выборки.

Большинство подобных исследовательских проектов рассматривают прогрев стабильного затухания как график скорости обучения только. Nanbeige4-3B добавляет учебный план данных внутри стабильной фазы через FG-WSD, Fine-Grained Warmup-Stable-Decay. Вместо того чтобы выбирать фиксированную смесь на протяжении всего стабильного обучения, они постепенно концентрируют более качественные данные позже в обучении.

В 1B абляции, обученной на 1 триллионе токенов, таблица показывает, что GSM8K улучшается с 27,1 при использовании ванильного WSD до 34,3 при использовании FG-WSD, с приростом по CMATH, BBH, MMLU, CMMLU и MMLU-Pro.

В полном 3B прогоне исследовательская группа разбивает обучение на прогрев, обогащение разнообразия, стабильность высокого качества и затухание, и использует ABF на этапе затухания для продления длины контекста до 64K.

Ключевые выводы

3B может вести себя намного лучше, чем открытые модели с более крупными параметрами в рассуждениях, при усреднённых настройках выборки. Nanbeige4-3B-Thinking сообщает AIME 2024 avg@8 90,4 против Qwen3-32B 81,4, и GPQA-Diamond avg@3 82,2 против Qwen3-14B 64,0.

Исследовательская группа тщательно относится к оценке, это результаты avg@k со специфическим декодированием, а не однократная точность. AIME — это avg@8, большинство других — avg@3, с температурой 0,6, top p 0,95 и длинным максимальным поколением.

Предварительные выгоды связаны с учебным планом данных, а не только с большим количеством токенов. Fine-Grained WSD планирует более качественные смеси позже, и 1B абляция показывает, что GSM8K перемещается с 27,1 до 34,3 по сравнению с ванильным планированием.

Пост-обучение фокусируется на качестве надзора, затем на дистилляции, ориентированной на предпочтения. Конвейер использует обдуманное уточнение решений плюс реконструкцию цепочки мыслей, затем двойную дистилляцию предпочтений, которая сочетает соответствие распределению токенов с оптимизацией предпочтений на уровне последовательности.

1. Какие основные типы архитектур моделей искусственного интеллекта рассматриваются в статье и чем они отличаются друг от друга?

В статье рассматриваются пять основных типов архитектур моделей искусственного интеллекта:
* Большие языковые модели (LLMs) — предназначены для работы с текстом, например, ChatGPT, Claude, Gemini, Llama.
* Модели зрения и языка (VLMs) — сочетают обработку изображений и текста, например, GPT-4V, Gemini Pro Vision, LLaVA.
* Смесь экспертов (MoE) — используют множество меньших экспертных сетей для обработки данных, например, Mixtral 8×7B.
* Большие модели действий (LAMs) — превращают намерения в действия, например, планирование и выполнение задач.
* Малые языковые модели (SLMs) — предназначены для работы на периферийных устройствах и в средах с ограниченными ресурсами, например, Phi-3, Gemma, Mistral 7B, Llama 3.2 1B.

2. Какие преимущества имеют малые языковые модели (SLMs) по сравнению с большими языковыми моделями (LLMs)?

Малые языковые модели (SLMs) имеют несколько преимуществ по сравнению с большими языковыми моделями (LLMs):
* Они предназначены для эффективной работы на периферийных устройствах, мобильном оборудовании и в других средах с ограниченными ресурсами.
* Они используют компактную токенизацию, оптимизированные слои трансформеров и агрессивное квантование, что делает локальное развёртывание на устройстве возможным.
* Они требуют гораздо меньше памяти и вычислений, что делает их идеальными для мобильных приложений, IoT и периферийных устройств, сценариев с ограниченным доступом в интернет или для обеспечения конфиденциальности, приложений с низкой задержкой.

3. Какие методы обучения используются для малых языковых моделей (SLMs)?

Для обучения малых языковых моделей (SLMs) используются следующие методы:
* Гибридная фильтрация данных, затем повторная выборка в масштабе.
* Для предварительного обучения исследовательская группа сочетает многомерную маркировку с оценкой на основе сходства.
* Для оценки на основе сходства они создают базу данных поиска с сотнями миллиардов записей, поддерживающих гибридный текстовый и векторный поиск.
* FG-WSD (Fine-Grained Warmup-Stable-Decay) — планировщик полезности данных вместо равномерной выборки.

4. Какие выводы можно сделать из исследования Nanbeige LLM Lab в Boss Zhipin о поведении малых языковых моделей в рассуждениях?

Исследование Nanbeige LLM Lab в Boss Zhipin показало, что малые языковые модели (SLMs) могут вести себя намного лучше, чем открытые модели с более крупными параметрами в рассуждениях, при усреднённых настройках выборки. Например, Nanbeige4-3B-Thinking сообщает AIME 2024 avg@8 90,4 против Qwen3-32B 81,4, и GPQA-Diamond avg@3 82,2 против Qwen3-14B 64,0.

Предварительные выгоды связаны с учебным планом данных, а не только с большим количеством токенов. Fine-Grained WSD планирует более качественные смеси позже, и 1B абляция показывает, что GSM8K перемещается с 27,1 до 34,3 по сравнению с ванильным планированием.

Источник