Компания Hugging Face только что выпустила SmolLM3 — новейшую версию своих языковых моделей Smol, предназначенных для обеспечения многоязычного рассуждения в длинном контексте с помощью компактной архитектуры на 3 миллиарда параметров.
Большинство моделей, способных работать с длинным контекстом, обычно используют более 7 миллиардов параметров. Однако SmolLM3 предлагает современную производительность (SoTA) со значительно меньшим количеством параметров, что делает её более экономичной и пригодной для использования на ограниченном оборудовании, не жертвуя такими возможностями, как использование инструментов, многошаговое рассуждение и языковое разнообразие.
Обзор SmolLM3
SmolLM3 выделяется как компактная, многоязычная и двухрежимная языковая модель с длинным контекстом, способная обрабатывать последовательности длиной до 128 тысяч токенов. Она была обучена на 11 триллионах токенов, что ставит её в конкурентные условия по сравнению с такими моделями, как Mistral, LLaMA 2 и Falcon. Несмотря на свои размеры, SmolLM3 демонстрирует удивительно высокую производительность при использовании инструментов и способность к малошаговому рассуждению — черты, которые чаще всего ассоциируются с моделями, в два или три раза превышающими её размер.
SmolLM3 была выпущена в двух вариантах:
* SmolLM3-3B-Base: базовая языковая модель, обученная на корпусе из 11Т токенов.
* SmolLM3-3B-Instruct: вариант с инструкциями, оптимизированный для рассуждений и использования инструментов.
Обе модели находятся в открытом доступе под лицензией Apache 2.0 в Model Hub от Hugging Face.
Ключевые особенности
1. Рассуждение в длинном контексте (до 128 тысяч токенов).
SmolLM3 использует модифицированный механизм внимания для эффективной обработки чрезвычайно длинных контекстов — до 128 000 токенов. Эта возможность имеет решающее значение для задач, связанных с расширенными документами, логами или структурированными записями, где длина контекста напрямую влияет на понимание и точность.
2. Двухрежимное рассуждение.
Настроенная по инструкциям SmolLM3-3B поддерживает двухрежимное рассуждение:
* Следование инструкциям для задач в стиле чата и задач с использованием инструментов.
* Многоязычное QA и генерация для задач на нескольких языках.
Такая бифуркация позволяет модели преуспеть как в открытой генерации, так и в структурированном рассуждении, что делает её пригодной для приложений, начиная от конвейеров RAG и заканчивая рабочими процессами агентов.
3. Многоязычные возможности.
Обученная на многоязычном корпусе, SmolLM3 поддерживает шесть языков: английский, французский, испанский, немецкий, итальянский и португальский. Она хорошо справляется с такими тестами, как XQuAD и MGSM, демонстрируя свою способность обобщать языковые границы с минимальным падением производительности.
4. Компактный размер с производительностью SoTA.
Имея всего 3 миллиарда параметров, SmolLM3 достигает производительности, близкой к более крупным моделям, таким как Mistral-7B, в ряде последующих задач. Это стало возможным благодаря масштабу и качеству обучающих данных (11Т токенов) и тщательной архитектурной настройке.
5. Использование инструментов и структурированные выходные данные.
Модель демонстрирует впечатляющую производительность в задачах вызова инструментов — как в рабочих процессах, основанных на подсказках, так и со структурированными выходными данными. Она правильно следует ограничениям ввода-вывода, управляемым схемой, и хорошо взаимодействует с системами, требующими детерминированного поведения, такими как автономные агенты и среды, управляемые API.
Технические подробности обучения
SmolLM3 была обучена на внутренней смеси, собранной Hugging Face, состоящей из высококачественного веб-контента, кода, научных статей и многоязычных источников. Обучение на 11Т токенов проводилось с использованием стратегий распределённого обучения на нескольких узлах в кластерах GPU, с применением оптимизаций, таких как Flash Attention v2, для эффективного обучения длинным последовательностям. Токенизатор представляет собой модель SentencePiece на 128 тысяч токенов, общую для всех поддерживаемых языков.
Для поддержки длинного контекста Hugging Face использовала линейные и групповые механизмы внимания, которые минимизируют квадратичную сложность, сохраняя при этом производительность. Это позволило модели обрабатывать контексты длиной до 128 тысяч токенов как во время обучения, так и во время логического вывода — без узких мест в памяти, которые преследуют плотные трансформеры в этом масштабе.
Настроенный по инструкциям вариант SmolLM3-3B был дополнительно обучен с использованием библиотеки Hugging Face trlx для согласования с инструкциями чата, задачами рассуждения и демонстрациями использования инструментов.
Бенчмарк производительности
SmolLM3 показывает высокие результаты по ряду многоязычных и логических тестов:
* XQuAD (многоязычное QA): конкурентные баллы на всех шести поддерживаемых языках.
* MGSM (многоязычная математика для начальной школы): превосходит несколько более крупных моделей в условиях нулевой выборки.
* ToolQA и MultiHopQA: демонстрирует сильное многошаговое рассуждение и контекстуализацию.
* ARC и MMLU: высокая точность в областях здравого смысла и профессиональных знаний.
Хотя SmolLM3 не превосходит последние модели на 7 и 13 миллиардов параметров по всем бенчмаркам, соотношение производительности к количеству параметров у SmolLM3 остаётся одним из самых высоких в своём классе.
Варианты использования и приложения
SmolLM3 особенно подходит для:
* Низкозатратных многоязычных развёртываний ИИ в чат-ботах, системах технической поддержки и средствах суммирования документов.
* Лёгких систем RAG и систем поиска на основе извлечения, которые выигрывают от понимания длинного контекста.
* Агентов с использованием инструментов, требующих соблюдения схемы и детерминированного вызова инструментов.
* Развёртываний на периферии и в частных средах, где из-за ограничений оборудования или конфиденциальности данных необходимы более мелкие модели.
Заключение
SmolLM3 является примером нового поколения небольших, но способных языковых моделей. Сочетание многоязычной поддержки, обработки длинного контекста и сильного рассуждения — всё это в рамках 3-миллиардной параметрической базы — знаменует собой значительный шаг вперёд в эффективности и доступности моделей. Выпуск Hugging Face демонстрирует, что при правильном рецепте обучения и архитектурном дизайне более мелкие модели всё ещё могут демонстрировать надёжную производительность в сложных задачах, традиционно предназначенных для гораздо более крупных языковых моделей.
Ознакомьтесь с SmolLM3-3B-Base и SmolLM3-3B-Instruct. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также не стесняйтесь следить за нами в Twitter и на YouTube и не забудьте присоединиться к нашему ML SubReddit, насчитывающему более 100 тысяч участников, и подписаться на нашу рассылку.
1. Каковы ключевые особенности модели SmolLM3 и как они отличают её от других моделей с длинным контекстом?
Ключевые особенности SmolLM3 включают:
* Рассуждение в длинном контексте (до 128 тысяч токенов) благодаря модифицированному механизму внимания.
* Двухрежимное рассуждение, позволяющее модели следовать инструкциям для задач в стиле чата и задач с использованием инструментов, а также поддерживать многоязычное QA и генерацию.
* Многоязычные возможности, поддержка шести языков: английского, французского, испанского, немецкого, итальянского и португальского.
* Компактный размер с производительностью SoTA, достигаемой благодаря масштабу и качеству обучающих данных и тщательной архитектурной настройке.
* Использование инструментов и структурированные выходные данные, позволяющие модели правильно следовать ограничениям ввода-вывода и хорошо взаимодействовать с системами, требующими детерминированного поведения.
2. Какие варианты использования и приложения предлагает модель SmolLM3?
SmolLM3 особенно подходит для:
* Низкозатратных многоязычных развёртываний ИИ в чат-ботах, системах технической поддержки и средствах суммирования документов.
* Лёгких систем RAG и систем поиска на основе извлечения, которые выигрывают от понимания длинного контекста.
* Агентов с использованием инструментов, требующих соблюдения схемы и детерминированного вызова инструментов.
* Развёртываний на периферии и в частных средах, где из-за ограничений оборудования или конфиденциальности данных необходимы более мелкие модели.
3. Как модель SmolLM3 сравнивается с другими моделями по производительности и количеству параметров?
Хотя SmolLM3 не превосходит последние модели на 7 и 13 миллиардов параметров по всем бенчмаркам, соотношение производительности к количеству параметров у SmolLM3 остаётся одним из самых высоких в своём классе. Модель достигает производительности, близкой к более крупным моделям, таким как Mistral-7B, в ряде последующих задач. Это стало возможным благодаря масштабу и качеству обучающих данных (11Т токенов) и тщательной архитектурной настройке.
4. Какие технические подробности обучения были использованы для SmolLM3?
SmolLM3 была обучена на внутренней смеси, собранной Hugging Face, состоящей из высококачественного веб-контента, кода, научных статей и многоязычных источников. Обучение на 11Т токенов проводилось с использованием стратегий распределённого обучения на нескольких узлах в кластерах GPU, с применением оптимизаций, таких как Flash Attention v2, для эффективного обучения длинным последовательностям.
5. Какие бенчмарки производительности были использованы для оценки SmolLM3?
SmolLM3 показывает высокие результаты по ряду многоязычных и логических тестов, таких как XQuAD (многоязычное QA), MGSM (многоязычная математика для начальной школы), ToolQA и MultiHopQA, ARC и MMLU. Модель демонстрирует конкурентные баллы на всех шести поддерживаемых языках и высокую точность в областях здравого смысла и профессиональных знаний.