Знакомьтесь: mmBERT — языковая модель с единственным кодировщиком, предварительно обученная на 3 триллионах токенов многоязычного текста более чем на 1800 языках и работающая в 2–4 раза быстрее предыдущих моделей

Содержание

1. Зачем понадобился новый мультиязычный кодировщик?
2. Понимание архитектуры mmBERT.
3. Какие использовались данные и этапы обучения?
4. Какие новые стратегии обучения были внедрены?
5. Как mmBERT работает на бенчмарках?
6. Как mmBERT справляется с языками с ограниченными ресурсами?
7. Какой прирост эффективности обеспечивает mmBERT?
8. Резюме.

Зачем понадобился новый мультиязычный кодировщик?

XLM-RoBERTa (XLM-R) более 5 лет доминировала в мультиязычном NLP в исследованиях искусственного интеллекта. Хотя модели с единственным кодировщиком, такие как BERT и RoBERTa, были в центре раннего прогресса, большинство исследовательских усилий сместилось в сторону генеративных моделей на основе декодеров. Кодировщики, однако, остаются более эффективными и часто превосходят декодеры в задачах встраивания, поиска и классификации. Несмотря на это, разработка мультиязычных кодировщиков застопорилась.

Команда исследователей из Университета Джона Хопкинса предлагает mmBERT, которая устраняет этот пробел, предоставляя современный кодировщик, превосходящий XLM-R и конкурирующий с такими крупномасштабными моделями, как OpenAI’s o3 и Google’s Gemini 2.5 Pro.

Понимание архитектуры mmBERT

mmBERT представлена в двух основных конфигурациях:
* Базовая модель: 22 слоя трансформера, 1152 скрытых измерения, около 307 миллионов параметров (110 миллионов не связанных с встраиванием).
* Малая модель: около 140 миллионов параметров (42 миллиона не связанных со встраиванием).

Она использует токенизатор Gemma 2 с словарём в 256 тысяч слов, поворотные позиционные вложения (RoPE) и FlashAttention2 для повышения эффективности. Длина последовательности увеличена с 1024 до 8192 токенов, используются незаполненные вложения и внимание со скользящим окном. Это позволяет mmBERT обрабатывать контексты почти на порядок длиннее, чем XLM-R, сохраняя при этом более высокую скорость вывода.

Какие использовались данные и этапы обучения?

mmBERT была обучена на 3 триллионах токенов, охватывающих 1833 языка. Источники данных включают FineWeb2, Dolma, MegaWika v2, ProLong, StarCoder и другие. Английский составляет лишь около 10–34% корпуса в зависимости от этапа.

Обучение проводилось в три этапа:
* Предварительное обучение: 2,3 триллиона токенов на 60 языках и коде.
* Среднее обучение: 600 миллиардов токенов на 110 языках, с акцентом на более качественные источники.
* Фаза затухания: 100 миллиардов токенов, охватывающих 1833 языка, с упором на адаптацию к языкам с ограниченными ресурсами.

Какие новые стратегии обучения были внедрены?

Три основные инновации определяют производительность mmBERT:
* Затухающее языковое обучение (ALL): языки вводятся постепенно (60 → 110 → 1833). Распределения выборки затухают от высокоресурсных до равномерных, обеспечивая, чтобы языки с ограниченными ресурсами получили влияние на более поздних этапах без переобучения ограниченным данным.
* Расписание обратного маскирования: коэффициент маскирования начинается с 30% и снижается до 5%, поощряя обучение с крупными зернами на ранних этапах и уточнения с мелкими зернами позже.
* Объединение моделей на разных этапах затухания: несколько моделей этапа затухания (англоязычные, 110-язычные и 1833-язычные) объединяются через слияние TIES, используя дополнительные сильные стороны без переобучения с нуля.

Как mmBERT работает на бенчмарках?

* Английское NLU (GLUE): базовая модель mmBERT достигает 86,3, превосходя XLM-R (83,3) и почти соответствуя ModernBERT (87,4), несмотря на то, что более 75% обучения было посвящено неанглийским данным.
* Многоязычное NLU (XTREME): базовая модель mmBERT набирает 72,8 против 70,4 у XLM-R, с приростом в задачах классификации и ответов на вопросы.
* Задачи встраивания (MTEB v2): базовая модель mmBERT сравнялась с ModernBERT на английском (53,9 против 53,8) и лидирует в мультиязычном (54,1 против 52,4 у XLM-R).
* Поиск по коду (CoIR): mmBERT превосходит XLM-R примерно на 9 пунктов, хотя EuroBERT остаётся сильнее на проприетарных данных.

Как mmBERT справляется с языками с ограниченными ресурсами?

Затухающий график обучения обеспечивает, что языки с ограниченными ресурсами получают пользу на более поздних этапах обучения. На таких бенчмарках, как Faroese FoQA и Tigrinya TiQuAD, mmBERT значительно превосходит как o3, так и Gemini 2.5 Pro. Эти результаты демонстрируют, что модели кодировщиков, если их тщательно обучить, могут эффективно обобщаться даже в условиях крайне ограниченных ресурсов.

Какой прирост эффективности обеспечивает mmBERT?

mmBERT работает в 2–4 раза быстрее, чем XLM-R и MiniLM, при этом поддерживает ввод последовательностей длиной до 8 тысяч токенов. Примечательно, что она остаётся быстрее при 8192 токенах, чем старые кодировщики при 512 токенах. Этот прирост скорости достигается за счёт рецепта обучения ModernBERT, эффективных механизмов внимания и оптимизированных вложений.

Резюме

mmBERT — долгожданная замена XLM-R, переопределяющая возможности мультиязычного кодировщика. Она работает в 2–4 раза быстрее, обрабатывает последовательности длиной до 8 тысяч токенов и превосходит предыдущие модели как на высокоресурсных бенчмарках, так и на языках с ограниченными ресурсами, которые в прошлом были обделены вниманием. Её рецепт обучения — 3 триллиона токенов в сочетании с затухающим языковым обучением, обратным маскированием и объединением моделей — показывает, как тщательная разработка может обеспечить широкую генерализацию без чрезмерной избыточности. В результате получается открытый, эффективный и масштабируемый кодировщик, который не только заполняет шестилетний пробел с момента появления XLM-R, но и обеспечивает надёжную основу для следующего поколения мультиязычных систем NLP.

1. Какие преимущества mmBERT имеет перед предыдущими мультиязычными кодировщиками, такими как XLM-R?

Ответ: mmBERT работает в 2–4 раза быстрее, чем XLM-R, при этом поддерживает ввод последовательностей длиной до 8 тысяч токенов. Она превосходит XLM-R на высокоресурсных бенчмарках, таких как английское NLU (GLUE), многоязычное NLU (XTREME) и задачи встраивания (MTEB v2), а также на языках с ограниченными ресурсами.

2. Какие новые стратегии обучения были внедрены в mmBERT?

Ответ: в mmBERT были внедрены три основные инновации: затухающее языковое обучение (ALL), расписание обратного маскирования и объединение моделей на разных этапах затухания. Затухающее языковое обучение обеспечивает, что языки с ограниченными ресурсами получают пользу на более поздних этапах обучения. Расписание обратного маскирования поощряет обучение с крупными зёрнами на ранних этапах и уточнения с мелкими зёрнами позже. Объединение моделей на разных этапах затухания использует дополнительные сильные стороны без переобучения с нуля.

3. Как mmBERT справляется с языками с ограниченными ресурсами?

Ответ: mmBERT значительно превосходит предыдущие модели, такие как o3 и Gemini 2.5 Pro, на таких бенчмарках, как Faroese FoQA и Tigrinya TiQuAD. Это демонстрирует, что модели кодировщиков, если их тщательно обучить, могут эффективно обобщаться даже в условиях крайне ограниченных ресурсов.

4. Какой прирост эффективности обеспечивает mmBERT по сравнению с предыдущими моделями?

Ответ: mmBERT работает в 2–4 раза быстрее, чем XLM-R и MiniLM, при этом поддерживает ввод последовательностей длиной до 8 тысяч токенов. Она остаётся быстрее при 8192 токенах, чем старые кодировщики при 512 токенах. Этот прирост скорости достигается за счёт рецепта обучения ModernBERT, эффективных механизмов внимания и оптимизированных вложений.

5. Какие основные конфигурации mmBERT представлены в статье?

Ответ: mmBERT представлена в двух основных конфигурациях: базовая модель с 22 слоями трансформера, 1152 скрытыми измерениями и около 307 миллионов параметров и малая модель с около 140 миллионов параметров.

Источник