IBM AI Research выпускает две модели встраивания для английского языка на основе архитектуры ModernBERT

Компания IBM представила две новые модели встраивания — granite-embedding-english-r2 и granite-embedding-small-english-r2, разработанные специально для высокопроизводительных систем поиска и RAG (retrieval-augmented generation). Эти модели компактны, эффективны и лицензированы под Apache 2.0, что делает их готовыми к коммерческому внедрению.

Какие модели выпустила IBM?

Обе модели ориентированы на разные вычислительные бюджеты. granite-embedding-english-r2 имеет 149 миллионов параметров и размер встраивания 768, построен на 22-слойном энкодере ModernBERT. Его меньший аналог, granite-embedding-small-english-r2, имеет всего 47 миллионов параметров и размер встраивания 384, использует 12-слойный энкодер ModernBERT.

Несмотря на различия в размере, обе модели поддерживают максимальную длину контекста в 8192 токена, что является значительным обновлением по сравнению с первым поколением встраиваний Granite. Эта возможность работы с длинным контекстом делает их очень подходящими для корпоративных рабочих нагрузок, связанных с длинными документами и сложными задачами поиска.

Что внутри архитектуры?

Обе модели построены на основе ModernBERT, который включает несколько оптимизаций:
* Чередование глобального и локального внимания для балансировки эффективности с учётом долгосрочных зависимостей.
* Ротационные позиционные встраивания (RoPE), настроенные для позиционной интерполяции, что позволяет использовать более длинные контекстные окна.
* FlashAttention 2 для улучшения использования памяти и пропускной способности во время вывода.

IBM также обучила эти модели с помощью многоэтапного конвейера. Процесс начался с маскированного языкового предварительного обучения на наборе данных из двух триллионов токенов, полученных из веб-источников, Википедии, PubMed, BookCorpus и внутренних технических документов IBM. Затем было выполнено расширение контекста с 1 тыс. до 8 тыс. токенов, контрастное обучение с дистилляцией из Mistral-7B и настройка для конкретных доменов в задачах поиска в разговорах, таблицах и коде.

Как они работают на тестах?

Модели Granite R2 демонстрируют высокие результаты на широко используемых тестах поиска. На MTEB-v2 и BEIR модель granite-embedding-english-r2 превосходит модели аналогичного размера, такие как BGE Base, E5 и Arctic Embed. Меньшая модель, granite-embedding-small-english-r2, достигает точности, близкой к моделям, в два-три раза большего размера, что делает её особенно привлекательной для задач, чувствительных к задержкам.

Обе модели также хорошо работают в специализированных областях:
* Поиск в длинных документах (MLDR, LongEmbed), где критична поддержка контекста в 8 тыс. токенов.
* Задачи поиска по таблицам (OTT-QA, FinQA, OpenWikiTables), где требуется структурированное рассуждение.
* Поиск по коду (CoIR), обработка запросов как с текста на код, так и с кода на текст.

Достаточно ли они быстры для крупномасштабного использования?

Эффективность — один из выдающихся аспектов этих моделей. На Nvidia H100 GPU модель granite-embedding-small-english-r2 кодирует почти 200 документов в секунду, что значительно быстрее, чем BGE Small и E5 Small. Более крупная модель granite-embedding-english-r2 также достигает 144 документов в секунду, превосходя многие альтернативы на основе ModernBERT.

Важно отметить, что эти модели остаются практичными даже на процессорах, что позволяет предприятиям использовать их в средах с меньшей нагрузкой на GPU. Такой баланс скорости, компактного размера и точности поиска делает их легко адаптируемыми для реального использования.

Что это значит для поиска на практике?

Модели IBM Granite Embedding R2 демонстрируют, что системам встраивания не нужны огромные количества параметров, чтобы быть эффективными. Они сочетают в себе поддержку длинного контекста, лидирующую на тестах точность и высокую пропускную способность в компактных архитектурах. Для компаний, создающих конвейеры поиска, системы управления знаниями или рабочие процессы RAG, Granite R2 представляет собой готовую к производству и коммерчески жизнеспособную альтернативу существующим опенсорсным вариантам.

Резюме

IBM Granite Embedding R2 — это эффективный баланс между компактной конструкцией, возможностью работы с длинным контекстом и высокой производительностью поиска. С оптимизированной пропускной способностью для сред с GPU и CPU и лицензией Apache 2.0, которая позволяет неограниченное коммерческое использование, они представляют собой практическую альтернативу более громоздким опенсорсным встраиваниям. Для предприятий, развёртывающих RAG, поиск или крупномасштабные системы знаний, Granite R2 выделяется как эффективный и готовый к производству вариант.

1. Какие основные характеристики моделей granite-embedding-english-r2 и granite-embedding-small-english-r2?

Основные характеристики моделей granite-embedding-english-r2 и granite-embedding-small-english-r2 включают количество параметров (149 миллионов и 47 миллионов соответственно), размер встраивания (768 и 384), количество слоёв энкодера (22 и 12), а также максимальную длину контекста в 8192 токена.

2. Какие оптимизации включает в себя архитектура ModernBERT, на которой основаны модели?

Архитектура ModernBERT включает в себя несколько оптимизаций: чередование глобального и локального внимания для балансировки эффективности с учётом долгосрочных зависимостей, ротационные позиционные встраивания (RoPE) для использования более длинных контекстных окон и FlashAttention 2 для улучшения использования памяти и пропускной способности во время вывода.

3. Какие результаты демонстрируют модели Granite R2 на тестах поиска?

Модели Granite R2 демонстрируют высокие результаты на широко используемых тестах поиска. На MTEB-v2 и BEIR модель granite-embedding-english-r2 превосходит модели аналогичного размера, такие как BGE Base, E5 и Arctic Embed. Меньшая модель, granite-embedding-small-english-r2, достигает точности, близкой к моделям, в два-три раза большего размера.

4. В каких специализированных областях хорошо работают модели Granite R2?

Модели Granite R2 хорошо работают в специализированных областях, таких как поиск в длинных документах, задачи поиска по таблицам и поиск по коду. Они поддерживают контекст в 8 тыс. токенов, что делает их подходящими для работы с длинными документами и сложными задачами поиска.

5. Почему модели Granite R2 являются практичной альтернативой существующим опенсорсным вариантам?

Модели Granite R2 являются практичной альтернативой существующим опенсорсным вариантам, поскольку они сочетают в себе поддержку длинного контекста, лидирующую на тестах точность и высокую пропускную способность в компактных архитектурах. Кроме того, они имеют оптимизированную пропускную способность для сред с GPU и CPU и лицензию Apache 2.0, которая позволяет неограниченное коммерческое использование.

Источник