Microsoft выпускает новое семейство многоязычных встраиваемых моделей Harrier-OSS-v1

Корпорация Microsoft объявила о выпуске Harrier-OSS-v1 — семейства из трёх многоязычных моделей для встраивания текста, предназначенных для обеспечения высококачественных семантических представлений на широком спектре языков.

Основные характеристики

В семейство Harrier-OSS-v1 входят три модели с различной масштабируемостью: с 270 миллионами параметров, с 0,6 миллиардами параметров и с 27 миллиардами параметров.

Модели Harrier-OSS-v1 достигли передовых результатов (SOTA) на базе данных Multilingual MTEB (Massive Text Embedding Benchmark) v2. Для специалистов в области искусственного интеллекта этот выпуск знаменует собой важную веху в технологии поиска с открытым исходным кодом, предлагая масштабируемый ряд моделей, использующих современные архитектуры больших языковых моделей (LLM) для задач встраивания.

Архитектура и основа

Семейство Harrier-OSS-v1 отходит от традиционных архитектур двунаправленных кодировщиков (таких как BERT), которые доминировали в области встраивания текста в течение многих лет. Вместо этого эти модели используют архитектуры, основанные только на декодерах, аналогичные тем, что используются в современных больших языковых моделях (LLM).

В модели, основанной только на декодере, каждый токен может учитывать только те токены, которые идут перед ним. Чтобы получить единый вектор, представляющий весь входной текст, Harrier использует объединение последнего токена. Это означает, что скрытое состояние последнего токена в последовательности используется в качестве совокупного представления текста, которое затем подвергается L2-нормализации для обеспечения согласованности вектора.

Технические характеристики

Модели Harrier-OSS-v1 характеризуются различными размерами встраивания и последовательной поддержкой длинных контекстов.

Окно контекста в 32 768 (32k) токенов во всех трёх размерах является важной особенностью для систем генерации с извлечением (RAG). Большинство традиционных моделей встраивания ограничены 512 или 1024 токенами. Расширенное окно позволяет разработчикам встраивать значительно более крупные документы или файлы кода без необходимости агрессивного разбиения на части, которое часто приводит к потере семантической согласованности.

Реализация: встраивания на основе инструкций

Одним из наиболее важных операционных аспектов для разработчиков ИИ является то, что Harrier-OSS-v1 — это семейство встраиваний, настроенных на основе инструкций. Для достижения эталонных показателей производительности модели необходимо предоставлять инструкции, специфичные для задачи, во время запроса.

Формат запроса должен выглядеть следующим образом:

`»Instruct: Retrieve semantically similar text\nQuery: [User input text]»`

Этот подход, основанный на инструкциях, позволяет модели динамически настраивать своё векторное пространство в зависимости от задачи, повышая точность поиска в разных доменах, таких как веб-поиск или битекстовый майнинг.

Обучение и дистилляция знаний

Разработка семейства Harrier-OSS-v1 включала многоэтапный процесс обучения. В то время как модель с 27 миллиардами параметров обеспечивает наибольшее количество параметров и размерность (5376), команда Microsoft использовала специализированные методы для повышения производительности более мелких вариантов.

Модели с 270 миллионами и 0,6 миллиардами параметров были дополнительно обучены с использованием дистилляции знаний из более крупных моделей встраивания. Дистилляция знаний — это метод, при котором «студенческая» модель обучается воспроизводить выходные распределения или представления признаков высокопроизводительной «учительской» модели.

Производительность на Multilingual MTEB v2

Multilingual MTEB v2 — это комплексный тест, который оценивает модели по различным задачам, включая:
* классификацию: определение категории текста;
* кластеризацию: группировку похожих документов;
* классификацию пар: определение, являются ли два предложения перефразами;
* поиск: поиск наиболее релевантного документа для заданного запроса.

Достигнув передовых результатов на этом тесте при выпуске, семейство Harrier демонстрирует высокий уровень мастерства в межъязыковом поиске. Это особенно ценно для глобальных приложений, где системе может потребоваться обрабатывать запросы и документы на разных языках в одном векторном пространстве.

Ключевые выводы

* Масштабируемое многоязычное SOTA: семейство включает три модели (270M, 0,6B и 27B), которые достигли передовых результатов на базе данных Multilingual MTEB v2.
* Основа, основанная только на декодере: эти модели используют архитектуры, основанные только на декодерах, с объединением последнего токена и L2-нормализацией.
* Расширенный контекст на 32k: все модели поддерживают окно контекста в 32 768 токенов, что позволяет представлять длинные документы или базы кода без потери семантики, связанной с агрессивным разбиением на части.
* Извлечение, зависящее от инструкций: для достижения наилучших результатов требуются инструкции на стороне запроса (описание задачи в одном предложении, предшествующее входным данным), в то время как документы должны кодироваться без каких-либо инструкций.
* Качество через дистилляцию: более мелкие модели 270M (640-dim) и 0,6B (1024-dim) были обучены с использованием дистилляции знаний из более крупных моделей встраивания для улучшения качества их семантического представления относительно количества параметров.

1. Какие основные характеристики отличают семейство моделей Harrier-OSS-v1 от других моделей для встраивания текста?

Ответ: семейство Harrier-OSS-v1 отличается от других моделей для встраивания текста наличием трёх моделей с различной масштабируемостью (270 миллионов, 0,6 миллиарда и 27 миллиардов параметров), использованием архитектур, основанных только на декодерах, и достижением передовых результатов на базе данных Multilingual MTEB v2.

2. Какие преимущества предоставляет использование расширенного окна контекста в 32 768 токенов в моделях Harrier-OSS-v1?

Ответ: использование расширенного окна контекста в 32 768 токенов позволяет разработчикам встраивать значительно более крупные документы или файлы кода без необходимости агрессивного разбиения на части, которое часто приводит к потере семантической согласованности. Это особенно важно для систем генерации с извлечением (RAG).

3. Какие методы были использованы для повышения производительности более мелких вариантов моделей Harrier-OSS-v1?

Ответ: для повышения производительности более мелких вариантов моделей Harrier-OSS-v1 команда Microsoft использовала специализированные методы, включая дистилляцию знаний из более крупных моделей встраивания. Дистилляция знаний — это метод, при котором «студенческая» модель обучается воспроизводить выходные распределения или представления признаков высокопроизводительной «учительской» модели.

4. Какие задачи включает в себя комплексный тест Multilingual MTEB v2, используемый для оценки моделей?

Ответ: комплексный тест Multilingual MTEB v2 включает в себя оценку моделей по различным задачам, включая классификацию (определение категории текста), кластеризацию (группировку похожих документов), классификацию пар (определение, являются ли два предложения перефразами) и поиск (поиск наиболее релевантного документа для заданного запроса).

5. Какие выводы можно сделать о семействе моделей Harrier-OSS-v1 на основе предоставленной информации?

Ответ: на основе предоставленной информации можно сделать следующие выводы: семейство Harrier-OSS-v1 включает три модели, которые достигли передовых результатов на базе данных Multilingual MTEB v2; модели используют архитектуры, основанные только на декодерах; все модели поддерживают окно контекста в 32 768 токенов; для достижения наилучших результатов требуются инструкции на стороне запроса; более мелкие модели были обучены с использованием дистилляции знаний из более крупных моделей встраивания для улучшения качества их семантического представления.

Источник