Компания Liquid AI выпустила LFM2-ColBERT-350M — компактную модель для мультиязычного и кросс-язычного поиска. Модель использует подход позднего взаимодействия (late interaction) для эффективного индексирования документов и поиска по ним.
Может ли компактная модель позднего взаимодействия индексировать данные один раз и обеспечивать точный кросс-языковой поиск с быстрым выводом результатов?
Да, Liquid AI выпустила LFM2-ColBERT-350M — компактную модель для мультиязычного и кросс-язычного поиска. Документы можно индексировать на одном языке, запросы можно писать на многих языках, и система выдаёт результаты с высокой точностью.
Команда Liquid AI сообщает о скорости вывода, сопоставимой с моделями, которые в 2,3 раза меньше, что объясняется основой LFM2. Модель доступна с демонстрацией Hugging Face и подробной карточкой модели для интеграции в системы генерации с извлечением данных (RAG).
🔍 Что означает позднее взаимодействие и почему это важно?
Большинство производственных систем используют биэнкодеры для скорости или кросс-энкодеры для точности. Позднее взаимодействие направлено на объединение обоих преимуществ. Запросы и документы кодируются отдельно на уровне токенов. Система сравнивает векторы токенов во время запроса, используя такие операции, как MaxSim. Это сохраняет детальные взаимодействия токенов без полной стоимости совместного внимания.
Это позволяет предварительно вычислять документы и повышает точность на этапе ранжирования. Модель может служить в качестве первого этапа поиска, а также в качестве ранжирующего устройства за один проход.
Спецификация модели
* LFM2-ColBERT-350M имеет 350 миллионов общих параметров.
* 25 слоёв, 18 блоков свёртки, 6 блоков внимания и 1 плотный слой.
* Длина контекста — 32 тыс. токенов.
* Размер словаря — 65 536.
* Функция сходства — MaxSim.
* Размерность вывода — 128.
* Точность обучения — BF16.
* Лицензия — LFM Open License v1.0.
Поддерживаемые языки
Модель поддерживает 8 языков: английский, арабский, китайский, французский, немецкий, японский, корейский и испанский. В ходе оценки добавлены итальянский и португальский, что позволило сравнить 9 языков.
Настройка и ключевые результаты оценки
Liquid AI расширяет NanoBEIR с помощью японского и корейского языков и публикует расширение для обеспечения воспроизводимости. На этой настройке LFM2-ColBERT-350M демонстрирует более широкие возможности для мультиязычного поиска, чем базовая модель позднего взаимодействия в этом классе — GTE-ModernColBERT-v1 с 150 миллионами параметров.
Наибольшие преимущества появляются в немецком, арабском, корейском и японском языках, в то время как производительность на английском языке сохраняется.
Ключевые выводы
* Оценка на уровне токенов с помощью MaxSim сохраняет детальные взаимодействия, сохраняя при этом отдельные энкодеры.
* Документы можно индексировать на одном языке и извлекать на многих.
* На мультиязычном расширении NanoBEIR LFM2-ColBERT-350M превосходит предыдущий базовый уровень позднего взаимодействия (GTE-ModernColBERT-v1 с 150 миллионами параметров) и сохраняет производительность на английском языке.
* Скорость вывода сообщается на уровне моделей, которые в 2,3 раза меньше, что объясняется основой LFM2.
Примечания редактора
Liquid AI применяет ColBERT с поздним взаимодействием и MaxSim, кодируя запросы и документы отдельно, а затем оценивая векторы токенов во время запроса, что сохраняет взаимодействия на уровне токенов и позволяет предварительно вычислять вложения документов для масштабирования.
Модель ориентирована на мультиязычный и кросс-язычный поиск, индексирование один раз и запрос на многих языках.
1. Какие преимущества предлагает модель LFM2-ColBERT-350M по сравнению с другими моделями для мультиязычного поиска?
LFM2-ColBERT-350M использует подход позднего взаимодействия для эффективного индексирования документов и поиска по ним. Это позволяет предварительно вычислять документы и повышает точность на этапе ранжирования. Модель может служить в качестве первого этапа поиска, а также в качестве ранжирующего устройства за один проход. Кроме того, LFM2-ColBERT-350M демонстрирует более широкие возможности для мультиязычного поиска, чем базовая модель позднего взаимодействия в этом классе — GTE-ModernColBERT-v1 с 150 миллионами параметров.
2. Какие языки поддерживает модель LFM2-ColBERT-350M?
Модель поддерживает 8 языков: английский, арабский, китайский, французский, немецкий, японский, корейский и испанский. В ходе оценки добавлены итальянский и португальский, что позволило сравнить 9 языков.
3. В чём заключается подход позднего взаимодействия и почему он важен для мультиязычного поиска?
Позднее взаимодействие направлено на объединение преимуществ скорости и точности. Запросы и документы кодируются отдельно на уровне токенов. Система сравнивает векторы токенов во время запроса, используя такие операции, как MaxSim. Это сохраняет детальные взаимодействия токенов без полной стоимости совместного внимания. Это позволяет предварительно вычислять документы и повышает точность на этапе ранжирования.
4. Какие параметры и характеристики имеет модель LFM2-ColBERT-350M?
LFM2-ColBERT-350M имеет 350 миллионов общих параметров, 25 слоёв, 18 блоков свёртки, 6 блоков внимания и 1 плотный слой. Длина контекста — 32 тыс. токенов, размер словаря — 65 536, функция сходства — MaxSim, размерность вывода — 128, точность обучения — BF16.
5. Какие ключевые выводы можно сделать на основе оценки модели LFM2-ColBERT-350M?
Оценка на уровне токенов с помощью MaxSim сохраняет детальные взаимодействия, сохраняя при этом отдельные энкодеры. Документы можно индексировать на одном языке и извлекать на многих. На мультиязычном расширении NanoBEIR LFM2-ColBERT-350M превосходит предыдущий базовый уровень позднего взаимодействия (GTE-ModernColBERT-v1 с 150 миллионами параметров) и сохраняет производительность на английском языке. Скорость вывода сообщается на уровне моделей, которые в 2,3 раза меньше, что объясняется основой LFM2.