Google представил Gemini Embedding 2: мультимодальную модель встраивания, которая позволяет работать с текстом, изображениями, видео, аудио и документами в едином пространстве встраивания

Компания Google расширила семейство моделей Gemini, выпустив Gemini Embedding 2. Эта модель второго поколения пришла на смену модели gemini-embedding-001, работающей только с текстом, и разработана специально для решения проблем хранения данных высокой размерности и межмодального поиска, с которыми сталкиваются разработчики ИИ при создании систем генерации с извлечением информации (RAG).

Выпуск Gemini Embedding 2 знаменует собой значительный технический сдвиг в архитектуре моделей встраивания, переходя от специализированных для каждой модальности конвейеров к единому, изначально мультимодальному скрытому пространству.

Нативная мультимодальность и перемежающиеся входные данные

Основное архитектурное преимущество Gemini Embedding 2 — способность отображать пять различных типов медиа — текст, изображение, видео, аудио и PDF — в едином высокоразмерном векторном пространстве. Это устраняет необходимость в сложных конвейерах, которые ранее требовали отдельных моделей для разных типов данных, таких как CLIP для изображений и модели на основе BERT для текста.

Модель поддерживает перемежающиеся входные данные, позволяя разработчикам комбинировать разные модальности в одном запросе на встраивание. Это особенно актуально для случаев, когда текст не предоставляет достаточного контекста.

Технические ограничения для этих входных данных определены следующим образом:
* Текст: до 8192 токенов в запросе.
* Изображения: до 6 изображений (PNG, JPEG, WebP, HEIC/HEIF).
* Видео: до 120 секунд видео (MP4, MOV и т. д.).
* Аудио: до 80 секунд нативного аудио (MP3, WAV и т. д.) без необходимости отдельного этапа транскрипции.
* Документы: до 6 страниц PDF-файлов.

Обрабатывая эти входные данные изначально, Gemini Embedding 2 фиксирует семантические отношения между визуальным кадром в видео и устным диалогом в аудиодорожке, проецируя их как единый вектор, который можно сравнить с текстовыми запросами, используя стандартные метрики расстояния, такие как косинусное сходство.

Эффективность за счёт обучения представлению «матрёшка» (MRL)

Затраты на хранение и вычисления часто являются основными узкими местами в крупномасштабном векторном поиске. Чтобы смягчить это, в Gemini Embedding 2 реализовано обучение представлению «матрёшка» (MRL).

Стандартные модели встраивания распределяют семантическую информацию равномерно по всем измерениям. Если разработчик усекает 3072-мерный вектор до 768 измерений, точность обычно падает, потому что информация теряется. Напротив, Gemini Embedding 2 обучен упаковывать наиболее важную семантическую информацию в первые измерения вектора.

Модель по умолчанию имеет 3072 измерения, но команда Google оптимизировала три конкретных уровня для использования в производстве:
* 3072: максимальная точность для сложных юридических, медицинских или технических наборов данных.
* 1536: баланс производительности и эффективности хранения.
* 768: оптимизация для поиска с низкой задержкой и уменьшенного объёма памяти.

Обучение представлению «матрёшка» (MRL) позволяет реализовать архитектуру «составления короткого списка». Система может выполнить грубый высокоскоростной поиск по миллионам элементов, используя 768-мерные подвекторы, а затем выполнить точный переранжирование топ-результатов, используя полные 3072-мерные встраивания. Это снижает вычислительные затраты начального этапа поиска без ущерба для конечной точности конвейера RAG.

Бенчмаркинг: MTEB и поиск по длинному контексту

Внутренняя оценка Google AI и производительность на Massive Text Embedding Benchmark (MTEB) показывают, что Gemini Embedding 2 превосходит своего предшественника в двух конкретных областях: точности поиска и устойчивости к смене домена.

Многие модели встраивания страдают от «доменного дрейфа», когда точность падает при переходе от общих обучающих данных (например, из Википедии) к специализированным доменам (например, к проприетарным кодовым базам). Gemini Embedding 2 использует многоэтапный процесс обучения с участием разнообразных наборов данных, чтобы обеспечить более высокую производительность без дополнительных примеров в специализированных задачах.

Окно ввода модели на 8192 токена является важной характеристикой для RAG. Оно позволяет встраивать более крупные «фрагменты» текста, что сохраняет контекст, необходимый для разрешения кореференций и зависимостей на большом расстоянии в документе. Это снижает вероятность «фрагментации контекста» — распространённой проблемы, когда в извлечённом фрагменте отсутствует информация, необходимая для генерации связного ответа LLM.

Основные выводы

* Нативная мультимодальность: Gemini Embedding 2 поддерживает пять различных типов медиа — текст, изображение, видео, аудио и PDF — в едином векторном пространстве. Это позволяет обрабатывать перемежающиеся входные данные (например, изображение в сочетании с текстовой подписью) как единое встраивание без отдельных модельных конвейеров.
* Обучение представлению «матрёшка» (MRL): модель сконструирована таким образом, чтобы хранить наиболее важную семантическую информацию в первых измерениях вектора. Хотя по умолчанию она имеет 3072 измерения, она поддерживает эффективное усечение до 1536 или 768 измерений с минимальной потерей точности, снижая затраты на хранение и увеличивая скорость поиска.
* Расширенный контекст и производительность: модель имеет окно ввода на 8192 токена, что позволяет использовать более крупные текстовые «фрагменты» в конвейерах RAG. Она демонстрирует значительные улучшения производительности на Massive Text Embedding Benchmark (MTEB), особенно в точности поиска и работе со специализированными доменами, такими как код или техническая документация.
* Оптимизация для конкретных задач: разработчики могут использовать параметры tasktype (такие как RETRIEVALQUERY, RETRIEVAL_DOCUMENT или CLASSIFICATION), чтобы дать модели подсказки. Это оптимизирует математические свойства вектора для конкретной операции, повышая «процент попаданий» в семантическом поиске.

1. Какие новые возможности предоставляет модель Gemini Embedding 2 по сравнению с предыдущей моделью gemini-embedding-001?

Gemini Embedding 2 отличается от gemini-embedding-001 тем, что работает не только с текстом, но и с изображениями, видео, аудио и документами в едином пространстве встраивания. Это позволяет решать проблемы хранения данных высокой размерности и межмодального поиска в системах генерации с извлечением информации (RAG).

2. Какие технические ограничения установлены для различных типов входных данных в Gemini Embedding 2?

Для различных типов входных данных в Gemini Embedding 2 установлены следующие технические ограничения:
* Текст: до 8192 токенов в запросе.
* Изображения: до 6 изображений (PNG, JPEG, WebP, HEIC/HEIF).
* Видео: до 120 секунд видео (MP4, MOV и т. д.).
* Аудио: до 80 секунд нативного аудио (MP3, WAV и т. д.) без необходимости отдельного этапа транскрипции.
* Документы: до 6 страниц PDF-файлов.

3. В чём заключается преимущество обучения представлению «матрёшка» (MRL) в Gemini Embedding 2?

Обучение представлению «матрёшка» (MRL) в Gemini Embedding 2 позволяет упаковывать наиболее важную семантическую информацию в первые измерения вектора. Это снижает затраты на хранение и увеличивает скорость поиска, сохраняя при этом высокую точность.

4. Какие улучшения демонстрирует Gemini Embedding 2 по сравнению с предшественниками в задачах поиска?

Gemini Embedding 2 превосходит своего предшественника в двух конкретных областях: точности поиска и устойчивости к смене домена. Это достигается за счёт многоэтапного процесса обучения с участием разнообразных наборов данных, что обеспечивает более высокую производительность без дополнительных примеров в специализированных задачах.

5. Какие параметры могут использовать разработчики для оптимизации работы модели Gemini Embedding 2 под конкретные задачи?

Разработчики могут использовать параметры tasktype (такие как RETRIEVALQUERY, RETRIEVAL_DOCUMENT или CLASSIFICATION), чтобы дать модели подсказки. Это оптимизирует математические свойства вектора для конкретной операции, повышая «процент попаданий» в семантическом поиске.

Источник