Google DeepMind обнаружила фундаментальную ошибку в RAG: ограничения встраивания нарушают поиск в масштабе

Системы генерации, дополненной извлечением (Retrieval-Augmented Generation, RAG), обычно полагаются на плотные модели встраивания, которые отображают запросы и документы в векторные пространства фиксированной размерности. Хотя этот подход стал стандартом для многих приложений ИИ, недавнее исследование команды Google DeepMind объясняет фундаментальное архитектурное ограничение, которое невозможно устранить только за счёт увеличения размера моделей или улучшения обучения.

Какова теоретическая граница размерности встраивания?

В основе проблемы лежит репрезентативная способность встраиваний фиксированного размера. Встраивание размерности d не может представить все возможные комбинации релевантных документов, как только база данных превысит критический размер. Это следует из результатов в теории сложности коммуникаций и теории знакового ранга.

Для встраиваний размером 512 поиск нарушается примерно при 500 тыс. документов.
Для 1024 размерностей предел увеличивается примерно до 4 млн документов.
Для 4096 размерностей теоретический предел составляет 250 млн документов.
Эти значения являются наилучшими оценками, полученными при свободной оптимизации встраивания, когда векторы напрямую оптимизируются под тестовые метки. Реальные языковые встраивания терпят неудачу ещё раньше.

Как бенчмарк LIMIT выявляет эту проблему?

Чтобы проверить это ограничение на практике, команда Google DeepMind представила LIMIT (Limitations of Embeddings in Information Retrieval), набор данных для тестирования, специально разработанный для стресс-тестирования встраивателей. LIMIT имеет две конфигурации:

* LIMIT full (50 тыс. документов): в этом крупномасштабном варианте даже сильные встраиватели терпят неудачу, а recall@100 часто опускается ниже 20%.
* LIMIT small (46 документов): несмотря на простоту этой игрушечной настройки, модели всё равно не могут решить задачу. Производительность сильно различается, но остаётся далеко не надёжной:
* Promptriever Llama3 8B: 54,3% recall@2 (4096d);
* GritLM 7B: 38,4% recall@2 (4096d);
* E5-Mistral 7B: 29,5% recall@2 (4096d);
* Gemini Embed: 33,7% recall@2 (3072d).

Даже при наличии всего 46 документов ни один встраиватель не достигает полного recall, что подчёркивает, что ограничение связано не только с размером набора данных, но и с самой архитектурой одновекторного встраивания.

В отличие от этого, BM25, классическая разреженная лексическая модель, не страдает от такого ограничения. Разреженные модели работают в фактически неограниченных пространствах размерностей, что позволяет им фиксировать комбинации, которые не могут уловить плотные встраивания.

Почему это важно для RAG?

Текущие реализации RAG обычно предполагают, что встраивания могут масштабироваться неограниченно с увеличением объёма данных. Однако исследования команды Google DeepMind показывают, что это предположение неверно: размер встраивания по своей сути ограничивает возможности поиска. Это влияет на:

* корпоративные поисковые системы, обрабатывающие миллионы документов;
* агентские системы, основанные на сложных логических запросах;
* задачи поиска по инструкциям, где запросы динамически определяют релевантность.

Даже продвинутые бенчмарки, такие как MTEB, не учитывают эти ограничения, поскольку тестируют только узкую часть комбинаций запрос-документ.

Каковы альтернативы одновекторным встраиваниям?

Исследовательская группа предложила, что для масштабируемого поиска потребуется выйти за рамки одновекторных встраиваний:

* Кросс-энкодеры: обеспечивают идеальный recall на LIMIT за счёт прямого ранжирования пар запрос-документ, но ценой высокой задержки при выводе.
* Многовекторные модели (например, ColBERT): предлагают более выразительный поиск, присваивая несколько векторов каждой последовательности, улучшая производительность в задачах LIMIT.
* Разреженные модели (BM25, TF-IDF, нейронные разреженные поисковые системы): лучше масштабируются при высокоразмерном поиске, но им не хватает семантической обобщаемости.

Ключевой вывод заключается в том, что требуются архитектурные инновации, а не просто увеличение размера встраивателей.

Основной вывод

Анализ исследовательской группы показывает, что плотные встраивания, несмотря на их успех, ограничены математическим пределом: они не могут уловить все возможные комбинации релевантности, когда размеры корпуса превышают пределы, связанные с размерностью встраивания. Бенчмарк LIMIT наглядно демонстрирует этот сбой:

* В LIMIT full (50 тыс. документов): recall@100 опускается ниже 20%.
* В LIMIT small (46 документов): даже лучшие модели достигают максимума в ~54% recall@2.

Классические методы, такие как BM25, или новые архитектуры, такие как многовекторные поисковые системы и кросс-энкодеры, остаются незаменимыми для создания надёжных поисковых систем в масштабе.

1. Какие ограничения существуют у плотных моделей встраивания в системах RAG?

В статье говорится, что плотные модели встраивания ограничены математическим пределом. Они не могут представить все возможные комбинации релевантных документов, как только база данных превысит критический размер. Это связано с тем, что встраивание фиксированного размера не может охватить все возможные комбинации документов.

2. Как команда Google DeepMind выявила проблему ограничений встраивания?

Для проверки ограничений на практике команда Google DeepMind представила LIMIT (Limitations of Embeddings in Information Retrieval), набор данных для тестирования, специально разработанный для стресс-тестирования встраивателей. LIMIT имеет две конфигурации: LIMIT full (50 тыс. документов) и LIMIT small (46 документов). Даже при наличии всего 46 документов ни один встраиватель не достигает полного recall, что подчёркивает, что ограничение связано не только с размером набора данных, но и с самой архитектурой одновекторного встраивания.

3. Какие альтернативы одновекторным встраиваниям предложены в статье?

В статье предложены следующие альтернативы одновекторным встраиваниям:
* Кросс-энкодеры: обеспечивают идеальный recall на LIMIT за счёт прямого ранжирования пар запрос-документ, но ценой высокой задержки при выводе.
* Многовекторные модели (например, ColBERT): предлагают более выразительный поиск, присваивая несколько векторов каждой последовательности, улучшая производительность в задачах LIMIT.
* Разреженные модели (BM25, TF-IDF, нейронные разреженные поисковые системы): лучше масштабируются при высокоразмерном поиске, но им не хватает семантической обобщаемости.

4. Почему классические методы поиска, такие как BM25, остаются актуальными, несмотря на появление новых архитектур поисковых систем?

Классические методы, такие как BM25, или новые архитектуры, такие как многовекторные поисковые системы и кросс-энкодеры, остаются незаменимыми для создания надёжных поисковых систем в масштабе, потому что они лучше масштабируются при высокоразмерном поиске и могут фиксировать комбинации, которые не могут уловить плотные встраивания. Однако им не хватает семантической обобщаемости.

5. Какие выводы можно сделать из анализа исследовательской группы Google DeepMind?

Анализ исследовательской группы показывает, что плотные встраивания, несмотря на их успех, ограничены математическим пределом. Для создания надёжных поисковых систем в масштабе требуются архитектурные инновации, а не просто увеличение размера встраивателей.

Источник