Meta Superintelligence Labs представляет REFRAG: масштабирование RAG с увеличением контекста в 16 раз и ускорением декодирования в 31 раз

Meta Superintelligence Labs представила REFRAG (REpresentation For RAG) — фреймворк декодирования, который переосмысливает эффективность генерации с дополненным поиском (RAG). REFRAG расширяет окна контекста LLM в 16 раз и ускоряет время до первого токена (TTFT) до 30,85 раз без ущерба для точности.

Почему длинный контекст является узким местом для LLM?

Механизм внимания в больших языковых моделях масштабируется квадратично с длиной входных данных. Если документ становится в два раза длиннее, затраты на вычисления и память могут вырасти в четыре раза. Это не только замедляет вывод, но и увеличивает размер кэша KV, что делает приложения с большим контекстом непрактичными в производственных системах. В условиях RAG большинство извлечённых отрывков вносят небольшой вклад в окончательный ответ, но модель всё равно платит полную квадратичную цену за их обработку.

Как REFRAG сжимает и сокращает контекст?

REFRAG вводит лёгкий энкодер, который разбивает извлечённые отрывки на фрагменты фиксированного размера (например, 16 токенов) и сжимает каждый из них в плотное вложение фрагмента. Вместо того чтобы передавать тысячи необработанных токенов, декодер обрабатывает эту более короткую последовательность вложений. В результате длина последовательности сокращается в 16 раз без изменения архитектуры LLM.

Как достигается ускорение?

Сокращая входную последовательность декодера, REFRAG уменьшает квадратичные вычисления внимания и уменьшает кэш KV. Эмпирические результаты показывают ускорение TTFT в 16,53 раза при k=16 и в 30,85 раза при k=32, что значительно превосходит предыдущий уровень техники CEPE (который достигал только 2–8×). Пропускная способность также улучшается до 6,78 раз по сравнению с базовыми показателями LLaMA.

Как REFRAG сохраняет точность?

Политика обучения с подкреплением (RL) контролирует сжатие. Она определяет наиболее информативные фрагменты и позволяет им обходить сжатие, передавая необработанные токены напрямую в декодер. Такая выборочная стратегия гарантирует, что критические детали, такие как точные числа или редкие сущности, не будут потеряны.

Что показывают эксперименты?

REFRAG был предварительно обучен на 20 миллиардах токенов из корпуса SlimPajama (Books + arXiv) и протестирован на наборах данных с длинным контекстом, включая Book, Arxiv, PG19 и ProofPile. На тестах RAG, задачах многоходового диалога и обобщении длинных документов REFRAG последовательно превосходил сильные базовые показатели:
* Расширение контекста в 16 раз по сравнению со стандартным LLaMA-2 (4 тыс. токенов).
* Улучшение перплексии на ~9,3% по сравнению с CEPE на четырёх наборах данных.
* Более высокая точность в условиях слабого ретривера, где преобладают нерелевантные отрывки, благодаря способности обрабатывать больше отрывков при той же задержке.

Резюме

REFRAG показывает, что LLM с длинным контекстом не обязательно должны быть медленными или требовательными к памяти. Сжимая извлечённые отрывки во вложения, выборочно расширяя только важные фрагменты и переосмысливая работу декодирования RAG, Meta Superintelligence Labs сделала возможным обработку гораздо больших объёмов данных при значительно более высокой скорости. Это делает приложения с большим контекстом — такие как анализ отчётов, ведение многоходовых диалогов или масштабирование корпоративных систем RAG — не только осуществимыми, но и эффективными без ущерба для точности.

Часто задаваемые вопросы

Q1. Что такое REFRAG?
REFRAG (REpresentation For RAG) — это фреймворк декодирования от Meta Superintelligence Labs, который сжимает извлечённые отрывки во вложения, обеспечивая более быстрый и длинный контекст вывода в LLM.

Q2. Насколько REFRAG быстрее по сравнению с существующими методами?
REFRAG обеспечивает ускорение до 30,85 раз по времени до первого токена (TTFT) и улучшение пропускной способности в 6,78 раз по сравнению с базовыми показателями LLaMA, превосходя CEPE.

Q3. Снижает ли сжатие точность?
Нет. Политика обучения с подкреплением гарантирует, что критические фрагменты остаются несжатыми, сохраняя ключевые детали. На тестах REFRAG сохранял или улучшал точность по сравнению с предыдущими методами.

Q4. Где будет доступен код?
Meta Superintelligence Labs выпустит REFRAG на GitHub по адресу facebookresearch/refrag.

1. Какие проблемы решает REFRAG в контексте работы с большими языковыми моделями (LLM)?

В статье указано, что REFRAG решает проблему масштабирования RAG (Retrieval-Augmented Generation) и обработки длинных контекстов в LLM. Механизм внимания в больших языковых моделях масштабируется квадратично с длиной входных данных, что замедляет вывод и увеличивает размер кэша KV. REFRAG сокращает входную последовательность декодера, уменьшая квадратичные вычисления внимания и уменьшая кэш KV, что позволяет ускорить время до первого токена (TTFT) и улучшить пропускную способность.

2. Какие преимущества предлагает REFRAG по сравнению с предыдущими методами?

REFRAG предлагает ускорение до 30,85 раз по времени до первого токена (TTFT) и улучшение пропускной способности в 6,78 раз по сравнению с базовыми показателями LLaMA. Кроме того, REFRAG улучшает перплексию на ~9,3% по сравнению с CEPE на четырёх наборах данных и обеспечивает более высокую точность в условиях слабого ретривера.

3. Как REFRAG сохраняет точность при сжатии контекста?

Политика обучения с подкреплением (RL) в REFRAG контролирует сжатие, определяя наиболее информативные фрагменты и позволяя им обходить сжатие, передавая необработанные токены напрямую в декодер. Такая выборочная стратегия гарантирует, что критические детали, такие как точные числа или редкие сущности, не будут потеряны.

4. Какие эксперименты были проведены для оценки эффективности REFRAG?

5. Какие приложения могут выиграть от использования REFRAG?

Приложения с большим контекстом, такие как анализ отчётов, ведение многоходовых диалогов или масштабирование корпоративных систем RAG, могут выиграть от использования REFRAG. Это делает их не только осуществимыми, но и эффективными без ущерба для точности.

Источник