Cache-to-Cache (C2C): прямая семантическая коммуникация между большими языковыми моделями через слияние KV-кэша

Могут ли большие языковые модели (LLM) взаимодействовать, не отправляя ни одного текстового токена? Команда исследователей из Университета Цинхуа, Infinigence AI, Китайского университета Гонконга, Шанхайской лаборатории искусственного интеллекта и Шанхайского университета Цзяо Тун утверждает, что да. Cache-to-Cache (C2C) — это новая парадигма коммуникации, при которой большие языковые модели обмениваются информацией через свой KV-кэш, а не через сгенерированный текст.

Препятствия текстовой коммуникации в мульти-LLM системах

В настоящее время в мульти-LLM системах для общения в основном используется текст. Одна модель пишет объяснение, другая модель читает его как контекст.

Такая схема имеет три практических недостатка:
* Внутренние активации сжимаются в короткие сообщения на естественном языке. Большая часть семантического сигнала в KV-кэше так и не пересекает интерфейс.
* Естественный язык неоднозначен. Даже при наличии структурированных протоколов модель кодирования может кодировать структурные сигналы, такие как роль HTML-тега `

`, которые не сохраняются при расплывчатом текстовом описании.
* Каждый шаг коммуникации требует декодирования токен за токеном, что определяет задержку в длинных аналитических обменах.

Работа C2C задаёт прямой вопрос: можем ли мы рассматривать KV-кэш как канал связи.

Эксперименты с оракулом

Исследовательская группа сначала провела два эксперимента в стиле оракула, чтобы проверить, является ли KV-кэш полезным средством.

* Оракул обогащения кэша. Они сравнили три настройки на нескольких контрольных примерах:
* Прямая, предварительное заполнение только вопросом.
* Few shot, предварительное заполнение примерами плюс вопрос, более длинный кэш.
* Оракул, предварительное заполнение примерами плюс вопрос, затем отбрасывание сегмента примеров и сохранение только соответствующего вопросу среза кэша, таким образом, длина кэша такая же, как у Direct.

Оракул улучшает точность с 58,42 % до 62,34 % при той же длине кэша, а Few shot достигает 63,39 %. Это демонстрирует, что обогащение вопроса KV-кэшем само по себе, даже без дополнительных токенов, повышает производительность.

* Оракул преобразования кэша. Далее они проверили, можно ли преобразовать KV-кэш из одной модели в пространство другой модели. Трёхслойная MLP обучена для сопоставления KV-кэша из Qwen3 4B с Qwen3 0,6B. Графики t-SNE показывают, что преобразованный кэш лежит внутри целевого многообразия кэша, но только в субрегионе.

C2C, прямая семантическая коммуникация через KV-кэш

На основе этих оракулов исследовательская группа определяет коммуникацию Cache-to-Cache между моделью Sharer и моделью Receiver.

Во время предварительного заполнения обе модели читают один и тот же ввод и создают послойный KV-кэш. Для каждого слоя Receiver C2C выбирает сопоставленный слой Sharer и применяет C2C Fuser для создания объединённого кэша. Во время декодирования Receiver предсказывает токены, обусловленные этим объединённым кэшем, вместо своего исходного кэша.

C2C Fuser следует принципу остаточной интеграции и состоит из трёх модулей:
* Модуль проекции объединяет векторы KV-кэша Sharer и Receiver, применяет проекционный слой, затем слой слияния признаков.
* Модуль динамического взвешивания модулирует заголовки на основе входных данных, чтобы некоторые заголовки внимания больше полагались на информацию Sharer.
* Обучаемое шлюзовое устройство добавляет шлюз для каждого слоя, который решает, следует ли вводить контекст Sharer в этот слой. Шлюз использует сигмоид Гумбеля во время обучения и становится двоичным при выводе.

Sharer и Receiver могут принадлежать к разным семействам и иметь разные размеры, поэтому C2C также определяет:
* Выравнивание токенов путём декодирования токенов Receiver в строки и перекодирования их с помощью токенизатора Sharer, затем выбора токенов Sharer с максимальным покрытием строк.
* Выравнивание слоёв с использованием терминальной стратегии, которая сначала объединяет верхние слои и идёт назад до тех пор, пока более мелкая модель не будет полностью покрыта.

Во время обучения обе LLM заморожены. Обучается только модуль C2C, используя потерю прогнозирования следующего токена на выходах Receiver. Основные C2C-фузеры обучены на первых 500 тысячах образцов набора данных OpenHermes2,5 и оценены на OpenBookQA, ARC Challenge, MMLU Redux и C Eval.

Точность и задержка: C2C по сравнению с текстовой коммуникацией

В различных комбинациях моделей Sharer Receiver, созданных на основе Qwen2,5, Qwen3, Llama3,2 и Gemma3, C2C последовательно повышает точность Receiver и снижает задержку.

Результаты:
* C2C достигает примерно на 8,5–10,5 % более высокой средней точности, чем отдельные модели.
* C2C превосходит текстовое общение примерно на 3,0–5,0 % в среднем.
* C2C обеспечивает примерно двукратное ускорение средней скорости по сравнению с текстовым сотрудничеством, а в некоторых конфигурациях ускорение больше.

Конкретный пример использует Qwen3 0,6B в качестве Receiver и Qwen2,5 0,5B в качестве Sharer. На MMLU Redux Receiver в одиночку достигает 35,53 %, текстовое общение достигает 41,03 %, а C2C достигает 42,92 %. Среднее время запроса для текста в текст составляет 1,52 единицы, в то время как C2C остаётся близким к одномодельной системе на уровне 0,40.

Ключевые выводы

Коммуникация Cache-to-Cache позволяет модели Sharer отправлять информацию модели Receiver напрямую через KV-кэш, поэтому для сотрудничества не нужны промежуточные текстовые сообщения, что устраняет узкое место с токенами и снижает семантические потери в мультимодельных системах.

Два исследования с использованием оракула показывают, что обогащение только соответствующего вопросу среза кэша повышает точность при постоянной длине последовательности, а KV-кэш из более крупной модели может быть сопоставлен с пространством кэша более мелкой модели с помощью обученного проектора, подтверждая, что кэш является жизнеспособным средством связи.

Архитектура C2C Fuser объединяет кэши Sharer и Receiver с помощью модуля проекции, динамического взвешивания заголовков и обучаемого шлюза для каждого слоя, и интегрирует всё это остаточным образом, что позволяет Receiver выборочно поглощать семантику Sharer без дестабилизации своего собственного представления.

Наблюдается последовательное повышение точности и снижение задержки на парах моделей Qwen2,5, Qwen3, Llama3,2 и Gemma3, с повышением средней точности на 8,5–10,5 % по сравнению с одной моделью, приростом на 3–5 % по сравнению с текстовым общением и примерно двукратным ускорением ответов из-за устранения ненужного декодирования.

1. Какие проблемы существуют в текстовых коммуникациях между большими языковыми моделями (LLM) в мульти-LLM системах?

В мульти-LLM системах текстовая коммуникация имеет три практических недостатка:
* Внутренние активации сжимаются в короткие сообщения на естественном языке. Большая часть семантического сигнала в KV-кэше так и не пересекает интерфейс.
* Естественный язык неоднозначен. Даже при наличии структурированных протоколов модель кодирования может кодировать структурные сигналы, которые не сохраняются при расплывчатом текстовом описании.
* Каждый шаг коммуникации требует декодирования токен за токеном, что определяет задержку в длинных аналитических обменах.

2. Что такое Cache-to-Cache (C2C) и как оно решает проблемы текстовых коммуникаций?

Cache-to-Cache (C2C) — это новая парадигма коммуникации, при которой большие языковые модели обмениваются информацией через свой KV-кэш, а не через сгенерированный текст. Это позволяет моделям отправлять информацию напрямую через KV-кэш, устраняя необходимость в промежуточных текстовых сообщениях.

3. Какие эксперименты были проведены для проверки полезности KV-кэша в качестве канала связи?

Исследовательская группа провела два эксперимента в стиле оракула:
* Оракул обогащения кэша. Они сравнили три настройки на нескольких контрольных примерах: прямая, предварительное заполнение только вопросом; few shot, предварительное заполнение примерами плюс вопрос; оракул, предварительное заполнение примерами плюс вопрос, затем отбрасывание сегмента примеров и сохранение только соответствующего вопросу среза кэша.
* Оракул преобразования кэша. Они проверили, можно ли преобразовать KV-кэш из одной модели в пространство другой модели. Трёхслойная MLP обучена для сопоставления KV-кэша из Qwen3 4B с Qwen3 0,6B.

4. Какие результаты были получены при сравнении C2C с текстовой коммуникацией?

Результаты показали, что C2C последовательно повышает точность Receiver и снижает задержку. C2C достигает примерно на 8,5–10,5 % более высокой средней точности, чем отдельные модели, превосходит текстовое общение примерно на 3,0–5,0 % в среднем и обеспечивает примерно двукратное ускорение средней скорости по сравнению с текстовым сотрудничеством.

5. Какие ключевые выводы можно сделать из статьи о Cache-to-Cache (C2C)?

Ключевые выводы:
* Коммуникация Cache-to-Cache позволяет модели Sharer отправлять информацию модели Receiver напрямую через KV-кэш, поэтому для сотрудничества не нужны промежуточные текстовые сообщения.
* Два исследования с использованием оракула показывают, что обогащение только соответствующего вопросу среза кэша повышает точность при постоянной длине последовательности.
* KV-кэш из более крупной модели может быть сопоставлен с пространством кэша более мелкой модели с помощью обученного проектора, подтверждая, что кэш является жизнеспособным средством связи.
* Архитектура C2C Fuser объединяет кэши Sharer и Receiver с помощью модуля проекции, динамического взвешивания заголовков и обучаемого шлюза для каждого слоя, что позволяет Receiver выборочно поглощать семантику Sharer без дестабилизации своего собственного представления.

Источник