Sakana AI представляет Doc-to-LoRA и Text-to-LoRA: гиперсети, которые мгновенно усваивают длинные контексты и адаптируют большие языковые модели с помощью нулевого выстрела на естественном языке

Адаптация больших языковых моделей (LLM)

В настоящее время адаптация LLM представляет собой значительный инженерный компромисс между гибкостью обучения в контексте (ICL) и эффективностью дистилляции контекста (CD) или супервизированного точного настройки (SFT).

Компания Sakana AI из Токио предложила новый подход, позволяющий обойти эти ограничения за счёт амортизации затрат. В двух своих недавних статьях они представили Text-to-LoRA (T2L) и Doc-to-LoRA (D2L) — лёгкие гиперсети, которые метаобучаются для генерации матриц низкоранговой адаптации (LoRA) за один прямой проход.

Техническое узкое место: задержка против памяти

Для разработчиков ИИ основным ограничением стандартной адаптации LLM является вычислительные затраты:

* ICL. Хотя ICL удобен, он страдает от квадратичных затрат внимания и линейного роста KV-кэша, что увеличивает задержку и потребление памяти по мере удлинения запросов.
* CD. CD переносит информацию в параметры модели, но дистилляция для каждого запроса часто нецелесообразна из-за высоких затрат на обучение и задержки обновления.
* SFT. Требует наборов данных для конкретных задач и дорогостоящего переобучения, если информация меняется.

Методы Sakana AI амортизируют эти затраты, оплачивая единовременную плату за метаобучение. После обучения гиперсеть может мгновенно адаптировать базовую LLM к новым задачам или документам без дополнительного обратного распространения.

Text-to-LoRA (T2L): адаптация с помощью естественного языка

Text-to-LoRA (T2L) — это гиперсеть, предназначенная для адаптации LLM на лету, используя только естественно-языковое описание задачи.

Архитектура и обучение

T2L использует кодер задач для извлечения векторных представлений из текстовых описаний. Это представление в сочетании с обучаемыми модулями и вложениями слоёв обрабатывается через серию блоков MLP для генерации низкоранговых матриц A и B для целевой LLM.

Система может быть обучена с помощью двух основных схем:

* Reconstruction LoRA. Дистилляция существующих, предварительно обученных адаптеров LoRA в гиперсеть.
* Supervised Fine-Tuning (SFT). Оптимизация гиперсети от начала до конца на мультизадачных наборах данных.

Исследования показывают, что T2L, обученный с помощью SFT, лучше обобщается на невидимые задачи, поскольку неявно учится группировать связанные функции в пространстве весов. В тестах T2L соответствовал или превосходил специализированные адаптеры в задачах, таких как GSM8K и Arc-Challenge, сокращая при этом затраты на адаптацию более чем в 4 раза по сравнению с 3-кратным ICL.

Doc-to-LoRA (D2L): усвоение контекста

Doc-to-LoRA (D2L) расширяет эту концепцию до усвоения документов. Это позволяет LLM отвечать на последующие запросы о документе без повторного использования исходного контекста, эффективно удаляя документ из активного окна контекста.

Дизайн на основе Perceiver

D2L использует архитектуру кросс-внимания в стиле Perceiver. Он отображает активации токенов переменной длины (Z) из базовой LLM в адаптер с фиксированной формой LoRA.

Чтобы обрабатывать документы, превышающие длину обучения, D2L использует механизм фрагментации. Длинные контексты разбиваются на K непрерывных фрагментов, каждый из которых обрабатывается независимо для получения адаптеров для каждого фрагмента. Затем они объединяются вдоль размерности ранга, позволяя D2L генерировать адаптеры более высокого ранга для более длинных входных данных без изменения формы вывода гиперсети.

Производительность и эффективность использования памяти

В задаче поиска «Иголка в стоге сена» (NIAH) D2L сохранял почти идеальную точность нулевого выстрела на длинах контекста, превышающих собственное окно базовой модели более чем в 4 раза.

* Влияние на память. Для документа объёмом 128 тыс. токенов базовой модели требуется более 12 ГБ видеопамяти VRAM для кэша KV. Внутренние модели D2L обрабатывали тот же документ, используя менее 50 МБ.
* Задержка обновления. D2L усваивает информацию за доли секунды (<1 с), тогда как традиционная CD может занимать от 40 до 100 секунд. Межмодальный перенос

Важным выводом в исследовании D2L является способность выполнять нулевой перенос внутренней визуальной информации. Используя модель Vision-Language (VLM) в качестве кодера контекста, D2L сопоставил визуальные активации с параметрами текстовой LLM. Это позволило текстовой модели классифицировать изображения из набора данных Imagenette с точностью 75,03%, несмотря на то, что она никогда не видела данных изображений во время своего основного обучения.

Ключевые выводы

* Амортизированная настройка с помощью гиперсетей. Оба метода используют лёгкие гиперсети для метаобучения процесса адаптации, оплачивая единовременные затраты на метаобучение, чтобы обеспечить мгновенное, менее чем за секунду, создание адаптеров LoRA для новых задач или документов.
* Значительное сокращение памяти и задержки. Doc-to-LoRA усваивает контекст в параметрах, сокращая потребление памяти KV-кэша с более чем 12 ГБ до менее чем 50 МБ для длинных документов и снижая задержку обновления с минут до менее чем секунды.
* Эффективное обобщение на длинных контекстах. Используя архитектуру на основе Perceiver и механизм фрагментации, Doc-to-LoRA может усваивать информацию при длине последовательности, более чем в 4 раза превышающей собственное окно контекста базовой LLM, с почти идеальной точностью.
* Нулевая адаптация к задачам. Text-to-LoRA может генерировать специализированные адаптеры LoRA для совершенно невидимых задач, основываясь исключительно на естественно-языковом описании, соответствуя или превосходя производительность «оракловых» адаптеров для конкретных задач.
* Межмодальный перенос знаний. Архитектура Doc-to-LoRA позволяет выполнять нулевой перенос внутренней визуальной информации из модели Vision-Language (VLM) в текстовую LLM, позволяя последней классифицировать изображения с высокой точностью, не видя пиксельных данных во время своего основного обучения.

Ознакомьтесь с документами Doc-to-Lora, Code, Text-to-LoRA Paper, Code. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit и подписывайтесь на наш Newsletter. А также присоединяйтесь к нам в Telegram.

1. Какие проблемы решает Sakana AI с помощью своих разработок Text-to-LoRA и Doc-to-LoRA?

Sakana AI решает проблему адаптации больших языковых моделей (LLM) к новым задачам или документам без дополнительного обратного распространения. Это позволяет обойти ограничения, связанные с гибкостью обучения в контексте (ICL), эффективностью дистилляции контекста (CD) и супервизированным точным настройкой (SFT).

2. Какие схемы обучения используются для Text-to-LoRA (T2L)?

Для Text-to-LoRA (T2L) используются две основные схемы обучения:
* Reconstruction LoRA — дистилляция существующих, предварительно обученных адаптеров LoRA в гиперсеть.
* Supervised Fine-Tuning (SFT) — оптимизация гиперсети от начала до конца на мультизадачных наборах данных.

3. Как Doc-to-LoRA (D2L) обрабатывает длинные контексты?

Doc-to-LoRA (D2L) использует механизм фрагментации для обработки длинных контекстов. Длинные контексты разбиваются на K непрерывных фрагментов, каждый из которых обрабатывается независимо для получения адаптеров для каждого фрагмента. Затем они объединяются вдоль размерности ранга, позволяя D2L генерировать адаптеры более высокого ранга для более длинных входных данных без изменения формы вывода гиперсети.

4. Какие преимущества предоставляет Doc-to-LoRA (D2L) по сравнению с традиционными методами дистилляции контекста (CD)?

Doc-to-LoRA (D2L) предоставляет следующие преимущества по сравнению с традиционными методами дистилляции контекста (CD):
* значительное сокращение памяти и задержки;
* усвоение контекста в параметрах, сокращая потребление памяти KV-кэша с более чем 12 ГБ до менее чем 50 МБ для длинных документов;
* снижение задержки обновления с минут до менее чем секунды.

5. Какие возможности предоставляет Text-to-LoRA (T2L) для адаптации LLM?

Text-to-LoRA (T2L) позволяет адаптировать LLM на лету, используя только естественно-языковое описание задачи. Это позволяет генерировать специализированные адаптеры LoRA для совершенно невидимых задач, основываясь исключительно на естественно-языковом описании, соответствуя или превосходя производительность «оракловых» адаптеров для конкретных задач.

Источник