От трансформеров к ассоциативной памяти: как Titans и MIRAS переосмысливают моделирование длинных контекстов

Что идёт после трансформеров?

Исследователи из Google предлагают новый способ придания моделям последовательностей полезной долгосрочной памяти с помощью Titans и MIRAS, сохраняя при этом параллельное обучение и вывод, близкий к линейному.

Titans: конкретная архитектура с глубокой нейронной памятью

* Titans — это архитектура, которая добавляет глубокую нейронную память к основе в стиле Transformer.
* MIRAS — это общая структура, которая рассматривает большинство современных моделей последовательностей как примеры онлайн-оптимизации над ассоциативной памятью.

Почему Titans и MIRAS?

Стандартные трансформеры используют внимание к кэшу значений ключей. Это обеспечивает сильное обучение в контексте, но стоимость растёт квадратично с длиной контекста, поэтому практический контекст ограничен даже при использовании FlashAttention и других методов.

Эффективные линейные рекуррентные нейронные сети и модели пространства состояний, такие как Mamba-2, сжимают историю в состояние фиксированного размера, поэтому стоимость линейна по длине последовательности. Однако такое сжатие теряет информацию в очень длинных последовательностях, что вредит задачам, таким как геномное моделирование и поиск в экстремально длинном контексте.

Titans и MIRAS сочетают эти идеи:

* Внимание действует как точная краткосрочная память для текущего окна.
* Отдельный нейронный модуль обеспечивает долгосрочную память, обучается во время тестирования и обучается так, чтобы его динамика была параллельна на ускорителях.

Экспериментальные результаты для Titans

В задачах языкового моделирования и рассуждений на основе здравого смысла, таких как C4, WikiText и HellaSwag, архитектуры Titans превосходят современные линейные рекуррентные базовые модели Mamba-2 и Gated DeltaNet и модели Transformer++ сопоставимого размера.

Исследователи Google связывают это с более высокой выразительной способностью глубокой памяти и её способностью поддерживать производительность по мере роста длины контекста. Глубокие нейронные памяти с тем же бюджетом параметров, но более высокой глубиной, дают последовательно более низкую перплексию.

Для поиска в экстремально длинном контексте исследовательская группа использует бенчмарк BABILong, где факты распределены по очень длинным документам. Titans превосходит все базовые модели, включая очень крупные модели, такие как GPT-4, используя при этом гораздо меньше параметров, и масштабируется до окон контекста более 2 000 000 токенов.

MIRAS: унифицированная структура для моделей последовательностей как ассоциативной памяти

В исследовательской статье MIRAS обобщается этот взгляд. Отмечается, что современные модели последовательностей можно рассматривать как ассоциативные памяти, которые сопоставляют ключи со значениями, балансируя при этом обучение и забывание.

MIRAS определяет любую модель последовательности через четыре конструктивных выбора:

* Структура памяти, например вектор, линейная карта или MLP.
* Смещение внимания — внутренняя потеря, которая определяет, какие сходства важны для памяти.
* Ворота удержания — регуляризатор, который удерживает память близкой к её прошлому состоянию.
* Алгоритм памяти — правило онлайн-оптимизации, часто градиентный спуск с импульсом.

Используя эту призму, MIRAS восстанавливает несколько семейств:

* Линейные рекуррентные модели в стиле Хебба и RetNet как ассоциативные памяти на основе точечного произведения.
* Модели дельта-правила, такие как DeltaNet и Gated DeltaNet, как MSE-памяти со значением замены и специфическими воротами удержания.
* Titans LMM как нелинейная MSE-память с локальным и глобальным удержанием, оптимизированным градиентным спуском с импульсом.

Ключевым моментом является то, что MIRAS выходит за рамки обычных целей MSE или точечного произведения. Исследовательская группа создаёт новые смещения внимания на основе норм Lₚ, робастной потери Хубера и робастной оптимизации, а также новые ворота удержания на основе дивергенций по вероятностным симплексам, эластичной сетевой регуляризации и дивергенции Брегмана.

Из этого пространства проектирования исследовательская группа создаёт три модели без внимания:

* Moneta использует 2-уровневую память MLP с Lₚ-смещением внимания и гибридным затвором удержания, основанным на обобщённых нормах.
* Yaad использует ту же память MLP с Huber loss-смещением внимания и затвором забывания, связанным с Titans.
* Memora использует регрессионную потерю в качестве смещения внимания и затвор удержания на основе KL-дивергенции по памяти в стиле вероятностного симплекса.

Эти варианты MIRAS заменяют блоки внимания в основе в стиле Llama, используют свёртки с разделением по глубине в слое Miras и могут быть объединены со скользящим окном внимания в гибридных моделях. Обучение остаётся параллельным за счёт разделения последовательностей на фрагменты и вычисления градиентов по состоянию памяти из предыдущего фрагмента.

В исследовательских экспериментах Moneta, Yaad и Memora соответствуют или превосходят сильные линейные рекуррентные модели и Transformer++ в языковом моделировании, рассуждениях на основе здравого смысла и задачах, требующих интенсивного поиска, сохраняя при этом линейный вывод по времени.

Ключевые выводы

* Titans вводит глубокую нейронную долгосрочную память, которая обучается во время тестирования, используя градиентный спуск на L2-ассоциативной потере памяти, чтобы модель выборочно сохраняла только неожиданные токены, сохраняя при этом параллельные обновления на ускорителях.
* Titans сочетает внимание с нейронной памятью для длинного контекста, используя такие ветви, как основная, контекстуальная память и постоянная память, чтобы внимание обрабатывало точность на коротком расстоянии, а нейронный модуль сохранял информацию в последовательностях длиной более 2 000 000 токенов.
* Titans превосходит сильные линейные RNN и Transformer++ в задачах языкового моделирования и рассуждений на основе здравого смысла, включая Mamba-2 и Gated DeltaNet, на сопоставимых масштабах параметров, сохраняя при этом конкурентоспособность по пропускной способности.
* В задачах поиска в экстремально длинном контексте, таких как BABILong, Titans достигает более высокой точности, чем все базовые модели, включая более крупные модели внимания, такие как GPT-4, используя при этом меньше параметров и обеспечивая эффективное обучение и вывод.
* MIRAS предоставляет унифицированную структуру для моделей последовательностей как ассоциативной памяти, определяя их структурой памяти, смещением внимания, воротами удержания и правилом оптимизации, и создаёт новые архитектуры без внимания, такие как Moneta, Yaad и Memora, которые соответствуют или превосходят линейные RNN и Transformer++ в задачах с длинным контекстом и рассуждениями.

1. Какие проблемы решают архитектуры Titans и MIRAS в контексте современных моделей машинного обучения?

В тексте указано, что стандартные трансформеры имеют ограничения по длине контекста из-за квадратичного роста стоимости вычислений. Titans и MIRAS предлагают решения для придания моделям полезной долгосрочной памяти, сохраняя при этом параллельное обучение и вывод, близкий к линейному.

2. Какие преимущества Titans демонстрирует в задачах языкового моделирования и рассуждений на основе здравого смысла?

В статье утверждается, что Titans превосходит современные линейные рекуррентные базовые модели Mamba-2 и Gated DeltaNet и модели Transformer++ сопоставимого размера в задачах языкового моделирования и рассуждений на основе здравого смысла. Это связано с более высокой выразительной способностью глубокой памяти и её способностью поддерживать производительность по мере роста длины контекста.

3. Какие конструктивные элементы определяют любую модель последовательности в рамках структуры MIRAS?

MIRAS определяет любую модель последовательности через четыре конструктивных выбора:
* структура памяти (например, вектор, линейная карта или MLP);
* смещение внимания — внутренняя потеря, которая определяет, какие сходства важны для памяти;
* ворота удержания — регуляризатор, который удерживает память близкой к её прошлому состоянию;
* алгоритм памяти — правило онлайн-оптимизации, часто градиентный спуск с импульсом.

4. Какие новые модели без внимания были созданы исследовательской группой на основе структуры MIRAS?

На основе структуры MIRAS исследовательская группа создала три модели без внимания:
* Moneta использует 2-уровневую память MLP с Lₚ-смещением внимания и гибридным затвором удержания, основанным на обобщённых нормах.
* Yaad использует ту же память MLP с Huber loss-смещением внимания и затвором забывания, связанным с Titans.
* Memora использует регрессионную потерю в качестве смещения внимания и затвор удержания на основе KL-дивергенции по памяти в стиле вероятностного симплекса.

5. Какие выводы можно сделать о потенциале Titans и MIRAS на основе экспериментальных результатов, представленных в статье?

Экспериментальные результаты показывают, что Titans превосходит сильные линейные RNN и Transformer++ в задачах языкового моделирования и рассуждений на основе здравого смысла, включая Mamba-2 и Gated DeltaNet, на сопоставимых масштабах параметров. MIRAS предоставляет унифицированную структуру для моделей последовательностей как ассоциативной памяти и создаёт новые архитектуры без внимания, которые соответствуют или превосходят линейные RNN и Transformer++ в задачах с длинным контекстом и рассуждениями.

Источник