Вложенное обучение: новый подход в машинном обучении для непрерывного обучения, рассматривающий модели как вложенные оптимизационные задачи для улучшения обработки длинных контекстов

Как создать системы искусственного интеллекта, которые будут постоянно обучаться новой информации, не забывая при этом ранее изученное и не требуя полной переподготовки? Исследователи из Google предложили вложенный подход к обучению (Nested Learning), который рассматривает модель как совокупность более мелких вложенных оптимизационных задач, а не как единую сеть, обучаемую одним внешним циклом. Цель — решить проблему катастрофического забывания и приблизить большие модели к непрерывному обучению, подобному тому, как биологический мозг управляет памятью и адаптацией с течением времени.

Что такое вложенное обучение?

В исследовательской работе Google «Nested Learning, The Illusion of Deep Learning Architectures» сложная нейронная сеть моделируется как набор согласованных оптимизационных задач, вложенных или работающих параллельно, которые оптимизируются вместе. Каждая внутренняя задача имеет свой контекстный поток, последовательность входных данных, градиентов или состояний, которые этот компонент наблюдает, и свою частоту обновления.

Вместо того чтобы рассматривать обучение как плоский стек слоёв плюс один оптимизатор, вложенный подход к обучению устанавливает порядок по частоте обновления. Параметры, которые обновляются часто, находятся на внутренних уровнях, а медленно обновляемые параметры формируют внешние уровни. Эта иерархия определяет модуль нейронного обучения, где каждый уровень сжимает свой контекстный поток в параметры.

Исследовательская группа показывает, что этот подход охватывает стандартное обратное распространение в многослойном перцептроне (MLP), линейное внимание и общие оптимизаторы, все как примеры ассоциативной памяти.

В этой структуре ассоциативная память — это любой оператор, который сопоставляет ключи со значениями и обучается с внутренней целью. Исследовательская группа формализует ассоциативную память и затем показывает, что обратное распространение само по себе может быть представлено как одношаговое обновление градиентного спуска, которое изучает отображение входных данных в локальные сигналы удивления, градиент потерь относительно выхода.

Глубокие оптимизаторы как ассоциативная память

Когда оптимизаторы рассматриваются как обучающие модули, вложенный подход к обучению предлагает перепроектировать их с более богатыми внутренними целями. Стандартный импульс можно представить как линейную ассоциативную память по прошлым градиентам, обученную с помощью точечной продуктовой цели сходства. Эта внутренняя цель создаёт правило обновления, похожее на Хеббовское, которое не моделирует зависимости между выборками данных.

Исследовательская группа заменила эту цель сходства регрессией L2 по градиентным признакам, что даёт правило обновления, которое лучше управляет ограниченной ёмкостью памяти и лучше запоминает последовательности градиентов. Затем они обобщают импульсную память с линейной карты на MLP и определяют глубокий градиентный спуск импульса, где состояние импульса создаётся нейронной памятью и может проходить через нелинейную функцию, такую как Newton Schulz. Этот взгляд также восстанавливает оптимизатор Muon как частный случай.

Система непрерывной памяти

В типичных моделях последовательностей внимание действует как рабочая память в текущем окне контекста, в то время как блоки прямого распространения хранят предварительно обученные знания в виде долговременной памяти, которая редко обновляется после обучения. Исследователи, работающие над вложенным обучением, расширяют это бинарное представление до системы непрерывной памяти (CMS).

CMS определяется как цепочка блоков MLP (многослойный перцептрон), MLP(f₁) через MLP(fₖ), где каждый блок имеет свою частоту обновления и размер фрагмента. Для входной последовательности вывод получается путём последовательного применения этих блоков. Параметры каждого блока обновляются только каждые C^(ℓ) шагов, так что каждый блок сжимает в свои параметры различный временной масштаб контекста.

Стандартный трансформер с одним блоком прямого распространения восстанавливается как частный случай с k, равным 1. Эта конструкция превращает долговременную память в спектр уровней по частоте, а не в один статический слой прямого распространения. Исследование связывает это напрямую с процессами синаптической и системной консолидации в мозге, где разные части системы обучаются с разной скоростью, разделяя общую архитектуру.

HOPE: самомодифицируемая архитектура, построенная на титанах

Чтобы показать, что вложенное обучение является практическим, исследовательская группа разработала HOPE, самореферентную модель последовательности, которая применяет парадигму к рекуррентной архитектуре. HOPE построена как вариант Titans, архитектуры долговременной памяти, где нейронный модуль памяти учится запоминать удивительные события во время тестирования и помогает вниманию сосредоточиться на давно прошедших токенах.

Titans имеет только два уровня обновления параметров, что обеспечивает первый порядок в изучении контекста. HOPE расширяет Titans двумя способами. Во-первых, она является самомодифицируемой, она может оптимизировать свою память через самореферентный процесс и может в принципе поддерживать неограниченные уровни изучения контекста. Во-вторых, она интегрирует блоки непрерывной памяти, так что обновления памяти происходят с несколькими частотами и масштабируются до более длинных окон контекста.

Понимание результатов

Исследовательская группа оценивает HOPE и базовые модели на задачах языкового моделирования и рассуждения на основе здравого смысла в трёх масштабах параметров: 340M, 760M и 1.3B параметров. Бенчмарки включают Wiki и LMB perplexity для языкового моделирования и PIQA, HellaSwag, WinoGrande, ARC Easy, ARC Challenge, Social IQa и BoolQ accuracy для рассуждений. В таблице 1 представлены результаты для HOPE, Transformer++, RetNet, Gated DeltaNet, TTT, Samba и Titans.

Ключевые выводы

* Вложенный подход к обучению рассматривает модель как множество вложенных оптимизационных задач с разными частотами обновления, что напрямую направлено на решение проблемы катастрофического забывания при непрерывном обучении.
* Структура переосмысливает обратное распространение, внимание и оптимизаторы как модули ассоциативной памяти, которые сжимают свой собственный контекстный поток, давая унифицированный взгляд на архитектуру и оптимизацию.
* Глубокие оптимизаторы во вложенном обучении заменяют простое точечное продуктовое сходство более богатыми целями, такими как L2-регрессия, и используют нейронные памяти, что приводит к более выразительным и контекстно-зависимым правилам обновления.
* Система непрерывной памяти моделирует память как спектр блоков MLP, которые обновляются с разной скоростью, создавая кратковременную, среднесрочную и долговременную память, а не один статический слой прямого распространения.
* Архитектура HOPE, самомодифицируемый вариант Titans, построенный с использованием принципов вложенного обучения, демонстрирует улучшенные результаты в языковом моделировании, долгосрочном рассуждении и непрерывном обучении по сравнению с сильными трансформерными и рекуррентными базовыми моделями.

1. Что такое вложенное обучение и как оно решает проблему катастрофического забывания?

Вложенный подход к обучению (Nested Learning) рассматривает модель как совокупность более мелких вложенных оптимизационных задач, а не как единую сеть, обучаемую одним внешним циклом. Это позволяет решить проблему катастрофического забывания и приблизить большие модели к непрерывному обучению.

2. Какие примеры ассоциативной памяти приведены в статье?

В статье приведены примеры ассоциативной памяти, такие как обратное распространение в многослойном перцептроне (MLP), линейное внимание и общие оптимизаторы.

3. Как работает система непрерывной памяти (CMS)?

Система непрерывной памяти (CMS) определяется как цепочка блоков MLP, где каждый блок имеет свою частоту обновления и размер фрагмента. Для входной последовательности вывод получается путём последовательного применения этих блоков. Параметры каждого блока обновляются только каждые C^(ℓ) шагов, так что каждый блок сжимает в свои параметры различный временной масштаб контекста.

4. Что такое HOPE и как она связана с вложенным обучением?

HOPE — это самореферентная модель последовательности, которая применяет парадигму вложенного обучения к рекуррентной архитектуре. HOPE построена как вариант Titans, архитектуры долговременной памяти, где нейронный модуль памяти учится запоминать удивительные события во время тестирования и помогает вниманию сосредоточиться на давно прошедших токенах.

5. Какие результаты были получены при оценке HOPE и базовых моделей на задачах языкового моделирования и рассуждения на основе здравого смысла?

Исследовательская группа оценивает HOPE и базовые модели на задачах языкового моделирования и рассуждения на основе здравого смысла в трёх масштабах параметров: 340M, 760M и 1.3B параметров. Результаты представлены в таблице 1, где HOPE демонстрирует улучшенные результаты по сравнению с сильными трансформерными и рекуррентными базовыми моделями.

Источник