Исследователи из FAIR в Meta, Корнельского университета и Университета Карнеги-Меллона продемонстрировали, что большие языковые модели (LLM) могут научиться рассуждать, используя удивительно малое количество обученных параметров.
Основные моменты исследования
Исследовательская группа представляет TinyLoRA — параметризацию, которая может быть уменьшена до одного обучаемого параметра в экстремальных условиях совместного использования. Используя этот метод на основе Qwen2.5-7B-Instruct, исследовательская группа достигла точности 91,8% на бенчмарке GSM8K всего с 13 параметрами, что составляет всего 26 байт в bf16.
Преодоление ограничений стандартного LoRA
Стандартный метод низкоранговой адаптации (LoRA) адаптирует замороженный линейный слой W ∈ Rdxk с помощью обучаемых матриц A ∈ Rdxr и B ∈ Rrxk. Количество обучаемых параметров в стандартном LoRA всё ещё зависит от ширины слоя и ранга, что оставляет нетривиальную нижнюю границу даже при ранге 1. Для такой модели, как Llama3-8B, этот минимальный размер обновления составляет примерно 3 миллиона параметров.
TinyLoRA обходит это ограничение, опираясь на LoRA-XS, который использует усечённое сингулярное разложение (SVD) замороженных весов. Хотя LoRA-XS обычно требует как минимум один параметр для каждого адаптируемого модуля, TinyLoRA заменяет обучаемую матрицу низкоразмерным обучаемым вектором 𝜐 ∈ Ru, проецируемым через фиксированный случайный тензор P ∈ Ruxrxr.
Обновление правил
$W’ = W + U\Sigma(\sum{i=1}^{u}v{i}P_{i})V^{\top}$
Применяя коэффициент связывания весов (ntie), общее количество обучаемых параметров масштабируется как O(nmu/ntie), что позволяет обновлять параметры вплоть до одного при совместном использовании всех модулей во всех слоях.
Обучение с подкреплением: катализатор крошечных обновлений
Ключевой вывод исследования заключается в том, что обучение с подкреплением (RL) принципиально более эффективно, чем обучение с учителем (SFT) при крайне низком количестве параметров. Исследовательская группа сообщает, что моделям, обученным с помощью SFT, требуются обновления в 100–1000 раз больше, чтобы достичь такой же производительности, как у моделей, обученных с помощью RL.
Этот разрыв объясняется «плотностью информации» обучающего сигнала. SFT заставляет модель поглощать много бит информации, включая стилистический шум и нерелевантные структуры человеческих демонстраций, поскольку её цель рассматривает все токены как одинаково информативные. В отличие от этого, RL (в частности, групповая относительная оптимизация политики или GRPO) обеспечивает более разреженный, но более чистый сигнал. Поскольку вознаграждения являются двоичными (например, точное совпадение для математического ответа), релевантные для вознаграждения функции коррелируют с сигналом, а нерелевантные вариации компенсируются путём повторной выборки.
Рекомендации по оптимизации для разработчиков
Исследовательская группа выделила несколько стратегий для максимизации эффективности крошечных обновлений:
* Оптимальный замороженный ранг (r): анализ показал, что замороженный ранг SVD r=2 является оптимальным. Более высокие ранги вводят слишком много степеней свободы, усложняя оптимизацию небольшого обучаемого вектора.
* Чередование плиток и структурированное совместное использование: исследовательская группа сравнила «структурированное» совместное использование (модули одного типа совместно используют параметры) с «чередованием плиток» (соседние модули схожей глубины совместно используют параметры). Удивительно, но чередование плиток оказалось более эффективным, не выявив преимуществ принудительного совместного использования исключительно между конкретными проекциями, такими как модули запроса или ключа.
* Точность: в условиях ограничения по битам хранение параметров в fp32 оказалось наиболее производительным бит за бит, даже с учётом его большего отпечатка по сравнению с bf16 или fp16.
Результаты тестирования на бенчмарках
Исследовательская группа сообщает, что моделям Qwen-2.5 часто требовалось примерно в 10 раз меньше обновляемых параметров, чем LLaMA-3, для достижения аналогичной производительности в их настройке.
| Модель | Обученные параметры | GSM8K Pass@1 |
|——-|——-|——-|
| Qwen2.5-7B-Instruct (Base) | 0 | 88,2% |
| Qwen2.5-7B-Instruct | 18 | 2,0% |
| Qwen2.5-7B-Instruct | 13 | 91,8% |
| Qwen2.5-7B-Instruct | 19 | 69,2% |
| Qwen2.5-7B-Instruct (Full FT) | ~7,6 миллиарда | 91,7% |
На более сложных бенчмарках, таких как MATH500 и AIME24, обновления из 196 параметров для Qwen2.5-7B-Instruct сохранили 87% абсолютного улучшения производительности при полном точном настройке на шести сложных математических бенчмарках.
Ключевые выводы
* Экстремальная эффективность параметров: можно обучить модель Qwen2.5-7B-Instruct для достижения точности 91,8% на математическом бенчмарке GSM8K, используя всего 13 параметров (26 байт в общей сложности).
* Преимущество RL: обучение с подкреплением (RL) принципиально более эффективно, чем обучение с учителем (SFT) в условиях низкой ёмкости; SFT требует в 100–1000 раз больше обновлений, чтобы достичь такого же уровня производительности, как RL.
* Фреймворк TinyLoRA: исследовательская группа разработала TinyLoRA — новую параметризацию, которая использует связывание весов и случайные проекции для масштабирования низкоранговых адаптеров до одного обучаемого параметра.
* Оптимизация «микрообновления»: для этих крошечных обновлений точность fp32 более битовоэффективна, чем форматы половинной точности, а «чередование плиток» (совместное использование параметров по глубине модели) превосходит структурированное совместное использование по типам модулей.
* Тенденции масштабирования: по мере роста моделей они становятся более «программируемыми» с меньшим количеством абсолютных параметров, что позволяет предположить, что модели триллионного масштаба потенциально могут быть настроены для сложных задач, используя всего несколько байт.
1. В чём заключается инновационность метода TinyLoRA по сравнению со стандартным LoRA?
Ответ: TinyLoRA обходит ограничение стандартного LoRA, опираясь на LoRA-XS, который использует усечённое сингулярное разложение (SVD) замороженных весов. TinyLoRA заменяет обучаемую матрицу низкоразмерным обучаемым вектором 𝜐 ∈ Ru, проецируемым через фиксированный случайный тензор P ∈ Ruxrxr. Это позволяет уменьшить количество обучаемых параметров до одного при совместном использовании всех модулей во всех слоях.
2. Какие стратегии оптимизации предложили исследователи для максимизации эффективности крошечных обновлений?
Ответ: исследователи предложили несколько стратегий для максимизации эффективности крошечных обновлений:
* Оптимальный замороженный ранг (r): анализ показал, что замороженный ранг SVD r=2 является оптимальным.
* Чередование плиток и структурированное совместное использование: исследовательская группа сравнила «структурированное» совместное использование (модули одного типа совместно используют параметры) с «чередованием плиток» (соседние модули схожей глубины совместно используют параметры). Чередование плиток оказалось более эффективным.
* Точность: в условиях ограничения по битам хранение параметров в fp32 оказалось наиболее производительным бит за бит.
3. Какие выводы можно сделать из сравнения производительности моделей Qwen-2.5 и LLaMA-3?
Ответ: модели Qwen-2.5 часто требовалось примерно в 10 раз меньше обновляемых параметров, чем LLaMA-3, для достижения аналогичной производительности в их настройке. Это свидетельствует о том, что Qwen-2.5 более эффективно использует параметры и может достигать высокой точности при минимальном количестве обучаемых параметров.
4. Какие преимущества имеет обучение с подкреплением (RL) перед обучением с учителем (SFT) в условиях низкой ёмкости?
Ответ: обучение с подкреплением (RL) принципиально более эффективно, чем обучение с учителем (SFT) при крайне низком количестве параметров. Модели, обученные с помощью SFT, требуют обновлений в 100–1000 раз больше, чтобы достичь такой же производительности, как у моделей, обученных с помощью RL. Это объясняется «плотностью информации» обучающего сигнала. RL обеспечивает более разреженный, но более чистый сигнал, что позволяет моделям более эффективно обучаться.
5. Какие тенденции масштабирования можно выделить на основе результатов исследования?
Ответ: по мере роста моделей они становятся более «программируемыми» с меньшим количеством абсолютных параметров. Это позволяет предположить, что модели триллионного масштаба потенциально могут быть настроены для сложных задач, используя всего несколько байт.