Модели-трансформеры значительно повлияли на подход систем искусственного интеллекта к задачам в области понимания естественного языка, перевода и логического вывода. Эти крупномасштабные модели, особенно большие языковые модели (LLM), стали настолько большими и сложными, что охватывают широкие возможности в различных областях. Однако применение этих моделей для новых специализированных задач остаётся сложной операцией.
Каждое новое приложение обычно требует тщательного подбора набора данных, многочасового обучения и высокой вычислительной мощности. Хотя эти модели предлагают прочную основу в знаниях, их жёсткость в работе с новыми областями при минимальном объёме данных остаётся основным ограничением.
Проблема настройки LLM для новых задач
Основная трудность заключается в адаптации базовых моделей к уникальным приложениям без повторения дорогостоящих и трудоёмких циклов обучения. Большинство решений сегодня основаны на создании новых адаптеров для каждой задачи, которые представляют собой отдельные компоненты, обученные управлять поведением модели. Эти адаптеры необходимо создавать с нуля для каждой задачи, и любые преимущества, полученные в одном приложении, часто не могут быть перенесены в другое.
Процесс адаптации занимает много времени и не масштабируется. Более того, настройка моделей на конкретных наборах данных обычно требует высокого уровня точности в выборе гиперпараметров, а неспособность найти правильную конфигурацию может привести к плохим результатам. Даже когда адаптация успешна, результатом часто становится большая коллекция изолированных компонентов, специфичных для конкретной задачи, которые нелегко интегрировать или повторно использовать.
Введение в Text-to-LoRA
В ответ на эти ограничения исследователи приняли Low-Rank Adaptation (LoRA), метод, который модифицирует только небольшой набор параметров, а не всю модель. LoRA внедряет низкоранговые матрицы в определённые слои замороженной LLM, позволяя базовым весам оставаться неизменными, одновременно обеспечивая настройку для конкретных задач. Этот метод уменьшает количество обучаемых параметров. Однако для каждой задачи всё равно необходимо обучать новый адаптер LoRA с нуля.
Исследователи из Sakana AI представили Text-to-LoRA (T2L), предназначенную для мгновенной генерации адаптеров LoRA для конкретных задач на основе текстовых описаний целевой задачи, вместо создания и обучения новых адаптеров для каждой задачи. T2L функционирует как гиперсеть, способная выводить веса адаптера за один проход вперёд.
Архитектура T2L
Архитектура T2L использует комбинацию специфичных для модуля и специфичных для слоя внедрений для управления процессом генерации. Были протестированы три варианта архитектуры: большая версия с 55 миллионами параметров, средняя с 34 миллионами и малая с 5 миллионами. Несмотря на различия в размере, все модели были способны генерировать необходимые низкоранговые матрицы для работы адаптера.
Обучение использовало набор данных Super Natural Instructions для 479 задач, каждая из которых была описана на естественном языке и закодирована в векторной форме. Объединяя эти описания с изученными внедрениями слоёв и модулей, T2L создаёт низкоранговые матрицы A и B, необходимые для работы адаптера. Это позволяет одной модели заменить сотни вручную созданных LoRAs, обеспечивая стабильные результаты при гораздо меньшем объёме вычислений.
Показатели производительности и масштабируемость T2L
В таких тестах, как Arc-easy и GSM8K, T2L соответствовал или превосходил производительность адаптеров LoRA для конкретных задач. Например, точность на Arc-easy с использованием T2L составила 76,6%, что соответствует точности лучшего вручную настроенного адаптера. На BoolQ он достиг 89,9%, немного превзойдя исходный адаптер.
Даже на более сложных тестах, таких как PIQA и Winogrande, где переобучение обычно снижает производительность, T2L показал лучшие результаты, чем вручную обученные адаптеры. Эти улучшения, как полагают, связаны с потерей сжатия, присущей обучению гиперсети, которая действует как форма регуляризации.
При увеличении количества обучающих наборов данных с 16 до 479 производительность в условиях нулевого выстрела существенно улучшилась, что показывает способность T2L обобщать при более широкой экспозиции во время обучения.
Ключевые выводы из исследования:
* T2L позволяет мгновенно адаптировать LLM, используя только описания на естественном языке.
* Поддерживает нулевое обобщение для задач, не виденных во время обучения.
* Были протестированы три варианта архитектуры T2L с количеством параметров 55 млн, 34 млн и 5 млн.
* Тесты включают ArcE, BoolQ, GSM8K, Hellaswag, PIQA, MBPP и другие.
* T2L достиг эталонной точности 76,6% (ArcE), 89,9% (BoolQ) и 92,6% (Hellaswag).
* Соответствовал или превосходил вручную обученные LoRAs по производительности на множестве задач.
* Обучен на 479 задачах из набора данных Super Natural Instructions.
* T2L использует модель gte-large-en-v1.5 для генерации внедрений задач.
* Адаптеры LoRA, созданные T2L, нацелены только на проекции запросов и значений в блоках внимания, всего 3,4 млн параметров.
* Производительность оставалась стабильной даже при более высокой потере реконструкции, что свидетельствует об устойчивости к сжатию.
В заключение, это исследование подчёркивает значительный шаг вперёд в гибкой и эффективной адаптации моделей. Вместо того чтобы полагаться на повторяющиеся ресурсоёмкие процедуры, T2L использует сам естественный язык в качестве механизма управления, позволяя моделям специализироваться с помощью простых описаний задач. Эта возможность значительно сокращает время и затраты, необходимые для адаптации LLM к новым областям.
Более того, это предполагает, что при наличии достаточного количества предварительных адаптеров для обучения будущие модели потенциально могут адаптироваться за секунды к любой задаче, описанной на простом английском языке. Использование гиперсетей для динамического конструирования адаптеров также означает, что для специализации модели требуется меньше места для хранения, что ещё больше повышает практичность этого метода в производственных средах.