Как разработать законы масштабирования для эффективного обучения больших языковых моделей и оптимизации бюджета

При разработке больших языковых моделей (LLM) исследователи стремятся максимизировать производительность в рамках определённого вычислительного и финансового бюджета. Поскольку обучение модели может стоить миллионы долларов, разработчики должны тщательно принимать решения, влияющие на затраты, например, о выборе архитектуры модели, оптимизаторов и обучающих наборов данных, прежде чем приступить к созданию модели.

Чтобы предвидеть качество и точность прогнозов большой модели, практики часто обращаются к законам масштабирования: используя меньшие и более дешёвые модели, они пытаются приблизительно оценить производительность гораздо более крупной целевой модели. Однако проблема заключается в том, что существует тысячи способов создания закона масштабирования.

Новая работа исследователей из MIT и MIT-IBM Watson AI Lab

Исследователи из MIT и MIT-IBM Watson AI Lab собрали и выпустили коллекцию из сотен моделей и метрик, касающихся обучения и производительности, чтобы аппроксимировать более тысячи законов масштабирования. На основе этого материала команда разработала метаанализ и руководство по выбору небольших моделей и оценке законов масштабирования для разных семейств моделей LLM, чтобы оптимально использовать бюджет для получения надёжных прогнозов производительности.

«Идея о том, что вы можете попытаться построить математические модели процесса обучения, существует уже пару лет, но, я думаю, здесь новым является то, что большинство работ, которые люди делали раньше, были посвящены вопросу: можем ли мы сказать что-то постфактум о том, что произошло, когда мы обучили все эти модели, чтобы, когда мы пытаемся выяснить, как обучить новую крупномасштабную модель, мы могли бы принимать наилучшие решения о том, как использовать наш вычислительный бюджет?» — говорит Джейкоб Андреас, доцент кафедры электротехники и компьютерных наук и главный исследователь в MIT-IBM Watson AI Lab.

Экстраполяция производительности

Разработка LLM — дорогостоящее занятие: от принятия решений относительно количества параметров и токенов, выбора и размера данных до определения точности вывода и настройки под целевые приложения и задачи. Законы масштабирования предлагают способ прогнозирования поведения модели, связывая потери большой модели с производительностью меньших, менее затратных моделей из того же семейства, избегая необходимости полностью обучать каждую модель-кандидат.

Функциональная форма законов масштабирования относительно проста, включая компоненты из малых моделей, которые отражают количество параметров и их масштабирующий эффект, количество обучающих токенов и их масштабирующий эффект, а также базовую производительность для интересующего семейства моделей. Вместе они помогают исследователям оценить потери производительности целевой большой модели; чем меньше потери, тем выше вероятность того, что выходные данные целевой модели будут качественными.

Эти законы позволяют исследовательским группам эффективно взвешивать компромиссы и тестировать, как лучше всего распределить ограниченные ресурсы. Они особенно полезны для оценки масштабирования определённой переменной, например, количества токенов, и для A/B-тестирования различных настроек предварительного обучения.

Создание более совершенных законов

Чтобы исследовать это, Лешем Чошен, Джейкоб Андреас и Ян Чжан создали большой набор данных. Они собрали LLM из 40 семейств моделей, включая Pythia, OPT, OLMO, LLaMA, Bloom, T5-Pile, ModuleFormer mixture-of-experts, GPT и другие семейства. В набор вошли 485 уникальных предварительно обученных моделей, а также данные об их контрольных точках обучения, вычислительных затратах (FLOPs), эпохах обучения и начальном значении, а также 1,9 миллиона показателей производительности потерь и последующих задач.

Используя эти модели, исследователи подобрали более 1000 законов масштабирования и сравнили их точность для разных архитектур, размеров моделей и режимов обучения, а также проверили, как количество моделей, включение промежуточных контрольных точек обучения и частичное обучение влияют на прогностическую силу законов масштабирования для целевых моделей. Они использовали измерения абсолютной относительной ошибки (ARE); это разница между прогнозом закона масштабирования и наблюдаемыми потерями большой обученной модели.

Команда сравнила законы масштабирования и после анализа сформулировала практические рекомендации для специалистов по искусственному интеллекту о том, что делает эффективные законы масштабирования.

Исследователи выявили несколько факторов, улучшающих прогнозы, например, включение промежуточных контрольных точек обучения, а не полагаться только на окончательные потери; это сделало законы масштабирования более надёжными. Однако очень ранние данные обучения до 10 миллиардов токенов являются шумными, снижают точность и должны быть отброшены.

В целом, включение более крупных моделей улучшает прогноз, но затраты можно сократить, частично обучив целевую модель примерно до 30 процентов её набора данных и используя её для экстраполяции. Если бюджет значительно ограничен, разработчикам следует рассмотреть возможность обучения одной небольшой модели в рамках семейства целевых моделей и заимствовать параметры закона масштабирования из семейства моделей со схожей архитектурой; однако это может не сработать для моделей кодировщик-декодер.

Группа исследователей MIT-IBM обнаружила, что при сравнении законов масштабирования между семействами моделей существует сильная корреляция между двумя наборами гиперпараметров, что означает, что три из пяти гиперпараметров объясняют почти все вариации и могут, вероятно, отражать поведение модели.

Вместе эти рекомендации обеспечивают систематический подход к оценке законов масштабирования более эффективно, надёжно и доступно для исследователей в области искусственного интеллекта, работающих при различных бюджетных ограничениях.

1. Какие проблемы существуют при разработке законов масштабирования для больших языковых моделей?

При разработке законов масштабирования для больших языковых моделей существует проблема многообразия подходов. Существует тысячи способов создания закона масштабирования, что затрудняет выбор наиболее подходящего метода.

2. Какие факторы влияют на эффективность законов масштабирования?

На эффективность законов масштабирования влияют такие факторы, как включение промежуточных контрольных точек обучения, размер моделей, частичное обучение и выбор гиперпараметров. Включение более крупных моделей улучшает прогноз, но затраты можно сократить, частично обучив целевую модель примерно до 30 процентов её набора данных и используя её для экстраполяции.

3. Какие практические рекомендации можно сформулировать для специалистов по искусственному интеллекту на основе исследования?

На основе исследования можно сформулировать следующие практические рекомендации для специалистов по искусственному интеллекту:
* Использовать промежуточные контрольные точки обучения для повышения надёжности законов масштабирования.
* Отбрасывать очень ранние данные обучения до 10 миллиардов токенов, так как они снижают точность.
* Рассмотреть возможность частичного обучения целевой модели до 30 процентов её набора данных для сокращения затрат.
* При ограниченном бюджете рассмотреть возможность обучения одной небольшой модели в рамках семейства целевых моделей и заимствовать параметры закона масштабирования из семейства моделей со схожей архитектурой. Однако это может не сработать для моделей кодировщик-декодер.

4. Какие методы использовали исследователи для подбора законов масштабирования?

Исследователи использовали следующие методы для подбора законов масштабирования:
* Собрали большой набор данных, включающий LLM из 40 семейств моделей.
* Подбрали более 1000 законов масштабирования и сравнили их точность для разных архитектур, размеров моделей и режимов обучения.
* Использовали измерения абсолютной относительной ошибки (ARE) для оценки точности законов масштабирования.

5. Какие выводы сделали исследователи относительно корреляции между гиперпараметрами и поведением модели?

Исследователи обнаружили, что при сравнении законов масштабирования между семействами моделей существует сильная корреляция между двумя наборами гиперпараметров. Это означает, что три из пяти гиперпараметров объясняют почти все вариации и могут, вероятно, отражать поведение модели.

Источник