Новый метод может повысить эффективность обучения больших языковых моделей (LLM)

Большие языковые модели (LLM) предназначены для решения сложных задач путём разбиения их на более мелкие шаги. Эти мощные модели особенно хороши в таких сложных задачах, как продвинутое программирование и многоэтапное планирование.

Однако разработка моделей рассуждений требует огромных вычислительных ресурсов и энергии из-за неэффективности процесса обучения. Пока одни мощные процессоры непрерывно обрабатывают сложные запросы, другие в группе простаивают.

Исследователи из Массачусетского технологического института (MIT) и других организаций нашли способ использовать это вычислительное время простоя для эффективного ускорения обучения моделей рассуждений.

Их новый метод автоматически обучает более мелкую и быструю модель для прогнозирования выходных данных большой модели рассуждений LLM, которую затем проверяет большая модель. Это сокращает объём работы, который должна выполнять модель рассуждений, ускоряя процесс обучения.

Ключ к этой системе — её способность адаптивно обучать и развёртывать более мелкую модель, чтобы она включалась только тогда, когда некоторые процессоры простаивают. Используя вычислительные ресурсы, которые в противном случае были бы потрачены впустую, она ускоряет обучение без дополнительных накладных расходов.

При тестировании на нескольких моделях рассуждений LLM метод удвоил скорость обучения, сохранив при этом точность. Это может снизить затраты и повысить энергоэффективность разработки продвинутых LLM для таких приложений, как прогнозирование финансовых тенденций или обнаружение рисков в энергосистемах.

«Люди хотят, чтобы модели могли решать более сложные задачи. Но если это цель разработки моделей, то нам нужно уделять приоритетное внимание эффективности. Мы нашли решение этой проблемы без потерь и разработали полнофункциональную систему, которая может обеспечить довольно значительное ускорение на практике», — говорит Цинхао Ху, постдок MIT и соавтор исследования.

Узкое место в обучении

Разработчики хотят, чтобы модели рассуждений LLM выявляли и исправляли ошибки в своём процессе критического мышления. Эта возможность позволяет им решать сложные запросы, с которыми не справилась бы стандартная LLM.

Чтобы научить их этому навыку, разработчики обучают модели рассуждений LLM с помощью метода, называемого подкрепляющим обучением (RL). Модель генерирует несколько потенциальных ответов на запрос, получает вознаграждение за лучший вариант и обновляется на основе лучшего ответа. Эти шаги повторяются тысячи раз, пока модель обучается.

Но исследователи обнаружили, что процесс генерации нескольких ответов, называемый развёртыванием, может занимать до 85% времени выполнения, необходимого для обучения RL.

«Обновление модели — то есть собственно «обучение» — занимает по сравнению с этим очень мало времени», — говорит Ху.

Это узкое место возникает в стандартных алгоритмах RL, потому что все процессоры в обучающей группе должны завершить свои ответы, прежде чем они смогут перейти к следующему шагу. Поскольку некоторые процессоры могут работать над очень длинными ответами, другие, которые сгенерировали более короткие ответы, ждут их завершения.

«Наша цель состояла в том, чтобы превратить это время простоя в ускорение без каких-либо дополнительных затрат», — добавляет Ху.

Они стремились использовать существующую технику, называемую спекулятивным декодированием, для ускорения процесса. Спекулятивное декодирование включает в себя обучение более мелкой модели, называемой составителем, для быстрого угадывания будущих выходных данных большой модели.

Большая модель проверяет предположения составителя, и ответы, которые она принимает, используются для обучения.

Поскольку большая модель может проверять все предположения составителя одновременно, а не генерировать каждый вывод последовательно, это ускоряет процесс.

Адаптивное решение

Но в спекулятивном декодировании модель составителя обычно обучается только один раз и остаётся статичной. Это делает технику непригодной для подкрепляющего обучения, поскольку модель рассуждений обновляется тысячи раз во время обучения.

Статичный составитель быстро устареет и станет бесполезным после нескольких шагов.

Чтобы решить эту проблему, исследователи создали гибкую систему, известную как «Приручение длинного хвоста», или TLT.

Первая часть TLT — это адаптивный тренер составителя, который использует свободное время на простаивающих процессорах для обучения модели составителя на лету, поддерживая её в соответствии с целевой моделью без использования дополнительных вычислительных ресурсов.

Второй компонент, адаптивный механизм развёртывания, управляет спекулятивным декодированием для автоматического выбора оптимальной стратегии для каждого нового пакета входных данных. Этот механизм изменяет конфигурацию спекулятивного декодирования на основе характеристик рабочей нагрузки при обучении, таких как количество входных данных, обработанных моделью-составителем, и количество входных данных, принятых целевой моделью во время проверки.

Кроме того, исследователи разработали модель составителя так, чтобы она была лёгкой, и её можно было быстро обучить. TLT повторно использует некоторые компоненты процесса обучения модели рассуждений для обучения составителя, что приводит к дополнительному ускорению.

«Как только некоторые процессоры завершат свои короткие запросы и станут простаивать, мы немедленно переключаем их на обучение модели составителя, используя те же данные, которые они используют для процесса развёртывания. Ключевой механизм — наше адаптивное спекулятивное декодирование — без него эти достижения были бы невозможны», — говорит Ху.

Они протестировали TLT на нескольких моделях рассуждений LLM, обученных с использованием реальных наборов данных. Система ускорила обучение на 70–210%, сохранив при этом точность каждой модели.

В качестве дополнительного бонуса небольшую модель составителя можно было легко использовать для эффективного развёртывания в качестве бесплатного побочного продукта.

В будущем исследователи хотят интегрировать TLT в больше типов систем обучения и логического вывода и найти новые приложения для подкрепляющего обучения, которые можно было бы ускорить с помощью этого подхода.

«Поскольку рассуждения продолжают оставаться основной рабочей нагрузкой, определяющей спрос на логический вывод, TLT Цинхао — отличная работа для решения проблемы вычислительных узких мест при обучении этих моделей рассуждений. Я думаю, что этот метод будет очень полезен в контексте эффективных вычислений в сфере ИИ», — говорит Хан.

Это исследование финансируется Лабораторией MIT-IBM Watson AI Lab, Программой MIT AI Hardware, Центром научных исследований MIT Amazon, компанией Hyundai Motor Company и Национальным научным фондом.

1. Какие проблемы решает новый метод, предложенный исследователями из Массачусетского технологического института (MIT)?

Новый метод, предложенный исследователями из MIT, решает проблему неэффективности процесса обучения больших языковых моделей (LLM). Он использует вычислительное время простоя для ускорения обучения моделей рассуждений, сокращая объём работы, который должна выполнять модель рассуждений.

2. Как работает новый метод, и какие компоненты он включает?

Новый метод включает в себя адаптивный тренер составителя, который использует свободное время на простаивающих процессорах для обучения модели составителя на лету, поддерживая её в соответствии с целевой моделью без использования дополнительных вычислительных ресурсов. Второй компонент — адаптивный механизм развёртывания, который управляет спекулятивным декодированием для автоматического выбора оптимальной стратегии для каждого нового пакета входных данных.

3. Какие результаты были получены при тестировании нового метода на моделях LLM?

При тестировании на нескольких моделях рассуждений LLM метод удвоил скорость обучения, сохранив при этом точность. Это может снизить затраты и повысить энергоэффективность разработки продвинутых LLM для таких приложений, как прогнозирование финансовых тенденций или обнаружение рисков в энергосистемах.

4. Какие перспективы открывает использование нового метода в будущем?

Исследователи хотят интегрировать TLT в больше типов систем обучения и логического вывода и найти новые приложения для подкрепляющего обучения, которые можно было бы ускорить с помощью этого подхода. Это может привести к дальнейшему улучшению эффективности и снижению затрат на разработку продвинутых LLM.

5. Какие организации финансировали исследование?

Исследование финансировалось Лабораторией MIT-IBM Watson AI Lab, Программой MIT AI Hardware, Центром научных исследований MIT Amazon, компанией Hyundai Motor Company и Национальным научным фондом.

Источник