Исследование может привести к созданию более совершенных больших языковых моделей (LLM) в плане сложных рассуждений

Несмотря на впечатляющие возможности, большие языковые модели (LLM) часто не справляются со сложными новыми задачами, требующими навыков комплексного мышления.

Например, LLM, разработанная для бухгалтерской фирмы, может превосходно обобщать финансовые отчёты, но при этом неожиданно потерпеть неудачу, если ей поручить прогнозирование рыночных тенденций или выявление мошеннических операций.

Чтобы повысить адаптивность LLM, исследователи MIT изучили, как определённая методика обучения может быть стратегически использована для повышения производительности модели при решении незнакомых сложных задач.

Они показали, что обучение во время тестирования — метод, предполагающий временное обновление некоторых внутренних механизмов модели во время её использования, — может привести к шестикратному повышению точности. Исследователи разработали систему для реализации стратегии обучения во время тестирования, которая использует примеры новой задачи для максимизации этих достижений.

Их работа может повысить гибкость модели, позволяя готовой LLM адаптироваться к сложным задачам, требующим планирования или абстракции. Это может привести к созданию LLM, которые будут более точными во многих приложениях, требующих логических умозаключений: от медицинской диагностики до управления цепочками поставок.

«Настоящее обучение — то, что мы здесь сделали с помощью обучения во время тестирования, — это то, что эти модели не могут делать самостоятельно после того, как их выпустили. Они не могут приобретать новые навыки или совершенствоваться в выполнении задачи. Но мы показали, что если немного подтолкнуть модель к действительному обучению, можно добиться огромного улучшения производительности», — говорит Экин Акюрек, доктор философии, ведущий автор исследования.

Решение сложных задач

Пользователи LLM часто пытаются улучшить производительность своей модели на новой задаче с помощью техники, называемой обучением в контексте. Они предоставляют модели несколько примеров новой задачи в виде текстовых подсказок, которые направляют выходные данные модели.

Но обучение в контексте не всегда работает для задач, требующих логики и рассуждений.

Исследователи MIT изучили, как обучение во время тестирования можно использовать в сочетании с обучением в контексте для повышения производительности при решении этих сложных задач. Обучение во время тестирования предполагает обновление некоторых параметров модели — внутренних переменных, которые она использует для прогнозирования, — с использованием небольшого объёма новых данных, специфичных для поставленной задачи.

Исследователи изучили варианты дизайна, которые максимизируют улучшение производительности, которого можно добиться от универсальной LLM.

«Мы обнаружили, что обучение во время тестирования — это гораздо более сильная форма обучения. Простое предоставление примеров может незначительно повысить точность, но фактическое обновление модели с помощью этих примеров может привести к значительному улучшению производительности, особенно в сложных областях», — говорит Мехул Дамани.

Обучение в контексте требует небольшого набора примеров задач, включая проблемы и их решения. Исследователи используют эти примеры для создания специфичного для задачи набора данных, необходимого для обучения во время тестирования.

Чтобы расширить размер этого набора данных, они создают новые входные данные, слегка изменяя проблемы и решения в примерах, например, путём горизонтального переворота некоторых входных данных. Они обнаружили, что обучение модели на выходных данных этого нового набора данных приводит к наилучшей производительности.

Кроме того, исследователи обновляют лишь небольшое количество параметров модели с помощью метода, называемого низкоранговой адаптацией, что повышает эффективность процесса обучения во время тестирования.

«Это важно, потому что наш метод должен быть эффективным, если он будет использоваться в реальном мире. Мы обнаружили, что можно добиться огромного улучшения точности при очень небольшом объёме обучения параметров», — говорит Акюрек.

Развитие новых навыков

Оптимизация процесса имеет ключевое значение, поскольку обучение во время тестирования применяется для каждого отдельного случая, то есть пользователю необходимо делать это для каждой отдельной задачи. Обновления модели носят временный характер, и после прогнозирования модель возвращается к своей первоначальной форме.

Модель, которой обычно требуется менее минуты, чтобы ответить на запрос, с обучением во время тестирования может занять пять или десять минут, чтобы дать ответ, — добавляет Акюрек.

«Мы не хотели бы делать это для всех пользовательских запросов, но это полезно, если у вас есть очень сложная задача, которую вы хотите, чтобы модель хорошо решала. Также могут быть задачи, которые слишком сложны для LLM, чтобы решить их без этого метода», — говорит он.

Исследователи протестировали свой подход на двух эталонных наборах данных с чрезвычайно сложными задачами, такими как IQ-головоломки. Это повысило точность в шесть раз по сравнению с методами, использующими только обучение в контексте.

Задачи, которые включали структурированные шаблоны или использовали совершенно незнакомые типы данных, продемонстрировали наибольшее улучшение производительности.

«Для более простых задач обучение в контексте может подойти. Но обновление самих параметров может развить у модели новый навык», — говорит Дамани.

В будущем исследователи хотят использовать эти идеи для разработки моделей, которые постоянно учатся.

Долгосрочная цель — создать LLM, которая, получив запрос, может автоматически определить, нужно ли ей использовать обучение во время тестирования для обновления параметров или она может решить задачу с помощью обучения в контексте, а затем реализовать наилучшую стратегию обучения во время тестирования без необходимости вмешательства человека.

Это исследование частично поддержано MIT-IBM Watson AI Lab и Национальным научным фондом.

1. Какие проблемы больших языковых моделей (LLM) рассматриваются в статье?

В статье рассматривается проблема недостаточной адаптивности LLM к сложным новым задачам, требующим навыков комплексного мышления. Например, LLM, разработанная для бухгалтерской фирмы, может превосходно обобщать финансовые отчёты, но при этом неожиданно потерпеть неудачу, если ей поручить прогнозирование рыночных тенденций или выявление мошеннических операций.

2. Какой метод обучения исследователями MIT был признан наиболее эффективным для повышения производительности LLM при решении незнакомых сложных задач?

Исследователи MIT изучили методику обучения во время тестирования. Этот метод предполагает временное обновление некоторых внутренних механизмов модели во время её использования. Обучение во время тестирования может привести к шестикратному повышению точности.

3. В чём заключается отличие обучения в контексте от обучения во время тестирования?

Обучение в контексте — это техника, при которой пользователи LLM пытаются улучшить производительность своей модели на новой задаче, предоставляя модели несколько примеров новой задачи в виде текстовых подсказок. Обучение во время тестирования предполагает обновление некоторых параметров модели — внутренних переменных, которые она использует для прогнозирования, — с использованием небольшого объёма новых данных, специфичных для поставленной задачи.

4. Какие методы используются для расширения размера набора данных для обучения во время тестирования?

Для расширения размера набора данных исследователи создают новые входные данные, слегка изменяя проблемы и решения в примерах, например, путём горизонтального переворота некоторых входных данных. Они обнаружили, что обучение модели на выходных данных этого нового набора данных приводит к наилучшей производительности.

5. Какие результаты были получены исследователями при тестировании их подхода на эталонных наборах данных с чрезвычайно сложными задачами?

Исследователи протестировали свой подход на двух эталонных наборах данных с чрезвычайно сложными задачами, такими как IQ-головоломки. Это повысило точность в шесть раз по сравнению с методами, использующими только обучение в контексте. Задачи, которые включали структурированные шаблоны или использовали совершенно незнакомые типы данных, продемонстрировали наибольшее улучшение производительности.

Источник

Оставьте комментарий