Неконтролируемая адаптация базовых моделей искусственного интеллекта: новые горизонты в обучении без размеченных данных

Основы модели искусственного интеллекта, часто представляющие собой массивные нейронные сети, обученные на обширных текстовых и графических данных, значительно изменили подход к выполнению задач, связанных с языком и зрением. Эти модели предназначены не для выполнения одной конкретной задачи, а для обобщения широкого спектра задач за счёт использования своих знаний, полученных в процессе предварительного обучения. После обучения они могут генерировать связные ответы, классифицировать изображения или решать задачи без необходимости нового обучения, специфичного для конкретной задачи. Их масштабируемость и возможность повторного использования в разных областях делают их краеугольным камнем в разработке искусственного интеллекта.

Несмотря на широкий спектр возможностей, существует постоянная проблема, связанная с адаптацией этих моделей к новым, ранее не встречавшимся задачам. В большинстве случаев для достижения высокой производительности необходимо предоставить им специально разработанные подсказки или размеченные примеры, которые помогут модели понять, как действовать. Однако этот процесс требует дополнительных усилий, так как разработка подсказок включает в себя метод проб и ошибок, а сбор размеченных примеров может быть дорогостоящим и трудоёмким. Кроме того, в реальных приложениях такие вспомогательные данные не всегда могут быть легко доступны, что ограничивает возможность использования базовых моделей в условиях отсутствия предварительных данных.

Для преодоления этого разрыва между универсальностью и производительностью в конкретных задачах были использованы несколько стратегий. Обучение в контексте позволяет моделям имитировать задачу путём включения примеров пар «вход-выход» во время логического вывода, а контролируемая тонкая настройка корректирует веса модели с использованием размеченных данных. Ещё один метод, разработка подсказок, предполагает создание подсказок, которые направляют модель к желаемым результатам. Хотя эти инструменты успешно повышают производительность, каждый из них зависит от внешней поддержки — либо ввода данных человеком, либо размеченных данных, — что делает их менее жизнеспособными в полностью неконтролируемых условиях.

Исследователи Швейцарского федерального технологического института в Лозанне (EPFL) представили совместную систему логического вывода, которая поддерживает неконтролируемую адаптацию. Эта система позволяет базовым моделям выполнять скоординированные прогнозы для нескольких входных данных без необходимости использования достоверных данных или вручную созданных подсказок. Исследовательская группа представила два конкретных метода в рамках этой системы: неконтролируемая тонкая настройка и неконтролируемое обучение в контексте. Эти методы позволяют моделям, включая модели с закрытыми весами, такие как GPT-4, повышать точность без внешнего руководства.

Подход к неконтролируемой тонкой настройке заключается в том, что модель итеративно улучшает свои прогнозы, используя только свою обратную связь. Он формулирует оптимизационную цель, при которой прогнозы для пакета входных данных генерируются вместе, и их совместная вероятность максимизируется. Этот метод использует LoRA (адаптацию низкого ранга) для эффективного обновления весов и вводит шаг регуляризации, чтобы избежать тривиальных решений, таких как предсказание одного и того же ответа для всех входных данных. Исследователи разработали неконтролируемое обучение в контексте для ситуаций, когда доступ к весам недоступен, например, для GPT-4. Этот метод имитирует эффект размеченного ICL, используя ранее сгенерированные выходные данные в качестве псевдометок, уточняя прогнозы за несколько итераций без аннотаций человека. Каждая итерация включает в себя настройку модели на основе предыдущих примеров и разработку более точного ответа, имитируя цикл контролируемого обучения с использованием самостоятельно сгенерированных данных.

Улучшения производительности, достигнутые с помощью этих неконтролируемых методов, были значительными. На наборе данных GSM8K, предназначенном для математических рассуждений, неконтролируемый ICL, применённый к модели Qwen2.5-Math, позволил добиться абсолютного улучшения на 39,2% по сравнению со стандартным базовым уровнем без предварительных данных. Аналогично для модели Llama-3.1-8B, протестированной на 13 задачах обработки естественного языка, неконтролируемая тонкая настройка обеспечила средний прирост точности на 23%. Она соответствовала производительности полностью контролируемой тонкой настройки в 6 из 13 задач. В задачах обработки визуальной информации неконтролируемый ICL также продемонстрировал высокие результаты — прирост на 23% на наборе данных Food101 и значительное улучшение по другим бенчмаркам. Исследование даже распространилось на GPT-4o, модель с закрытыми весами, где было отмечено улучшение на 3% на ImageNet, что подтверждает универсальность этой системы.

Эта работа демонстрирует значимый сдвиг в подходах к адаптации базовых моделей. Исследователи успешно преодолели основное ограничение — зависимость от размеченных данных и ручной настройки, — представив надёжную и масштабируемую стратегию самостоятельного обучения. Их совместная система логического вывода — это практичный и обобщаемый подход, который переопределяет границы неконтролируемого обучения для крупномасштабных моделей искусственного интеллекта.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *