От 100 000 до менее 500 меток: как ИИ Google сокращает данные для обучения больших языковых моделей на порядки

Исследователи из Google представили инновационный метод тонкой настройки больших языковых моделей (БЯМ), который сокращает объём необходимых данных для обучения до 10 000 раз, сохраняя или даже улучшая качество модели. Этот подход основан на активном обучении и сосредоточении усилий экспертов по разметке на наиболее информативных примерах — «пограничных случаях», где модель наиболее неопределённа.

Традиционные узкие места

Тонкая настройка БЯМ для задач, требующих глубокого понимания контекста и культуры, таких как безопасность рекламного контента или модерация, обычно требует огромных объёмов высококачественных размеченных наборов данных. Большая часть данных безобидна, а для обнаружения нарушений политик важна лишь малая часть примеров, что увеличивает стоимость и сложность курирования данных.

Стандартные методы также не справляются, когда политики или проблемные шаблоны меняются, что требует дорогостоящего переобучения.

Прорыв Google в области активного обучения

Как это работает:

1. LLM-как-разведчик: БЯМ используется для сканирования огромного корпуса (сотни миллиардов примеров) и выявления случаев, в которых она наименее уверена.
2. Целевая разметка экспертами: вместо того чтобы разметить тысячи случайных примеров, эксперты-люди аннотируют только пограничные, запутанные элементы.
3. Итеративное курирование: этот процесс повторяется, причём каждая партия новых «проблемных» примеров формируется на основе точек неопределённости последней модели.
4. Быстрая сходимость: модели настраиваются в несколько раундов, и итерация продолжается до тех пор, пока выходные данные модели не будут соответствовать экспертному суждению — это измеряется с помощью каппа Коэна, который сравнивает согласие между аннотаторами сверх случайного.

Влияние:

* Потребность в данных резко снижается: в экспериментах с моделями Gemini Nano-1 и Nano-2 согласование с экспертами достигло паритета или улучшилось, используя 250–450 тщательно отобранных примеров вместо ~100 000 случайных краудсорсинговых меток — сокращение на три-четыре порядка.
* Качество модели повышается: для более сложных задач и крупных моделей улучшения производительности достигли 55–65% по сравнению с базовым уровнем, демонстрируя более надёжное согласование с экспертами-политиками.
* Эффективность разметки: для надёжных результатов при использовании небольших наборов данных необходимо высокое качество разметки (каппа Коэна > 0,8).

Почему это важно

Этот подход меняет традиционную парадигму. Вместо того чтобы топить модели в огромных объёмах шумных, избыточных данных, он использует способность БЯМ выявлять неоднозначные случаи и экспертные знания людей-аннотаторов там, где их вклад наиболее ценен.

Преимущества:

* Снижение затрат: значительно меньшее количество примеров для разметки, что резко снижает трудозатраты и капиталовложения.
* Более быстрые обновления: возможность переобучать модели на нескольких примерах делает адаптацию к новым моделям злоупотреблений, изменениям политик или изменениям в предметной области быстрой и осуществимой.
* Влияние на общество: расширение возможностей для понимания контекста и культуры повышает безопасность и надёжность автоматизированных систем, обрабатывающих чувствительный контент.

В заключение

Новая методология Google позволяет настраивать БЯМ для сложных, развивающихся задач, используя всего лишь сотни (а не сотни тысяч) целенаправленных, высококачественных меток — открывая путь к более экономичным, гибким и экономически эффективным разработкам моделей.

Ознакомьтесь с технической статьёй в блоге Google. Не стесняйтесь посетить нашу страницу на GitHub, чтобы найти учебные пособия, коды и ноутбуки. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

⭐ Поддержите нас на GitHub
Присоединяйтесь к нашему ML Subreddit
Спонсируйте нас

1. Какие проблемы решает инновационный метод тонкой настройки больших языковых моделей (БЯМ), представленный исследователями из Google?

Исследователи из Google представили метод, который сокращает объём данных для обучения БЯМ до 10 000 раз, сохраняя или даже улучшая качество модели. Это решает проблему необходимости огромных объёмов высококачественных размеченных наборов данных для тонкой настройки БЯМ.

2. Какие этапы включает в себя процесс активного обучения, представленный в статье?

Процесс активного обучения включает в себя следующие этапы:
* БЯМ используется для сканирования огромного корпуса и выявления случаев, в которых она наименее уверена.
* Эксперты-люди аннотируют только пограничные, запутанные элементы.
* Этот процесс повторяется, причём каждая партия новых «проблемных» примеров формируется на основе точек неопределённости последней модели.
* Модели настраиваются в несколько раундов, и итерация продолжается до тех пор, пока выходные данные модели не будут соответствовать экспертному суждению.

3. Какие преимущества предлагает новый подход к тонкой настройке БЯМ по сравнению с традиционными методами?

Новый подход предлагает следующие преимущества:
* Снижение затрат: меньшее количество примеров для разметки, что снижает трудозатраты и капиталовложения.
* Более быстрые обновления: возможность переобучать модели на нескольких примерах делает адаптацию к новым моделям злоупотреблений, изменениям политик или изменениям в предметной области быстрой и осуществимой.
* Влияние на общество: расширение возможностей для понимания контекста и культуры повышает безопасность и надёжность автоматизированных систем, обрабатывающих чувствительный контент.

4. Как измеряется соответствие выходных данных модели экспертному суждению?

Соответствие выходных данных модели экспертному суждению измеряется с помощью каппа Коэна, который сравнивает согласие между аннотаторами сверх случайного.

5. Какие результаты были достигнуты в экспериментах с моделями Gemini Nano-1 и Nano-2?

В экспериментах с моделями Gemini Nano-1 и Nano-2 согласование с экспертами достигло паритета или улучшилось, используя 250–450 тщательно отобранных примеров вместо ~100 000 случайных краудсорсинговых меток — сокращение на три-четыре порядка. Для более сложных задач и крупных моделей улучшения производительности достигли 55–65% по сравнению с базовым уровнем.

Источник