SynPref-40M и Skywork-Reward-V2: масштабируемое согласование человека и ИИ для современных моделей вознаграждения

Понимание ограничений современных моделей вознаграждения

Хотя модели вознаграждения играют решающую роль в обучении с подкреплением на основе обратной связи от человека (RLHF), многие из наиболее эффективных открытых моделей сегодня всё ещё не могут отразить весь спектр сложных человеческих предпочтений. Даже при использовании сложных методов обучения значимый прогресс ограничен.

Основная причина, по-видимому, заключается в недостатках современных наборов данных о предпочтениях, которые часто бывают слишком узкими, искусственно сгенерированными или плохо проверенными. Хотя некоторые системы, основанные на правилах, эффективны для чётких задач, таких как математика или программирование, они обычно не могут уловить нюансы человеческого суждения.

Кроме того, общие эталонные тесты, такие как RewardBench, становятся менее надёжными индикаторами эффективности RM в реальных условиях, показывая слабую корреляцию с успехом в последующих задачах.

Проблемы при создании данных о предпочтениях и новые подходы

Создание высококачественных данных о предпочтениях традиционно основывалось на работе людей-аннотаторов, но этот метод требует много времени, затрат и иногда бывает непоследовательным.

Для решения этой проблемы в недавних методах, таких как RLAIF, используются LLM для автоматизации аннотаций, иногда даже превосходя людей. Новые подходы направлены на объединение сильных сторон обоих методов путём интеграции данных, сгенерированных LLM, с проверенными человеком метками.

Между тем, модели вознаграждения эволюционировали от простых систем подсчёта баллов, таких как модель Брэдли-Терри, к более сложным фреймворкам, включая генеративные и методы прямой оптимизации. Несмотря на наличие многочисленных надёжных открытых моделей и наборов данных, сохраняются проблемы в точном отражении нюансов человеческих предпочтений в различных задачах и языках.

Представление SynPref-40M: крупномасштабный набор данных о предпочтениях человека и ИИ

Исследователи из 2050 Research и Skywork AI представляют SynPref-40M — массивный набор данных из 40 миллионов пар предпочтений, собранных с помощью двухэтапного конвейера человек-ИИ. Люди-аннотаторы обеспечивают качество данных посредством строгой проверки, в то время как LLM масштабируют процесс курирования данных под руководством человека.

На основе этого набора данных разработана модель Skywork-Reward-V2 — семейство из восьми моделей вознаграждения (0,6 млрд–8 млрд параметров), обученных на высококачественном подмножестве из 26 млн. Эти модели достигают современных результатов по семи ведущим бенчмаркам, превосходя в согласованности, безопасности, объективности и надёжности.

Исследование подчёркивает, что успех достигается не только за счёт объёма данных, но и за счёт тщательного, итеративного курирования, сочетающего человеческий опыт с масштабируемостью ИИ.

Масштабируемый двухэтапный конвейер курирования человек-ИИ

Современные открытые модели вознаграждения часто страдают от переобучения на узких бенчмарках, таких как RewardBench, что ограничивает их полезность в реальных условиях. Для решения этой проблемы исследователи предлагают двухэтапный конвейер курирования больших объёмов данных о предпочтениях с участием человека и ИИ.

На этапе 1 используются проверенные человеком аннотации для руководства LLM в маркировке разнообразных атрибутов предпочтений, после чего следует итеративное обучение и анализ ошибок для усовершенствования модели вознаграждения.

На этапе 2 этот процесс масштабируется с помощью проверок согласованности между лучшей и обученной человеком «золотой» моделью вознаграждения, фильтрации надёжных образцов без дальнейшего участия человека.

Этот подход обеспечивает баланс между качеством и масштабируемостью, что в конечном итоге позволяет создать десятки миллионов высококачественных пар предпочтений.

Бенчмаркинг Skywork-Reward-V2: компактные, но мощные модели

Серия Skywork-Reward-V2 демонстрирует высокие результаты по множеству бенчмарков, превосходя как более крупные модели (например, 70 млрд параметров), так и новые генеративные модели вознаграждения.

Обученные с использованием Qwen3 (0,6 млрд–8 млрд) и Llama 3.1/3.2 (1 млрд–8 млрд) в качестве базовых моделей, эти модели достигают высоких баллов на RewardBench, PPE, RM-Bench и JudgeBench.

Лучший вариант (Llama-3.1-8B-40M) превосходит все остальные со средним баллом 88,6. Несмотря на меньшие размеры моделей, модели Skywork-Reward-V2 выигрывают от высококачественных данных о предпочтениях (SynPref-40M) и эффективных схем обучения, что позволяет им лучше обобщаться в реальных сценариях RLHF.

Примечательно, что даже модели среднего размера, такие как Qwen3-1.7B, превосходят некоторые модели с 70 млрд параметров, подчёркивая влияние качества обучающих данных и методологии, а не только количества параметров.

Заключение и перспективы на будущее: масштабирование с точностью

В заключение, SynPref-40M — это крупномасштабный набор данных о предпочтениях, созданный в результате двухэтапного сотрудничества человека и ИИ, сочетающий человеческое суждение с масштабируемостью на основе LLM.

Используя тщательно отобранное подмножество из 26 миллионов пар предпочтений, команда разработала Skywork-Reward-V2 — набор из восьми моделей вознаграждения (0,6 млрд–8 млрд параметров), которые превосходят существующие модели по семи ключевым бенчмаркам.

Эти модели демонстрируют сильную способность к обобщению, согласовываясь с человеческими ценностями, обеспечивая правильность, безопасность и устойчивость к предвзятости. Обширные исследования подтверждают, что качество данных и метод курирования являются ключевыми факторами производительности.

В будущем исследователи намерены изучить новые стратегии обучения, поскольку модели вознаграждения становятся центральными в разработке и согласовании LLM.

1. Какие проблемы существуют в современных моделях вознаграждения и как они влияют на обучение с подкреплением на основе обратной связи от человека (RLHF)?

В современных моделях вознаграждения есть несколько проблем, которые ограничивают их эффективность в RHLF. Среди них — недостатки современных наборов данных о предпочтениях, которые часто бывают слишком узкими, искусственно сгенерированными или плохо проверенными. Это приводит к тому, что модели не могут точно отразить весь спектр сложных человеческих предпочтений.

2. Какие новые подходы предлагаются для решения проблем при создании данных о предпочтениях?

Для решения проблем при создании данных о предпочтениях предлагаются новые подходы, которые направлены на объединение сильных сторон методов, основанных на работе людей-аннотаторов, и методов, использующих LLM для автоматизации аннотаций. Это позволяет масштабировать процесс курирования данных под руководством человека и улучшить качество данных.

3. Какие результаты демонстрируют модели Skywork-Reward-V2 на различных бенчмарках?

Модели Skywork-Reward-V2 демонстрируют высокие результаты на семи ведущих бенчмарках, превосходя в согласованности, безопасности, объективности и надёжности. Они достигают высоких баллов на RewardBench, PPE, RM-Bench и JudgeBench. Лучший вариант (Llama-3.1-8B-40M) превосходит все остальные со средним баллом 88,6.

4. Какие факторы, помимо количества параметров, влияют на производительность моделей вознаграждения?

На производительность моделей вознаграждения влияют не только количество параметров, но и качество обучающих данных и методология курирования. Исследование подчёркивает, что успех достигается не только за счёт объёма данных, но и за счёт тщательного, итеративного курирования, сочетающего человеческий опыт с масштабируемостью ИИ.

5. Каковы перспективы развития моделей вознаграждения в будущем?

Исследователи намерены изучить новые стратегии обучения, поскольку модели вознаграждения становятся центральными в разработке и согласовании LLM. Это указывает на то, что в будущем ожидается дальнейшее развитие и усовершенствование моделей вознаграждения для более точного отражения человеческих предпочтений и повышения эффективности обучения с подкреплением.

Источник

Оставьте комментарий