Рецепт многоэтапного и смешанного обучения с подкреплением Enigmata обеспечивает прорывную производительность в решении головоломок большими языковыми моделями

Большие модели рассуждений (LRMs), обученные на больших языковых моделях (LLMs) с помощью обучения с подкреплением (RL), демонстрируют высокие результаты в сложных задачах, включая математику, STEM и кодирование. Однако существующие LRMs сталкиваются с трудностями при выполнении различных задач, требующих чисто логических навыков, которые легко даются людям.

Текущие методы работы с головоломками сосредоточены только на разработке эталонных тестов для оценки, не имея при этом методов обучения и ресурсов для современных LLMs, способных решить эту задачу. Наборы данных для головоломок не обладают разнообразием и масштабируемостью, охватывая ограниченные типы головоломок с небольшим контролем над генерацией или сложностью.

Обучение с подкреплением и проверяемые вознаграждения

Обучение с подкреплением с проверяемыми вознаграждениями (RLVR) стало ключевым методом для улучшения способностей моделей к рассуждению, устраняя необходимость в моделях вознаграждения за счёт прямого назначения вознаграждений на основе объективно проверяемых ответов. Головоломки особенно хорошо подходят для RLVR. Однако большинство предыдущих исследований RLVR упустили потенциал головоломок для эффективной передачи сигналов вознаграждения.

Исследователи из ByteDance Seed, Фуданьского университета, Университета Цинхуа, Нанкинского университета и Шанхайского университета Цзяо Тун предложили Enigmata — первый всеобъемлющий инструментарий, разработанный для улучшения LLMs с навыками решения головоломок. Он содержит 36 задач по семи категориям, каждая из которых оснащена генератором, создающим неограниченное количество примеров с контролируемой сложностью, и верификатором на основе правил для автоматической оценки.

Enigmata-Eval и оптимизация стратегий RLVR

Исследователи разработали Enigmata-Eval как строгий эталон и создали оптимизированные стратегии многозадачного RLVR. Данные для головоломок из Enigmata улучшают производительность SoTA в задачах по высшей математике и STEM-рассуждениям, таких как AIME, BeyondAIME и GPQA, при обучении на более крупных моделях, таких как Seed1.5-Thinking. Это демонстрирует преимущества обобщения Enigmata.

Набор данных Enigmata-Data включает 36 задач, организованных в 7 основных категорий, включая криптографию, арифметику, логику, сетки, графы, поиск и последовательные головоломки. Это единственный набор данных, имеющий несколько категорий задач с масштабируемостью, автоматической проверкой и общедоступностью.

Структура набора данных Enigmata

Построение данных осуществляется в три этапа: сбор и проектирование задач, разработка автогенератора и верификатора, а также контроль сложности. Enigmata-Eval разработан путём систематического отбора из более широкого набора данных, с целью извлечения 50 экземпляров для каждого уровня сложности по каждой задаче.

Предлагаемая модель превосходит большинство общедоступных моделей на Enigmata-Eval с 32 миллиардами параметров, демонстрируя эффективность набора данных и методики обучения. Модель выделяется на сложном бенчмарке ARC-AGI, превосходя такие мощные модели рассуждений, как Gemini 2.5 Pro, o3-mini и o1.

Qwen2.5-32B-Enigmata демонстрирует выдающуюся производительность в категориях структурированного рассуждения, превосходя в задачах по криптографии, арифметике и логике, что свидетельствует об эффективном развитии способностей к рассуждению на основе правил. Модель демонстрирует конкурентоспособную производительность в поисковых задачах, требующих стратегического исследования и планирования.

В этой статье исследователи представили Enigmata — комплексный набор инструментов для оснащения LLMs продвинутыми навыками решения головоломок, который легко интегрируется с RL с помощью проверяемых вознаграждений на основе правил.

Обученная модель Enigmata демонстрирует превосходную производительность и устойчивые навыки обобщения благодаря обучению с подкреплением. Эксперименты показывают, что при применении к более крупным моделям, таким как Seed1.5-Thinking (20B/200B параметров), синтетические данные для головоломок приносят дополнительные преимущества в других областях, включая математику и STEM-рассуждения, по сравнению с современными моделями.

Enigmata предоставляет прочную основу для исследовательского сообщества по развитию моделей рассуждений, предлагая унифицированную структуру, которая эффективно связывает решение логических головоломок с более широкими возможностями рассуждений в LLMs.

Источник

Оставьте комментарий