OMEGA: структурированный математический бенчмарк для исследования пределов рассуждений больших языковых моделей

Введение в обобщение в математических рассуждениях

Крупномасштабные языковые модели с длинными цепочками рассуждений (CoT), такие как DeepSeek-R1, показали хорошие результаты в решении математических задач олимпиадного уровня. Однако модели, обученные с помощью контролируемой точной настройки (Supervised Fine-Tuning) или обучения с подкреплением (Reinforcement Learning), зависят от ограниченных методов, таких как повторение известных правил алгебры или использование координатной геометрии в задачах с диаграммами. Поскольку эти модели следуют изученным шаблонам рассуждений, а не проявляют истинное математическое творчество, они сталкиваются с трудностями при выполнении сложных задач, требующих оригинальных подходов.

Текущие математические наборы данных плохо подходят для анализа математических навыков, которым могут научиться модели RL. Крупномасштабные корпуса объединяют множество математических вопросов, различающихся по тематике и сложности, что затрудняет выделение конкретных навыков рассуждения.

Ограничения существующих математических бенчмарков

Текущие методы, такие как обобщение за пределами распределения (Out-of-Distribution generalization), сосредоточены на обработке тестовых распределений, которые отличаются от обучающих данных, что имеет решающее значение для математических рассуждений, физического моделирования и финансового прогнозирования. Методы композиционного обобщения направлены на то, чтобы помочь моделям систематически комбинировать изученные навыки.

Исследователи создали наборы данных различными методами для оценки математических способностей, включая найм людей для написания задач (например, GSM8K и MinervaMath), сбор экзаменационных вопросов (таких как AIME и OlympiadBench) и сбор и фильтрацию экзаменационных корпусов (например, NuminaMath и BigMath). Однако эти подходы либо не обеспечивают достаточной сложности для современных LLM, либо не позволяют провести детальный анализ.

Представление OMEGA: контролируемый бенчмарк для оценки навыков рассуждения

Исследователи из Калифорнийского университета, Ai2, Вашингтонского университета и dmodel.ai предложили OMEGA — бенчмарк, разработанный для оценки трёх аспектов обобщения за пределами распределения, вдохновлённый типологией творчества Бодена. Он создаёт согласованные обучающие и тестовые пары, предназначенные для выделения конкретных навыков рассуждения по трём направлениям: исследовательские, композиционные и трансформационные.

Задачи тестирования и обучения в OMEGA построены с использованием тщательно разработанных шаблонов, что позволяет точно контролировать разнообразие, сложность и конкретные стратегии рассуждения, необходимые для решения. Более того, он использует 40 генераторов задач по шести математическим областям: арифметика, алгебра, комбинаторика, теория чисел, геометрия и логика & головоломки.

Оценка передовых LLM и настройка обучения с подкреплением

Исследователи оценивают четыре передовые модели, включая DeepSeek-R1, Claude-3.7-Sonnet, OpenAI-o3-mini и OpenAI-o4-mini, на разных уровнях сложности. Для экспериментов по обобщению RL фреймворк применяет алгоритм GRPO к 1000 обучающим задачам, используя модели Qwen2.5-7B-Instruct и Qwen2.5-Math-7B.

Исследователи наблюдают, что модели LLM, основанные на рассуждениях, склонны работать хуже по мере увеличения сложности задачи, часто находя правильные решения на ранних этапах, но тратя слишком много токенов на ненужную проверку. Обучение с подкреплением, применяемое только к задачам низкой сложности, улучшает обобщение до задач средней сложности, причём более значительные улучшения наблюдаются на примерах из домена, чем на примерах из других распределений, что указывает на эффективность RL в закреплении знакомых шаблонов.

Выводы: к продвижению трансформационного мышления

В заключение исследователи представили OMEGA — бенчмарк, который выделяет и оценивает три оси обобщения за пределами распределения в математических рассуждениях: исследовательские, композиционные и трансформационные. Эмпирическое исследование выявляет три вывода:

* RL-настройка значительно улучшает производительность в задачах обобщения в распределении и исследовательских задачах.
* Преимущества RL для композиционных задач ограничены.
* RL не может индуцировать действительно новые модели рассуждений.

Эти выводы подчёркивают фундаментальное ограничение: RL может усилить широту и глубину решения задач, но не может обеспечить творческие скачки, необходимые для трансформационного мышления. Будущая работа должна изучить поэтапное обучение и контроллеры метарассуждений.

🔍 Проверьте статью, страницу проекта и страницу GitHub. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

Статья «OMEGA: структурированный математический бенчмарк для исследования пределов рассуждений больших языковых моделей» впервые опубликована на MarkTechPost.

1. Какие проблемы существующих математических бенчмарков для больших языковых моделей описаны в статье?

В статье указано, что текущие математические наборы данных плохо подходят для анализа математических навыков, которым могут научиться модели RL. Они объединяют множество математических вопросов, различающихся по тематике и сложности, что затрудняет выделение конкретных навыков рассуждения.

2. Какие аспекты обобщения за пределами распределения выделяет бенчмарк OMEGA?

Бенчмарк OMEGA разработан для оценки трёх аспектов обобщения за пределами распределения: исследовательские, композиционные и трансформационные.

3. Какие выводы были сделаны в результате эмпирического исследования, проведённого авторами статьи?

Авторы статьи пришли к следующим выводам:
* RL-настройка значительно улучшает производительность в задачах обобщения в распределении и исследовательских задачах.
* Преимущества RL для композиционных задач ограничены.
* RL не может индуцировать действительно новые модели рассуждений.

4. Какие модели были оценены в исследовании?

В исследовании были оценены четыре передовые модели: DeepSeek-R1, Claude-3.7-Sonnet, OpenAI-o3-mini и OpenAI-o4-mini.

5. Какие методы и алгоритмы использовались для экспериментов по обобщению RL?

Для экспериментов по обобщению RL фреймворк применяет алгоритм GRPO к 1000 обучающим задачам, используя модели Qwen2.5-7B-Instruct и Qwen2.5-Math-7B.

Источник

Оставьте комментарий