Почему междоменное рассуждение важно для больших языковых моделей (LLM)
Недавние прорывы в LRM, особенно тех, что обучены с использованием техник Long CoT, показывают, что они могут впечатляюще обобщаться в разных областях. Интересно, что модели, обученные на таких задачах, как математика или кодирование, часто показывают хорошие результаты в несвязанных областях, таких как логические головоломки или творческое письмо. Однако то, что обеспечивает такую гибкость, до конца неясно.
Одним из возможных объяснений является то, что эти модели изучают основные шаблоны рассуждений, известные как абстрактные прототипы рассуждений, которые пересекают области. Эти общие когнитивные структуры позволяют модели меньше сосредотачиваться на том, как представлены задачи, и больше на схожих мыслительных процессах, необходимых для их решения, что позволяет осуществлять более широкий перенос.
От CoT к RL: сдвиг в том, как LLM учатся рассуждать
Недавний прогресс в области рассуждений в больших языковых моделях перешёл от простого CoT и контролируемой тонкой настройки к RL. Модели, такие как DeepSeek-R1 и Seed-Thinking-v1.5, улучшили Long CoT-рассуждения с помощью математических задач, логических задач и выполнения кода. Эти модели используют методы RL, управляемые проверяемыми вознаграждениями, такими как точность ответов, основанных на достоверных данных, для изучения сложных путей рассуждений.
Этот подход позволяет моделям учиться на ошибках, разбивать сложные задачи и совершенствовать решения посредством итераций. В отличие от прошлых методов, эта работа вводит концепцию «прототипов рассуждений», чтобы лучше понять основные шаблоны мышления, которые позволяют моделям обобщаться в совершенно разных областях.
Framework ProtoReasoning: структурированное рассуждение с Prolog и PDDL
Исследователи из ByteDance Seed и Шанхайского университета Цзяо Тонг разработали ProtoReasoning — фреймворк, предназначенный для улучшения рассуждений в больших языковых моделях за счёт использования структурированных прототипных представлений, таких как Prolog и PDDL.
Эта система включает в себя автоматизированный конвейер для перевода задач в эти форматы, надёжную систему проверки с использованием интерпретаторов и масштабируемую синтез задач без ручной маркировки. Модели, обученные на этих прототипах, продемонстрировали заметные улучшения по различным задачам, включая логическое рассуждение (+4,7 %), планирование (+6,3 %), общее рассуждение (+4,0 %) и математику (+1,0 %).
Обучение в этом структурированном «пространстве прототипов» привело к улучшению обобщения в схожих задачах, что подтверждает идею о том, что абстрактные шаблоны рассуждений улучшают междоменную производительность.
Обзор архитектуры: система конструктора прототипов и верификации
Framework ProtoReasoning улучшает рассуждения в LLM с помощью структурированных прототипов, Prolog для логики и PDDL для планирования. Он включает в себя два основных модуля: конструктор прототипов, который переводит задачи на естественном языке в формальные представления, и систему верификации, которая проверяет правильность решения.
Для Prolog четырёхэтапный конвейер генерирует разнообразные логические задачи, которые проверяются с помощью SWI-Prolog. Для планирования задачи, такие как генерация плана, завершение и переупорядочивание, строятся с использованием PDDL, правильность которых проверяется с помощью валидатора VAL.
Процесс обучения включает в себя дистилляцию модели учителя для путей рассуждения, выборку на основе сложности и фильтрацию, чтобы гарантировать, что только высококачественные данные настраивают модель для надёжного обобщения.
Оценки показывают измеримые улучшения в рассуждениях и планировании
Framework ProtoReasoning был оценён с помощью экспериментов с использованием модели Mixture-of-Experts с 150 миллиардами параметров (15 миллиардов активных), обученной на тщательно подобранном наборе высококачественных образцов Prolog и PDDL. Результаты показали последовательные улучшения по логическим рассуждениям, планированию и общим тестам, включая MMLU и AIME 2024.
Ключевое исследование по удалению (ablation study) сравнивало обучение на основе Prolog с версиями на естественном языке на согласованных наборах данных. Оба формата значительно превзошли базовый уровень, причём Prolog достиг почти равной производительности с NL. Это демонстрирует, что структурированное обучение на прототипах может быть применено к задачам на естественном языке.
Однако явное рассуждение (например, цепочка мыслей) имеет решающее значение, и в категориях с низким объёмом выборки наблюдались более слабые результаты из-за недостаточного количества данных.
Основные выводы и теоретические следствия прототипов рассуждений
В заключение, ProtoReasoning — это фреймворк, построенный на идее о том, что абстрактные прототипы рассуждений, такие как Prolog для логики и PDDL для планирования, позволяют большим языковым моделям обобщаться в разных областях. Обучая модели на этих структурированных представлениях, исследователи наблюдали заметные улучшения в логическом рассуждении, планировании и решении общих задач.
Результаты подтверждают гипотезу о том, что общие шаблоны рассуждений в разных областях облегчают передачу знаний в моделях. Хотя эмпирические результаты являются многообещающими, точная природа прототипов рассуждений остаётся теоретически недостаточно изученной. Будущая работа будет направлена на формализацию этих концепций математически и проверку выводов с использованием моделей с открытым исходным кодом и наборов данных.
Ознакомьтесь с [статьёй](https://www.marktechpost.com/2024/02/15/bytedance-researchers-introduce-protoreasoning-enhancing-llm-generalization-via-logic-based-prototypes/). Вся заслуга в проведении этого исследования принадлежит исследователям этого проекта. Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) (более 100 тысяч участников) и подписывайтесь на [наш новостной канал](https://www.marktechpost.com/category/newsletter).
Эта статья впервые появилась на MarkTechPost.
1. Какие методы используются для улучшения рассуждений в больших языковых моделях в рамках ProtoReasoning?
В рамках ProtoReasoning для улучшения рассуждений в больших языковых моделях используются структурированные прототипные представления, такие как Prolog для логики и PDDL для планирования. Система включает в себя автоматизированный конвейер для перевода задач в эти форматы, надёжную систему проверки с использованием интерпретаторов и масштабируемый синтез задач без ручной маркировки.
2. Какие улучшения были достигнуты с помощью ProtoReasoning в различных задачах?
Модели, обученные на структурированных прототипах, продемонстрировали заметные улучшения по различным задачам, включая логическое рассуждение (+4,7 %), планирование (+6,3 %), общее рассуждение (+4,0 %) и математику (+1,0 %).
3. Какие основные модули включает в себя Framework ProtoReasoning?
Framework ProtoReasoning включает в себя два основных модуля: конструктор прототипов, который переводит задачи на естественном языке в формальные представления, и систему верификации, которая проверяет правильность решения.
4. Какие выводы можно сделать из исследования о природе прототипов рассуждений?
Результаты исследования подтверждают гипотезу о том, что общие шаблоны рассуждений в разных областях облегчают передачу знаний в моделях. Хотя эмпирические результаты являются многообещающими, точная природа прототипов рассуждений остаётся теоретически недостаточно изученной.
5. Какие перспективы открывает будущее исследование в области прототипов рассуждений?
Будущая работа будет направлена на формализацию концепций прототипов рассуждений математически и проверку выводов с использованием моделей с открытым исходным кодом и наборов данных. Это позволит более глубоко понять природу прототипов рассуждений и их влияние на обобщение знаний в больших языковых моделях.