Введение в проблему
Существующие модели рассуждений с длинными цепочками (long-CoT) достигли передовых результатов в математическом мышлении, генерируя траектории рассуждений с помощью итеративной самопроверки и уточнения. Однако модели с открытым исходным кодом зависят только от следов рассуждений на естественном языке, что делает их ресурсоёмкими и склонными к ошибкам без механизмов проверки.
Хотя рассуждения с использованием инструментов обеспечивают большую эффективность и надёжность для крупномасштабных численных вычислений через такие платформы, как OpenHands, интегрирующие интерпретаторы кода, эти агентские подходы сталкиваются с трудностями при решении абстрактных или концептуально сложных задач.
DualDistill и модель Agentic-R1
Исследователи из Университета Карнеги-Меллона предложили DualDistill — фреймворк дистилляции, который объединяет траектории от двух взаимодополняющих учителей для создания единой модели-ученика. Фреймворк использует одного учителя, ориентированного на рассуждения, и одного учителя, использующего инструменты, для разработки Agentic-R1 — модели, которая учится выбирать наиболее подходящую стратегию для каждого типа задач.
Agentic-R1 выполняет код для арифметических и алгоритмических задач, используя при этом рассуждения на естественном языке для абстрактных задач. DualDistill использует композицию траекторий для извлечения знаний от обоих взаимодополняющих учителей, а затем следует самодистилляция.
Исследователи использовали OpenHands в качестве учителя агентских рассуждений и DeepSeek-R1 в качестве учителя, основанного на тексте.
Оценка и бенчмарки
Предложенный метод оценивается по различным бенчмаркам, таким как DeepMath-L и Combinatorics300, для проверки различных аспектов математического мышления. Он сравнивается с базовыми моделями DeepSeek-R1-Distill и Qwen-2.5-Instruct.
Модель-ученик Agentic-R1 демонстрирует значительное улучшение производительности, используя как агентские, так и логические стратегии. Она превосходит две модели аналогичного размера, каждая из которых специализируется на инструментальной (Qwen2.5-7B-Instruct) или чисто логической (Deepseek-R1-Distill7B) стратегиях.
Agentic-R1 превосходит инструментальные модели, интеллектуально используя стратегии рассуждений, когда это требуется, сохраняя при этом большую эффективность по сравнению с чисто логическими моделями при решении стандартных математических задач.
Качественный анализ и шаблоны использования инструментов
Качественные примеры показывают, что Agentic-R1 демонстрирует интеллектуальные шаблоны использования инструментов, активируя инструменты выполнения кода в 79,2% задач по комбинаторике Combinatorics300, требующих вычислительных ресурсов, при этом снижая активацию до 52,0% для более простых задач набора данных AMC.
Agentic-R1 учится вызывать инструменты соответствующим образом с помощью только контролируемой тонкой настройки, без явных инструкций, эффективно балансируя вычислительную эффективность и точность рассуждений.
Устойчивость к несовершенным учителям
Фреймворк остаётся эффективным даже при работе с несовершенными учителями. Например, агентский учитель достигает точности только 48,4% на Combinatorics300, однако модель-ученик улучшила свои показатели с 44,7% до 50,9%, в итоге превзойдя учителя.
Заключение
В заключение, фреймворк DualDistill эффективно сочетает сильные стороны естественного языкового рассуждения и решения задач с использованием инструментов, дистиллируя взаимодополняющие знания от двух специализированных моделей-учителей в единую универсальную модель-ученика Agentic-R1.
Благодаря композиции траекторий и самодистилляции, Agentic-R1 учится динамически выбирать наиболее подходящую стратегию для каждой задачи, балансируя точность и вычислительную эффективность.
Оценки по различным бенчмаркам математического мышления демонстрируют, что Agentic-R1 превосходит как чисто логические, так и инструментальные модели, даже при обучении у несовершенных учителей. Эта работа подчёркивает перспективный подход к созданию адаптируемых агентов ИИ, способных интегрировать разнородные стратегии решения задач для более надёжного и эффективного мышления.
1. Какие проблемы существующих моделей рассуждений с длинными цепочками (long-CoT) решает DualDistill?
Ответ: существующие модели рассуждений с длинными цепочками (long-CoT) достигли передовых результатов в математическом мышлении, однако они ресурсоёмкие и склонные к ошибкам без механизмов проверки. DualDistill решает эту проблему, объединяя траектории от двух взаимодополняющих учителей для создания единой модели-ученика.
2. Какие учителя используются в DualDistill для разработки Agentic-R1?
Ответ: в DualDistill используется один учитель, ориентированный на рассуждения, и один учитель, использующий инструменты, для разработки Agentic-R1. В качестве учителя агентских рассуждений исследователи использовали OpenHands, а в качестве учителя, основанного на тексте, — DeepSeek-R1.
3. В чём заключается преимущество Agentic-R1 перед другими моделями?
Ответ: Agentic-R1 демонстрирует значительное улучшение производительности, используя как агентские, так и логические стратегии. Она превосходит две модели аналогичного размера, каждая из которых специализируется на инструментальной (Qwen2.5-7B-Instruct) или чисто логической (Deepseek-R1-Distill7B) стратегиях. Agentic-R1 превосходит инструментальные модели, интеллектуально используя стратегии рассуждений, когда это требуется, сохраняя при этом большую эффективность по сравнению с чисто логическими моделями при решении стандартных математических задач.
4. Какой процент задач по комбинаторике Combinatorics300 Agentic-R1 решает с использованием инструментов выполнения кода?
Ответ: Agentic-R1 активирует инструменты выполнения кода в 79,2% задач по комбинаторике Combinatorics300, требующих вычислительных ресурсов, при этом снижая активацию до 52,0% для более простых задач набора данных AMC.
5. Как DualDistill работает с несовершенными учителями?
Ответ: фреймворк DualDistill остаётся эффективным даже при работе с несовершенными учителями. Например, агентский учитель достигает точности только 48,4% на Combinatorics300, однако модель-ученик улучшила свои показатели с 44,7% до 50,9%, в итоге превзойдя учителя.