DualDistill и Agentic-R1: как ИИ сочетает использование естественного языка и инструментов для решения математических задач на высоком уровне

Введение в проблему

Существующие модели рассуждений с длинными цепочками (long-CoT) достигли передовых результатов в математическом мышлении, генерируя траектории рассуждений с помощью итеративной самопроверки и уточнения. Однако модели с открытым исходным кодом зависят только от следов рассуждений на естественном языке, что делает их ресурсоёмкими и склонными к ошибкам без механизмов проверки.

Хотя рассуждения с использованием инструментов обеспечивают большую эффективность и надёжность для крупномасштабных численных вычислений через такие платформы, как OpenHands, интегрирующие интерпретаторы кода, эти агентские подходы сталкиваются с трудностями при решении абстрактных или концептуально сложных задач.

DualDistill и модель Agentic-R1

Исследователи из Университета Карнеги-Меллона предложили DualDistill — фреймворк дистилляции, который объединяет траектории от двух взаимодополняющих учителей для создания единой модели-ученика. Фреймворк использует одного учителя, ориентированного на рассуждения, и одного учителя, использующего инструменты, для разработки Agentic-R1 — модели, которая учится выбирать наиболее подходящую стратегию для каждого типа задач.

Agentic-R1 выполняет код для арифметических и алгоритмических задач, используя при этом рассуждения на естественном языке для абстрактных задач. DualDistill использует композицию траекторий для извлечения знаний от обоих взаимодополняющих учителей, а затем следует самодистилляция.

Исследователи использовали OpenHands в качестве учителя агентских рассуждений и DeepSeek-R1 в качестве учителя, основанного на тексте.

Оценка и бенчмарки

Предложенный метод оценивается по различным бенчмаркам, таким как DeepMath-L и Combinatorics300, для проверки различных аспектов математического мышления. Он сравнивается с базовыми моделями DeepSeek-R1-Distill и Qwen-2.5-Instruct.

Модель-ученик Agentic-R1 демонстрирует значительное улучшение производительности, используя как агентские, так и логические стратегии. Она превосходит две модели аналогичного размера, каждая из которых специализируется на инструментальной (Qwen2.5-7B-Instruct) или чисто логической (Deepseek-R1-Distill7B) стратегиях.

Agentic-R1 превосходит инструментальные модели, интеллектуально используя стратегии рассуждений, когда это требуется, сохраняя при этом большую эффективность по сравнению с чисто логическими моделями при решении стандартных математических задач.

Качественный анализ и шаблоны использования инструментов

Качественные примеры показывают, что Agentic-R1 демонстрирует интеллектуальные шаблоны использования инструментов, активируя инструменты выполнения кода в 79,2% задач по комбинаторике Combinatorics300, требующих вычислительных ресурсов, при этом снижая активацию до 52,0% для более простых задач набора данных AMC.

Agentic-R1 учится вызывать инструменты соответствующим образом с помощью только контролируемой тонкой настройки, без явных инструкций, эффективно балансируя вычислительную эффективность и точность рассуждений.

Устойчивость к несовершенным учителям

Фреймворк остаётся эффективным даже при работе с несовершенными учителями. Например, агентский учитель достигает точности только 48,4% на Combinatorics300, однако модель-ученик улучшила свои показатели с 44,7% до 50,9%, в итоге превзойдя учителя.

Заключение

В заключение, фреймворк DualDistill эффективно сочетает сильные стороны естественного языкового рассуждения и решения задач с использованием инструментов, дистиллируя взаимодополняющие знания от двух специализированных моделей-учителей в единую универсальную модель-ученика Agentic-R1.

Благодаря композиции траекторий и самодистилляции, Agentic-R1 учится динамически выбирать наиболее подходящую стратегию для каждой задачи, балансируя точность и вычислительную эффективность.

Оценки по различным бенчмаркам математического мышления демонстрируют, что Agentic-R1 превосходит как чисто логические, так и инструментальные модели, даже при обучении у несовершенных учителей. Эта работа подчёркивает перспективный подход к созданию адаптируемых агентов ИИ, способных интегрировать разнородные стратегии решения задач для более надёжного и эффективного мышления.

1. Какие проблемы существующих моделей рассуждений с длинными цепочками (long-CoT) решает DualDistill?

Ответ: существующие модели рассуждений с длинными цепочками (long-CoT) достигли передовых результатов в математическом мышлении, однако они ресурсоёмкие и склонные к ошибкам без механизмов проверки. DualDistill решает эту проблему, объединяя траектории от двух взаимодополняющих учителей для создания единой модели-ученика.

2. Какие учителя используются в DualDistill для разработки Agentic-R1?

Ответ: в DualDistill используется один учитель, ориентированный на рассуждения, и один учитель, использующий инструменты, для разработки Agentic-R1. В качестве учителя агентских рассуждений исследователи использовали OpenHands, а в качестве учителя, основанного на тексте, — DeepSeek-R1.

3. В чём заключается преимущество Agentic-R1 перед другими моделями?

Ответ: Agentic-R1 демонстрирует значительное улучшение производительности, используя как агентские, так и логические стратегии. Она превосходит две модели аналогичного размера, каждая из которых специализируется на инструментальной (Qwen2.5-7B-Instruct) или чисто логической (Deepseek-R1-Distill7B) стратегиях. Agentic-R1 превосходит инструментальные модели, интеллектуально используя стратегии рассуждений, когда это требуется, сохраняя при этом большую эффективность по сравнению с чисто логическими моделями при решении стандартных математических задач.

4. Какой процент задач по комбинаторике Combinatorics300 Agentic-R1 решает с использованием инструментов выполнения кода?

Ответ: Agentic-R1 активирует инструменты выполнения кода в 79,2% задач по комбинаторике Combinatorics300, требующих вычислительных ресурсов, при этом снижая активацию до 52,0% для более простых задач набора данных AMC.

5. Как DualDistill работает с несовершенными учителями?

Ответ: фреймворк DualDistill остаётся эффективным даже при работе с несовершенными учителями. Например, агентский учитель достигает точности только 48,4% на Combinatorics300, однако модель-ученик улучшила свои показатели с 44,7% до 50,9%, в итоге превзойдя учителя.

Источник

Оставьте комментарий