Задачи рассуждения являются фундаментальным аспектом искусственного интеллекта, охватывающим такие области, как понимание здравого смысла, решение математических задач и символическое рассуждение. Эти задачи часто включают в себя несколько шагов логического вывода, которые крупные языковые модели (LLM) пытаются имитировать с помощью структурированных подходов, таких как цепочка мыслей (CoT).
Однако по мере увеличения размера и сложности LLM они склонны выдавать более длинные результаты по всем задачам, независимо от сложности, что приводит к значительной неэффективности. В этой области стремятся сбалансировать глубину рассуждений с вычислительными затратами, обеспечивая при этом адаптацию моделей к уникальным потребностям каждой задачи.
Проблема текущих моделей рассуждения
Ключевой проблемой современных моделей рассуждения является неспособность адаптировать процесс рассуждения к различным сложностям задач. Большинство моделей, включая такие известные, как OpenAI’s o1 и DeepSeek-R1, применяют единую стратегию — обычно полагаясь на Long CoT для всех задач. Это вызывает проблему «переосмысления», когда модели генерируют излишне подробные объяснения для простых задач. Это не только приводит к напрасной трате ресурсов, но и снижает точность, поскольку чрезмерное рассуждение может привести к появлению нерелевантной информации.
Попытки решить эти проблемы включают такие методы, как GRPO (групповая относительная оптимизация политики), механизмы штрафов за длину и основанные на правилах подсказки. Хотя GRPO позволяет моделям изучать различные стратегии рассуждений, вознаграждая правильные ответы, это приводит к «коллапсу формата», когда модели всё больше полагаются на Long CoT, вытесняя более эффективные форматы, такие как Short CoT или Direct Answer.
Адаптивная модель рассуждения (ARM)
Группа исследователей из Фуданьского университета и Университета штата Огайо представила адаптивную модель рассуждения (ARM), которая динамически регулирует форматы рассуждений в зависимости от сложности задачи. ARM поддерживает четыре различных стиля рассуждений:
* Direct Answer — для простых задач;
* Short CoT — для кратких рассуждений;
* Code — для структурированного решения задач;
* Long CoT — для глубокого многоэтапного рассуждения.
ARM по умолчанию работает в адаптивном режиме, автоматически выбирая подходящий формат, а также предоставляет режимы управления инструкциями и консенсусом для явного контроля или агрегирования форматов. Ключевое нововведение заключается в процессе обучения, который использует Ada-GRPO — расширение GRPO, которое вводит механизм вознаграждения за разнообразие форматов. Это предотвращает доминирование Long CoT и гарантирует, что ARM продолжает исследовать и использовать более простые форматы рассуждений, когда это уместно.
Методология ARM построена на двухэтапной схеме. Сначала модель подвергается контролируемой тонкой настройке (SFT) с 10,8 тыс. вопросов, каждый из которых аннотирован в четырёх форматах рассуждений, взятых из таких наборов данных, как AQuA-Rat и сгенерированных с помощью таких инструментов, как GPT-4o и DeepSeek-R1. На этом этапе модель обучается структуре каждого формата рассуждения, но не адаптивности. На втором этапе применяется Ada-GRPO, где модель получает масштабированное вознаграждение за использование менее частых форматов, таких как Direct Answer или Short CoT.
Результаты
ARM продемонстрировала впечатляющие результаты в различных тестах, включая задачи по здравому смыслу, математические и символические рассуждения. Она сократила использование токенов в среднем на 30%, а для более простых задач — до 70% по сравнению с моделями, полагающимися исключительно на Long CoT. ARM достигла двукратного ускорения обучения по сравнению с моделями на основе GRPO, ускоряя разработку моделей без ущерба для точности.
Например, ARM-7B достигла точности 75,9% в сложной задаче AIME’25, используя на 32,5% меньше токенов. ARM-14B достигла точности 85,6% в OpenBookQA и 86,4% в наборе данных MATH, с сокращением использования токенов более чем на 30% по сравнению с моделями Qwen2.5SFT+GRPO.
Эти цифры демонстрируют способность ARM сохранять конкурентоспособную производительность при значительном повышении эффективности.
В целом, адаптивная модель рассуждения решает проблему постоянной неэффективности моделей рассуждения, позволяя адаптивно выбирать форматы рассуждений в зависимости от сложности задачи. Внедрение Ada-GRPO и многоформатной обучающей среды гарантирует, что модели больше не будут тратить ресурсы на переосмысление. Вместо этого ARM предоставляет гибкое и практичное решение для балансировки точности и вычислительных затрат в задачах рассуждения, что делает её перспективным подходом для масштабируемых и эффективных крупных языковых моделей.