OThink-R1: фреймворк для рассуждений в двух режимах, позволяющий сократить избыточные вычисления в больших языковых моделях

Неэффективность статического подхода «цепочка мыслей» в больших языковых моделях (LRM)

Недавние достижения LRM обусловлены использованием детального подхода «цепочка мыслей» (CoT) для решения сложных задач. Однако многие простые задачи можно решить с помощью более компактных моделей с меньшим количеством токенов, что делает такие сложные рассуждения ненужными. Это перекликается с человеческим мышлением, где мы используем быстрые, интуитивные ответы для простых задач и более медленное, аналитическое мышление — для сложных.

Хотя LRM имитируют медленное, логическое рассуждение, они генерируют значительно более длинные выходные данные, увеличивая тем самым вычислительные затраты. Существующие методы сокращения шагов рассуждения негибкие, ограничивая модели одним фиксированным стилем рассуждения. Растёт потребность в адаптивном мышлении, которое регулирует усилия в зависимости от сложности задачи.

Ограничения существующих подходов, основанных на обучении, и подходов, не требующих обучения

Недавние исследования по повышению эффективности рассуждений в LRM можно разделить на две основные области: подходы, основанные на обучении, и подходы, не требующие обучения.

Подходы, основанные на обучении, часто используют обучение с подкреплением или тонкую настройку, чтобы ограничить использование токенов или отрегулировать глубину рассуждений, но они склонны следовать фиксированным шаблонам без гибкости.

Подходы, не требующие обучения, используют разработку подсказок или обнаружение закономерностей, чтобы сократить выходные данные во время логического вывода; однако им также не хватает адаптивности.

Более поздние работы сосредоточены на рассуждениях переменной длины, где модели регулируют глубину рассуждений в зависимости от сложности задачи. Другие изучают «чрезмерное обдумывание», когда модели излишне рассуждают. Однако лишь немногие методы позволяют динамически переключаться между быстрым и тщательным рассуждением — именно это и рассматривается в данной статье.

Введение в OThink-R1: динамическая система рассуждений «быстро/медленно»

Исследователи из Чжэцзянского университета и OPPO разработали OThink-R1 — новый подход, который позволяет LRM интеллектуально переключаться между быстрым и медленным мышлением, подобно людям. Анализируя модели рассуждений, они определили, какие шаги являются существенными, а какие — избыточными. С помощью другой модели, выступающей в роли судьи, они обучили LRM адаптировать свой стиль рассуждений в зависимости от сложности задачи. Их метод сокращает ненужные рассуждения более чем на 23% без потери точности.

Используя функцию потерь и специально подобранные наборы данных, OThink-R1 превосходит предыдущие модели как по эффективности, так и по производительности при выполнении различных математических задач и задач по ответам на вопросы.

Архитектура системы: оптимизация обрезки рассуждений и двойной ссылки

Фреймворк OThink-R1 помогает LRM динамически переключаться между быстрым и медленным мышлением. Во-первых, он определяет, когда LRM включают ненужные рассуждения, например, чрезмерное объяснение или двойную проверку, а когда детальные шаги действительно необходимы. Используя это, он создаёт специальный набор данных для обучения, удаляя избыточные рассуждения и сохраняя ценную логику. Затем, во время тонкой настройки, специальная функция потерь балансирует оба стиля рассуждений.

Эта двойная ссылочная потеря сравнивает выходные данные модели как с вариантами быстрого, так и с вариантами медленного мышления, поощряя гибкость. В результате OThink-R1 может адаптивно выбирать наиболее эффективный путь рассуждения для каждой задачи, сохраняя при этом точность и логическую глубину.

Эмпирическая оценка и сравнительная производительность

Модель OThink-R1 была протестирована на более простых задачах по ответам на вопросы и математических задачах, чтобы оценить её способность переключаться между быстрым и медленным рассуждением. Используя такие наборы данных, как OpenBookQA, CommonsenseQA, ASDIV и GSM8K, модель продемонстрировала высокие результаты, генерируя меньше токенов при сохранении или повышении точности.

По сравнению с базовыми моделями, такими как NoThinking и DualFormer, OThink-R1 продемонстрировал лучший баланс между эффективностью и результативностью. Исследования методом удаления отдельных компонентов подтвердили важность обрезки, ограничений KL и LLM-Judge для достижения оптимальных результатов.

Заключение: на пути к масштабируемым и эффективным гибридным системам рассуждений

В заключение отметим, что OThink-R1 — это большая модель рассуждений, которая интеллектуально переключается между режимами быстрого и медленного мышления для повышения эффективности и производительности. Она решает проблему излишне сложных рассуждений в больших моделях, анализируя и классифицируя шаги рассуждений как существенные или избыточные. Сокращая избыточные вычисления, OThink-R1 сохраняет логическую точность.

Она также вводит двойную ссылочную потерю KL-дивергенции для усиления гибридных рассуждений. Протестированная на математических задачах и задачах по ответам на вопросы, модель сокращает избыточность рассуждений на 23% без ущерба для точности, что демонстрирует перспективность построения более адаптивных, масштабируемых и эффективных систем рассуждений ИИ в будущем.

Источник

Оставьте комментарий