Большие модели для решения задач (LRMs) быстро развиваются и демонстрируют впечатляющие результаты в сложных задачах по решению проблем в таких областях, как математика, программирование и научные рассуждения. Однако современные подходы к оценке в основном сосредоточены на тестировании отдельных вопросов, что выявляет значительные ограничения.
В этой статье представлена система REST (Reasoning Evaluation through Simultaneous Testing) — новый фреймворк для стресс-тестирования, разработанный для того, чтобы вывести LRMs за пределы изолированного решения задач и лучше отразить их способности к рассуждению в реальных условиях с несколькими контекстами.
Почему текущие методы оценки не подходят для больших моделей решения задач
Большинство современных тестов, таких как GSM8K и MATH, оценивают LRMs, задавая по одному вопросу за раз. Хотя этот подход эффективен для начальной разработки моделей, он имеет два критических недостатка:
* Снижение дискриминационной способности. Многие современные LRMs достигают почти идеальных результатов на популярных тестах (например, DeepSeek-R1 достигает 97% точности на MATH500). Эти насыщенные результаты усложняют выявление реальных улучшений моделей, что приводит к дорогостоящему непрерывному созданию более сложных наборов данных для дифференциации возможностей.
* Отсутствие оценки в реальных условиях с несколькими контекстами. Реальные приложения — например, образовательные программы, техническая поддержка или многозадачные помощники с искусственным интеллектом — требуют рассуждения по нескольким, потенциально мешающим друг другу вопросам одновременно. Тестирование по одному вопросу не отражает эти динамические задачи с несколькими проблемами, которые отражают истинную когнитивную нагрузку и устойчивость рассуждений.
Введение в REST: стресс-тестирование LRMs с несколькими задачами одновременно
Чтобы решить эти проблемы, исследователи из университетов Цинхуа, Открытого дата-центра, Шанхайской лаборатории искусственного интеллекта и Народного университета разработали REST — простой, но мощный метод оценки, который одновременно тестирует LRMs по нескольким вопросам, объединённым в один запрос.
Основные характеристики REST:
* Многозадачные тесты. REST использует существующие тесты, объединяя несколько вопросов в один запрос, регулируя параметр уровня стресса, который контролирует количество вопросов, представленных одновременно.
* Комплексная оценка. REST оценивает критически важные компетенции в области рассуждений, помимо базового решения задач, включая распределение приоритетов в контексте, устойчивость к помехам между задачами и управление динамической когнитивной нагрузкой.
* Широкая применимость. Фреймворк проверен на 34 продвинутых LRMs с количеством параметров от 1,5 миллиарда до 671 миллиарда, протестированных на 7 разнообразных тестах различной сложности (от простого GSM8K до сложных AIME и GPQA).
Результаты оценки REST
Оценка REST раскрывает несколько новаторских выводов:
1. Значительное снижение производительности при решении нескольких задач. Даже современные LRMs, такие как DeepSeek-R1, демонстрируют заметное снижение точности при одновременном решении нескольких задач. Например, точность DeepSeek-R1 на сложных тестах, таких как AIME24, падает почти на 30% по сравнению с тестированием отдельных вопросов.
2. Повышение дискриминационной способности среди похожих моделей. REST значительно усиливает различия между моделями с близкими результатами при тестировании отдельных вопросов.
3. Методы постобработки могут не гарантировать надёжное решение нескольких задач. Модели, настроенные с помощью обучения с подкреплением или контролируемой настройки для решения отдельных задач, часто не сохраняют свои преимущества в условиях REST.
4. Обучение по методу «long2short» повышает производительность в условиях стресса. Модели, обученные с использованием методов «long2short», которые поощряют краткие и эффективные цепочки рассуждений, сохраняют более высокую точность в условиях REST.
Как REST стимулирует реалистичные задачи рассуждения
Увеличивая когнитивную нагрузку на LRMs за счёт одновременного представления задач, REST имитирует реальные требования, где системам рассуждений необходимо динамически расставлять приоритеты, избегать чрезмерного обдумывания одной задачи и противостоять помехам от одновременных задач.
REST также систематически анализирует типы ошибок, выявляя распространённые причины сбоев, такие как:
* Пропуск вопросов. Игнорирование последующих вопросов в запросе с несколькими вопросами.
* Ошибки обобщения. Неправильное обобщение ответов по задачам.
* Ошибки в рассуждениях. Логические или вычислительные ошибки в процессе рассуждений.
Эти нюансы в значительной степени невидимы при тестировании по одному вопросу.
Практическая настройка оценки и охват тестов
REST оценил 34 LRMs с размером от 1,5 миллиарда до 671 миллиарда параметров.
Тестируемые тесты включают:
* Простые: GSM8K.
* Средние: MATH500, AMC23.
* Сложные: AIME24, AIME25, GPQA Diamond, LiveCodeBench.
Параметры генерации моделей установлены в соответствии с официальными рекомендациями, с ограничением вывода токенов в 32 тысячи для моделей рассуждений.
Использование стандартизированного инструментария OpenCompass обеспечивает согласованные и воспроизводимые результаты.
Заключение: REST как парадигма оценки больших моделей решения задач в будущем
REST представляет собой значительный шаг вперёд в оценке больших моделей решения задач, поскольку:
* Преодолевает насыщение тестов. Воскрешает существующие наборы данных без дорогостоящей полной замены.
* Отражает реальные требования к многозадачности. Тестирует модели в реалистичных условиях с высокой когнитивной нагрузкой.
* Направляет разработку моделей. Подчёркивает важность методов обучения, таких как Long2Short, для снижения чрезмерного обдумывания и поощрения адаптивной сосредоточенности на рассуждениях.
В целом, REST прокладывает путь к более надёжному, устойчивому и актуальному для приложений тестированию систем искусственного интеллекта следующего поколения.
1. Какие проблемы существуют в современных подходах к оценке больших моделей решения задач (LRMs)?
В современных подходах к оценке LRMs есть два критических недостатка: снижение дискриминационной способности и отсутствие оценки в реальных условиях с несколькими контекстами. Многие современные LRMs достигают почти идеальных результатов на популярных тестах, что усложняет выявление реальных улучшений моделей.
2. Какие основные характеристики имеет система REST (Reasoning Evaluation through Simultaneous Testing)?
Основные характеристики REST:
* многозадачные тесты (REST использует существующие тесты, объединяя несколько вопросов в один запрос);
* комплексная оценка (REST оценивает критически важные компетенции в области рассуждений, помимо базового решения задач);
* широкая применимость (фреймворк проверен на 34 продвинутых LRMs с количеством параметров от 1,5 миллиарда до 671 миллиарда).
3. Какие выводы можно сделать на основе результатов оценки REST?
На основе результатов оценки REST можно сделать несколько выводов:
* значительное снижение производительности при решении нескольких задач (даже современные LRMs демонстрируют заметное снижение точности при одновременном решении нескольких задач);
* повышение дискриминационной способности среди похожих моделей (REST значительно усиливает различия между моделями с близкими результатами при тестировании отдельных вопросов);
* методы постобработки могут не гарантировать надёжное решение нескольких задач (модели, настроенные с помощью обучения с подкреплением или контролируемой настройки для решения отдельных задач, часто не сохраняют свои преимущества в условиях REST);
* обучение по методу «long2short» повышает производительность в условиях стресса (модели, обученные с использованием методов «long2short», сохраняют более высокую точность в условиях REST).
4. Какие типы ошибок выявляет REST при анализе задач рассуждения?
REST систематически анализирует типы ошибок, выявляя распространённые причины сбоев, такие как:
* пропуск вопросов (игнорирование последующих вопросов в запросе с несколькими вопросами);
* ошибки обобщения (неправильное обобщение ответов по задачам);
* ошибки в рассуждениях (логические или вычислительные ошибки в процессе рассуждений).
5. Какие тесты были использованы для оценки 34 LRMs с помощью системы REST?
Для оценки 34 LRMs с помощью системы REST были использованы следующие тесты:
* простые: GSM8K;
* средние: MATH500, AMC23;
* сложные: AIME24, AIME25, GPQA Diamond, LiveCodeBench.