Большие языковые модели (LLMs) продемонстрировали значительный прогресс в области рассуждений в различных областях, включая математику и естественные науки. Однако улучшение этих способностей к рассуждению во время тестирования остаётся задачей, над которой активно работают исследователи. Основное внимание уделяется разработке методов эффективного масштабирования вычислений во время тестирования при максимальном повышении качества рассуждений.
Текущие методологии включают генерацию нескольких цепочек рассуждений (CoTs) для решения задач и реализацию механизмов голосования или отбора для выявления лучших решений. Хотя эти подходы показали себя перспективными, они часто требуют значительных вычислительных ресурсов и не всегда могут последовательно определять оптимальные решения, когда доминируют неверные пути рассуждений. Поиск эффективных способов улучшения рассуждений LLM при минимизации вычислительных затрат представляет собой важнейший вызов для развития этой области.
Предыдущие исследования изучали различные подходы к улучшению способностей LLM к рассуждению. Генеративные модели вознаграждения (GenRM) стали перспективной техникой, представляющей проверку как задачу прогнозирования следующего токена. Эти модели позволяют масштабировать вычисления во время тестирования путём генерации нескольких цепочек рассуждений для проверки и агрегирования их вердиктов для оценки решений.
Первоначальное сравнение GenRM с выбором Best-of-N (BoN) и Self-Consistency (SC) показало, что GenRM оказалась более эффективной, достигая сопоставимой производительности при меньшем количестве кандидатов в решения. Однако эти оценки проводились с фиксированным количеством решений, а не с фиксированным вычислительным бюджетом. Такая методология приводит к вводящим в заблуждение выводам в практических сценариях, где вычислительные ресурсы ограничены, поскольку она не учитывает существенные вычислительные затраты, связанные с генерацией множественных проверок для каждого кандидата в решения. Ключевым ограничением существующих подходов является их неспособность учитывать истинную вычислительную эффективность при сравнении методов, основанных на проверке, с более простыми методами голосования большинством.
Предлагаемый метод вводит всеобъемлющую структуру для точной оценки вычислительного бюджета, необходимого для Self-Consistency и GenRM. Эта структура позволяет провести справедливый анализ с сопоставлением вычислений, сравнивая эти стратегии масштабирования во время тестирования при фиксированных вычислительных ограничениях. Подход предполагает, что одна большая языковая модель выполняет двойные функции: генерирует решения и осуществляет генеративную проверку, причём возможности проверки активируются либо через специализированные подсказки, либо через тонкую настройку под конкретную задачу. Установив эту унифицированную структуру, исследователи могут систематически анализировать компромиссы в производительности между генерацией большего количества кандидатов в решения для Self-Consistency и выделением вычислительных ресурсов на процессы проверки в GenRM.
Сравнительный анализ фокусируется на измерении эффективности на основе общего количества решений и проверок, сгенерированных LLM, предоставляя чёткие метрики вычислительной эффективности для различных подходов к рассуждению. Методология использует структуру анализа с сопоставлением вычислений и детальный архитектурный дизайн для сравнения стратегий масштабирования во время тестирования. Для авторегрессионой LLM с P параметрами, выполняющей 2P операций с плавающей запятой на выходной токен, общее количество вычислений для логического вывода рассчитывается по формуле C(S, V) = S(1+λV), где S представляет количество решений, V — количество проверок, а λ — отношение токенов на проверку к токенам на решение. Эта структура позволяет систематически оценивать как Self-Consistency, так и генеративные модели вознаграждения при эквивалентных вычислительных ограничениях.
Результаты демонстрируют чёткую закономерность при сравнении производительности генеративных моделей вознаграждения с Self-Consistency при различных вычислительных бюджетах. SC демонстрирует превосходную производительность в сценариях с ограниченными вычислительными ресурсами, что делает его более эффективным выбором при ограниченных вычислительных возможностях. Напротив, GenRM начинает превосходить SC только после достижения примерно в 8 раз большего вычислительного бюджета, требуя дополнительных вычислительных ресурсов в объёме 128 для достижения скромного улучшения производительности на 3,8% по сравнению с SC. Эти выводы сохраняют свою устойчивость в различных экспериментальных условиях, включая различные семейства моделей, такие как Llama и Qwen, разные размеры моделей в диапазоне от 7 до 70 миллиардов параметров, специализированные модели мышления, такие как QwQ-32B, и различные задачи на рассуждение, включая математику.
Исследование представляет GenRM как инновационный подход к масштабированию вычислений во время тестирования с помощью процессов проверки. Предыдущие исследования показали, что масштабирование как решений, так и проверок может превосходить SC, но часто не учитывали вычислительные затраты на проверку. Это всестороннее исследование выявляет чёткую закономерность: SC оказывается более эффективным при меньших вычислительных бюджетах, в то время как GenRM обеспечивает превосходную производительность при наличии более высоких вычислительных ресурсов. Эти выводы сохраняют согласованность в рамках нескольких семейств моделей, включая специализированные модели мышления, различные размеры параметров от 7 до 70 миллиардов и разнообразные задачи на рассуждение. Кроме того, исследование устанавливает надёжные законы масштабирования логического вывода, которые оптимизируют распределение бюджета между генерацией решений и процессами проверки в рамках GenRM. Эти выводы предоставляют ценные практические рекомендации для исследователей и практиков, стремящихся реализовать стратегии масштабирования с эффективным использованием вычислительных ресурсов для максимизации качества рассуждений в больших языковых моделях.
Добавить комментарий