Чтобы повысить точность ответов больших языковых моделей (LLMs) на сложные вопросы, исследователи могут позволить модели тратить больше времени на поиск потенциальных решений.
Однако распространённые подходы, которые дают LLM такую возможность, устанавливают фиксированный вычислительный бюджет для каждой задачи, независимо от её сложности. Это означает, что LLM может тратить вычислительные ресурсы впустую на более простых вопросах или быть не в состоянии решить сложные задачи, требующие более тщательного анализа.
Для решения этой проблемы исследователи из MIT разработали более интеллектуальный способ распределения вычислительных усилий по мере решения LLM задачи. Их метод позволяет модели динамически корректировать свой вычислительный бюджет в зависимости от сложности вопроса и вероятности того, что каждое частичное решение приведёт к правильному ответу.
Исследователи обнаружили, что их новый подход позволяет LLM использовать вдвое меньше вычислений, чем существующие методы, при этом достигая сопоставимой точности по ряду вопросов разной сложности. Кроме того, их метод позволяет меньшим по размеру LLM, менее требовательным к ресурсам, работать так же хорошо, как и более крупным моделям, или даже лучше при решении сложных задач.
Улучшение надёжности и эффективности LLM
Совершенствуя надёжность и эффективность LLM, особенно при решении сложных задач, требующих рассуждений, этот метод может снизить энергопотребление систем генеративного ИИ и позволить использовать LLM в более важных и чувствительных ко времени приложениях.
«Вычислительные затраты на вывод быстро стали основным узким местом для поставщиков передовых моделей, и они активно ищут способы повысить эффективность вычислений на запросы пользователей. Например, недавний выпуск GPT-5.1 подчёркивает эффективность подхода „адаптивного рассуждения“, предложенного в нашей статье. Предоставляя моделям возможность знать, чего они не знают, мы можем позволить им тратить больше вычислительных ресурсов на самые сложные задачи и наиболее перспективные пути решения, а на простых использовать гораздо меньше токенов. Это делает рассуждения более надёжными и гораздо более эффективными», — говорит Навид Азизан, доцент кафедры машиностроения и Института данных, систем и общества (IDSS), главный исследователь Лаборатории информационных и управляющих систем (LIDS) и старший автор статьи, посвящённой этой технике.
Вычисление для размышлений
Недавний подход, называемый масштабированием во время вывода, позволяет большой языковой модели тратить больше времени на обдумывание сложных задач.
Используя масштабирование во время вывода, LLM может генерировать несколько попыток решения одновременно или исследовать различные пути рассуждений, а затем выбирать из них наиболее перспективные.
Отдельная модель, известная как модель вознаграждения за процесс (PRM), оценивает каждое потенциальное решение или путь рассуждений. LLM использует эти оценки, чтобы определить наиболее перспективные.
Типичные подходы к масштабированию во время вывода назначают фиксированный объём вычислений для LLM, чтобы разбить задачу и поразмышлять над шагами.
Вместо этого метод исследователей, известный как адаптивное масштабирование для конкретных случаев, динамически корректирует количество потенциальных решений или шагов рассуждения в зависимости от вероятности их успеха по мере того, как модель решает задачу.
«Именно так люди решают задачи. Мы придумываем несколько частичных решений, а затем решаем, стоит ли мне продолжить работу с любым из них, остановиться и внести правки или даже вернуться к предыдущему шагу и продолжить решение задачи оттуда», — объясняет Ван.
Для этого фреймворк использует PRM для оценки сложности вопроса, помогая LLM определить, какой объём вычислительных ресурсов использовать для генерации и анализа потенциальных решений.
На каждом этапе процесса рассуждения модель PRM рассматривает вопрос и частичные ответы и оценивает, насколько перспективен каждый из них для достижения правильного решения. Если LLM более уверена, она может сократить количество потенциальных решений или путей рассуждения, экономя вычислительные ресурсы.
Но исследователи обнаружили, что существующие PRM часто переоценивают вероятность успеха модели.
Преодоление самоуверенности
«Если бы мы просто доверяли текущим PRM, которые часто переоценивают шансы на успех, наша система сокращала бы вычислительный бюджет слишком агрессивно. Поэтому сначала нам нужно было найти способ лучше калибровать PRM, чтобы сделать масштабирование во время вывода более эффективным и надёжным», — говорит Парк.
Исследователи представили метод калибровки, который позволяет PRM генерировать диапазон вероятностных оценок, а не одно значение. Таким образом, PRM создаёт более надёжные оценки неопределённости, которые лучше отражают истинную вероятность успеха.
С хорошо откалиброванным PRM их фреймворк адаптивного масштабирования для конкретных случаев может использовать вероятностные оценки для эффективного сокращения вычислений при сохранении точности выходных данных модели.
Когда они сравнили свой метод со стандартными подходами к масштабированию во время вывода на серии задач математического рассуждения, он использовал меньше вычислений для решения каждой задачи, при этом достигая аналогичной точности.
«Красота нашего подхода в том, что эта адаптация происходит на лету, по мере решения задачи, а не сразу в начале процесса», — говорит Гринвальд.
В будущем исследователи планируют применить этот метод в других приложениях, таких как генерация кода и агенты ИИ. Они также планируют изучить дополнительные возможности использования своего метода калибровки PRM, например, для обучения с подкреплением и тонкой настройки.
«Сотрудники-люди учатся в процессе работы — некоторые генеральные директора начинали даже с должности стажёра, — но сегодняшние агенты остаются в основном статическими частями вероятностного программного обеспечения. Такие работы — важный шаг к изменению этой ситуации: помогая агентам понять, чего они не знают, и создавая механизмы для постоянного самосовершенствования. Эти возможности необходимы, если мы хотим, чтобы агенты могли безопасно работать, адаптироваться к новым ситуациям и стабильно добиваться результатов в больших масштабах», — говорит Акаш Сривастава, директор и главный архитектор Core AI в IBM Software, который не участвовал в этой работе.
Эта работа была частично профинансирована MIT-IBM Watson AI Lab, MIT-Amazon Science Hub, MIT-Google Program for Computing Innovation и MathWorks.
1. Какие проблемы существуют в традиционных подходах к распределению вычислительных ресурсов для больших языковых моделей (LLMs) при решении сложных задач?
В традиционных подходах к распределению вычислительных ресурсов для LLMs существует проблема фиксированного вычислительного бюджета для каждой задачи, независимо от её сложности. Это может привести к тому, что модель будет тратить вычислительные ресурсы впустую на более простых вопросах или не сможет решить сложные задачи, требующие более тщательного анализа.
2. В чём заключается инновационный подход исследователей из MIT к распределению вычислительных усилий LLMs?
Исследователи из MIT разработали метод, который позволяет LLM динамически корректировать свой вычислительный бюджет в зависимости от сложности вопроса и вероятности того, что каждое частичное решение приведёт к правильному ответу. Это позволяет модели более эффективно использовать вычислительные ресурсы и достигать сопоставимой точности при решении задач разной сложности.
3. Какие преимущества предлагает новый метод по сравнению с существующими подходами?
Новый метод позволяет LLM использовать вдвое меньше вычислений, чем существующие методы, при этом достигая сопоставимой точности по ряду вопросов разной сложности. Кроме того, их метод позволяет меньшим по размеру LLM, менее требовательным к ресурсам, работать так же хорошо, как и более крупным моделям, или даже лучше при решении сложных задач.
4. Как работает модель вознаграждения за процесс (PRM) в контексте адаптивного масштабирования для конкретных случаев?
PRM оценивает каждое потенциальное решение или путь рассуждений, предоставляя LLM информацию о том, какие из них наиболее перспективны. На каждом этапе процесса рассуждения модель PRM рассматривает вопрос и частичные ответы и оценивает, насколько перспективен каждый из них для достижения правильного решения. Если LLM более уверена, она может сократить количество потенциальных решений или путей рассуждения, экономя вычислительные ресурсы.
5. Какие проблемы исследователи обнаружили в существующих PRM и как они их решают?
Исследователи обнаружили, что существующие PRM часто переоценивают вероятность успеха модели. Они представили метод калибровки, который позволяет PRM генерировать диапазон вероятностных оценок, а не одно значение. Таким образом, PRM создаёт более надёжные оценки неопределённости, которые лучше отражают истинную вероятность успеха.