Большие языковые модели (БЯМ), такие как ChatGPT, могут почти мгновенно написать эссе или спланировать меню. Но до недавнего времени их можно было легко поставить в тупик. Модели, которые отвечают на запросы пользователей, опираясь на языковые шаблоны, часто не справлялись с математическими задачами и не были хороши в сложных рассуждениях. Однако внезапно они стали намного лучше в этих вещах.
Новое поколение БЯМ, известное как модели рассуждений, обучается решать сложные задачи. Как и людям, им нужно время, чтобы обдумать такие задачи. Учёные из Института исследований мозга Макговерна при Массачусетском технологическом институте обнаружили, что модели рассуждений обрабатывают задачи, требующие значительных усилий, так же, как и люди.
Исследователи под руководством Эвелины Федоренко, доцента кафедры наук о мозге и когнитивных науках и научного сотрудника Института Макговерна, пришли к выводу, что в одном важном аспекте модели рассуждений имеют человекоподобный подход к мышлению. Это, по их словам, не было запланировано. «Люди, которые создают эти модели, не заботятся о том, чтобы они думали как люди. Они просто хотят, чтобы система надёжно работала в любых условиях и выдавала правильные ответы», — говорит Федоренко. «Тот факт, что происходит некоторая конвергенция, действительно поразителен».
Модели рассуждений
Как и многие формы искусственного интеллекта, новые модели рассуждений представляют собой искусственные нейронные сети: вычислительные инструменты, которые учатся обрабатывать информацию, когда им дают данные и задачу для решения. Искусственные нейронные сети очень успешны во многих задачах, с которыми хорошо справляются нейронные сети мозга. Некоторые учёные утверждали, что искусственный интеллект не готов к более сложным аспектам человеческого интеллекта.
«До недавнего времени я был среди тех, кто говорил: «Эти модели действительно хороши в таких вещах, как восприятие и язык, но пройдёт ещё много времени, прежде чем у нас появятся модели нейронных сетей, которые смогут рассуждать», — говорит Федоренко. «Затем появились эти большие модели рассуждений, и они, похоже, намного лучше справляются со многими мыслительными задачами, такими как решение математических задач и написание фрагментов компьютерного кода».
Андреа Грегор де Варда, научный сотрудник Центра K. Lisa Yang ICoN и постдок в лаборатории Федоренко, объясняет, что модели рассуждений решают задачи шаг за шагом. «В какой-то момент люди поняли, что моделям нужно больше места для выполнения вычислений, необходимых для решения сложных задач», — говорит он. «Производительность стала намного выше, если вы позволяете моделям разбивать задачи на части».
Чтобы побудить модели решать сложные задачи поэтапно, инженеры могут использовать обучение с подкреплением. Во время обучения модели получают вознаграждение за правильные ответы и наказание за неправильные. «Модели исследуют пространство задач сами», — говорит де Варда. «Действия, которые приводят к положительным вознаграждениям, закрепляются, чтобы они чаще выдавали правильные решения».
Модели, обученные таким образом, с гораздо большей вероятностью, чем их предшественники, придут к тем же ответам, что и человек, когда им будет дана задача на рассуждение. Их пошаговое решение задач означает, что моделям рассуждений может потребоваться немного больше времени, чтобы найти ответ, чем предыдущим БЯМ, но поскольку они получают правильные ответы там, где предыдущие модели потерпели бы неудачу, их ответы стоят ожидания.
Необходимость моделям тратить некоторое время на решение сложных задач уже намекает на параллель с человеческим мышлением: если вы потребуете, чтобы человек решил сложную задачу мгновенно, он, вероятно, тоже потерпит неудачу. Де Варда хотел более систематически изучить эту взаимосвязь. Поэтому он дал моделям рассуждений и добровольцам-людям одинаковый набор задач и отслеживал не только то, правильно ли они ответили, но и сколько времени или усилий им потребовалось, чтобы прийти к ответу.
Время против токенов
Это означало измерение того, сколько времени потребовалось людям, чтобы ответить на каждый вопрос, вплоть до миллисекунды. Для моделей Варда использовал другую метрику. Измерять время обработки не имело смысла, поскольку оно больше зависит от аппаратного обеспечения компьютера, чем от усилий, которые модель вкладывает в решение задачи. Поэтому вместо этого он отслеживал токены, которые являются частью внутренней цепочки мыслей модели. «Они производят токены, которые не предназначены для того, чтобы их видел пользователь, а только для того, чтобы иметь представление о внутренних вычислениях, которые они выполняют», — объясняет де Варда. «Это как если бы они разговаривали сами с собой».
И людям, и моделям рассуждений было предложено решить семь различных типов задач, таких как числовая арифметика и интуитивное рассуждение. Для каждого класса задач им было предложено решить множество задач. Чем сложнее была заданная задача, тем больше времени требовалось людям для её решения — и чем больше времени требовалось людям для решения задачи, тем больше токенов генерировала модель рассуждений, приходя к своему решению.
Аналогично, классы задач, на решение которых у людей уходило больше всего времени, были теми же классами задач, которые требовали больше всего токенов для моделей: арифметические задачи были наименее требовательными, тогда как группа задач под названием «ARC challenge», где пары цветных сеток представляют преобразование, которое необходимо вывести и затем применить к новому объекту, были наиболее затратными как для людей, так и для моделей.
Де Варда и Федоренко говорят, что поразительное совпадение затрат на мышление демонстрирует один из способов, с помощью которых модели рассуждений мыслят как люди. Это не означает, что модели воссоздают человеческий интеллект. Исследователи всё ещё хотят знать, используют ли модели те же представления информации, что и человеческий мозг, и как эти представления преобразуются в решения задач. Им также любопытно, смогут ли модели справиться с задачами, требующими мировых знаний, которые не прописаны в текстах, используемых для обучения моделей.
Исследователи отмечают, что даже если модели рассуждений генерируют внутренние монологи, пока решают задачи, они не обязательно используют язык для мышления. «Если вы посмотрите на выходные данные, которые эти модели выдают во время рассуждений, они часто содержат ошибки или какие-то бессмысленные фрагменты, даже если модель в конечном итоге приходит к правильному ответу», — говорит он. «Фактические внутренние вычисления, вероятно, происходят в абстрактном, нелингвистическом пространстве представлений, подобно тому, как люди не используют язык для мышления».
1. Какие новые возможности появились у больших языковых моделей (БЯМ) в последнее время?
В последнее время большие языковые модели (БЯМ), такие как ChatGPT, стали намного лучше решать сложные задачи, включая математические и требующие сложных рассуждений.
2. Как работает новое поколение БЯМ — модели рассуждений?
Модели рассуждений представляют собой искусственные нейронные сети, которые обрабатывают информацию, когда им дают данные и задачу для решения. Они решают задачи шаг за шагом, разбивая их на части. Во время обучения модели получают вознаграждение за правильные ответы и наказание за неправильные.
3. Какие метрики используются для измерения эффективности моделей рассуждений?
Для измерения эффективности моделей рассуждений используются разные метрики в зависимости от контекста. Для людей время ответа измеряется вплоть до миллисекунды. Для моделей вместо времени обработки отслеживается количество токенов, которые являются частью внутренней цепочки мыслей модели.
4. Какие задачи были предложены моделям рассуждений и добровольцам-людям для исследования?
Для исследования моделям рассуждений и добровольцам-людям было предложено решить семь различных типов задач, таких как числовая арифметика и интуитивное рассуждение. Чем сложнее была заданная задача, тем больше времени требовалось людям для её решения — и чем больше времени требовалось людям для решения задачи, тем больше токенов генерировала модель рассуждений, приходя к своему решению.
5. Какие выводы сделали исследователи о сходстве между мышлением моделей рассуждений и человека?
Исследователи сделали вывод, что модели рассуждений мыслят как люди в том смысле, что затраты на мышление у них совпадают. Это не означает, что модели воссоздают человеческий интеллект, но демонстрирует один из способов, с помощью которых модели рассуждений могут решать сложные задачи.