Представьте, что вы читаете историю или играете в шахматы. Возможно, вы не замечали, но ваш разум отслеживает, как меняется ситуация (или «состояние мира»). Это можно представить как список последовательности событий, который мы используем для обновления наших прогнозов о том, что произойдёт дальше.
Языковые модели, такие как ChatGPT, также отслеживают изменения внутри себя, когда завершают блок кода или предсказывают, что вы напишете дальше. Они делают обоснованные предположения, используя трансформеры — внутренние архитектуры, которые помогают моделям понимать последовательные данные. Однако системы иногда ошибаются из-за некорректных моделей мышления.
Усовершенствование механизмов прогнозирования
Выявление и настройка этих механизмов помогает языковым моделям стать более надёжными прогнозистами, особенно в таких динамических задачах, как прогнозирование погоды и финансовых рынков.
Но как эти системы искусственного интеллекта обрабатывают развивающиеся ситуации по сравнению с нами? Новая работа исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT CSAIL) и Департамента электротехники и компьютерных наук показывает, что модели используют умные математические приёмы между каждым прогрессивным шагом в последовательности, чтобы делать обоснованные прогнозы.
Игры с оболочками
Исследователи проанализировали внутреннюю работу этих моделей, используя умный эксперимент, напоминающий классическую игру на концентрацию внимания. Они использовали аналогичный тест, где модель угадывала окончательное расположение определённых цифр (также называемое перестановкой).
Модели получали начальную последовательность, например «42135», и инструкции о том, когда и где перемещать каждую цифру. Вместо того чтобы переставлять цифры на основе полученных инструкций, системы агрегировали информацию между последовательными состояниями (или отдельными шагами в последовательности) и вычисляли окончательную перестановку.
Один из распространённых шаблонов, который наблюдала команда, называется «Ассоциативный алгоритм». Он организует близлежащие шаги в группы и затем вычисляет окончательный прогноз. Вы можете представить этот процесс как структурированный подобно дереву, где начальное числовое расположение является «корнем». По мере продвижения по дереву соседние шаги группируются в разные ветви и перемножаются. Вверху дерева находится окончательная комбинация чисел, вычисленная путём умножения каждой результирующей последовательности на ветвях вместе.
Другой способ, с помощью которого языковые модели угадывали окончательную перестановку, — это хитрый механизм, называемый «Алгоритм ассоциативной чётности», который, по сути, сокращает варианты перед их группировкой. Он определяет, является ли окончательное расположение результатом чётного или нечётного количества перестановок отдельных цифр. Затем механизм группирует соседние последовательности из разных шагов перед умножением их, как и Ассоциативный алгоритм.
«Эти модели выполняют симуляцию с помощью ассоциативного сканирования. Вместо того чтобы отслеживать изменения состояния шаг за шагом, модели организуют их в иерархии», — говорит аспирантка MIT и научный сотрудник CSAIL Белинда Ли, ведущий автор статьи.
«Как мы можем побудить трансформеры лучше отслеживать состояние? Вместо того чтобы навязывать этим системам формирование выводов о данных таким же образом, как это делаем мы, возможно, нам следует адаптировать подходы, которые они естественным образом используют при отслеживании изменений состояния», — добавляет Ли.
Через зеркало
Ли и её соавторы наблюдали, как работают Ассоциативный и Алгоритм ассоциативной чётности, используя инструменты, которые позволили им заглянуть внутрь «сознания» языковых моделей. Они использовали метод, называемый «пробингом», который показывает, какая информация проходит через систему искусственного интеллекта. Затем они использовали инструмент под названием «активационное патчингом», чтобы показать, где языковая модель обрабатывает изменения в ситуации.
Эти инструменты показали, когда алгоритмы будут делать ошибки и когда системы «поймут», как правильно угадать окончательные перестановки. Они обнаружили, что Ассоциативный алгоритм обучается быстрее, чем Алгоритм ассоциативной чётности, и при этом лучше работает с более длинными последовательностями. Ли объясняет трудности второго с более сложными инструкциями чрезмерной зависимостью от эвристик (или правил, которые позволяют нам быстро вычислить разумное решение).
Исследователи отмечают, что их эксперименты были проведены на небольших языковых моделях, настроенных на синтетических данных, но обнаружили, что размер модели мало влияет на результаты. Это говорит о том, что настройка более крупных языковых моделей, таких как GPT 4.1, вероятно, даст аналогичные результаты. Команда планирует более внимательно изучить свои гипотезы, протестировав языковые модели разных размеров, которые не были настроены, и оценить их производительность в динамических задачах реального мира, таких как отслеживание кода и слежение за развитием сюжетов.
1. Какие математические приёмы используют языковые модели для прогнозирования динамических сценариев?
В статье описаны два математических приёма: ассоциативный алгоритм и алгоритм ассоциативной чётности. Ассоциативный алгоритм организует близлежащие шаги в группы и затем вычисляет окончательный прогноз. Алгоритм ассоциативной чётности сокращает варианты перед их группировкой, определяя, является ли окончательное расположение результатом чётного или нечётного количества перестановок отдельных цифр.
2. Как языковые модели обрабатывают развивающиеся ситуации по сравнению с человеком?
Языковые модели используют ассоциативные алгоритмы для обработки развивающихся ситуаций, организуя шаги в группы и вычисляя окончательный прогноз. В отличие от человека, который может отслеживать изменения состояния шаг за шагом, модели организуют их в иерархии. Это позволяет им быстрее обучаться и лучше работать с более длинными последовательностями.
3. Какие инструменты использовали исследователи для анализа работы языковых моделей?
Исследователи использовали метод, называемый «пробингом», который показывает, какая информация проходит через систему искусственного интеллекта. Затем они использовали инструмент под названием «активационное патчингом», чтобы показать, где языковая модель обрабатывает изменения в ситуации. Эти инструменты позволили им заглянуть внутрь «сознания» языковых моделей и понять, как они работают.
4. Какие выводы сделали исследователи о работе ассоциативного алгоритма и алгоритма ассоциативной чётности?
Исследователи обнаружили, что ассоциативный алгоритм обучается быстрее, чем алгоритм ассоциативной чётности, и при этом лучше работает с более длинными последовательностями. Они также отметили, что размер модели мало влияет на результаты, что говорит о том, что настройка более крупных языковых моделей, вероятно, даст аналогичные результаты.
5. Какие планы у исследователей на будущее?
Команда планирует более внимательно изучить свои гипотезы, протестировав языковые модели разных размеров, которые не были настроены, и оценить их производительность в динамических задачах реального мира, таких как отслеживание кода и слежение за развитием сюжетов.