Большинство языков используют расположение слов и структуру предложений для извлечения смысла. Например, «The cat sat on the box» («Кот сел на коробку») не то же самое, что «The box was on the cat» («Коробка была на коте»). В длинном тексте, таком как финансовый документ или роман, синтаксис этих слов, вероятно, меняется.
Аналогично человек может отслеживать переменные в коде или следовать инструкциям с условными действиями. Это примеры изменений состояния и последовательных рассуждений, в которых мы ожидаем, что современные системы искусственного интеллекта будут преуспевать. Однако существующий передовой механизм внимания в трансформерах — основной архитектуре, используемой в больших языковых моделях (LLM) для определения важности слов — имеет теоретические и эмпирические ограничения, когда дело доходит до таких возможностей.
Механизм внимания позволяет LLM возвращаться к более ранним частям запроса или документа и, основываясь на обучении, определять, какие детали и слова наиболее важны. Однако этот механизм сам по себе не понимает порядок слов. Он «видит» все входные слова, также известные как токены, одновременно и обрабатывает их в том порядке, в котором они представлены. Поэтому исследователи разработали методы для кодирования информации о положении. Это ключевое значение для областей с высокой степенью структурированности, таких как язык.
Но преобладающий метод кодирования положения, называемый вращающимся кодированием положения (RoPE), учитывает только относительное расстояние между токенами в последовательности и не зависит от входных данных. Это означает, что, например, слова, которые находятся на четыре позиции друг от друга, как «cat» («кот») и «box» («коробка») в примере выше, получат одинаковое фиксированное математическое вращение, специфичное для этого относительного расстояния.
Адаптивное кодирование позиции
Исследование, проведённое под руководством Массачусетского технологического института (MIT) и лаборатории MIT-IBM Watson AI, разработало технику кодирования, известную как PaTH Attention, которая делает позиционную информацию адаптивной и контекстно-зависимой, а не статичной, как в случае с RoPE.
«Трансформеры позволяют точно и масштабируемо моделировать многие области, но у них есть эти ограничения в отношении отслеживания состояния, класса явлений, которые, как считается, лежат в основе важных возможностей, которые мы хотим видеть в наших системах искусственного интеллекта. Итак, важный вопрос: как мы можем сохранить масштабируемость и эффективность трансформеров, одновременно обеспечивая отслеживание состояния?» — говорит старший автор статьи Юн Ким, доцент кафедры электротехники и информатики (EECS), член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и исследователь лаборатории MIT-IBM Watson AI.
Путь к пониманию
Вместо того чтобы присваивать каждому слову фиксированное вращение, основанное на относительном расстоянии между токенами, как это делает RoPE, PaTH Attention является гибким, рассматривая промежуточные слова как путь, состоящий из небольших, зависящих от данных преобразований. Каждое преобразование, основанное на математической операции, называемой отражением Хаусхолдера, действует как крошечное зеркало, которое настраивается в зависимости от содержания каждого токена, который оно пропускает. Каждый шаг в последовательности может влиять на то, как модель интерпретирует информацию позже.
Кумулятивный эффект позволяет системе моделировать, как меняется смысл по пути между словами, а не только то, как далеко они друг от друга. Этот подход позволяет трансформерам отслеживать, как сущности и отношения меняются со временем, придавая им ощущение «позиционной памяти».
Команда также разработала аппаратно-эффективный алгоритм для более эффективного вычисления оценок внимания между каждой парой токенов, чтобы совокупное математическое преобразование из PaTH Attention было сжато и разбито на более мелкие вычисления, чтобы оно было совместимо с быстрой обработкой на графических процессорах (GPU).
Исследователи из MIT-IBM изучили производительность PaTH Attention в синтетических и реальных задачах, включая рассуждения, тесты с длинным контекстом и полное обучение LLM, чтобы увидеть, улучшило ли это способность модели отслеживать информацию с течением времени.
«Мы обнаружили, что как в диагностических задачах, которые разработаны для проверки ограничений трансформеров, так и в реальных задачах языкового моделирования наш новый подход смог превзойти существующие механизмы внимания, сохраняя при этом их эффективность», — говорит Ким.
Мышление масштабнее и эффективнее
Затем исследователи изучили, как механизм PaTH Attention будет работать, если он будет более похож на человеческое познание, где мы игнорируем старую или менее релевантную информацию при принятии решений. Для этого они объединили PaTH Attention с другой схемой кодирования положения, известной как забывающий трансформер (FoX), который позволяет моделям выборочно «забывать».
Получившаяся система PaTH-FoX добавляет способ снижения веса информации зависимым от данных образом, достигая высоких результатов в тестах на рассуждения, понимание длинного контекста и языковое моделирование. Таким образом, PaTH Attention расширяет выразительную способность архитектур трансформеров.
Ким говорит, что такие исследования являются частью более широких усилий по разработке «следующего большого шага» в области искусственного интеллекта. Он объясняет, что основной движущей силой революций в области глубокого обучения и генеративного искусственного интеллекта стало создание «универсальных строительных блоков, которые можно применять в широких областях», таких как «свёрточные слои, слои рекуррентных нейронных сетей (RNN)» и, в последнее время, трансформеры.
Работа была частично поддержана лабораторией MIT-IBM Watson AI и программой AI2050 в Schmidt Sciences.
1. Какие ограничения существуют у механизма внимания в трансформерах и как исследователи пытаются их преодолеть?
В тексте указано, что механизм внимания в трансформерах имеет теоретические и эмпирические ограничения при работе с последовательными рассуждениями и изменениями состояния. Исследователи разработали методы для кодирования информации о положении, чтобы преодолеть эти ограничения.
2. В чём заключается отличие PaTH Attention от преобладающего метода кодирования положения RoPE?
PaTH Attention делает позиционную информацию адаптивной и контекстно-зависимой, в отличие от RoPE, который учитывает только относительное расстояние между токенами в последовательности и не зависит от входных данных.
3. Какие преимущества предлагает использование PaTH Attention в сравнении с существующими механизмами внимания?
Согласно тексту, PaTH Attention позволяет трансформерам отслеживать, как сущности и отношения меняются со временем, придавая им ощущение «позиционной памяти». Это позволяет системе моделировать, как меняется смысл по пути между словами, а не только то, как далеко они друг от друга. Кроме того, исследователи обнаружили, что PaTH Attention смог превзойти существующие механизмы внимания в диагностических задачах и реальных задачах языкового моделирования, сохраняя при этом их эффективность.
4. Как механизм PaTH Attention может быть интегрирован с другими схемами кодирования положения для улучшения производительности больших языковых моделей?
В тексте указано, что исследователи объединили PaTH Attention с другой схемой кодирования положения, известной как забывающий трансформер (FoX), который позволяет моделям выборочно «забывать». Получившаяся система PaTH-FoX добавила способ снижения веса информации зависимым от данных образом, достигая высоких результатов в тестах на рассуждения, понимание длинного контекста и языковое моделирование.
5. Какие потенциальные применения и влияние на область искусственного интеллекта может иметь разработка PaTH Attention?
В тексте указано, что разработка PaTH Attention является частью более широких усилий по разработке «следующего большого шага» в области искусственного интеллекта. Это может привести к улучшению производительности больших языковых моделей в задачах, требующих последовательных рассуждений и отслеживания изменений состояния.