Расширение RoPE до N измерений: новый подход к позиционному кодированию в трансформерах

Трансформеры стали основополагающим инструментом в машинном обучении, поддерживая модели, которые работают с последовательными и структурированными данными. Одна из важнейших задач при этом — дать модели возможность понимать позицию токенов или входных данных, поскольку трансформеры по своей природе не имеют механизма кодирования порядка.

Кодирование позиционного представления с помощью вращательных преобразований (Rotary Position Embedding, RoPE) стало популярным решением, особенно в задачах обработки естественного языка и компьютерного зрения, поскольку оно эффективно кодирует абсолютные позиции, облегчая относительное пространственное понимание. По мере усложнения этих моделей и расширения их применения в различных модальностях возрастает важность повышения выразительности и размерной гибкости RoPE.

Значительная проблема возникает при масштабировании RoPE: от обработки простых одномерных последовательностей до обработки многомерных пространственных данных. Сложность заключается в сохранении двух важных особенностей: относительности, позволяющей модели различать позиции относительно друг друга, и обратимости, обеспечивающей уникальное восстановление исходных позиций. Современные разработки часто обрабатывают каждую пространственную ось независимо, не улавливая взаимозависимости между измерениями. Такой подход приводит к неполному пониманию позиции в многомерных условиях, ограничивая производительность модели в сложных пространственных или мультимодальных средах.

Попытки расширить RoPE обычно включали дублирование одномерных операций вдоль нескольких осей или внедрение обучаемых частот вращения. Стандартный двумерный RoPE, например, независимо применяет одномерные вращения по каждой оси, используя блочно-диагональные матрицы. Хотя это и сохраняет вычислительную эффективность, такие методы не могут представить диагональные или смешанно-направленные отношения. Недавно были предложены формулировки обучаемого RoPE, такие как STRING, которые попытались повысить выразительность за счёт прямого обучения параметров вращения. Однако им не хватает чёткой математической основы, и они не гарантируют соблюдения фундаментальных ограничений относительности и обратимости.

Исследователи из Манчестерского университета представили новый метод, который систематически расширяет RoPE до N измерений, используя теорию групп Ли и алгебр Ли. Их подход определяет допустимые конструкции RoPE как лежащие в максимальной абелевой подалгебре (MASA) специальной ортогональной алгебры Ли so(n). Этот подход привносит ранее отсутствовавшую теоретическую строгость, гарантируя, что позиционное кодирование соответствует требованиям относительности и обратимости. Вместо наложения одномерных операций их фреймворк строит основу для позиционно-зависимых преобразований, которые могут гибко адаптироваться к более высоким измерениям, сохраняя математические гарантии.

Основная методология определяет преобразование RoPE как матричную экспоненту кососимметричных генераторов в алгебре Ли so(n). Для стандартных одномерных и двумерных случаев эти матрицы производят традиционные матрицы вращения. Новизна заключается в обобщении до N измерений, где исследователи выбирают линейно независимый набор из N генераторов из MASA so(d). Это гарантирует, что результирующая матрица преобразования кодирует все пространственные измерения обратимо и относительно. Авторы доказывают, что эта формулировка, особенно стандартный ND RoPE, соответствует максимальной торальной подалгебре — структуре, которая делит входное пространство на ортогональные двумерные вращения. Чтобы обеспечить взаимодействие между измерениями, исследователи вводят обучаемую ортогональную матрицу Q, которая модифицирует основу, не нарушая математических свойств конструкции RoPE. Предлагается несколько стратегий для обучения Q, включая преобразование Кэли, матричную экспоненту и вращения Гивенса, каждая из которых предлагает компромисс между интерпретируемостью и вычислительной эффективностью.

Метод демонстрирует надёжные теоретические показатели, доказывая, что сконструированный RoPE сохраняет инъективность в каждом цикле встраивания. Когда размерность d² равна количеству измерений N, стандартная основа эффективно поддерживает структурированные вращения без наложения. Для более высоких значений d можно выбрать более гибкие генераторы, чтобы лучше приспособиться к мультимодальным данным. Исследователи показали, что матрицы типа B₁ и B₂ в so(6) могут представлять ортогональные и независимые вращения в шестимерном пространстве. Хотя эмпирические результаты для выполнения последующих задач не были представлены, математическая структура подтверждает, что оба ключевых свойства — относительность и обратимость — сохраняются даже при введении изученных межразмерных взаимодействий.

Это исследование, проведённое в Манчестерском университете, предлагает математически полное и элегантное решение ограничениям современных подходов RoPE. Исследование закрывает значительный пробел в позиционном кодировании, основываясь на алгебраической теории и предлагая путь для изучения межразмерных отношений без ущерба для фундаментальных свойств. Фреймворк применим к традиционным одномерным и двумерным входным данным и масштабируется до более сложных N-мерных данных, что делает его основополагающим шагом на пути к более выразительным архитектурам трансформеров.

Источник

Оставьте комментарий