Расширение RoPE до N измерений: новый подход к позиционному кодированию в трансформерах

Трансформеры стали основополагающим инструментом в машинном обучении, поддерживая модели, которые работают с последовательными и структурированными данными. Одна из важнейших задач при этом — дать модели возможность понимать позицию токенов или входных данных, поскольку трансформеры по своей природе не имеют механизма кодирования порядка. Кодирование позиционного представления с помощью вращательных преобразований (Rotary Position Embedding, RoPE) стало популярным … Читать далее