Стоки внимания в больших языковых моделях: функциональная роль и влияние на стабильность и эффективность

Большие языковые модели (LLM) часто демонстрируют своеобразное поведение, при котором первый токен в последовательности привлекает необычно много внимания — это явление известно как «сток внимания». Несмотря на кажущуюся неважность, этот токен часто доминирует в распределении внимания во многих компонентах моделей Трансформера. Хотя предыдущие исследования изучали, когда и как возникают стоки внимания, причины их появления и функциональная роль до сих пор остаются неясными. Эти схемы внимания связаны с проблемами и оптимизацией в LLM, такими как квантование, кэширование ключ-значение, потоковое внимание и даже уязвимости в области безопасности, что подчёркивает их значимость и необходимость более глубокого понимания.

Исследователи из Оксфордского университета, Национального университета Сингапура (NUS) и Google DeepMind изучили, почему в LLM возникают стоки внимания, когда модели сильно фокусируются на первом токене. В отличие от прошлых попыток уменьшить их влияние, они утверждают, что эти стоки выполняют функциональную роль, предотвращая чрезмерное смешивание представлений токенов, которое может привести к коллапсу или нестабильности в глубоких Трансформерах. Токен ⟨bos⟩ (начало последовательности) часто привлекает большую часть внимания, ограничивая распространение возмущений и стабилизируя модель. Эксперименты на моделях, таких как Gemma 7B и LLaMa 3.1 405B, подтверждают, что стоки внимания становятся более выраженными в более глубоких моделях и при работе с длинными контекстами, что поддерживает их теорию.

Исследование показывает, как декодерные Трансформеры, архитектура которых лежит в основе большинства современных языковых моделей, используют механизмы внимания для обработки последовательностей по токенам. В таких моделях каждый токен может взаимодействовать только с предыдущими токенами из-за причинно-следственной маскировки. Повторяющимся явлением в этих моделях является возникновение «стоков внимания» — токенов, таких как ⟨bos⟩, которые непропорционально сильно привлекают внимание в разных компонентах и слоях. Хотя ранее стоки внимания рассматривались как артефакты больших активаций ключей и запросов, данное исследование утверждает, что они жизненно важны для поддержания стабильных представлений, особенно в длинных последовательностях. Концентрируя внимание, стоки предотвращают чрезмерное смешивание информации между слоями, помогая сохранить уникальность представлений токенов.

Исследование связывает стоки внимания с такими проблемами, как коллапс ранга и чрезмерное сжатие, которые ухудшают производительность модели, сжимая разнообразные входные данные в неотличимые представления. Оно использует математические инструменты, такие как нормы Якобиана, чтобы показать, как стоки внимания снижают чувствительность к возмущениям, эффективно действуя как стабилизаторы, предотвращающие коллапс представлений. Эксперименты на моделях, таких как Gemma 7B, подтверждают, что удаление стоков внимания увеличивает распространение информации, в то время как их наличие поддерживает более резкие и локализованные схемы внимания. Таким образом, стоки внимания — это не просто побочный эффект, а структурная особенность, поддерживающая способность Трансформера обрабатывать глубокие и долгосрочные зависимости.

Исследование выясняет, играет ли токен ⟨bos⟩ особую роль в формировании стоков внимания в языковых моделях. С помощью серии экспериментов с использованием различных стратегий упаковки данных и маскировки исследователи обнаружили, что стоки внимания последовательно формируются на первом токене ввода, независимо от того, помечен ли он явно как ⟨bos⟩ или нет. Однако, когда ⟨bos⟩ фиксируется в начале каждой последовательности во время предварительного обучения, модель учится сильнее полагаться на него для стабилизации внимания и предотвращения чрезмерного смешивания представлений токенов. Удаление ⟨bos⟩ во время логического вывода в таких моделях приводит к коллапсу в формировании стоков и значительному падению производительности. Это подчёркивает, что, хотя первый токен всегда играет роль якоря внимания, настройки обучения — особенно постоянное присутствие ⟨bos⟩ — значительно усиливают этот эффект.

В заключение исследование утверждает, что стоки внимания являются структурным решением проблем, таких как чрезмерное сжатие и смешивание в глубоких Трансформерах. Направление внимания на начальный токен — обычно ⟨bos⟩ — помогает модели снизить чувствительность к шуму на входе и сохранить отличительные представления токенов в длинных контекстах. Полученные данные также показывают, что длина контекста, глубина модели и конфигурации обучения существенно влияют на то, как и где формируются стоки. Предлагая теоретические идеи и эмпирические подтверждения, работа представляет стоки внимания не как особенности, а как компоненты, способствующие стабильности и эффективности больших языковых моделей.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *