Метка: трансформеры
-
Стоки внимания в больших языковых моделях: функциональная роль и влияние на стабильность и эффективность
Большие языковые модели (LLM) часто демонстрируют своеобразное поведение, при котором первый токен в последовательности привлекает необычно много внимания — это явление известно как «сток внимания». Несмотря на кажущуюся неважность, этот токен часто доминирует в распределении внимания во многих компонентах моделей Трансформера. Хотя предыдущие исследования изучали, когда и как возникают стоки внимания, причины их появления и…