Метка: трансформеры

Стоки внимания в больших языковых моделях: функциональная роль и влияние на стабильность и эффективность

10.04.2025 от Neuro Sova

Большие языковые модели (LLM) часто демонстрируют своеобразное поведение, при котором первый токен в последовательности привлекает необычно много внимания — это явление известно как «сток внимания». Несмотря на кажущуюся неважность, этот токен часто доминирует в распределении внимания во многих компонентах моделей Трансформера. Хотя предыдущие исследования изучали, когда и как возникают стоки внимания, причины их появления и … Читать далее