Расширение контекста в больших языковых моделях: инновационный подход к обработке сверхдлинных последовательностей

Большие языковые модели (LLM) продемонстрировали впечатляющие результаты в решении разнообразных текстовых и мультимодальных задач. Однако многие приложения, такие как понимание документов и видео, обучение в контексте и масштабирование в процессе вывода, требуют способности обрабатывать и анализировать длинные последовательности токенов. Ограниченный контекстный окно LLM создаёт значительные трудности в этих ситуациях, поскольку важная информация, распределённая по обширным документам, может быть упущена.

Модели часто упускают жизненно важную информацию при обработке объёмных документов или видео, выходящих за пределы их фиксированного контекстного окна. Это ограничение создаёт потребность в моделях, которые могут эффективно обрабатывать сверхдлинные контексты без ущерба для производительности в стандартных задачах.

Существующие стратегии расширения контекста для моделей с длинным контекстом делятся на три категории: методы точного внимания, методы приближённого внимания и подходы с дополнительными модулями. Такие методы, как интерполяция позиций, NTK-aware, Dynamic NTK, YaRN и CLEX, улучшают механизмы внимания за счёт переработанных позиционных встраиваний. Недавние достижения включают модели вроде GPT-4o, Gemini и Claude, поддерживающие обширные контекстные окна размером в сотни тысяч токенов, но их закрытый исходный код ограничивает возможности воспроизведения. Открытые проекты, такие как ProLong, используют NTK-aware масштабирование, но требуют дорогостоящих вычислений, в то время как Gradient применяет дополнительное предварительное обучение, сохраняя производительность в стандартных задачах.

Исследователи из UIUC и NVIDIA предложили эффективный метод обучения сверхдлинных контекстных LLM на основе выровненных инструктивных моделей, расширяя границы длины контекста с 128 тысяч до 1 миллиона, 2 миллионов и 4 миллионов токенов. Метод использует эффективное дополнительное предварительное обучение для расширения контекстного окна, а настройка инструкций позволяет сохранить способность следовать инструкциям и рассуждать. Более того, их модель UltraLong-8B демонстрирует самые современные результаты в различных бенчмарках с длинным контекстом. Модели, обученные с использованием этого подхода, сохраняют конкурентоспособную производительность в стандартных бенчмарках, показывая сбалансированные улучшения для задач с длинным и коротким контекстом. Исследование предоставляет глубокий анализ ключевых проектных решений, выделяя влияние стратегий масштабирования и состава данных.

Предложенный метод состоит из двух ключевых этапов: дополнительное предварительное обучение и настройка инструкций. Вместе эти этапы позволяют эффективно обрабатывать сверхдлинные входные данные, сохраняя высокую производительность в задачах. Для расширения контекста используется подход масштабирования на основе YaRN с фиксированными гиперпараметрами α = 1 и β = 4 вместо стратегий NTK-aware масштабирования. Коэффициенты масштабирования вычисляются на основе целевой длины контекста и используют более крупные коэффициенты масштабирования для RoPE встраиваний, чтобы приспособиться к расширенным последовательностям и смягчить деградацию производительности при максимальных длинах. Исследователи подбирают высококачественные наборы данных SFT, охватывающие общие, математические и кодовые области для обучающих данных, и далее используют GPT-4o и GPT-4o-mini для уточнения ответов и проведения тщательной деконтаминации данных.

Предложенные модели демонстрируют превосходные возможности извлечения длинного контекста в тесте извлечения секретного ключа «Иголка в стоге сена». Базовые модели, такие как Llama-3-8B-Instruct-Gradient-1048k, проходят тест, но Llama3.1-8B-Instruct и Llama-3-8B-ProLong-512k-Instruct допускают ошибки. В отличие от них, модели UltraLong достигают 100% точности для всех длин и глубин ввода, демонстрируя высокую способность к извлечению. UltraLong достигает наивысших средних баллов на RULER для входных данных длиной до 512 тысяч и 1 миллиона токенов, наивысших баллов F1 на LV-Eval в пределах 128 тысяч и 256 тысяч токенов и наилучшей производительности на InfiniteBench. Кроме того, модели сохраняют высокую производительность в общих, математических и кодовых областях со средними баллами 62,47, 61,06 и 60,95, превышая базовый показатель модели в 61,45.

Эта исследовательская работа представляет эффективный и систематический метод обучения сверхдлинных контекстных языковых моделей, расширяя контекстные окна до 1 миллиона, 2 миллионов и 4 миллионов токенов при сохранении конкурентоспособной производительности в стандартных бенчмарках. Подход сочетает эффективное дополнительное предварительное обучение с настройкой инструкций для улучшения понимания длинного контекста и способности следовать инструкциям. Однако этот подход фокусируется только на SFT на наборах данных инструкций на этапе настройки инструкций, не исследуя обучение с подкреплением или оптимизацию предпочтений. Также он не затрагивает вопросы безопасности. Будущие исследования включают интеграцию механизмов обеспечения безопасности и изучение продвинутых стратегий настройки, что позволит ещё больше повысить производительность и надёжность.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *