Команда разработчиков Falcon LLM выпускает технический отчёт о Falcon-H1: гибридная модель внимания и SSM, конкурирующая с моделями на 70 миллиардов параметров

Введение

Серия Falcon-H1, разработанная Институтом технологических инноваций (TII), представляет собой значительный шаг вперёд в эволюции больших языковых моделей (LLM). Благодаря интеграции внимания на основе Transformer и моделей состояния пространства (SSM) на основе Mamba в гибридной параллельной конфигурации Falcon-H1 достигает исключительной производительности, эффективности использования памяти и масштабируемости.

Модели Falcon-H1 представлены в различных размерах (от 0,5 миллиарда до 34 миллиардов параметров) и версиях (базовая, с инструкциями и квантованная). Они переопределяют компромисс между вычислительным бюджетом и качеством вывода, предлагая более эффективную работу с параметрами по сравнению со многими современными моделями, такими как Qwen2.5-72B и LLaMA3.3-70B.

Ключевые архитектурные инновации

В техническом отчёте объясняется, как Falcon-H1 использует новую параллельную гибридную архитектуру, в которой модули внимания и SSM работают одновременно, а их выходные данные объединяются перед проекцией. Такая конструкция отличается от традиционной последовательной интеграции и обеспечивает гибкость настройки количества каналов внимания и SSM независимо.

Стандартная конфигурация использует соотношение 2:1:5 для каналов SSM, внимания и MLP соответственно, оптимизируя эффективность и динамику обучения.

Для дальнейшего усовершенствования модели Falcon-H1 изучает:
* Распределение каналов: исследования показывают, что увеличение количества каналов внимания ухудшает производительность, тогда как баланс между SSM и MLP обеспечивает устойчивые улучшения.
* Конфигурацию блоков: конфигурация SA_M (полупараллельная с одновременной работой внимания и SSM, за которой следует MLP) показывает лучшие результаты по потерям при обучении и вычислительной эффективности.
* Базовую частоту RoPE: необычно высокая базовая частота 10¹¹ в ротационных позиционных встраиваниях (RoPE) оказалась оптимальной, улучшая обобщение во время обучения с длинным контекстом.
* Компромисс между шириной и глубиной: эксперименты показывают, что более глубокие модели превосходят более широкие при фиксированном бюджете параметров. Falcon-H1-1.5B-Deep (66 слоёв) превосходит многие модели на 3 миллиарда и 7 миллиардов параметров.

Стратегия токенизации

Falcon-H1 использует индивидуальный набор токенизаторов на основе байтовой пары (BPE) с размерами словаря от 32 тысяч до 261 тысячи. Ключевые конструктивные решения включают:
* Разделение цифр и пунктуации: эмпирически улучшает производительность в коде и многоязычных настройках.
* Инъекцию токенов LATEX: повышает точность модели на математических тестах.
* Многоязычную поддержку: охватывает 18 языков и масштабируется до 100+, используя оптимизированные показатели фертильности и байтов/токен.

Корпус предварительного обучения и стратегия работы с данными

Модели Falcon-H1 обучены на токенах объёмом до 18 триллионов из тщательно отобранного корпуса объёмом 20 триллионов токенов, включающего:
* Высококачественные веб-данные (отфильтрованный FineWeb).
* Многоязычные наборы данных: Common Crawl, Wikipedia, arXiv, OpenSubtitles и кураторские ресурсы для 17 языков.
* Корпус кода: 67 языков, обработанный с помощью дедупликации MinHash, фильтров качества CodeBERT и очистки личных данных.
* Математические наборы данных: MATH, GSM8K и внутренние обходы с улучшением LaTeX.
* Синтетические данные: переписанные из необработанных корпусов с использованием разнообразных LLM, а также вопросы в стиле учебников из 30 тысяч тем на основе Википедии.
* Последовательности с длинным контекстом: улучшены с помощью задач «Заполни середину», перестановки и синтетического рассуждения длиной до 256 тысяч токенов.

Инфраструктура и методология обучения

Обучение использовало индивидуальную параметризацию максимального обновления (µP), поддерживающую плавное масштабирование для разных размеров моделей. Модели используют передовые стратегии параллелизма:
* Параллелизм микширования (MP) и контекстный параллелизм (CP): повышают пропускную способность для обработки длинных контекстов.
* Квантование: выпускаются в вариантах bfloat16 и 4-битных для облегчения развёртывания на периферии.

Оценка и производительность

Falcon-H1 достигает беспрецедентной производительности на параметр:
* Falcon-H1-34B-Instruct превосходит или соответствует моделям масштаба 70 миллиардов параметров, таким как Qwen2.5-72B и LLaMA3.3-70B, в задачах рассуждения, математики, следования инструкциям и многоязычных задачах.
* Falcon-H1-1.5B-Deep конкурирует с моделями на 7–10 миллиардов параметров.
* Falcon-H1-0.5B обеспечивает производительность 7 миллиардов параметров в 2024 году.

Тесты охватывают MMLU, GSM8K, HumanEval и задачи с длинным контекстом. Модели демонстрируют чёткую согласованность через SFT и прямую оптимизацию предпочтений (DPO).

Заключение

Falcon-H1 устанавливает новый стандарт для LLM с открытым весом, объединяя параллельные гибридные архитектуры, гибкую токенизацию, эффективную динамику обучения и надёжные многоязычные возможности. Стратегическое сочетание SSM и внимания позволяет достичь несравненной производительности в рамках практических вычислительных и памятных бюджетов, что делает его идеальным как для исследований, так и для развёртывания в различных средах.

Ознакомьтесь с документом и моделями на Hugging Face. Не стесняйтесь заглядывать на нашу страницу с учебными пособиями по искусственному интеллекту и агентскому искусственному интеллекту для различных приложений. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников) и подписывайтесь на нашу рассылку.

1. Какие ключевые архитектурные инновации используются в модели Falcon-H1 и как они влияют на её производительность?

В модели Falcon-H1 используется новая параллельная гибридная архитектура, в которой модули внимания и SSM работают одновременно, а их выходные данные объединяются перед проекцией. Такая конструкция отличается от традиционной последовательной интеграции и обеспечивает гибкость настройки количества каналов внимания и SSM независимо. Это позволяет оптимизировать эффективность и динамику обучения, что влияет на производительность модели.

2. Какие параметры и конфигурации используются для оптимизации Falcon-H1 и какие результаты они показывают?

Для оптимизации Falcon-H1 используются различные параметры и конфигурации, такие как распределение каналов, конфигурация блоков, базовая частота RoPE и компромисс между шириной и глубиной. Эксперименты показывают, что более глубокие модели превосходят более широкие при фиксированном бюджете параметров. Falcon-H1-1.5B-Deep (66 слоёв) превосходит многие модели на 3 миллиарда и 7 миллиардов параметров.

3. Какие стратегии токенизации используются в Falcon-H1 и как они улучшают производительность модели?

Falcon-H1 использует индивидуальный набор токенизаторов на основе байтовой пары (BPE) с размерами словаря от 32 тысяч до 261 тысячи. Ключевые конструктивные решения включают разделение цифр и пунктуации, инъекцию токенов LATEX и многоязычную поддержку. Эти стратегии токенизации улучшают производительность модели в коде, многоязычных настройках и математических тестах.

4. Какие данные используются для предварительного обучения Falcon-H1 и как они влияют на его производительность?

Модели Falcon-H1 обучены на токенах объёмом до 18 триллионов из тщательно отобранного корпуса объёмом 20 триллионов токенов, включающего высококачественные веб-данные, многоязычные наборы данных, корпус кода, математические наборы данных, синтетические данные и последовательности с длинным контекстом. Использование такого разнообразного и обширного корпуса данных способствует улучшению производительности модели.

5. Какие методы и стратегии используются для обучения Falcon-H1 и как они обеспечивают его эффективность?

Обучение Falcon-H1 использует индивидуальную параметризацию максимального обновления (µP), поддерживающую плавное масштабирование для разных размеров моделей. Модели используют передовые стратегии параллелизма, такие как параллелизм микширования (MP) и контекстный параллелизм (CP), а также квантование. Эти методы и стратегии обеспечивают эффективность обучения и производительность модели.

Источник