Разработка масштабных языковых моделей (LLM) исторически требовала централизованного доступа к обширным наборам данных, многие из которых чувствительны, защищены авторским правом или регулируются ограничениями на использование. Это ограничение серьёзно ограничивает участие организаций, богатых данными, работающих в регулируемых или закрытых средах.
FlexOlmo — предложенная исследователями из Института Аллена по искусственному интеллекту и их коллегами — представляет собой модульную структуру обучения и вывода, которая позволяет разрабатывать LLM с учётом ограничений управления данными.
Текущие подходы к обучению LLM
Текущие конвейеры обучения LLM полагаются на объединение всех обучающих данных в единый корпус, что накладывает статическое решение о включении и исключает возможность отказа от участия после обучения. Этот подход несовместим с:
* нормативными режимами (например, HIPAA, GDPR, законами о суверенитете данных);
* наборами данных, ограниченными лицензиями (например, некоммерческими или с ограничениями на атрибуцию);
* контекстно-зависимыми данными (например, внутренним исходным кодом, клиническими записями).
FlexOlmo решает две задачи:
1. Децентрализованное модульное обучение: позволяет независимо обучать модули на непересекающихся, локально хранящихся наборах данных.
2. Гибкость во время вывода: обеспечивает детерминированные механизмы включения/исключения наборов данных без переобучения.
Архитектура модели: экспертная модульность через Mixture-of-Experts (MoE)
FlexOlmo основан на архитектуре Mixture-of-Experts (MoE), где каждый эксперт соответствует модулю прямой передачи (FFN), обученному независимо. Фиксированная общедоступная модель (обозначается как Mpub) служит общим якорем. Каждый владелец данных обучает эксперта Mi на своём частном наборе данных D_i, в то время как все слои внимания и другие параметры, не относящиеся к экспертам, остаются замороженными.
Ключевые архитектурные компоненты:
* Редкая активация: активируется только подмножество экспертных модулей для каждого входного токена.
* Маршрутизация экспертов: назначение токена эксперту регулируется матрицей маршрутизатора, полученной из вложений, основанных на предметной области, что устраняет необходимость в совместном обучении.
* Регуляризация смещения: вводится отрицательный член смещения для калибровки выбора между независимо обученными экспертами, предотвращая чрезмерный выбор какого-либо одного эксперта.
Эта конструкция поддерживает взаимодействие между модулями, обеспечивая при этом выборочное включение во время вывода.
Асинхронная и изолированная оптимизация
Каждый эксперт Mi обучается с помощью ограниченной процедуры, чтобы обеспечить согласованность с Mpub.
* Обучение выполняется на гибридном экземпляре MoE, состоящем из Mi и Mpub.
* Эксперт M_pub и общие слои внимания заморожены.
* Обновляются только FFN, соответствующие Mi, и вложения маршрутизатора ri.
Для инициализации ri набор образцов из Di встраивается с помощью предварительно обученного кодировщика, и их среднее значение формирует встраивание маршрутизатора. Необязательная лёгкая настройка маршрутизатора может дополнительно улучшить производительность с использованием прокси-данных из общедоступного корпуса.
Конструкция набора данных: FLEXMIX
Обучающий корпус FLEXMIX разделён на:
* общедоступную смесь, состоящую из веб-данных общего назначения;
* семь закрытых наборов, имитирующих несопоставимые с обменом домены: новости, Reddit, код, академические тексты, образовательные тексты, творческое письмо и математика.
Каждый эксперт обучается на непересекающемся подмножестве, без совместного доступа к данным. Такая настройка приближает к реальному использованию, когда организации не могут объединять данные из-за юридических, этических или операционных ограничений.
Оценка и сравнение с базовыми показателями
FlexOlmo был оценён на 31 эталонной задаче по 10 категориям, включая общее понимание языка (например, MMLU, AGIEval), генеративное QA (например, GEN5), генерацию кода (например, Code4) и математические рассуждения (например, Math2).
Базовые методы включают:
* Model soup: усреднение весов индивидуально настроенных моделей.
* Branch-Train-Merge (BTM): взвешенное объединение выходных вероятностей.
* BTX: преобразование независимо обученных плотных моделей в MoE с помощью трансплантации параметров.
* Prompt-based routing: использование настроенных по инструкциям классификаторов для маршрутизации запросов к экспертам.
По сравнению с этими методами FlexOlmo достигает:
* среднего относительного улучшения на 41% по сравнению с базовой общедоступной моделью;
* улучшения на 10,1% по сравнению с самым сильным базовым уровнем слияния (BTM).
Выгоды особенно заметны в задачах, связанных с закрытыми доменами, что подтверждает полезность специализированных экспертов.
Архитектурный анализ
Несколько контролируемых экспериментов показывают вклад архитектурных решений:
* Удаление координации между экспертами и публичными данными во время обучения значительно снижает производительность.
* Случайно инициализированные вложения маршрутизатора снижают различимость между экспертами.
* Отключение члена смещения искажает выбор эксперта, особенно при объединении более чем двух экспертов.
Модели маршрутизации на уровне токенов показывают специализацию экспертов на определённых уровнях. Например, математический ввод активирует математического эксперта на более глубоких уровнях, в то время как вводные токены полагаются на общедоступную модель. Это поведение подчёркивает выразительность модели по сравнению со стратегиями маршрутизации с одним экспертом.
Возможность отказа и управление данными
Ключевой особенностью FlexOlmo является детерминированная возможность отказа. Удаление эксперта из матрицы маршрутизатора полностью устраняет его влияние во время вывода. Эксперименты показывают, что удаление эксперта по новостям снижает производительность на NewsG, но не влияет на другие задачи, подтверждая локализованное влияние каждого эксперта.
Рассмотрение конфиденциальности
Риски извлечения обучающих данных были оценены с использованием известных методов атак. Результаты показывают:
* 0,1% скорость извлечения для модели, использующей только общедоступные данные.
* 1,6% для плотной модели, обученной на математическом наборе данных.
* 0,7% для FlexOlmo с включенным математическим экспертом.
Хотя эти показатели низки, обучение с дифференциальной конфиденциальностью (DP) может быть применено независимо к каждому эксперту для более надёжных гарантий. Архитектура не исключает использование DP или методов шифрования при обучении.
Масштабируемость
Методология FlexOlmo была применена к существующему сильному базовому уровню (OLMo-2 7B), предварительно обученному на 4T токенов. Включение двух дополнительных экспертов (Math, Code) улучшило средние показатели по бенчмарку с 49,8 до 52,8 без переобучения основной модели. Это демонстрирует масштабируемость и совместимость с существующими конвейерами обучения.
Заключение
FlexOlmo представляет собой принципиальную основу для создания модульных LLM с учётом ограничений управления данными. Его конструкция поддерживает распределённое обучение на локально хранящихся наборах данных и обеспечивает включение/исключение влияния набора данных во время вывода. Эмпирические результаты подтверждают его конкурентоспособность по сравнению как с монолитными, так и с ансамблевыми базовыми уровнями.
Архитектура особенно применима к средам с:
* требованиями к локализации данных;
* динамическими политиками использования данных;
* ограничениями соответствия нормативным требованиям.
FlexOlmo предоставляет жизнеспособный путь для создания производительных языковых моделей, соблюдая при этом реальные границы доступа к данным.
1. Какие проблемы решает технология FlexOlmo в контексте разработки языковых моделей?
Технология FlexOlmo решает проблему централизованного доступа к данным, который требуется для обучения масштабных языковых моделей (LLM). Она позволяет разрабатывать LLM с учётом ограничений управления данными, таких как нормативные режимы, ограниченные лицензии и контекстно-зависимые данные.
2. На какой архитектуре основана модель FlexOlmo?
Модель FlexOlmo основана на архитектуре Mixture-of-Experts (MoE), где каждый эксперт соответствует модулю прямой передачи (FFN), обученному независимо.
3. Какие ключевые архитектурные компоненты используются в FlexOlmo?
Ключевые архитектурные компоненты FlexOlmo включают редкую активацию, маршрутизацию экспертов и регуляризацию смещения. Эти компоненты поддерживают взаимодействие между модулями, обеспечивая при этом выборочное включение во время вывода.
4. Как оценивается эффективность FlexOlmo по сравнению с базовыми методами?
Эффективность FlexOlmo оценивается на 31 эталонной задаче по 10 категориям, включая общее понимание языка, генеративное QA, генерацию кода и математические рассуждения. По сравнению с базовыми методами, такими как Model soup, Branch-Train-Merge (BTM), BTX и Prompt-based routing, FlexOlmo достигает среднего относительного улучшения на 41% по сравнению с базовой общедоступной моделью и улучшения на 10,1% по сравнению с самым сильным базовым уровнем слияния (BTM).
5. Какие выводы можно сделать о масштабируемости и совместимости FlexOlmo с существующими конвейерами обучения?
Методология FlexOlmo была применена к существующему сильному базовому уровню (OLMo-2 7B), предварительно обученному на 4T токенов. Включение двух дополнительных экспертов (Math, Code) улучшило средние показатели по бенчмарку с 49,8 до 52,8 без переобучения основной модели. Это демонстрирует масштабируемость и совместимость с существующими конвейерами обучения.