Исследователи Amazon разработали новую архитектуру искусственного интеллекта (ИИ), которая сокращает время вывода на 30%, выбирая только нейроны, необходимые для выполнения задачи. Этот подход напоминает работу мозга, который использует специализированные области для конкретных задач.
Традиционное развёртывание больших языковых моделей (БЯМ) и фундаментальных систем ИИ основывалось на активации всей сети для каждого входного сигнала. Хотя это гарантирует универсальность, оно приводит к значительной неэффективности — большая часть активности сети является излишней для любого конкретного запроса.
Динамическая обрезка с учётом контекста
В основе этой инновации лежит динамическая обрезка с учётом контекста. Вместо статической обрезки модели во время обучения и закрепления этих изменений, решение Amazon обрезает сеть «на лету», во время самого вывода. Это позволяет модели оставаться крупной и универсальной, но при этом эффективной и быстрой для любой конкретной задачи.
Перед обработкой входного сигнала модель оценивает, какие нейроны или модули будут наиболее полезны, на основе таких сигналов, как тип задачи (например, юридическое письмо, перевод или помощь в кодировании), язык и другие контекстуальные особенности.
Для этого используется предикторы шлюзов — лёгкие нейронные компоненты, обученные генерировать «маску», которая определяет, какие нейроны будут активированы для конкретной последовательности.
Решения о включении в работу принимаются в двоичном формате, поэтому нейроны либо полностью активны, либо полностью отключены, что обеспечивает реальную экономию вычислительных ресурсов.
Как работает система
Архитектура вводит механизм управления с учётом контекста. Этот механизм анализирует входные данные (а для речевых моделей — вспомогательную информацию, такую как язык и маркеры задач), чтобы определить, какие модули — например, блоки самовнимания, полносвязные сети или специализированные свёртки — необходимы для текущего шага.
Например, в задаче распознавания речи могут активироваться локальные контекстные модули для детального анализа звука, в то время как ненужные компоненты, полезные только для других задач, будут отключены.
Эта стратегия обрезки структурирована и модульна: вместо удаления отдельных весов (что может привести к неэффективности аппаратного обеспечения) пропускаются целые модули или слои. Это сохраняет структурную целостность модели и обеспечивает совместимость с графическими процессорами (GPU) и современными аппаратными ускорителями.
Модель предиктора шлюзов обучается с потерями разреженности для достижения целевой разреженности: доли пропущенных модулей. При обучении используются такие методы, как оценщик Gumbel-Softmax, который обеспечивает дифференцируемость поведения шлюзов во время оптимизации, но в конечном итоге обеспечивает чёткое двоичное выделение нейронов при выводе.
Демонстрируемые результаты: скорость без потери качества
Эксперименты показывают, что динамическое отключение нерелевантных модулей может:
* сократить время вывода до 34% для задач многоязычного преобразования речи в текст или автоматического распознавания речи (ASR), где типичные базовые модели страдали от задержки в 9,28 секунды, а модели с обрезкой работали всего за 5,22 секунды, в зависимости от задачи и желаемого уровня разреженности;
* уменьшить количество операций с плавающей запятой (FLOPs) более чем на 60% при высоком уровне разреженности, что значительно снижает затраты на облачные и аппаратные ресурсы;
* сохранить качество вывода: обрезка декодера, в частности, сохраняет оценки BLEU (для задач перевода) и частоту ошибок в словах (WER) для ASR до умеренной разреженности, что означает отсутствие падения производительности модели до тех пор, пока не будет применена очень агрессивная обрезка;
* обеспечить интерпретируемость: анализ шаблонов обрезанных модулей показывает, какие части модели необходимы для каждого контекста — локальные контекстные модули доминируют в ASR, в то время как полносвязные сети являются приоритетными для речевого перевода.
Адаптация к задачам и языкам
Ключевым моментом является то, что оптимальные стратегии обрезки — то есть какие модули сохранять или отключать — могут сильно различаться в зависимости от задачи и языка. Например:
* в ASR первостепенное значение имеет важность локальных контекстных модулей (cgMLP), в то время как декодер можно сильно сократить без значительной потери точности;
* для речевого перевода (СТ) и кодеру, и декодеру требуется более сбалансированное внимание, поскольку полносвязные слои декодера имеют важное значение;
* в многоязычных или многозадачных сценариях выбор модулей адаптируется, но демонстрирует последовательные закономерности внутри каждого типа, подчёркивая изученную специализацию в архитектуре.
Более широкие последствия
Эта динамическая модульная обрезка открывает двери для:
* более энергоэффективных и масштабируемых ИИ-систем, что особенно важно, поскольку БЯМ и мультимодальные модели продолжают расти;
* ИИ-моделей, которые могут персонализировать свои вычислительные пути — не только по задачам, но и потенциально по профилю пользователя, региону или устройству;
* переноса в другие области, такие как обработка естественного языка и компьютерное зрение, везде, где используются базовые модели.
Селективно активируя только релевантные модули в режиме реального времени, вдохновлённые биологической эффективностью нейронных сетей, архитектура Amazon указывает путь к созданию ИИ, который будет одновременно мощным и практичным для глобального использования в реальных условиях.
1. Какие основные преимущества предлагает новая архитектура искусственного интеллекта от Amazon?
Ответ: новая архитектура искусственного интеллекта от Amazon сокращает время вывода на 30%, выбирая только нейроны, необходимые для выполнения задачи. Это позволяет сохранить универсальность модели, но при этом сделать её более эффективной и быстрой для любой конкретной задачи.
2. Как работает механизм динамической обрезки с учётом контекста в новой архитектуре?
Ответ: механизм динамической обрезки с учётом контекста анализирует входные данные и определяет, какие модули необходимы для текущего шага. Модель оценивает, какие нейроны или модули будут наиболее полезны, на основе таких сигналов, как тип задачи, язык и другие контекстуальные особенности. Решения о включении в работу принимаются в двоичном формате, поэтому нейроны либо полностью активны, либо полностью отключены.
3. Какие результаты были продемонстрированы в экспериментах с новой архитектурой?
Ответ: эксперименты показали, что динамическое отключение нерелевантных модулей может сократить время вывода до 34% для задач многоязычного преобразования речи в текст или автоматического распознавания речи (ASR), уменьшить количество операций с плавающей запятой (FLOPs) более чем на 60% при высоком уровне разреженности, сохранить качество вывода и обеспечить интерпретируемость.
4. Какие потенциальные последствия может иметь внедрение новой архитектуры искусственного интеллекта от Amazon?
Ответ: внедрение новой архитектуры может привести к созданию более энергоэффективных и масштабируемых ИИ-систем, персонализации вычислительных путей ИИ-моделей и переносу технологий в другие области, такие как обработка естественного языка и компьютерное зрение.
5. Какие особенности новой архитектуры позволяют ей адаптироваться к различным задачам и языкам?
Ответ: оптимальные стратегии обрезки — то есть какие модули сохранять или отключать — могут сильно различаться в зависимости от задачи и языка. Например, в ASR первостепенное значение имеет важность локальных контекстных модулей (cgMLP), в то время как декодер можно сильно сократить без значительной потери точности. Для речевого перевода (СТ) и кодеру, и декодеру требуется более сбалансированное внимание, поскольку полносвязные слои декодера имеют важное значение. В многоязычных или многозадачных сценариях выбор модулей адаптируется, но демонстрирует последовательные закономерности внутри каждого типа.