Исследователи IBM и ETH Zürich представили аналоговые базовые модели для борьбы с шумом в аппаратных средствах искусственного интеллекта, размещаемых в памяти

Исследователи IBM совместно с учёными из ETH Zürich представили новый класс аналоговых базовых моделей (AFMs), призванных преодолеть разрыв между большими языковыми моделями (LLMs) и аппаратными средствами аналоговых вычислений в памяти (AIMC).

Что такое аналоговые вычисления для LLMs?

Технология AIMC обещает радикальный скачок в эффективности: запуск моделей с миллиардом параметров на устройствах, достаточно компактных для встраивания в другие устройства, благодаря плотной энергонезависимой памяти (NVM), сочетающей хранение и вычисления. Однако ахиллесовой пятой технологии является шум: выполнение матрично-векторных умножений непосредственно внутри устройств NVM приводит к недетерминированным ошибкам, которые подрывают готовые модели.

В отличие от графических процессоров (GPU) или тензорных процессоров (TPU), которые передают данные между памятью и вычислительными блоками, AIMC выполняет матрично-векторные умножения непосредственно в массивах памяти. Такая конструкция устраняет узкое место фон Неймана и обеспечивает значительное улучшение пропускной способности и энергоэффективности.

Почему использование аналоговых вычислений в AIMC так сложно на практике?

Главным препятствием является шум. Вычисления AIMC страдают от вариативности устройств, квантования ЦАП/АЦП и колебаний во время выполнения, которые ухудшают точность модели. В отличие от квантования на GPU, где ошибки детерминированы и управляемы, аналоговый шум является стохастическим и непредсказуемым.

Как аналоговые базовые модели решают проблему шума?

Команда IBM представляет аналоговые базовые модели, которые интегрируют обучение с учётом аппаратных средств для подготовки LLM к аналоговому выполнению. Их конвейер использует:
* введение шума во время обучения для имитации случайности AIMC;
* итеративную обрезку весов для стабилизации распределений в пределах ограничений устройства;
* изученные статические диапазоны квантования ввода-вывода, соответствующие реальным ограничениям аппаратных средств;
* дистилляцию из предварительно обученных LLM с использованием 20 миллиардов токенов синтетических данных.

Эти методы, реализованные с помощью AIHWKIT-Lightning, позволяют таким моделям, как Phi-3-mini-4k-instruct и Llama-3.2-1B-Instruct, поддерживать производительность, сравнимую с базовыми моделями с 4-битным квантованием по весу / 8-битной активацией в условиях аналогового шума.

Работают ли эти модели только с аналоговым оборудованием?

Нет. Неожиданным результатом стало то, что AFMs также демонстрируют высокие результаты на цифровом оборудовании с низкой точностью. Поскольку AFMs обучены выдерживать шум и обрезку, они лучше справляются с простой количественной оценкой «округления до ближайшего» (RTN) после обучения, чем существующие методы. Это делает их полезными не только для ускорителей AIMC, но и для обычного цифрового оборудования для логического вывода.

Может ли производительность масштабироваться с увеличением вычислительных ресурсов во время логического вывода?

Да. Исследователи проверили масштабирование вычислительных ресурсов во время логического вывода на бенчмарке MATH-500, генерируя несколько ответов на запрос и выбирая лучший с помощью модели вознаграждения. AFMs продемонстрировали лучшее масштабирование, чем модели QAT, причём разрывы в точности сокращались по мере выделения дополнительных вычислительных ресурсов для логического вывода.

Как это повлияет на будущее аналоговых вычислений в памяти (AIMC)?

Исследовательская группа впервые продемонстрировала, что большие LLM можно адаптировать к аппаратным средствам AIMC без катастрофической потери точности. Хотя обучение AFM требует значительных ресурсов, а такие задачи, как GSM8K, всё ещё демонстрируют разрывы в точности, результаты являются важной вехой.

Сочетание энергоэффективности, устойчивости к шуму и совместимости с цифровым оборудованием делает AFM перспективным направлением для масштабирования базовых моделей за пределы возможностей GPU.

Введение аналоговых базовых моделей знаменует собой критическую веху для масштабирования LLM за пределы возможностей цифровых ускорителей. Сделав модели устойчивыми к непредсказуемому шуму аналоговых вычислений в памяти, исследовательская группа показала, что AIMC может превратиться из теоретической перспективы в практическую платформу.

1. Какие проблемы аналоговых вычислений в памяти (AIMC) решают аналоговые базовые модели (AFMs)?

Ответ: аналоговые базовые модели (AFMs) решают проблему шума в аналоговых вычислениях в памяти (AIMC). Они интегрируют обучение с учётом аппаратных средств для подготовки больших языковых моделей (LLMs) к аналоговому выполнению. Это позволяет поддерживать производительность моделей в условиях аналогового шума.

2. Какие методы используются в аналоговых базовых моделях для решения проблемы шума?

Ответ: в аналоговых базовых моделях используются следующие методы для решения проблемы шума:
* введение шума во время обучения для имитации случайности AIMC;
* итеративная обрезка весов для стабилизации распределений в пределах ограничений устройства;
* изученные статические диапазоны квантования ввода-вывода, соответствующие реальным ограничениям аппаратных средств;
* дистилляция из предварительно обученных LLM с использованием 20 миллиардов токенов синтетических данных.

3. Могут ли аналоговые базовые модели работать на цифровом оборудовании?

Ответ: да, аналоговые базовые модели могут работать на цифровом оборудовании с низкой точностью. Они обучены выдерживать шум и обрезку, что делает их полезными не только для ускорителей AIMC, но и для обычного цифрового оборудования для логического вывода.

4. Как масштабируется производительность аналоговых базовых моделей при увеличении вычислительных ресурсов во время логического вывода?

Ответ: исследователи проверили масштабирование вычислительных ресурсов во время логического вывода на бенчмарке MATH-500. AFMs продемонстрировали лучшее масштабирование, чем модели QAT, причём разрывы в точности сокращались по мере выделения дополнительных вычислительных ресурсов для логического вывода.

5. Какое значение имеет разработка аналоговых базовых моделей для будущего аналоговых вычислений в памяти (AIMC)?

Ответ: разработка аналоговых базовых моделей имеет большое значение для будущего аналоговых вычислений в памяти (AIMC). Исследовательская группа впервые продемонстрировала, что большие LLM можно адаптировать к аппаратным средствам AIMC без катастрофической потери точности. Это делает AIMC перспективной платформой для масштабирования базовых моделей за пределы возможностей GPU.

Источник