HIGGS: инновационный метод сжатия больших языковых моделей — новый уровень доступности искусственного интеллекта

HIGGS — инновационный метод сжатия больших языковых моделей, разработанный в сотрудничестве с командами из Yandex Research, MIT, KAUST и ISTA.

HIGGS позволяет сжимать большие языковые модели (LLM) без дополнительных данных или ресурсоёмкой оптимизации параметров. В отличие от других методов сжатия, HIGGS не требует специализированного оборудования и мощных графических процессоров (GPU). Модели можно квантовать прямо на смартфоне или ноутбуке за несколько минут без значительной потери качества.

Метод уже был использован для квантования популярных моделей семейства LLaMA 3.1 и 3.2, а также моделей семейств DeepSeek и Qwen.

Команда Yandex Research вместе с исследователями из Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Университета науки и технологий короля Абдуллы (KAUST) разработала метод быстрого сжатия больших языковых моделей без значительной потери качества.

Ранее развёртывание больших языковых моделей на мобильных устройствах или ноутбуках требовало процесса квантования, который мог занимать от нескольких часов до нескольких недель и должен был выполняться на промышленных серверах для поддержания хорошего качества. Теперь квантование можно выполнить за считанные минуты прямо на смартфоне или ноутбуке без промышленного оборудования или мощных GPU.

HIGGS снижает порог входа для тестирования и развёртывания новых моделей на потребительских устройствах, таких как домашние ПК и смартфоны, устраняя необходимость в промышленной вычислительной мощности.

Инновационный метод сжатия соответствует стремлению компании сделать большие языковые модели доступными для всех: от крупных игроков, малого и среднего бизнеса и некоммерческих организаций до отдельных участников, разработчиков и исследователей.

В прошлом году исследователи Yandex в сотрудничестве с ведущими университетами в области науки и технологий представили два новых метода сжатия LLM: Additive Quantization of Large Language Models (AQLM) и PV-Tuning. В совокупности эти методы позволяют уменьшить размер модели до 8 раз, сохраняя при этом качество ответов на уровне 95 %.

**Преодоление барьеров на пути внедрения LLM**

Большим языковым моделям требуются значительные вычислительные ресурсы, что делает их недоступными и дорогостоящими для большинства. Это касается и моделей с открытым исходным кодом, таких как популярный DeepSeek R1, которые нелегко развернуть даже на самых продвинутых серверах, предназначенных для обучения моделей и других задач машинного обучения.

В результате доступ к этим мощным моделям традиционно был ограничен для избранных организаций, обладающих необходимой инфраструктурой и вычислительной мощностью, несмотря на их общедоступность.

Однако HIGGS может проложить путь к более широкому доступу. Разработчики теперь могут уменьшать размер моделей без ущерба для качества и запускать их на более доступных устройствах. Например, этот метод можно использовать для сжатия LLM, таких как DeepSeek R1 с 671 миллиардом параметров и Llama 4 Maverick с 400 миллиардами параметров, которые ранее можно было квантовать (сжимать) только со значительной потерей качества. Этот метод квантования открывает новые возможности использования LLM в различных областях, особенно в условиях ограниченных ресурсов. Теперь стартапы и независимые разработчики могут использовать сжатые модели для создания инновационных продуктов и услуг, сокращая расходы на дорогостоящее оборудование.

Yandex уже использует HIGGS для прототипирования и ускорения разработки продуктов, а также тестирования идей, поскольку сжатые модели позволяют проводить тестирование быстрее, чем их полномасштабные аналоги.

**О методе**

HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) сжимает большие языковые модели без необходимости дополнительных данных или методов градиентного спуска, делая квантование более доступным и эффективным для широкого спектра приложений и устройств. Это особенно ценно при отсутствии подходящих данных для калибровки модели. Метод предлагает баланс между качеством модели, её размером и сложностью квантования, позволяя использовать модели на широком спектре устройств, таких как смартфоны и потребительские ноутбуки.

HIGGS был протестирован на моделях семейств LLaMA 3.1 и 3.2, а также на моделях семейства Qwen. Эксперименты показывают, что HIGGS превосходит другие методы квантования без данных, включая NF4 (4-bit NormalFloat) и HQQ (Half-Quadratic Quantization), по соотношению качества к размеру.

Разработчики и исследователи уже могут получить доступ к методу на Hugging Face или ознакомиться с исследовательской статьёй, которая доступна на arXiv. В конце этого месяца команда представит свою статью на NAACL, одной из ведущих мировых конференций по искусственному интеллекту.

**Постоянное стремление к развитию науки и оптимизации**

Это одна из нескольких статей, представленных Yandex Research по квантованию больших языковых моделей. Например, команда представила AQLM и PV-Tuning — два метода сжатия LLM, которые могут сократить вычислительный бюджет компании до 8 раз без существенной потери качества ответов ИИ. Команда также создала сервис, который позволяет пользователям запускать модель размером 8 миллиардов параметров на обычном ПК или смартфоне через интерфейс на основе браузера, даже без высокой вычислительной мощности.

Помимо квантования LLM, Yandex опубликовал несколько инструментов с открытым исходным кодом, оптимизирующих ресурсы, используемые при обучении LLM. Например, библиотека YaFSDP ускоряет обучение LLM до 25 % и сокращает ресурсы GPU для обучения до 20 %.

Ранее в этом году разработчики Yandex опубликовали Perforator — инструмент для непрерывного мониторинга и анализа серверов и приложений в реальном времени. Perforator выделяет неэффективности кода и предоставляет действенные рекомендации, что помогает компаниям сократить затраты на инфраструктуру до 20 %. Это может привести к потенциальной экономии в миллионы или даже миллиарды долларов в год, в зависимости от размера компании.

Источник

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *