Google выпускает компактную мультимодальную модель Gemma 3n для периферийных устройств

Компания Google представила Gemma 3n — новую модель в семействе открытых моделей, которая призвана обеспечить широкие возможности искусственного интеллекта на периферийных устройствах. Модель разработана с учётом особенностей мобильных устройств и может обрабатывать текст, изображения, аудио и видео на устройстве, не полагаясь на облачные вычисления. Такая архитектура представляет собой значительный шаг вперёд в области обеспечения конфиденциальности и использования ИИ в реальном времени на таких устройствах, как смартфоны, носимые устройства и интеллектуальные камеры.

Ключевые технические характеристики Gemma 3n

Серия Gemma 3n включает две версии: Gemma 3n E2B и Gemma 3n E4B, оптимизированные для обеспечения производительности, сопоставимой с традиционными моделями с 5 миллиардами и 8 миллиардами параметров соответственно, при использовании меньшего количества ресурсов. Эти модели объединяют архитектурные инновации, которые значительно снижают требования к памяти и энергопотреблению, обеспечивая высокое качество вывода данных локально на периферийных устройствах.

Мультимодальные возможности:
* Gemma 3n поддерживает мультимодальное понимание на 35 языках и текстовые задачи более чем на 140 языках.

Эффективность:
* Компактная архитектура модели позволяет ей работать с объёмом памяти менее половины по сравнению с аналогичными моделями, сохраняя при этом высокое качество в различных вариантах использования.

Варианты моделей и производительность:
* Gemma 3n E2B: разработана для обеспечения высокой эффективности на устройствах с ограниченными ресурсами. Работает как модель с 5 миллиардами параметров, потребляя меньше энергии.
* Gemma 3n E4B: высокопроизводительный вариант, который соответствует или превосходит модели 8-го класса в бенчмарках. Это первая модель менее чем с 10 миллиардами параметров, которая преодолела отметку в 1300 баллов в MMLU.

Обе модели оптимизированы для:
* сложных математических, кодировочных и логических задач;
* продвинутого взаимодействия между зрением и языком (создание подписей к изображениям, визуальный Q&A);
* понимания речи и видео в реальном времени.

Дизайн, ориентированный на разработчиков, и открытый доступ

Google предоставила доступ к Gemma 3n через такие платформы, как Hugging Face, с предварительно настроенными контрольными точками и API. Разработчики могут легко настраивать или развёртывать модели на различных аппаратных платформах благодаря совместимости с TensorFlow Lite, ONNX и NVIDIA TensorRT.

Официальное руководство для разработчиков содержит поддержку для внедрения Gemma 3n в различные приложения, включая:
* инструменты доступности с учётом окружающей среды;
* интеллектуальные персональные помощники;
* интерпретаторы в реальном времени для дополненной и виртуальной реальности.

Приложения на периферии

Gemma 3n открывает новые возможности для интеллектуальных приложений на периферийных устройствах:
* Доступность на устройстве: создание субтитров в реальном времени и повествование с учётом окружающей среды для пользователей с нарушениями слуха или зрения.
* Интерактивное образование: приложения, которые сочетают текст, изображения и аудио для обеспечения насыщенного и захватывающего обучения.
* Автономные системы технического зрения: интеллектуальные камеры, которые интерпретируют движение, присутствие объектов и контекст голоса без отправки данных в облако.

Эти функции делают Gemma 3n перспективным кандидатом для развёртывания ИИ с учётом конфиденциальности, когда конфиденциальные данные пользователя никогда не покидают локальное устройство.

Обучение и оптимизация

Gemma 3n была обучена на надёжном мультимодальном наборе данных, включающем текст, изображения, аудио и видеопоследовательности. Используя стратегии тонкой настройки, эффективные с точки зрения использования данных, Google обеспечила сохранение высокой степени обобщения даже при относительно небольшом количестве параметров. Инновации в дизайне блоков преобразователей, разреженности внимания и маршрутизации токенов дополнительно повысили эффективность работы в реальном времени.

Почему важна модель Gemma 3n

Gemma 3n сигнализирует о сдвиге в подходах к созданию и развёртыванию базовых моделей. Вместо того чтобы стремиться к увеличению размеров моделей, она фокусируется на:
* эффективности, основанной на архитектуре;
* мультимодальном понимании;
* возможности развёртывания.

Это соответствует более широкому видению Google в области искусственного интеллекта на периферийных устройствах: более умного, быстрого, конфиденциального и универсального. Для разработчиков и предприятий это означает ИИ, который работает на стандартном оборудовании, обеспечивая при этом возможности, сопоставимые с моделями облачного масштаба.

Заключение

С запуском Gemma 3n Google не просто выпускает ещё одну базовую модель; она переопределяет инфраструктуру интеллектуальных вычислений на периферийных устройствах. Наличие вариантов E2B и E4B обеспечивает гибкость как для лёгких мобильных приложений, так и для высокопроизводительных задач ИИ на периферийных устройствах. По мере того как мультимодальные интерфейсы становятся нормой, Gemma 3n выделяется как практичная и мощная базовая модель, оптимизированная для использования в реальных условиях.

1. Какие особенности модели Gemma 3n делают её подходящей для использования на периферийных устройствах?

Ответ: модель Gemma 3n разработана с учётом особенностей мобильных устройств и может обрабатывать текст, изображения, аудио и видео на устройстве, не полагаясь на облачные вычисления. Это обеспечивает конфиденциальность и использование ИИ в реальном времени на таких устройствах, как смартфоны, носимые устройства и интеллектуальные камеры.

2. Какие технические характеристики отличают Gemma 3n E2B от Gemma 3n E4B?

Ответ: Gemma 3n E2B разработана для обеспечения высокой эффективности на устройствах с ограниченными ресурсами. Она работает как модель с 5 миллиардами параметров, потребляя меньше энергии. Gemma 3n E4B — высокопроизводительный вариант, который соответствует или превосходит модели 8-го класса в бенчмарках. Это первая модель менее чем с 10 миллиардами параметров, которая преодолела отметку в 1300 баллов в MMLU.

3. Какие приложения могут быть созданы с использованием модели Gemma 3n?

Ответ: Gemma 3n открывает новые возможности для интеллектуальных приложений на периферийных устройствах, таких как:
* инструменты доступности с учётом окружающей среды;
* интеллектуальные персональные помощники;
* интерпретаторы в реальном времени для дополненной и виртуальной реальности;
* создание субтитров в реальном времени и повествование с учётом окружающей среды для пользователей с нарушениями слуха или зрения;
* интерактивное образование;
* автономные системы технического зрения.

Источник

Оставьте комментарий