Google AI только что выпустила Nano-Banana 2: новая модель искусственного интеллекта с улучшенной согласованностью по темам и производительностью синтеза изображений 4K за доли секунды

В продолжающейся «гонке за более мелкие, быстрые и дешёвые» технологии искусственного интеллекта, Google представила серьёзное обновление. Технологический гигант официально представил Nano-Banana 2 (технически известный как Gemini 3.1 Flash Image). Google делает решительный поворот к периферийным вычислениям: синтез изображений высокой чёткости за доли секунды, который полностью остаётся на вашем устройстве.

Технический скачок: эффективность важнее масштаба

Первая версия Nano-Banana была доказательством концепции мобильных рассуждений. Версия 2 построена на базе с 1,8 миллиардами параметров, которая по эффективности не уступает моделям в три раза большего размера.

Команда Google AI достигла этого благодаря обучению с учётом динамического квантования (DQAT). В программной инженерии квантование обычно включает приведение весов модели из FP32 (32-битная плавающая точка) в INT8 или даже INT4 для экономии памяти. Хотя это обычно ухудшает качество вывода, DQAT позволяет Nano-Banana 2 поддерживать высокое отношение сигнал/шум. Результат — модель с небольшим объёмом памяти, которая не жертвует «текстурой» высококачественного генеративного искусственного интеллекта.

Производительность в реальном времени: прорыв в области ЖК-дисплеев

Nano-Banana 2 обеспечивает задержку менее 500 миллисекунд на мобильном оборудовании среднего уровня. В демонстрационном режиме модель генерировала примерно 30 кадров в секунду при разрешении 512 пикселей, эффективно достигая синтеза в реальном времени.

Это стало возможным благодаря дистилляции скрытой согласованности (LCD). Традиционные диффузионные модели требуют 20–50 итеративных шагов «устранения шума» для создания изображения. LCD позволяет модели предсказать окончательное изображение всего за 2–4 шага. Укоротив путь вывода, Google обошёл «трение задержки», которое ранее делало генеративный искусственный интеллект на устройствах медленным.

Нативное создание 4K и согласованность по темам

Помимо скорости, модель предлагает две функции, которые решают давние проблемы разработчиков:

* Нативное создание 4K. В отличие от своих предшественников, которые были ограничены разрешением 1K или 2K, Nano-Banana 2 поддерживает нативное создание 4K и масштабирование. Это большой плюс для разработчиков мобильных пользовательских интерфейсов и мобильных игр.
* Согласованность по темам. Модель может отслеживать и поддерживать до пяти согласованных персонажей в разных сгенерированных сценах. Для инженеров, создающих приложения для рассказывания историй или создания контента, это решает проблемы «мерцания» и дрейфа идентичности, которые характерны для стандартных диффузионных конвейеров.

Архитектура: эффективное охлаждение с GQA

Для системных инженеров наиболее впечатляющей особенностью является то, как Nano-Banana 2 управляет температурным режимом. Мобильные устройства часто снижают производительность, когда графические процессоры/нейронные процессоры (NPUs) перегреваются. Google смягчил эту проблему, внедрив групповое внимание к запросам (GQA).

В стандартных архитектурах Transformer механизм внимания требует много памяти. GQA оптимизирует это за счёт совместного использования ключевых и ценностных заголовков, значительно сокращая объём данных, необходимых во время вывода. Это обеспечивает бесперебойную работу модели, предотвращая снижение производительности, которое обычно происходит во время длительных задач с интенсивным использованием ИИ.

Экосистема разработчиков: Banana-SDK и «Peels»

Google удваивает философию «Local-First», интегрируя Nano-Banana 2 непосредственно в Android AICore. Для разработчиков программного обеспечения это означает стандартизированные API для выполнения операций на устройстве.

Запуск также представил Banana-SDK, который упрощает использование «Banana-Peels» — брендинга Google для специализированных модулей LoRA (Low-Rank Adaptation). Они позволяют разработчикам «подключать» специальные тонко настроенные веса для решения конкретных задач — таких как архитектурная визуализация, медицинская визуализация или стилизованное изображение персонажей — без необходимости переобучения базовой модели с 1,8 миллиардами параметров.

Ключевые выводы:

* Синтез 4K за доли секунды. Используя дистилляцию скрытой согласованности (LCD), модель обеспечивает задержку менее 500 мс, что позволяет выполнять синтез изображений 4K в реальном времени и масштабирование непосредственно на мобильном оборудовании.
* «Local-First» архитектура. Модель построена на базе с 1,8 миллиардами параметров и использует обучение с учётом динамического квантования (DQAT) для поддержания высококачественного вывода с минимальным объёмом памяти, что исключает необходимость дорогостоящих облачных вычислений.
* Эффективность охлаждения через GQA. Внедрив групповое внимание к запросам (GQA), модель снижает требования к пропускной способности памяти, позволяя ей непрерывно работать на мобильных NPUs без перегрева или снижения производительности.
* Продвинутая согласованность по темам. Прорыв для приложений рассказывания историй: модель может сохранять идентичность до пяти согласованных персонажей в нескольких сгенерированных сценах, решая распространённую проблему «дрейфа идентичности» в диффузионных моделях.
* Модульные «Banana-Peels» (LoRAs). Благодаря новому Banana-SDK разработчики могут развёртывать специализированные модули низкоранговой адаптации (LoRA) для настройки модели под конкретные задачи (например, медицинскую визуализацию или определённые художественные стили) без переобучения базовой архитектуры.

1. Какие технические инновации позволили Nano-Banana 2 достичь высокой производительности при низком объёме памяти?

Ответ: Nano-Banana 2 использует обучение с учётом динамического квантования (DQAT), что позволяет модели поддерживать высокое отношение сигнал/шум при уменьшении объёма памяти. Это достигается за счёт приведения весов модели из FP32 в INT8 или INT4.

2. Какие проблемы решает Nano-Banana 2 в области создания контента и пользовательских интерфейсов?

Ответ: Nano-Banana 2 решает проблемы «мерцания» и дрейфа идентичности, которые характерны для стандартных диффузионных конвейеров. Модель может отслеживать и поддерживать до пяти согласованных персонажей в разных сгенерированных сценах, что полезно для приложений рассказывания историй или создания контента.

3. Как Nano-Banana 2 влияет на архитектуру мобильных устройств и их производительность?

Ответ: Nano-Banana 2 использует групповое внимание к запросам (GQA), что оптимизирует механизм внимания в стандартных архитектурах Transformer. Это сокращает объём данных, необходимых во время вывода, и обеспечивает бесперебойную работу модели, предотвращая снижение производительности при длительных задачах с интенсивным использованием ИИ.

4. Какие преимущества предоставляет Banana-SDK для разработчиков программного обеспечения?

Ответ: Banana-SDK упрощает использование «Banana-Peels» — брендинга Google для специализированных модулей LoRA (Low-Rank Adaptation). Эти модули позволяют разработчикам «подключать» специальные тонко настроенные веса для решения конкретных задач без необходимости переобучения базовой модели с 1,8 миллиардами параметров.

5. Какие ключевые выводы можно сделать о Nano-Banana 2 на основе представленного текста?

Ответ: Nano-Banana 2 обеспечивает синтез изображений 4K за доли секунды, используя дистилляцию скрытой согласованности (LCD). Модель построена на базе с 1,8 миллиардами параметров и использует обучение с учётом динамического квантования (DQAT) для поддержания высококачественного вывода с минимальным объёмом памяти. Кроме того, Nano-Banana 2 использует групповое внимание к запросам (GQA) для оптимизации механизма внимания и обеспечения бесперебойной работы модели на мобильных NPUs. Наконец, модель предлагает продвинутую согласованность по темам и модульные «Banana-Peels» (LoRAs) для настройки под конкретные задачи.

Источник