Black Forest Labs выпускает FLUX.2 [klein]: компактные потоковые модели для интерактивного визуального интеллекта

Black Forest Labs представляет FLUX.2 [klein] — семейство компактных моделей для работы с изображениями, нацеленных на интерактивный визуальный интеллект на потребительском оборудовании.

Особенности FLUX.2 [klein]:
* Расширяет линейку FLUX.2 суб-второго поколения с возможностью редактирования.
* Имеет унифицированную архитектуру для преобразования текста в изображение и редактирования изображений.
* Предлагает варианты развёртывания от локальных графических процессоров до облачных API, сохраняя при этом современное качество изображения.

FLUX.2 [dev] и интерактивный визуальный интеллект

FLUX.2 [dev] — это трансформер с 32 миллиардами параметров для генерации и редактирования изображений по тексту, включая композицию с несколькими эталонными изображениями. Работает в основном на ускорителях класса дата-центров. Настроен на максимальное качество и гибкость, с длинными графиками выборки и высокими требованиями к VRAM.

FLUX.2 [klein]

FLUX.2 [klein] следует тому же дизайну и сжимает его в более мелкие трансформеры с 4 миллиардами и 9 миллиардами параметров. Эти модели оптимизированы для времени отклика менее 1 секунды на современных графических процессорах.

Семейство моделей и возможности

Семейство FLUX.2 [klein] состоит из 4 основных вариантов с открытым весом через единую архитектуру:
* FLUX.2 [klein] 4B;
* FLUX.2 [klein] 9B;
* FLUX.2 [klein] 4B Base;
* FLUX.2 [klein] 9B Base.

Модели FLUX.2 [klein] 4B и 9B являются дистиллированными моделями с 4 шагами вывода и позиционируются как самые быстрые варианты для производства и интерактивных рабочих нагрузок. FLUX.2 [klein] 9B сочетает в себе 9-битную потоковую модель и 8-битный текстовый встраиватель Qwen3 и описывается как флагманская малая модель на границе Парето для качества и задержки при преобразовании текста в изображение, редактировании с одной ссылкой и генерации с несколькими ссылками.

Базовые варианты являются недистиллированными версиями с более длинными графиками выборки. В документации они перечислены как базовые модели, которые сохраняют полный обучающий сигнал и обеспечивают более высокое разнообразие выходных данных. Они предназначены для тонкой настройки, обучения LoRA, исследовательских конвейеров и пользовательских рабочих процессов после обучения, где контроль важнее минимальной задержки.

Все модели FLUX.2 [klein] поддерживают три основные задачи в одной архитектуре:
* Генерацию изображений по тексту.
* Редактирование одного входного изображения.
* Выполнение генерации и редактирования с несколькими ссылками, где несколько входных изображений и запрос совместно определяют целевой результат.

Задержка, VRAM и квантованные варианты

На странице модели FLUX.2 [klein] указано приблизительное время вывода от начала до конца на GB200 и RTX 5090. FLUX.2 [klein] 4B — самый быстрый вариант, он работает примерно от 0,3 до 1,2 секунды на изображение, в зависимости от оборудования. FLUX.2 [klein] 9B нацелен на время отклика от 0,5 до 2 секунд при более высоком качестве. Базовые модели требуют несколько секунд, поскольку работают с 50-шаговыми графиками выборки, но они предоставляют больше гибкости для пользовательских конвейеров.

Модель FLUX.2 [klein] 4B подходит примерно для 13 ГБ VRAM и подходит для таких графических процессоров, как RTX 3090 и RTX 4070. Модель FLUX.2 [klein] 9B требует около 29 ГБ VRAM и ориентирована на такое оборудование, как RTX 4090. Это означает, что на одной мощной потребительской карте могут размещаться дистиллированные варианты с выборкой в полном разрешении.

Чтобы расширить возможности для большего количества устройств, Black Forest Labs также выпускает версии FP8 и NVFP4 для всех вариантов FLUX.2 [klein], разработанные совместно с NVIDIA. Квантование FP8 описывается как до 1,6 раз более быстрое при снижении использования VRAM до 40%, а NVFP4 — как до 2,7 раз более быстрое при снижении использования VRAM до 55% на графических процессорах RTX, при сохранении основных возможностей.

Сравнение с другими моделями изображений

Black Forest Labs оценивает FLUX.2 [klein] с помощью сравнений в стиле Эло для преобразования текста в изображение, редактирования с одной ссылкой и задач с несколькими ссылками. Графики производительности показывают FLUX.2 [klein] на границе Парето оценки Эло по задержке и оценке Эло по использованию VRAM. В комментарии говорится, что FLUX.2 [klein] соответствует или превосходит качество моделей изображений на основе Qwen при значительно меньшей задержке и использовании VRAM, и что он превосходит Z Image, поддерживая унифицированное преобразование текста в изображение и редактирование с несколькими ссылками в одной архитектуре.

Проверьте технические детали, репозиторий и веса моделей. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit ML с более чем 100 тысячами участников и подписывайтесь на нашу рассылку. А если вы в Telegram, присоединяйтесь к нам и там!

1. Какие основные задачи поддерживают модели FLUX.2 [klein]?

Модели FLUX.2 [klein] поддерживают три основные задачи в одной архитектуре:
* генерацию изображений по тексту;
* редактирование одного входного изображения;
* выполнение генерации и редактирования с несколькими ссылками, где несколько входных изображений и запрос совместно определяют целевой результат.

2. Какие варианты развёртывания предлагает Black Forest Labs для FLUX.2 [klein]?

Black Forest Labs предлагает варианты развёртывания от локальных графических процессоров до облачных API, сохраняя при этом современное качество изображения.

3. Какие параметры отличают FLUX.2 [dev] от FLUX.2 [klein]?

FLUX.2 [dev] — это трансформер с 32 миллиардами параметров, работающий в основном на ускорителях класса дата-центров. FLUX.2 [klein] — это более мелкие трансформеры с 4 миллиардами и 9 миллиардами параметров, оптимизированные для времени отклика менее 1 секунды на современных графических процессорах.

4. Какие модели из семейства FLUX.2 [klein] являются самыми быстрыми и для каких задач они предназначены?

Модели FLUX.2 [klein] 4B и 9B позиционируются как самые быстрые варианты для производства и интерактивных рабочих нагрузок. Они предназначены для генерации изображений по тексту, редактирования одного входного изображения и выполнения генерации и редактирования с несколькими ссылками.

5. Какие версии FLUX.2 [klein] выпускает Black Forest Labs для расширения возможностей на разных устройствах?

Black Forest Labs выпускает версии FP8 и NVFP4 для всех вариантов FLUX.2 [klein], разработанные совместно с NVIDIA. Квантование FP8 описывается как до 1,6 раз более быстрое при снижении использования VRAM до 40%, а NVFP4 — как до 2,7 раз более быстрое при снижении использования VRAM до 55% на графических процессорах RTX, при сохранении основных возможностей.

Источник