Black Forest Labs выпустила FLUX.2 — систему генерации и редактирования изображений второго поколения. FLUX.2 ориентирована на творческие рабочие процессы в реальных условиях, такие как создание маркетинговых материалов, предметная фотосъёмка, дизайн-макеты и сложная инфографика. Система поддерживает редактирование изображений с разрешением до 4 мегапикселей и обеспечивает точный контроль над макетами, логотипами и типографикой.
Семейство FLUX.2
Семейство FLUX.2 включает в себя размещённые API и открытые веса:
* FLUX.2 [pro] — управляемый уровень API. Он нацелен на современное качество относительно закрытых моделей, с высоким соответствием подсказкам и низкими затратами на вывод. Доступен в BFL Playground, BFL API и на партнёрских платформах.
* FLUX.2 [flex] — предоставляет такие параметры, как количество шагов и масштаб управления, чтобы разработчики могли оптимизировать задержку, точность рендеринга текста и визуальные детали.
* FLUX.2 [dev] — это вариант с открытым весом, полученный из базовой модели FLUX.2. Он описан как наиболее мощная модель генерации и редактирования изображений с открытым весом, сочетающая в себе преобразование текста в изображение и редактирование нескольких изображений в одном контрольном пункте с 32 миллиардами параметров.
* FLUX.2 [klein] — это будущий вариант с открытым исходным кодом Apache 2.0, размер которого уменьшен по сравнению с базовой моделью для небольших установок, со многими из тех же возможностей.
Все варианты поддерживают редактирование изображений по тексту и множественные ссылки в одной модели, что устраняет необходимость в отдельных контрольных точках для генерации и редактирования.
Архитектура, скрытый поток и FLUX.2 VAE
FLUX.2 использует архитектуру согласования скрытых потоков. Основная конструкция объединяет языковую модель видения Mistral-3 24B с выпрямленным потоковым трансформатором, который работает со скрытыми представлениями изображений. Языковая модель обеспечивает семантическую основу и знания о мире, в то время как основная часть трансформатора изучает пространственную структуру, материалы и композицию.
Модель обучена сопоставлять шумовые латенты с латентами изображений при текстовой настройке, поэтому одна и та же архитектура поддерживает как синтез текста, так и редактирование. Для редактирования латенты инициализируются из существующих изображений, затем обновляются в том же потоке, сохраняя структуру.
Новый FLUX.2 VAE определяет скрытое пространство. Он разработан для обеспечения баланса между обучаемостью, качеством реконструкции и сжатием и выпускается отдельно на Hugging Face под лицензией Apache 2.0. Этот автоэнкодер является основой для всех моделей потока FLUX.2 и может быть повторно использован в других генеративных системах.
Как реализовать функциональные компоненты модели трансформатора и Mini-GPT с нуля, используя Tinygrad для понимания внутренних механизмов глубокого обучения
Часть 1: Операции с тензорами и Autograd
Мы настроили Tinygrad в нашей среде Colab и сразу же начали экспериментировать с тензорами и автоматическим дифференцированием. Мы создали небольшой вычислительный граф и наблюдаем, как градиенты проходят через матричные операции.
Часть 2: Создание пользовательских слоёв
Мы разработали собственный модуль многоголового внимания и блок трансформатора с нуля. Мы реализовали проекции, оценки внимания, softmax, слои подачи вперёд и нормализацию слоя вручную.
Часть 3: Архитектура Mini-GPT
Мы собрали полную архитектуру Mini-GPT, используя компоненты, созданные ранее. Мы внедрили токены, добавили позиционную информацию, объединили несколько блоков трансформатора и спроецировали окончательные выходные данные обратно в логиты вокабуляра.
Часть 4: Цикл обучения
Мы тренируем модель Mini-GPT на простых синтетических данных и наблюдаем за снижением потерь на каждом шаге.
Часть 5: Ленивая оценка и слияние ядер
Мы исследуем модель ленивого выполнения Tinygrad, создавая объединённое ядро, которое выполняется только при реализации.
Часть 6: Пользовательские операции
Мы реализуем пользовательскую функцию активации и проверяем, что градиенты правильно распространяются через неё.
Salesforce AI Research представляет xRouter: маршрутизатор с подкреплением для управления затратами LLM
xRouter — это система оркестровки, основанная на вызовах инструментов и построенная на Qwen2.5-7B-Instruct в качестве основы маршрутизатора. Маршрутизатор — это настроенная по инструкциям модель со встроенными возможностями вызова инструментов, которая решает, какую модель нижнего уровня вызвать, как её настроить и синтезировать или выбрать ответ.
Маршрутизатор работает более чем с 20 инструментами LLM в полной системе. Эти инструменты охватывают премиум, стандартные, бюджетные и специализированные уровни, включая GPT-5, GPT-4.1, GPT-5-Mini, GPT-5-Nano, o3, Kimi K2, DeepSeek-R1, Qwen3-235B и модели GPT-OSS.
Обучение xRouter основано на данных Reasoning360, которые включают математические, кодовые и общие задачи рассуждения с оценками сложности, полученными от сильной эталонной модели Qwen3-32B. Команда исследователей стратифицирует выборки по уровням сложности и добавляет более простые разговоры, поиск и фактические вопросы, чтобы научить маршрутизатор, когда он может ответить напрямую, без делегирования.
На этапе вывода маршрутизатор поддерживает три режима выполнения. Он может отвечать напрямую из базовой версии без вызова инструментов. Он может вызывать одну или несколько моделей нижнего уровня, а затем синтезировать ответ, используя собственные рассуждения над их выводами. Он также может вызывать модели нижнего уровня и использовать специальный инструмент select_response, чтобы выбрать один из ответов в качестве окончательного ответа.
Количественные результаты и экономическая целесообразность
На статических базовых показателях маршрутизации в Minerva, MATH-500, Olympiad Bench, AIME-24, AMC-23, Codeforces, Code-Contests и Human-EvalPlus варианты xRouter-7B последовательно повышают точность по сравнению с использованием той же базовой модели в качестве ненастроенного маршрутизатора. xRouter-7B-2, например, достигает почти точности GPT-5 на Olympiad Bench, используя при этом примерно одну восьмую стоимости оценки GPT-5.
В сравнении на уровне системы в LiveCodeBenchv5, GPQADiamond, AIME25, MT-Bench, IFEval и LiveBench xRouter-7B-3 достигает наивысшей средней точности на LiveCodeBenchv5 среди всех протестированных систем и делает это при умеренных затратах.
1. Какие возможности предоставляет система FLUX.2 для творческих рабочих процессов и какие задачи она может решать?
Ответ: FLUX.2 — это система генерации и редактирования изображений второго поколения, ориентированная на творческие рабочие процессы в реальных условиях. Она может использоваться для создания маркетинговых материалов, предметной фотосъёмки, дизайн-макетов и сложной инфографики. Система поддерживает редактирование изображений с разрешением до 4 мегапикселей и обеспечивает точный контроль над макетами, логотипами и типографикой.
2. Какие варианты включает в себя семейство FLUX.2 и какие у них особенности?
Ответ: Семейство FLUX.2 включает в себя несколько вариантов:
* FLUX.2 [pro] — управляемый уровень API, нацеленный на современное качество относительно закрытых моделей, с высоким соответствием подсказкам и низкими затратами на вывод.
* FLUX.2 [flex] — предоставляет такие параметры, как количество шагов и масштаб управления, чтобы разработчики могли оптимизировать задержку, точность рендеринга текста и визуальные детали.
* FLUX.2 [dev] — это вариант с открытым весом, полученный из базовой модели FLUX.2. Он описан как наиболее мощная модель генерации и редактирования изображений с открытым весом, сочетающая в себе преобразование текста в изображение и редактирование нескольких изображений в одном контрольном пункте с 32 миллиардами параметров.
* FLUX.2 [klein] — это будущий вариант с открытым исходным кодом Apache 2.0, размер которого уменьшен по сравнению с базовой моделью для небольших установок, со многими из тех же возможностей.
3. Какие основные компоненты используются в архитектуре FLUX.2 и как они взаимодействуют между собой?
Ответ: FLUX.2 использует архитектуру согласования скрытых потоков. Основная конструкция объединяет языковую модель видения Mistral-3 24B с выпрямленным потоковым трансформатором, который работает со скрытыми представлениями изображений. Языковая модель обеспечивает семантическую основу и знания о мире, в то время как основная часть трансформатора изучает пространственную структуру, материалы и композицию. Модель обучена сопоставлять шумовые латенты с латентами изображений при текстовой настройке, поэтому одна и та же архитектура поддерживает как синтез текста, так и редактирование.
4. Какие преимущества предоставляет маршрутизатор xRouter для управления затратами LLM?
Ответ: xRouter — это система оркестровки, основанная на вызовах инструментов и построенная на Qwen2.5-7B-Instruct в качестве основы маршрутизатора. Маршрутизатор работает более чем с 20 инструментами LLM в полной системе. Эти инструменты охватывают премиум, стандартные, бюджетные и специализированные уровни, включая GPT-5, GPT-4.1, GPT-5-Mini, GPT-5-Nano, o3, Kimi K2, DeepSeek-R1, Qwen3-235B и модели GPT-OSS. Обучение xRouter основано на данных Reasoning360, которые включают математические, кодовые и общие задачи рассуждения с оценками сложности, полученными от сильной эталонной модели Qwen3-32B. Количественные результаты показывают, что xRouter-7B последовательно повышает точность по сравнению с использованием той же базовой модели в качестве ненастроенного маршрутизатора. Например, xRouter-7B-2 достигает почти точности GPT-5 на Olympiad Bench, используя при этом примерно одну восьмую стоимости оценки GPT-5.