Google AI представляет PaperBanana: агентную систему для автоматизации создания методологических диаграмм и статистических графиков, готовых к публикации

Создание иллюстраций, готовых к публикации, — это трудоёмкий этап в исследовательском процессе. Хотя учёные, работающие с искусственным интеллектом, могут теперь заниматься обзорами литературы и кодом, им сложно визуально представить сложные открытия.

Исследовательская группа из Google и Пекинского университета представляет новую систему под названием PaperBanana, которая меняет ситуацию, используя мультиагентную систему для автоматизации создания высококачественных академических диаграмм и графиков.

Архитектура из пяти специализированных агентов

PaperBanana не полагается на единый запрос. Она объединяет усилия команды из пяти агентов, чтобы преобразовать необработанный текст в профессиональные визуальные элементы.

Этап 1: линейное планирование

* Агент-поисковик: определяет 10 наиболее релевантных примеров из базы данных, чтобы задать стиль и структуру.
* Агент-планировщик: переводит технический текст методологии в подробное текстовое описание целевой фигуры.
* Агент-стилист: выступает в роли консультанта по дизайну, чтобы убедиться, что результат соответствует «стилю NeurIPS», используя определённые цветовые палитры и макеты.

Этап 2: итеративное уточнение

* Агент-визуализатор: преобразует описание в визуальный результат. Для диаграмм он использует такие модели изображений, как Nano-Banana-Pro. Для статистических графиков он пишет исполняемый код Python Matplotlib.
* Агент-критик: проверяет сгенерированное изображение на соответствие исходному тексту, чтобы найти фактические ошибки или визуальные сбои. Он даёт обратную связь в течение трёх раундов уточнения.

Преодоление рубежа NeurIPS 2025

Исследовательская группа представила PaperBananaBench — набор из 292 тестовых случаев, составленный на основе реальных публикаций NeurIPS 2025. Используя подход VLM-as-a-Judge, они сравнили PaperBanana с ведущими базовыми моделями.

Метрики и улучшения по сравнению с базовым уровнем:

* Общий балл: +17,0%
* Кратковременность: +37,2%
* Читаемость: +12,9%
* Эстетика: +6,6%
* Точность: +2,8%

Система превосходит в диаграммах «Агент и Рассуждения», достигая общего балла 69,9%. Она также предоставляет автоматизированные «Эстетические рекомендации», отдавая предпочтение «мягким техническим пастельным» цветам вместо резких основных цветов.

Статистические графики: код против изображения

Статистические графики требуют числовой точности, которой часто не хватает стандартным моделям изображений. PaperBanana решает эту проблему, заставляя агента-визуализатора писать код вместо рисования пикселей.

Генерация изображений: отличается эстетикой, но часто страдает от «числовых галлюцинаций» или повторяющихся элементов.

Генерация на основе кода: обеспечивает 100% точность данных, используя библиотеку Matplotlib для рендеринга окончательного графика.

Доменные специфические эстетические предпочтения в исследованиях ИИ

Согласно руководству по стилю PaperBanana, эстетический выбор часто меняется в зависимости от области исследования, чтобы соответствовать ожиданиям различных научных сообществ.

| Область исследования | Визуальная «вибрация» | Ключевые элементы дизайна |
| — | — | — |
| Агент и Рассуждения | Иллюстративная, повествовательная, «дружелюбная» | 2D векторные роботы, человеческие аватары, эмодзи и «пользовательский интерфейс» (пузыри чата, иконки документов) |
| Компьютерное зрение и 3D | Пространственная, плотная, геометрическая | Конусы камер (фрустумы), лучевые линии, облаки точек и RGB-кодирование для соответствия осей |
| Генеративные и обучающие | Модульные, потоковые | 3D кубы для тензоров, матричные сетки и «зональные» стратегии с использованием лёгких пастельных заливок для группировки логики |
| Теория и оптимизация | Минималистичная, абстрактная, «учебная» | Узлы графиков (круги), многообразия (плоскости) и сдержанная палитра в оттенках серого с одиночными яркими цветами |

Сравнение парадигм визуализации

Для статистических графиков платформа подчёркивает явный компромисс между использованием модели генерации изображений (IMG) и исполняемым кодом (Coding).

| Особенности | Графики через генерацию изображений (IMG) | Графики через кодирование (Matplotlib) |
| — | — | — |
| Эстетика | В целом выше; графики выглядят более «визуально привлекательно» | Профессиональный и стандартный академический вид |
| Точность | Ниже; склонны к «числовым галлюцинациям» или повторению элементов | 100% точная; строго представляет исходные данные |
| Читаемость | Высокая для разреженных данных, но затруднена со сложными наборами данных | Постоянно высокая; обрабатывает плотные или многосерийные данные без ошибок |

Ключевые выводы

* Мультиагентная коллаборативная система: PaperBanana — это система, управляемая ссылками, которая объединяет усилия пяти специализированных агентов — Поисковика, Планировщика, Стилиста, Визуализатора и Критика — для преобразования необработанного технического текста и подписей в диаграммы методологии и статистические графики качества публикации.
* Двухэтапный процесс генерации: рабочий процесс состоит из этапа линейного планирования для извлечения примеров из справочной информации и установки эстетических рекомендаций, за которым следует трёхраундовый цикл итеративного уточнения, где агент-критик выявляет ошибки, а агент-визуализатор воссоздаёт изображение для повышения точности.
* Превосходная производительность на PaperBananaBench: оценена на 292 тестовых случаях из NeurIPS 2025, платформа превзошла базовые модели по общему баллу (+17,0%), краткости (+37,2%), читаемости (+12,9%) и эстетике (+6,6%).
* Прецизионные статистические графики: для статистических данных система переключается с прямой генерации изображений на исполняемый код Python Matplotlib; этот гибридный подход обеспечивает числовую точность и устраняет «галлюцинации», характерные для стандартных генераторов изображений ИИ.

1. Какие проблемы решает система PaperBanana и как она работает?

PaperBanana решает проблему создания иллюстраций, готовых к публикации, которая является трудоёмким этапом в исследовательском процессе. Система использует мультиагентную систему для автоматизации создания высококачественных академических диаграмм и графиков. Она объединяет усилия команды из пяти агентов: поисковика, планировщика, стилиста, визуализатора и критика.

2. Какие этапы включает в себя процесс создания диаграмм и графиков с помощью PaperBanana?

Процесс создания диаграмм и графиков с помощью PaperBanana включает в себя два этапа: линейное планирование и итеративное уточнение. На этапе линейного планирования агент-поисковик определяет 10 наиболее релевантных примеров из базы данных, агент-планировщик переводит технический текст методологии в подробное текстовое описание целевой фигуры, а агент-стилист выступает в роли консультанта по дизайну. На этапе итеративного уточнения агент-визуализатор преобразует описание в визуальный результат, а агент-критик проверяет сгенерированное изображение на соответствие исходному тексту.

3. Какие преимущества предлагает система PaperBanana по сравнению с базовыми моделями?

Система PaperBanana предлагает ряд преимуществ по сравнению с базовыми моделями, включая общий балл (+17,0%), краткость (+37,2%), читаемость (+12,9%), эстетику (+6,6%) и точность (+2,8%). Она также обеспечивает автоматизированные «Эстетические рекомендации», отдавая предпочтение «мягким техническим пастельным» цветам вместо резких основных цветов.

4. Как PaperBanana обеспечивает точность статистических графиков?

Для статистических графиков PaperBanana использует гибридный подход, переключаясь с прямой генерации изображений на исполняемый код Python Matplotlib. Этот подход обеспечивает числовую точность и устраняет «галлюцинации», характерные для стандартных генераторов изображений ИИ.

5. Какие доменные специфические эстетические предпочтения учитывает система PaperBanana?

Система PaperBanana учитывает доменные специфические эстетические предпочтения в исследованиях ИИ. Например, для области «Агент и Рассуждения» характерны иллюстративная, повествовательная, «дружелюбная» визуальная «вибрация» и ключевые элементы дизайна, такие как 2D векторные роботы, человеческие аватары, эмодзи и «пользовательский интерфейс» (пузыри чата, иконки документов). Для области «Компьютерное зрение и 3D» характерны пространственная, плотная, геометрическая визуальная «вибрация» и ключевые элементы дизайна, такие как конусы камер (фрустумы), лучевые линии, облаки точек и RGB-кодирование для соответствия осей.

Источник