Компания Hugging Face выпустила FineVision — открытый мультимодальный набор данных, призванный установить новый стандарт для Vision-Language моделей (VLM).
Основные характеристики FineVision:
* 17,3 миллиона изображений;
* 24,3 миллиона образцов;
* 88,9 миллиона вопросно-ответных пар;
* почти 10 миллиардов токенов ответов.
FineVision объединяет более 200 источников в единый формат, тщательно отфильтрованный от дубликатов и загрязнений в бенчмарках.
Почему FineVision важен для обучения VLM?
Большинство современных VLM опираются на проприетарные наборы данных, что ограничивает воспроизводимость и доступность для широкого исследовательского сообщества. FineVision устраняет этот пробел за счёт:
* Масштаба и охвата: 5 ТБ тщательно отобранных данных по 9 категориям, включая общий VQA, OCR QA, рассуждения о диаграммах и таблицах, науку, создание заголовков, привязку и подсчёт, а также навигацию по графическому интерфейсу.
* Улучшения показателей бенчмарков: модели, обученные на FineVision, демонстрируют значительные преимущества по сравнению с альтернативами — до 46,3% над LLaVA, 40,7% над Cauldron и 12,1% над Cambrian.
* Новых областях навыков: FineVision представляет данные для новых задач, таких как навигация по графическому интерфейсу, указание и подсчёт, расширяя возможности VLM за пределы традиционного создания заголовков и VQA.
Как был создан FineVision?
Процесс создания включал три этапа:
1. Сбор и расширение: было собрано более 200 общедоступных наборов данных с изображениями и текстом. Отсутствующие модальности (например, текстовые данные) были переформатированы в пары «вопрос-ответ».
2. Очистка: удалены слишком большие пары «вопрос-ответ» (>8192 токена). Большие изображения были уменьшены до 2048 пикселей, сохраняя соотношение сторон. Удалены повреждённые образцы.
3. Оценка качества: используя Qwen3-32B и Qwen2.5-VL-32B-Instruct в качестве судей, каждая пара «вопрос-ответ» была оценена по четырём параметрам:
* качество форматирования текста;
* релевантность вопроса и ответа;
* визуальная зависимость;
* соответствие изображения вопросу.
Сравнительный анализ: FineVision и существующие открытые наборы данных
| Набор данных | Изображения | Образцы | Повороты | Токены | Утечка | Падение производительности после дедупликации |
| — | — | — | — | — | — | — |
| Cauldron | 2,0 млн | 1,8 млн | 27,8 млн | 0,3 млрд | 3,05% | 2,39% |
| LLaVA-Vision | 2,5 млн | 3,9 млн | 9,1 млн | 1,0 млрд | 2,15% | 2,72% |
| Cambrian | 7 млн | 5,4 млн | 7,0 млн | 12,2 млн | 0,8 млрд | 2,29% | 2,78% |
| FineVision | 17,3 млн | 24,3 млн | 88,9 млн | 9,5 млрд | 1,02% | 1,45% |
FineVision — не только один из крупнейших, но и наименее подверженный галлюцинациям набор данных, с перекрытием с тестовыми наборами бенчмарков всего на 1%. Это обеспечивает минимальную утечку данных и надёжную производительность оценки.
FineVision устанавливает новый стандарт благодаря:
* повышению средней производительности на 20%;
* беспрецедентному масштабу: 17+ миллионов изображений, 24+ миллиона образцов, 10 миллиардов токенов;
* расширению возможностей: включены навигация по графическому интерфейсу, подсчёт, указание и логические рассуждения по документам;
* наименьшей утечке данных: 1% загрязнения по сравнению с 2–3% в других наборах данных;
* полностью открытому исходному коду: доступен на Hugging Face Hub для немедленного использования через библиотеку наборов данных.
FineVision знаменует значительный прогресс в области открытых мультимодальных наборов данных. Его большой масштаб, систематическая обработка и прозрачная оценка качества создают воспроизводимую и расширяемую основу для обучения современных Vision-Language моделей.
1. Какие основные характеристики имеет FineVision и почему он важен для обучения Vision-Language моделей (VLM)?
Основные характеристики FineVision включают 17,3 миллиона изображений, 24,3 миллиона образцов, 88,9 миллиона вопросно-ответных пар и почти 10 миллиардов токенов ответов. FineVision важен для обучения VLM, поскольку устраняет ограничения, связанные с использованием проприетарных наборов данных, и обеспечивает воспроизводимость и доступность для широкого исследовательского сообщества.
2. Какие этапы включает в себя процесс создания FineVision?
Процесс создания FineVision включает три этапа: сбор и расширение (сбор более 200 общедоступных наборов данных и переформатирование отсутствующих модальностей), очистка (удаление слишком больших пар «вопрос-ответ», больших изображений и повреждённых образцов) и оценка качества (оценка каждой пары «вопрос-ответ» по четырём параметрам).
3. Как FineVision сравнивается с другими открытыми наборами данных по объёму и качеству?
FineVision имеет больший объём данных по сравнению с другими открытыми наборами данных, такими как Cauldron, LLaVA-Vision и Cambrian. Он также имеет наименьшую утечку данных (1% загрязнения по сравнению с 2–3% в других наборах данных) и обеспечивает минимальную утечку данных и надёжную производительность оценки.
4. Какие новые области навыков представляет FineVision для Vision-Language моделей?
FineVision представляет данные для новых задач, таких как навигация по графическому интерфейсу, указание и подсчёт, расширяя возможности VLM за пределы традиционного создания заголовков и VQA.
5. Какие преимущества FineVision демонстрирует по сравнению с другими моделями, такими как LLaVA, Cauldron и Cambrian?
Модели, обученные на FineVision, демонстрируют значительные преимущества по сравнению с альтернативами — до 46,3% над LLaVA, 40,7% над Cauldron и 12,1% над Cambrian. Это свидетельствует о повышении средней производительности на 20% и улучшении показателей бенчмарков.