H Company (французский стартап в сфере искусственного интеллекта) выпустила Holo1.5 — семейство открытых базовых моделей для работы с компьютерами. Они предназначены для агентов, которые взаимодействуют с реальными пользовательскими интерфейсами через скриншоты и действия с помощью указателя или клавиатуры.
Основные характеристики:
- В релизе представлены контрольные точки на 3B, 7B и 72B с заявленным приростом точности примерно на 10% по сравнению с Holo1.
- Модель 7B распространяется под лицензией Apache-2.0; модели 3B и 72B наследуют ограничения использования только для исследований.
Ключевые возможности:
- Точная локализация элементов пользовательского интерфейса (прогнозирование координат) и визуальные вопросы и ответы для понимания состояния интерфейса (UI-VQA).
Почему локализация элементов интерфейса важна?
Локализация — это то, как агент преобразует намерение в действие на уровне пикселей: «Открыть Spotify» → предсказать координаты кликабельного элемента на текущем экране. Ошибки здесь могут привести к сбоям в многошаговых рабочих процессах.
Holo1.5 обучена и протестирована для экранов с высоким разрешением (до 3840×2160) на настольных (macOS, Ubuntu, Windows), веб- и мобильных интерфейсах, что повышает надёжность работы с плотными профессиональными интерфейсами, где иконография и мелкие элементы увеличивают вероятность ошибок.
Чем Holo1.5 отличается от общих моделей для работы с текстом и изображениями (VLMs)?
Общие модели VLMs оптимизированы для широкого обоснования и создания подписей; агентам, работающим с интерфейсами, нужны надёжное указание и понимание интерфейса. Holo1.5 соответствует этим требованиям: крупномасштабное обучение с подкреплением (SFT) на задачах с графическим интерфейсом, а затем обучение с подкреплением в стиле GRPO для повышения точности координат и надёжности решений.
Как Holo1.5 работает на тестах по локализации?
Holo1.5 демонстрирует современные результаты по обоснованию графического интерфейса на ScreenSpot-v2, ScreenSpot-Pro, GroundUI-Web, Showdown и WebClick.
Улучшает ли Holo1.5 понимание пользовательского интерфейса (UI-VQA)?
Да. На VisualWebBench, WebSRC и ScreenQA (короткие/сложные) Holo1.5 обеспечивает последовательное повышение точности.
Как Holo1.5 сравнивается со специализированными и закрытыми системами?
В рамках опубликованной схемы оценки Holo1.5 превосходит открытые базовые модели (Qwen2.5-VL), конкурентные специализированные системы (например, UI-TARS, UI-Venus) и показывает преимущества по сравнению с закрытыми моделями общего назначения (например, Claude Sonnet 4) в указанных задачах с пользовательским интерфейсом.
Каковы последствия интеграции для агентов, работающих с интерфейсами?
- Более высокая надёжность кликов при нативном разрешении: более высокая производительность на ScreenSpot-Pro предполагает снижение количества ошибочных кликов в сложных приложениях (IDE, дизайнерские наборы, административные консоли).
- Более эффективное отслеживание состояния: более высокая точность UI-VQA улучшает обнаружение состояния входа в систему, активной вкладки, видимости модальных окон и сигналов об успехе/неудаче.
- Практичный путь лицензирования: модель 7B (Apache-2.0) подходит для производства. Контрольную точку 72B в настоящее время можно использовать только для исследований.
Где Holo1.5 вписывается в современный стек для работы с компьютерами?
Думайте о Holo1.5 как о слое восприятия экрана:
- Входные данные: скриншоты в полном разрешении (при необходимости с метаданными пользовательского интерфейса).
- Выходные данные: целевые координаты с указанием достоверности; короткие текстовые ответы о состоянии экрана.
- Последующие действия: политики действий преобразуют прогнозы в события нажатия клавиш/мыши; мониторинг проверяет пост-условия и запускает повторные попытки или резервные варианты.
Краткое содержание
Holo1.5 сокращает практический разрыв в системах работы с компьютерами, сочетая точную привязку координат с кратким пониманием интерфейса. Если вам нужна коммерчески используемая база сегодня, начните с Holo1.5-7B (Apache-2.0), протестируйте на своих экранах и настройте свои слои планирования/безопасности вокруг неё.
Ознакомьтесь с моделями на Hugging Face и техническими деталями. Не стесняйтесь посетить нашу страницу на GitHub, чтобы узнать о туториалах, кодах и ноутбуках. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit, насчитывающему более 100 тысяч человек, посвящённых машинному обучению, и подписывайтесь на нашу рассылку.
1. Какие основные характеристики отличают модель Holo1.5 от предыдущих версий и как они влияют на её применение?
Ответ: В релизе представлены контрольные точки на 3B, 7B и 72B с заявленным приростом точности примерно на 10% по сравнению с Holo1. Модель 7B распространяется под лицензией Apache-2.0; модели 3B и 72B наследуют ограничения использования только для исследований.
2. Какие ключевые возможности предоставляет модель Holo1.5 и как они способствуют улучшению работы с пользовательскими интерфейсами?
Ответ: Ключевые возможности Holo1.5 включают точную локализацию элементов пользовательского интерфейса (прогнозирование координат) и визуальные вопросы и ответы для понимания состояния интерфейса (UI-VQA). Это способствует улучшению работы с пользовательскими интерфейсами за счёт более точного определения координат элементов и более глубокого понимания состояния интерфейса.
3. Как Holo1.5 справляется с задачами по локализации элементов интерфейса и какие результаты демонстрирует на тестах?
Ответ: Holo1.5 демонстрирует современные результаты по обоснованию графического интерфейса на ScreenSpot-v2, ScreenSpot-Pro, GroundUI-Web, Showdown и WebClick. Также модель обеспечивает последовательное повышение точности на VisualWebBench, WebSRC и ScreenQA (короткие/сложные).
4. В чём заключается преимущество Holo1.5 перед общими моделями для работы с текстом и изображениями (VLMs) и как это влияет на её применение в работе с интерфейсами?
Ответ: Общие модели VLMs оптимизированы для широкого обоснования и создания подписей; агентам, работающим с интерфейсами, нужны надёжное указание и понимание интерфейса. Holo1.5 соответствует этим требованиям: крупномасштабное обучение с подкреплением (SFT) на задачах с графическим интерфейсом, а затем обучение с подкреплением в стиле GRPO для повышения точности координат и надёжности решений.
5. Какие последствия интеграции модели Holo1.5 могут быть для агентов, работающих с интерфейсами, и как это повлияет на их производительность?
Ответ: Интеграция модели Holo1.5 может привести к более высокой надёжности кликов при нативном разрешении, более эффективному отслеживанию состояния интерфейса и практичному пути лицензирования. Это может повысить производительность агентов, работающих с интерфейсами, за счёт снижения количества ошибочных кликов и улучшения обнаружения состояния интерфейса.