H Company выпускает Holo1.5: семейство открытых моделей для работы с интерфейсами

H Company (французский стартап в сфере искусственного интеллекта) выпустила Holo1.5 — семейство открытых базовых моделей для работы с компьютерами. Они предназначены для агентов, которые взаимодействуют с реальными пользовательскими интерфейсами через скриншоты и действия с помощью указателя или клавиатуры.

Основные характеристики:

В релизе представлены контрольные точки на 3B, 7B и 72B с заявленным приростом точности примерно на 10% по сравнению с Holo1.

Модель 7B распространяется под лицензией Apache-2.0; модели 3B и 72B наследуют ограничения использования только для исследований.

Ключевые возможности:

Точная локализация элементов пользовательского интерфейса (прогнозирование координат) и визуальные вопросы и ответы для понимания состояния интерфейса (UI-VQA).

Почему локализация элементов интерфейса важна?

Локализация — это то, как агент преобразует намерение в действие на уровне пикселей: «Открыть Spotify» → предсказать координаты кликабельного элемента на текущем экране. Ошибки здесь могут привести к сбоям в многошаговых рабочих процессах.

Holo1.5 обучена и протестирована для экранов с высоким разрешением (до 3840×2160) на настольных (macOS, Ubuntu, Windows), веб- и мобильных интерфейсах, что повышает надёжность работы с плотными профессиональными интерфейсами, где иконография и мелкие элементы увеличивают вероятность ошибок.

Чем Holo1.5 отличается от общих моделей для работы с текстом и изображениями (VLMs)?

Общие модели VLMs оптимизированы для широкого обоснования и создания подписей; агентам, работающим с интерфейсами, нужны надёжное указание и понимание интерфейса. Holo1.5 соответствует этим требованиям: крупномасштабное обучение с подкреплением (SFT) на задачах с графическим интерфейсом, а затем обучение с подкреплением в стиле GRPO для повышения точности координат и надёжности решений.

Как Holo1.5 работает на тестах по локализации?

Holo1.5 демонстрирует современные результаты по обоснованию графического интерфейса на ScreenSpot-v2, ScreenSpot-Pro, GroundUI-Web, Showdown и WebClick.

Улучшает ли Holo1.5 понимание пользовательского интерфейса (UI-VQA)?

Да. На VisualWebBench, WebSRC и ScreenQA (короткие/сложные) Holo1.5 обеспечивает последовательное повышение точности.

Как Holo1.5 сравнивается со специализированными и закрытыми системами?

В рамках опубликованной схемы оценки Holo1.5 превосходит открытые базовые модели (Qwen2.5-VL), конкурентные специализированные системы (например, UI-TARS, UI-Venus) и показывает преимущества по сравнению с закрытыми моделями общего назначения (например, Claude Sonnet 4) в указанных задачах с пользовательским интерфейсом.

Каковы последствия интеграции для агентов, работающих с интерфейсами?

Более высокая надёжность кликов при нативном разрешении: более высокая производительность на ScreenSpot-Pro предполагает снижение количества ошибочных кликов в сложных приложениях (IDE, дизайнерские наборы, административные консоли).

Более эффективное отслеживание состояния: более высокая точность UI-VQA улучшает обнаружение состояния входа в систему, активной вкладки, видимости модальных окон и сигналов об успехе/неудаче.

Практичный путь лицензирования: модель 7B (Apache-2.0) подходит для производства. Контрольную точку 72B в настоящее время можно использовать только для исследований.

Где Holo1.5 вписывается в современный стек для работы с компьютерами?

Думайте о Holo1.5 как о слое восприятия экрана:

Входные данные: скриншоты в полном разрешении (при необходимости с метаданными пользовательского интерфейса).

Выходные данные: целевые координаты с указанием достоверности; короткие текстовые ответы о состоянии экрана.

Последующие действия: политики действий преобразуют прогнозы в события нажатия клавиш/мыши; мониторинг проверяет пост-условия и запускает повторные попытки или резервные варианты.

Краткое содержание

Holo1.5 сокращает практический разрыв в системах работы с компьютерами, сочетая точную привязку координат с кратким пониманием интерфейса. Если вам нужна коммерчески используемая база сегодня, начните с Holo1.5-7B (Apache-2.0), протестируйте на своих экранах и настройте свои слои планирования/безопасности вокруг неё.

Ознакомьтесь с моделями на Hugging Face и техническими деталями. Не стесняйтесь посетить нашу страницу на GitHub, чтобы узнать о туториалах, кодах и ноутбуках. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit, насчитывающему более 100 тысяч человек, посвящённых машинному обучению, и подписывайтесь на нашу рассылку.

1. Какие основные характеристики отличают модель Holo1.5 от предыдущих версий и как они влияют на её применение?

Ответ: В релизе представлены контрольные точки на 3B, 7B и 72B с заявленным приростом точности примерно на 10% по сравнению с Holo1. Модель 7B распространяется под лицензией Apache-2.0; модели 3B и 72B наследуют ограничения использования только для исследований.

2. Какие ключевые возможности предоставляет модель Holo1.5 и как они способствуют улучшению работы с пользовательскими интерфейсами?

Ответ: Ключевые возможности Holo1.5 включают точную локализацию элементов пользовательского интерфейса (прогнозирование координат) и визуальные вопросы и ответы для понимания состояния интерфейса (UI-VQA). Это способствует улучшению работы с пользовательскими интерфейсами за счёт более точного определения координат элементов и более глубокого понимания состояния интерфейса.

3. Как Holo1.5 справляется с задачами по локализации элементов интерфейса и какие результаты демонстрирует на тестах?

Ответ: Holo1.5 демонстрирует современные результаты по обоснованию графического интерфейса на ScreenSpot-v2, ScreenSpot-Pro, GroundUI-Web, Showdown и WebClick. Также модель обеспечивает последовательное повышение точности на VisualWebBench, WebSRC и ScreenQA (короткие/сложные).

4. В чём заключается преимущество Holo1.5 перед общими моделями для работы с текстом и изображениями (VLMs) и как это влияет на её применение в работе с интерфейсами?

Ответ: Общие модели VLMs оптимизированы для широкого обоснования и создания подписей; агентам, работающим с интерфейсами, нужны надёжное указание и понимание интерфейса. Holo1.5 соответствует этим требованиям: крупномасштабное обучение с подкреплением (SFT) на задачах с графическим интерфейсом, а затем обучение с подкреплением в стиле GRPO для повышения точности координат и надёжности решений.

5. Какие последствия интеграции модели Holo1.5 могут быть для агентов, работающих с интерфейсами, и как это повлияет на их производительность?

Ответ: Интеграция модели Holo1.5 может привести к более высокой надёжности кликов при нативном разрешении, более эффективному отслеживанию состояния интерфейса и практичному пути лицензирования. Это может повысить производительность агентов, работающих с интерфейсами, за счёт снижения количества ошибочных кликов и улучшения обнаружения состояния интерфейса.

Источник