Hugging Face выпустила Smol2Operator: полностью открытый конвейер для обучения модели VLM с 2,2 млрд параметров в качестве агента, работающего с графическим интерфейсом

Hugging Face (HF) выпустила Smol2Operator — воспроизводимый, комплексный рецепт, который превращает небольшую модель зрения и языка (VLM) без предварительной привязки к пользовательскому интерфейсу в агента, работающего с графическим интерфейсом и использующего инструменты.

Что нового?

* Двухэтапное пост-обучение на небольшой VLM. Начиная с модели SmolVLM2-2.2B-Instruct, которая «изначально не имеет возможностей для работы с графическим интерфейсом», Smol2Operator сначала прививает восприятие/привязку, а затем добавляет агентское рассуждение с помощью контролируемой тонкой настройки (SFT).
* Единое пространство действий для разнородных источников. Конвейер преобразования нормализует разрозненные таксономии действий графического интерфейса (мобильные, настольные, веб) в единый согласованный функциональный API (например, click, type, drag, нормализованные координаты [0,1]), что обеспечивает согласованное обучение на наборах данных. Конвертер пространства действий поддерживает переадресацию на пользовательские словари.

Почему Smol2Operator?

Большинство конвейеров создания агентов с графическим интерфейсом заблокированы из-за фрагментированных схем действий и непереносимых координат. Унификация пространства действий и нормализованная стратегия координат в Smol2Operator делают наборы данных совместимыми, а обучение — стабильным при изменении размера изображений, что часто встречается при предварительной обработке VLM. Это снижает технические затраты на сбор данных из нескольких источников и упрощает воспроизведение поведения агентов с помощью небольших моделей.

Как это работает?

Стандартизация данных:
* анализ и нормализация вызовов функций из исходных наборов данных (например, этапы AGUVIS) в единый набор подписей;
* удаление избыточных действий;
* стандартизация имён параметров;
* преобразование пикселей в нормализованные координаты.

Этап 1 (восприятие/привязка):
* SFT на унифицированном наборе действий для изучения локализации элементов и основных возможностей пользовательского интерфейса, измеренное на ScreenSpot-v2 (локализация элементов на скриншотах).

Этап 2 (когниция/агентское рассуждение):
* дополнительная SFT для преобразования обоснованного восприятия в пошаговое планирование действий, согласованное с унифицированным API действий.

Команда HF сообщает о чёткой траектории производительности на ScreenSpot-v2 (эталон) по мере изучения основ, и демонстрирует аналогичную стратегию обучения вплоть до «nanoVLM» с ~460M параметрами, что указывает на переносимость метода по мощностям (числа представлены в таблицах поста).

Область применения, ограничения и следующие шаги

Не стремление к «SOTA любой ценой»: команда HF рассматривает работу как процесс создания чертежа — владение преобразованием данных → привязка → рассуждение — вместо того, чтобы гнаться за пиками в рейтинговых таблицах.

Фокус оценки: демонстрации сосредоточены на восприятии ScreenSpot-v2 и качественных видеозаписях задач «конец в конец»; более широкие межсредовые, межплатформенные или долгосрочные задачи станут предметом будущей работы. Команда HF отмечает потенциальный выигрыш от RL/DPO помимо SFT для адаптации в соответствии с политикой.

Траектория развития экосистемы: дорожная карта ScreenEnv включает более широкое покрытие ОС (Android/macOS/Windows), что повысит внешнюю валидность обученных политик.

Резюме

Smol2Operator — это полностью открытый, воспроизводимый конвейер, который преобразует SmolVLM2-2.2B-Instruct — модель VLM с нулевым привязкой к GUI — в агента, работающего с графическим интерфейсом и кодирующего с помощью графического интерфейса пользователя, с помощью двухэтапного процесса SFT.

Выпуск стандартизирует разнородные схемы действий графического интерфейса в унифицированный API с нормализованными координатами, предоставляет преобразованные наборы данных на основе AGUVIS, публикует учебные ноутбуки и код предварительной обработки, а также отправляет финальный контрольный список и демонстрационное пространство.

Он нацелен на прозрачность и переносимость процессов, а не на погоню за рейтинговыми таблицами, и встраивается в среду выполнения smolagents с ScreenEnv для оценки, предлагая практический чертёж для команд, создающих небольших агентов с графическим интерфейсом операторского уровня.

1. Какие основные этапы включает в себя процесс работы Smol2Operator?

Ответ: процесс работы Smol2Operator включает в себя два этапа: восприятие/привязка и когниция/агентское рассуждение. На первом этапе проводится SFT на унифицированном наборе действий для изучения локализации элементов и основных возможностей пользовательского интерфейса. На втором этапе дополнительная SFT преобразует обоснованное восприятие в пошаговое планирование действий, согласованное с унифицированным API действий.

2. Какие проблемы решает Smol2Operator при работе с графическим интерфейсом?

Ответ: Smol2Operator решает проблему фрагментированных схем действий и непереносимых координат в большинстве конвейеров создания агентов с графическим интерфейсом. Он унифицирует пространство действий и нормализует стратегию координат, что делает наборы данных совместимыми, а обучение — стабильным при изменении размера изображений.

3. Какие преимущества предоставляет Smol2Operator для разработчиков?

Ответ: Smol2Operator предоставляет разработчикам полностью открытый, воспроизводимый конвейер, который преобразует модель VLM с нулевым привязкой к GUI в агента, работающего с графическим интерфейсом. Он также стандартизирует разнородные схемы действий графического интерфейса в унифицированный API с нормализованными координатами, что упрощает разработку и использование агентов с графическим интерфейсом.

4. Какие дальнейшие шаги планирует команда Hugging Face после выпуска Smol2Operator?

Ответ: команда Hugging Face планирует расширить покрытие ОС (Android/macOS/Windows) в рамках дорожной карты ScreenEnv, что повысит внешнюю валидность обученных политик. Также рассматривается возможность использования RL/DPO помимо SFT для адаптации в соответствии с политикой.

5. Какие цели преследует команда Hugging Face при разработке Smol2Operator?

Ответ: команда Hugging Face рассматривает работу над Smol2Operator как процесс создания чертежа — владение преобразованием данных → привязка → рассуждение — вместо того, чтобы гнаться за пиками в рейтинговых таблицах. Они стремятся к прозрачности и переносимости процессов, а не к погоне за рейтинговыми таблицами.

Источник