Компания Microsoft Research выпустила Fara-7B — небольшую языковую модель с 7 миллиардами параметров, разработанную специально для использования на компьютере. Это открытый агент по использованию компьютера, который работает со скриншотами, предсказывает действия мыши и клавиатуры и может выполняться на одном устройстве пользователя, что снижает задержки и сохраняет данные локально.
От чат-ботов к агентам использования компьютера
Традиционные модели для чата возвращают текст. Агенты использования компьютера, такие как Fara-7B, управляют браузером или пользовательским интерфейсом рабочего стола для выполнения задач, таких как заполнение форм, бронирование путешествий или сравнение цен. Они воспринимают экран, анализируют структуру страницы, а затем выполняют низкоуровневые действия, такие как щелчок, прокрутка, ввод текста, веб-поиск или переход по URL-адресу.
Многие существующие системы полагаются на большие мультимодальные модели, обёрнутые в сложный каркас, который анализирует деревья доступности и координирует несколько инструментов. Это увеличивает задержки и часто требует развёртывания на стороне сервера. Fara-7B сжимает поведение таких мультиагентных систем в единую мультимодальную модель-декодер, построенную на Qwen2.5-VL-7B. Она использует скриншоты браузера и текстовый контекст, а затем напрямую выводит текст с описанием действий и вызов инструмента с обоснованными аргументами, такими как координаты, текст или URL-адреса.
Генерация синтетических траекторий для веб-взаимодействия
Ключевым узким местом для агентов использования компьютера являются данные. Качественные журналы взаимодействия человека с веб-сайтами при выполнении многошаговых действий редки и дороги в сборе. Проект Fara представляет FaraGen — механизм генерации синтетических данных, который генерирует и фильтрует веб-траектории на живых сайтах.
FaraGen использует трёхэтапный конвейер. Предложение задач начинается с исходных URL-адресов, взятых из общедоступных корпусов, таких как ClueWeb22 и Tranco, которые классифицируются по доменам, таким как электронная коммерция, путешествия, развлечения или форумы. Большие языковые модели преобразуют каждый URL-адрес в реалистичные задачи, которые пользователи могут попытаться выполнить на этой странице, например, бронирование билетов на конкретные фильмы или создание списка покупок с ограничениями по обзорам и материалам.
Архитектура модели
Fara-7B — это мультимодальная модель-декодер, в которой используется Qwen2.5-VL-7B в качестве основы. На каждом шаге модель сначала генерирует цепочку мыслей, описывающую текущее состояние и план, а затем выводит вызов инструмента, который определяет следующее действие и его аргументы.
Пространство инструментов соответствует интерфейсу Magentic-UI computer_use. Оно включает в себя такие действия, как нажатие клавиши, ввод текста, перемещение мыши, щелчок левой кнопкой, прокрутка, переход по URL-адресу, веб-поиск, возврат в историю, пауза и запоминание факта, ожидание и завершение работы. Координаты прогнозируются напрямую как позиции пикселей на скриншоте, что позволяет модели работать без доступа к дереву доступности во время вывода.
Бенчмарки и эффективность
Microsoft оценивает Fara-7B по четырём веб-бенчмаркам: WebVoyager, Online-Mind2Web, DeepShop и новому WebTailBench, который фокусируется на недостаточно представленных сегментах, таких как бронирование ресторанов, подача заявлений о приёме на работу, поиск недвижимости, сравнение покупок и многосайтовые композиционные задачи.
На этих бенчмарках Fara-7B достигает 73,5% успеха на WebVoyager, 34,1% на Online-Mind2Web, 26,2% на DeepShop и 38,4% на WebTailBench. Это превосходит базовый уровень 7B Computer Use Agent UI-TARS-1.5-7B, который набирает 66,4, 31,3, 11,6 и 19,5 соответственно, и выгодно отличается от более крупных систем, таких как OpenAI computer-use-preview и конфигурации агентов SoM, построенные на GPT-4o.
Ключевые выводы
Fara-7B — это агент по использованию компьютера с 7 миллиардами параметров и открытым весом, построенный на Qwen2.5-VL-7B, который работает непосредственно со скриншотами и текстом, а затем выводит обоснованные действия, такие как щелчки, ввод текста и навигация, не полагаясь на деревья доступности во время вывода.
Модель обучена на 145 603 проверенных траекториях браузера и 1 010 797 шагов, сгенерированных конвейером FaraGen, который использует мультиагентное предложение задач, решение и верификацию на основе LLM на живых веб-сайтах по 70 117 доменам.
Fara-7B достигает 73,5% успеха на WebVoyager, 34,1% на Online-Mind2Web, 26,2% на DeepShop и 38,4% на WebTailBench, существенно превосходя базовый уровень 7B UI-TARS-1.5 на всех четырёх бенчмарках.
Редакционные заметки
Fara-7B — это важный шаг к практическим агентам использования компьютера, которые могут работать на локальном оборудовании с более низкими затратами на вывод, сохраняя при этом конфиденциальность. Сочетание Qwen2.5 VL 7B, синтетических траекторий FaraGen и WebTailBench даёт чёткий и хорошо оснащённый путь от мультиагентной генерации данных до единой компактной модели, которая соответствует или превосходит более крупные системы по ключевым бенчмаркам, обеспечивая при этом соблюдение критических точек и отказ от защитных мер.
1. Какие преимущества имеет модель Fara-7B по сравнению с традиционными моделями для чата и другими системами управления браузером или пользовательским интерфейсом?
Ответ: Fara-7B отличается от традиционных моделей для чата тем, что она не просто возвращает текст, а управляет браузером или пользовательским интерфейсом для выполнения задач. Она работает со скриншотами, предсказывает действия мыши и клавиатуры и может выполняться на одном устройстве пользователя. Это снижает задержки и сохраняет данные локально.
2. Какие технологии и подходы используются для обучения модели Fara-7B и генерации синтетических траекторий для веб-взаимодействия?
Ответ: Модель Fara-7B основана на Qwen2.5-VL-7B и использует мультимодальную модель-декодер. Для генерации синтетических траекторий используется FaraGen — механизм генерации синтетических данных, который фильтрует веб-траектории на живых сайтах. FaraGen использует трёхэтапный конвейер: предложение задач начинается с исходных URL-адресов, которые классифицируются по доменам, а большие языковые модели преобразуют каждый URL-адрес в реалистичные задачи.
3. Какие веб-бенчмарки используются для оценки эффективности модели Fara-7B и какие результаты она показывает на этих бенчмарках?
Ответ: Microsoft оценивает Fara-7B по четырём веб-бенчмаркам: WebVoyager, Online-Mind2Web, DeepShop и WebTailBench. На этих бенчмарках Fara-7B достигает 73,5% успеха на WebVoyager, 34,1% на Online-Mind2Web, 26,2% на DeepShop и 38,4% на WebTailBench. Это превосходит базовый уровень 7B Computer Use Agent UI-TARS-1.5-7B и выгодно отличается от более крупных систем, таких как OpenAI computer-use-preview и конфигурации агентов SoM, построенные на GPT-4o.
4. Какие выводы можно сделать о потенциале модели Fara-7B для практического применения в качестве агента использования компьютера?
Ответ: Fara-7B представляет собой важный шаг к практическим агентам использования компьютера, которые могут работать на локальном оборудовании с более низкими затратами на вывод, сохраняя при этом конфиденциальность. Сочетание Qwen2.5 VL 7B, синтетических траекторий FaraGen и WebTailBench даёт чёткий и хорошо оснащённый путь от мультиагентной генерации данных до единой компактной модели, которая соответствует или превосходит более крупные системы по ключевым бенчмаркам.