Как превратить медленную работу с ручным кликом в разных браузерах и на настольных компьютерах в надёжную автоматизированную систему, которая может использовать компьютер для вас в масштабе?
Lux — это новейший пример того, как агенты использования компьютера переходят от исследовательских демонстраций к инфраструктуре. Команда фонда OpenAGI выпустила Lux — базовую модель, которая управляет реальными настольными компьютерами и браузерами. Она набрала 83,6 балла по бенчмарку Online Mind2Web, который охватывает более 300 реальных задач по использованию компьютера. Это больше, чем у Google Gemini CUA (69,0), OpenAI Operator (61,3) и Anthropic Claude Sonnet 4 (61,0).
Что такое Lux?
Lux — это модель использования компьютера, а не чат-модель с плагином для браузера. Она принимает цель на естественном языке, просматривает экран и выводит низкоуровневые действия, такие как клики, нажатия клавиш и события прокрутки. Она может управлять браузерами, редакторами, электронными таблицами, почтовыми клиентами и другими настольными приложениями, поскольку работает с визуализированным пользовательским интерфейсом, а не со специфическими API приложений.
С точки зрения разработчика, Lux доступен через OpenAGI SDK и API-консоль. Исследовательская группа описывает целевые рабочие нагрузки, которые включают потоки обеспечения качества программного обеспечения, глубокие исследовательские запуски, управление социальными сетями, работу с интернет-магазинами и ввод больших объёмов данных. Во всех этих настройках агенту необходимо последовательно выполнять десятки или сотни действий пользовательского интерфейса, оставаясь при этом в соответствии с описанием задачи на естественном языке.
Три режима выполнения для разных уровней контроля
Lux поставляется с тремя режимами выполнения, которые представляют различные компромиссы между скоростью, автономностью и контролем.
* Режим Actor — это быстрый путь. Он выполняется примерно за 1 секунду на шаг и предназначен для чётко определённых задач, таких как заполнение формы, получение отчёта с панели управления или извлечение небольшого набора полей со страницы.
* Режим Thinker обрабатывает расплывчатые или многошаговые цели. Он разбивает высокоуровневую инструкцию на более мелкие подзадачи, а затем выполняет их. Примеры рабочих нагрузок включают многостраничные исследования, сортировку длинных очередей электронных писем или навигацию по интерфейсам аналитики, где точный путь клика не задан заранее.
* Режим Tasker обеспечивает максимальный детерминизм. Вызывающая сторона предоставляет явный список шагов на Python, которые Lux выполняет один за другим, и повторяет попытки до тех пор, пока последовательность не будет завершена или не произойдёт серьёзный сбой. Это позволяет командам сохранять графы задач, ограждения и политики сбоев в собственном коде, делегируя при этом управление пользовательским интерфейсом модели.
Tasker, Actor и Thinker — это три основных режима для процедурных рабочих процессов, быстрого выполнения и решения сложных задач.
Бенчмарки, задержка и стоимость
В Online Mind2Web Lux достигает показателя успешности в 83,6%. Тот же бенчмарк сообщает о 69,0% для Gemini CUA, 61,3% для OpenAI Operator и 61,0% для Claude Sonnet 4. Бенчмарк содержит более 300 веб-задач, собранных из реальных сервисов, поэтому он является полезным прокси для практических агентов, которые управляют браузерами и веб-приложениями.
Задержка и стоимость — это те параметры, где цифры становятся важными для инженерных команд. Команда OpenAGI сообщает, что Lux выполняет каждый шаг примерно за 1 секунду, в то время как OpenAI Operator — примерно за 3 секунды на шаг в тех же условиях оценки. Исследовательская группа также утверждает, что Lux примерно в 10 раз дешевле на токен, чем Operator. Для любого агента, который может легко выполнить сотни шагов за сеанс, эти постоянные факторы определяют, является ли рабочая нагрузка жизнеспособной в производстве.
Агентский активный предварительный тренинг и почему важен OSGym?
Lux обучен методом, который исследовательская группа OpenAGI называет агентским активным предварительным обучением. Команда противопоставляет это стандартному предварительному обучению языковой модели, которая пассивно поглощает текст из интернета. Идея заключается в том, что Lux учится, действуя в цифровых средах, и совершенствует своё поведение посредством крупномасштабного взаимодействия, а не только минимизируя потери при предсказании токенов в статических журналах.
Цель оптимизации отличается от классического обучения с подкреплением и настроена на поощрение самостоятельного исследования и понимания, а не на получение вручную сформированного вознаграждения.
Эта настройка обучения зависит от движка данных, который может одновременно выставлять множество сред операционных систем. Команда OpenAGI уже открыла исходный код этого движка под названием OSGym по лицензии MIT, которая допускает как исследовательское, так и коммерческое использование. OSGym запускает полные реплики операционных систем, а не только браузерные песочницы, и поддерживает задачи, охватывающие офисное программное обеспечение, браузеры, инструменты разработки и многозадачные рабочие процессы.
Ключевые выводы
* Lux — это базовая модель использования компьютера, которая управляет полноценными настольными компьютерами и браузерами и достигает 83,6% успешности по бенчмарку Online Mind2Web, опережая Gemini CUA, OpenAI Operator и Claude Sonnet-4.
* Lux предоставляет 3 режима: Actor, Thinker и Tasker, которые охватывают низкоуровневые макросы пользовательского интерфейса, многошаговую декомпозицию целей и детерминированное выполнение сценариев для производственных рабочих процессов.
* Сообщается, что Lux работает примерно за 1 секунду на шаг и примерно в 10 раз дешевле на токен, чем OpenAI Operator, что важно для агентов с длинным горизонтом, которые выполняют сотни действий за задачу.
* Lux обучен с помощью агентского активного предварительного обучения, где модель учится, действуя в средах, а не только потребляя статический веб-текст, что нацелено на надёжное поведение от экрана к действию, а не на чистое языковое моделирование.
* OSGym, механизм данных с открытым исходным кодом, лежащий в основе Lux, может запускать более 1000 реплик ОС и генерировать более 1400 многошаговых траекторий в минуту при низких затратах на реплику, что даёт командам практический способ обучать и оценивать своих собственных агентов по использованию компьютера.
1. Какие преимущества Lux предлагает по сравнению с другими моделями управления компьютером, такими как Google Gemini CUA, OpenAI Operator и Anthropic Claude Sonnet 4?
Lux предлагает несколько преимуществ по сравнению с другими моделями управления компьютером. Во-первых, Lux набрал 83,6 балла по бенчмарку Online Mind2Web, что больше, чем у Google Gemini CUA (69,0), OpenAI Operator (61,3) и Anthropic Claude Sonnet 4 (61,0). Это свидетельствует о более высокой эффективности и точности Lux в выполнении задач. Во-вторых, Lux работает примерно за 1 секунду на шаг, что делает его более быстрым по сравнению с OpenAI Operator, который выполняет каждый шаг примерно за 3 секунды. Кроме того, Lux примерно в 10 раз дешевле на токен, чем OpenAI Operator, что делает его более экономически выгодным для использования в производственных рабочих процессах.
2. Какие три режима выполнения предлагает Lux и для каких задач они предназначены?
Lux предлагает три режима выполнения:
* Режим Actor — это быстрый путь, предназначенный для чётко определённых задач, таких как заполнение формы, получение отчёта с панели управления или извлечение небольшого набора полей со страницы.
* Режим Thinker обрабатывает расплывчатые или многошаговые цели. Он разбивает высокоуровневую инструкцию на более мелкие подзадачи, а затем выполняет их. Примеры рабочих нагрузок включают многостраничные исследования, сортировку длинных очередей электронных писем или навигацию по интерфейсам аналитики.
* Режим Tasker обеспечивает максимальный детерминизм. Вызывающая сторона предоставляет явный список шагов на Python, которые Lux выполняет один за другим, и повторяет попытки до тех пор, пока последовательность не будет завершена или не произойдёт серьёзный сбой.
3. Что такое агентское активное предварительное обучение и почему оно важно для Lux?
Агентское активное предварительное обучение — это метод обучения, при котором модель учится, действуя в цифровых средах, и совершенствует своё поведение посредством крупномасштабного взаимодействия. Это отличается от стандартного предварительного обучения языковой модели, которая пассивно поглощает текст из интернета.
Цель оптимизации агентского активного предварительного обучения отличается от классического обучения с подкреплением и настроена на поощрение самостоятельного исследования и понимания, а не на получение вручную сформированного вознаграждения. Это важно для Lux, поскольку позволяет модели учиться на практике и совершенствовать своё поведение в различных цифровых средах.