Zhipu AI представляет ComputerRL: фреймворк для масштабирования обучения с подкреплением для агентов использования компьютеров

В быстроразвивающейся сфере автоматизации на основе искусственного интеллекта компания Zhipu AI представила ComputerRL — инновационный фреймворк, призванный предоставить агентам возможность навигации и управления в сложных цифровых рабочих средах. Это нововведение решает основную проблему в разработке агентов искусственного интеллекта: разрыв между компьютерными агентами и разработанными человеком графическими пользовательскими интерфейсами (GUI).

Парадигма API-GUI: объединение взаимодействия человека и машины

Традиционные агенты GUI часто сталкиваются с трудностями в средах, оптимизированных для пользователей-людей, что приводит к неэффективному моделированию таких действий, как нажатие кнопок или прокрутка. ComputerRL вводит парадигму API-GUI, которая сочетает точность вызовов API с гибкостью операций на основе GUI. Этот гибридный подход позволяет агентам использовать удобные для машин API для задач, требующих программного контроля, а также использовать действия GUI для более широкой адаптивности.

Фреймворк автоматизирует создание API с помощью больших языковых моделей (LLM). Пользователи предоставляют примеры задач, а система анализирует требования, реализует API с использованием соответствующих библиотек Python и генерирует тестовые примеры. Этот процесс обеспечивает инкапсуляцию API общих функций, снижая сложность и повышая производительность агентов. Например, API для приложений Ubuntu, таких как GIMP и LibreOffice, интегрированы, что позволяет выполнять такие задачи, как обработка изображений или форматирование документов, с меньшим количеством шагов, чем при использовании только методов GUI.

Масштабируемая инфраструктура для крупномасштабного обучения RL

Основным препятствием при обучении настольных агентов является неэффективность виртуальных сред. ComputerRL преодолевает эту проблему с помощью распределённой инфраструктуры обучения с подкреплением (RL), построенной на Docker и gRPC, поддерживающей тысячи параллельных виртуальных машин Ubuntu. Эта установка совместима с такими бенчмарками, как AgentBench, и решает проблемы, существовавшие в предыдущих системах, такие как ресурсоёмкость и узкие места в сети.

Ключевые особенности включают:
* развёртывание облегчённой виртуальной машины через qemu-in-docker;
* кластеризацию с несколькими узлами для масштабируемости;
* веб-интерфейс для мониторинга.

В сочетании с фреймворком AgentRL он обеспечивает полностью асинхронное обучение, отделяя сбор данных от обновления параметров для повышения эффективности. Эта инфраструктура обеспечивает высокую пропускную способность RL с динамическим размером пакета и устранением предвзятости вне политики, что способствует продлению тренировочных сессий без застоя.

Entropulse: повышение эффективности RL с помощью чередующихся фаз обучения

Для решения проблемы коллапса энтропии — распространённой проблемы, когда агенты теряют исследовательское поведение во время длительного RL, — ComputerRL включает Entropulse. Этот метод чередует фазы RL с контролируемой точной настройкой (SFT) на успешных траекториях развёртывания, восстанавливая энтропию и обеспечивая устойчивый прирост производительности.

Экспериментальная проверка на OSWorld Benchmark

Исследовательская группа применила ComputerRL к открытым моделям, таким как GLM-4-9B-0414 и Qwen2.5-14B, в результате чего были получены варианты AutoGLM-OS. На OSWorld Benchmark, который оценивает агентов во взаимодействующих средах Ubuntu, AutoGLM-OS-9B достигла показателя успешности 48,1%, превзойдя проприетарные модели, такие как OpenAI’s CUA o3 (42,9%) и Claude 4.0 (30,7%). Она также показала отличные результаты на OSWorld-Verified, набрав 47,3%.

Будущие направления в области автономности настольных компьютеров

ComputerRL представляет собой важный шаг вперёд в разработке более надёжных агентов, способных работать в динамичных средах и выполнять долгосрочные задачи. Потенциальные достижения включают расширение разнообразия обучения, интеграцию мультимодального восприятия и разработку иерархического планирования. Функции безопасности, такие как системы разрешений и проверка действий, будут иметь решающее значение для реального развёртывания, обеспечивая согласованную и надёжную автоматизацию.

ComputerRL представляет собой ключевое достижение в области агентов искусственного интеллекта, сочетая масштабируемое RL с инновационными парадигмами взаимодействия для преобразования интеллекта настольных компьютеров. По мере того как открытые модели, такие как AutoGLM-OS, расширяют границы, этот фреймворк прокладывает путь к созданию более способных, универсальных агентов для повседневного использования в вычислениях.

1. Какие проблемы решает фреймворк ComputerRL в разработке агентов искусственного интеллекта?

В разработке агентов искусственного интеллекта фреймворк ComputerRL решает проблему разрыва между компьютерными агентами и разработанными человеком графическими пользовательскими интерфейсами (GUI). Он вводит парадигму API-GUI, которая сочетает точность вызовов API с гибкостью операций на основе GUI, позволяя агентам использовать удобные для машин API для задач, требующих программного контроля, а также использовать действия GUI для более широкой адаптивности.

2. Какие ключевые особенности включает в себя инфраструктура обучения с подкреплением (RL) в ComputerRL?

Ключевые особенности инфраструктуры обучения с подкреплением (RL) в ComputerRL включают:
* развёртывание облегчённой виртуальной машины через qemu-in-docker;
* кластеризацию с несколькими узлами для масштабируемости;
* веб-интерфейс для мониторинга.

3. Какие методы используются в ComputerRL для решения проблемы коллапса энтропии при длительном RL?

Для решения проблемы коллапса энтропии — распространённой проблемы, когда агенты теряют исследовательское поведение во время длительного RL, — ComputerRL включает метод Entropulse. Этот метод чередует фазы RL с контролируемой точной настройкой (SFT) на успешных траекториях развёртывания, восстанавливая энтропию и обеспечивая устойчивый прирост производительности.

4. Какие экспериментальные результаты были получены при применении ComputerRL к открытым моделям?

При применении ComputerRL к открытым моделям, таким как GLM-4-9B-0414 и Qwen2.5-14B, были получены варианты AutoGLM-OS. На OSWorld Benchmark, который оценивает агентов во взаимодействующих средах Ubuntu, AutoGLM-OS-9B достигла показателя успешности 48,1%, превзойдя проприетарные модели, такие как OpenAI’s CUA o3 (42,9%) и Claude 4.0 (30,7%). Она также показала отличные результаты на OSWorld-Verified, набрав 47,3%.

5. Какие потенциальные достижения могут быть достигнуты при дальнейшем развитии ComputerRL?

Потенциальные достижения при дальнейшем развитии ComputerRL включают расширение разнообразия обучения, интеграцию мультимодального восприятия и разработку иерархического планирования. Функции безопасности, такие как системы разрешений и проверка действий, будут иметь решающее значение для реального развёртывания, обеспечивая согласованную и надёжную автоматизацию.

Источник