Как создать полностью функционального агента для использования на компьютере, который мыслит, планирует и выполняет виртуальные действия с помощью локальных моделей ИИ

Введение

В этом руководстве мы создадим с нуля продвинутого агента для использования на компьютере, который сможет рассуждать, планировать и выполнять виртуальные действия с помощью локальной модели с открытым весом. Мы создадим миниатюрный смоделированный рабочий стол, оснастим его интерфейсом инструментов и разработаем интеллектуального агента, который сможет анализировать окружающую среду, принимать решения о таких действиях, как нажатие или ввод с клавиатуры, и выполнять их пошагово.

Настройка среды

Мы установим необходимые библиотеки, такие как Transformers, Accelerate и Nest Asyncio, которые позволят нам запускать локальные модели и асинхронные задачи в Colab. Мы подготовим среду выполнения так, чтобы компоненты нашего агента могли работать эффективно без внешних зависимостей.

Основные компоненты

Мы определим основные компоненты: облегчённую локальную модель и виртуальный компьютер. Мы используем Flan-T5 в качестве механизма рассуждений и создаём смоделированный рабочий стол, который может открывать приложения, отображать экраны и реагировать на действия ввода с клавиатуры и щелчки мышью.

Интерфейс инструмента

Мы представим интерфейс ComputerTool, который действует как мост связи между рассуждениями агента и виртуальным рабочим столом. Мы определим высокоуровневые операции, такие как click, type и screenshot, что позволит агенту взаимодействовать со средой структурированным образом.

Компьютерный агент

Мы создадим ComputerAgent, который служит интеллектуальным контроллером системы. Мы запрограммируем его на рассуждения о целях, принятие решений о том, какие действия предпринять, выполнение этих действий через интерфейс инструмента и запись каждого взаимодействия в качестве шага в процессе принятия решений.

Демонстрация

Мы объединяем всё вместе, запуская демонстрацию, в которой агент интерпретирует запрос пользователя и выполняет задачи на виртуальном компьютере. Мы наблюдаем, как он генерирует рассуждения, выполняет команды, обновляет виртуальный экран и достигает своей цели ясным, пошаговым образом.

Анализ конкурентных стратегий в области агентского ИИ

OpenAI

OpenAI представила Operator в январе 2025 года, основанный на модели CUA. CUA сочетает в себе GPT-4o-классное зрение с обучением с подкреплением для политик графического интерфейса, выполняя действия с помощью раннего человеческого развития: восприятие экрана, мышь и клавиатура. Заявленная цель — единый интерфейс, который обобщает задачи веб-интерфейса и рабочего стола.

Google

Google представляет Gemini 2.0 как «созданного для эпохи агентов», с использованием инструментов и мультимодальным вводом/выводом, включая вывод изображений и аудио. Проект Astra демонстрирует низкую задержку, постоянное восприятие и шаблоны непрерывной помощи, которые соответствуют планированию и выполнению действий. Эти возможности предназначены для поддержки Gemini Live и более широкой среды выполнения агентов.

Anthropic

Anthropic представил Computer Use для Claude 3.5 Sonnet в октябре 2024 года, явно в качестве бета-функции, требующей соответствующей настройки программного обеспечения для эмуляции взаимодействия человека с курсором и клавиатурой. Компания была достаточно прозрачна в отношении профилей ошибок и необходимости тщательного посредничества. Для производства ожидаются настройки по умолчанию с учётом политики и постепенное расширение, а не полный переход к полной автономии.

Сравнительный анализ

Ядро модели и модальность

OpenAI в настоящее время объединяет оркестровку эпохи GPT-5 через Responses с общим контроллером графического интерфейса (CUA). Это позволяет использовать единую поверхность интеграции для рассуждений и инструментов, а также контроллер, обученный с помощью RL для действий на экране. Google продвигает Gemini 2.0 и Astra для низко-латентного мультимодального восприятия с использованием инструментов, а затем предоставляет агентскую сантехнику через Vertex и Gemini Enterprise. Anthropic продвигает Claude 3.5 с помощью Computer Use, одновременно предлагая Artifacts для преобразования подсказок во внутренние приложения, которые могут вызывать модель.

Платформа агента и жизненный цикл

AgentKit от OpenAI — это продуманный набор инструментов, который сокращает количество пользовательских лесов и согласовывается с Responses. Google предлагает Vertex AI Agent Builder для оркестрации нескольких агентов и хуков управления в нативной плоскости управления GCP. Артефакты Anthropic/app-builder поддерживают цикл быстрой итеративной разработки с участием человека, обеспечивая чёткую политику и валидацию действий пользователями.

Управление и политика

Флот-ориентированное управление Gemini Enterprise от Google — это чёткое заявление о политике: централизованная политика, видимость, межсайтовый контекст для Workspace и Microsoft 365, а также соединители для бизнес-приложений. Консолидация OpenAI в Responses сокращает количество поверхностей интеграции и должна упростить прикрепление политик, но корпоративная позиция варьируется в зависимости от архитектуры клиента.

Руководство по развёртыванию для технических команд

1. Заблокируйте бегун перед моделью.
2. Решите, где будет жить управление.
3. Спроектируйте для отказа и восстановления графического интерфейса.
4. Оптимизируйте для вашего стиля итераций.

Заключение

В агентском ИИ ландшафт 2025 года показывает три принципиально разные философии, которые, вероятно, определят следующий этап внедрения корпоративного ИИ. Ставка OpenAI на унифицированный, программируемый субстрат отражает их ДНК, ориентированную на разработчиков, но рискует перегрузить команды без сильных инженерных возможностей. Корпоративная игра Google по управлению предприятием стратегически обоснована, учитывая их доминирование в Workspace, но кажется бюрократической по сравнению с гибкими итерационными циклами, которые определяют успешные развертывания ИИ. Подход Anthropic к взаимодействию с человеком на каждом этапе пути выглядит наиболее согласованным с текущими организационными реалиями — там, где доверие, а не только возможности, остаётся узким местом для внедрения ИИ.

1. Какие основные компоненты включает в себя система для создания функционального агента на компьютере?

Ответ: система включает в себя облегчённую локальную модель (например, Flan-T5), смоделированный рабочий стол, интерфейс ComputerTool для связи между рассуждениями агента и виртуальным рабочим столом, а также ComputerAgent — интеллектуального контроллера системы.

2. Какие библиотеки и инструменты используются для запуска локальных моделей и асинхронных задач в Colab?

Ответ: для запуска локальных моделей и асинхронных задач в Colab используются библиотеки Transformers, Accelerate и Nest Asyncio.

3. Какие компании представлены в статье и какие у них есть решения в области агентского ИИ?

Ответ: в статье представлены компании OpenAI, Google и Anthropic. OpenAI представила Operator, основанный на модели CUA. Google представляет Gemini 2.0 и проект Astra. Anthropic представил Computer Use для Claude 3.5 Sonnet.

4. Какие ключевые различия в подходах к разработке агентского ИИ у OpenAI, Google и Anthropic?

Ответ: OpenAI фокусируется на унифицированном, программируемом субстрате, ориентированном на разработчиков. Google предлагает стратегически обоснованное управление предприятием, учитывая их доминирование в Workspace. Anthropic делает акцент на взаимодействии с человеком на каждом этапе пути, что выглядит наиболее согласованным с текущими организационными реалиями.

5. Какие рекомендации даёт автор для развёртывания системы на практике?

Ответ: автор рекомендует заблокировать бегун перед моделью, решить, где будет жить управление, спроектировать для отказа и восстановления графического интерфейса, а также оптимизировать систему для стиля итераций.

Источник