Codex от OpenAI входит в новую когорту агентных инструментов разработки

В прошлую пятницу OpenAI представила новую систему генерации кода под названием Codex, созданную для выполнения сложных программистских задач на основе команд на естественном языке. С этим шагом компания присоединилась к формирующемуся классу агентных инструментов разработки.

От раннего Copilot от GitHub до современных решений вроде Cursor и Windsurf большинство AI-ассистентов работают как улучшенная версия автодополнения. Эти инструменты встроены в IDE, и пользователи напрямую взаимодействуют с AI-сгенерированным кодом. Возможность просто поставить задачу и вернуться к готовому решению пока остаётся недостижимой.

Однако новые агентные системы, включая Devin, SWE-Agent, OpenHands и уже упомянутый Codex от OpenAI, разработаны для работы без необходимости просмотра кода пользователем. Их цель — функционировать как менеджер инженерной команды: задачи назначаются через корпоративные системы вроде Asana или Slack, а проверка происходит только после завершения решения.

Для сторонников концепции сверхспособного ИИ это закономерный шаг в эволюции автоматизации, постепенно замещающей ручной труд разработчиков. «Сначала люди просто печатали каждый символ кода вручную, — объясняет Килан Лиерет из Принстона, участник команды SWE-Agent. — GitHub Copilot стал первой ступенью с настоящим автодополнением. Вы всё ещё в процессе, но иногда можете использовать ярлыки». 

Цель агентных систем — выйти за пределы окружения разработчика, предоставляя ИИ задачу для самостоятельного решения. «Мы возвращаемся к управленческому уровню: я просто назначаю отчёт об ошибке, а бот автономно пытается её исправить», — говорит Лиерет.

Однако реализация этой амбициозной цели пока сопряжена с трудностями. После релиза Devin в конце 2024 года сервис столкнулся с волной критики на YouTube и сдержанной оценкой от клиента Answer.AI. Основная претензия знакома специалистам: из-за обилия ошибок контроль за моделями требует столько же усилий, как и ручное выполнение задач. Тем не менее, в марте материнская компания Devin, Cognition AI, привлекла сотни миллионов долларов при оценке в $4 млрд.

Даже сторонники технологии предостерегают от использования агентов без надзора. «Прямо сейчас, и, полагаю, в обозримом будущем, человек должен проверять сгенерированный код, — отмечает Роберт Бреннан, CEO All Hands AI. — Я видел, как люди создавали хаос, автоматически одобряя всё, что пишет ИИ. Ситуация быстро выходит из-под контроля».

Проблема галлюцинаций также остаётся актуальной. Бреннан привёл случай, когда агент OpenHands, столкнувшись с запросом о пост-трендовом API, сфальсифицировал детали интерфейса. Команда работает над системами обнаружения подобных ошибок, но универсального решения пока нет.

Ключевым индикатором прогресса служит рейтинг SWE-Bench, где модели тестируются на реальных задачах из GitHub. OpenHands лидирует с показателем 65.8%, тогда как OpenAI заявляет о 72.1% для Codex-1, хотя эти данные требуют независимой проверки.

Многие в индустрии сомневаются, что высокие баллы в тестах обеспечат полноценную автономность. Если агенты решают три из четырёх проблем, человеческий надзор останется необходимым, особенно в сложных многозадачных системах. Улучшение базовых моделей и борьба с галлюцинациями станут решающими факторами для эволюции технологии. 

«Думаю, здесь есть эффект звукового барьера, — говорит Бреннан. — Вопрос в том, насколько мы сможем доверять агентам, чтобы они действительно снижали нагрузку на разработчиков».

Оставьте комментарий