Инструменты ИИ для программирования могут не ускорять работу каждого разработчика, показало исследование

Рабочие процессы разработчиков программного обеспечения претерпели значительные изменения в последние годы благодаря появлению ИИ-инструментов вроде Cursor [https://techcrunch.com/2025/06/30/cursor-launches-a-web-app-to-manage-ai-coding-agents/] и GitHub Copilot, которые обещают повысить продуктивность за счет автоматической генерации кода, исправления ошибок и тестирования изменений. Эти инструменты используют модели ИИ от OpenAI, Google DeepMind, Anthropic и xAI, заметно улучшившие свои показатели [https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/] в различных тестах по разработке ПО.

Однако новое исследование [https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf], опубликованное в четверг некоммерческой группой METR, ставит под сомнение эффективность современных ИИ-инструментов для опытных разработчиков.

В рамках рандомизированного эксперимента METR привлекла 16 опытных участников open-source проектов, которые выполнили 246 реальных задач в крупных репозиториях, где они регулярно работают. Исследователи случайным образом разрешили использовать передовые ИИ-инструменты (например, Cursor Pro) для половины задач, а для другой половины запретили их применение.

Перед началом разработчики прогнозировали, что ИИ сократит время выполнения задач на 24%. Реальность оказалась иной: «Удивительно, но использование ИИ увеличило время выполнения на 19% — разработчики работали медленнее с такими инструментами», — отметили авторы.

Важно, что только 56% участников ранее использовали Cursor — основной инструмент в исследовании. Хотя 94% разработчиков уже применяли веб-версии языковых моделей в своей работе, для некоторых это был первый опыт с Cursor. При этом все участники прошли обучение перед экспериментом.

Выводы METR бросают вызов распространенному нарративу о всеобщем повышении продуктивности благодаря ИИ-инструментам в 2025 году. Согласно исследованию, разработчикам не стоит ожидать мгновенного ускорения workflows от так называемых «виб-кодеров» — инструментов, генерирующих код на основе контекста.

Авторы указывают на несколько причин замедления. Во-первых, разработчики тратят больше времени на формирование промптов и ожидание ответов ИИ, вместо написания кода. Во-вторых, ИИ демонстрирует слабые результаты в крупных и сложных кодовых базах, которые использовались в тесте.

Исследователи подчеркивают, что не делают глобальных выводов: другие масштабные работы [https://itrevolution.com/articles/new-research-reveals-ai-coding-assistants-boost-developer-productivity-by-26-what-it-leaders-need-to-know/] подтверждают рост продуктивности на 26% благодаря ИИ. Они также отмечают быстрое развитие технологий: текущие результаты могут устареть уже через три месяца. METR фиксирует улучшение способности ИИ выполнять сложные многоэтапные задачи [https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/].

Это исследование добавляет аргументов скептикам ИИ-инструментов. Ранее уже фиксировалось, что они могут генерировать ошибочный код [https://www.theregister.com/2025/01/23/ai_developer_devin_poor_reviews/] и создавать уязвимости [https://www.techrepublic.com/article/ai-generated-code-outages/], приводящие к сбоям.

Оставьте комментарий