Исследование ETH Zurich: почему ваши AGENTS.md файлы делают ваших AI-агентов неэффективными

В мире искусственного интеллекта (ИИ) «контекстная инженерия» стала новым направлением для повышения производительности больших языковых моделей (LLM). Лидеры отрасли рекламируют AGENTS.md (и подобные файлы, такие как CLAUDE.md) как идеальную точку настройки для агентов кодирования — своего рода «северную звезду» на уровне репозитория, которая направляет ИИ в сложных кодовых базах.

Однако недавнее исследование учёных из ETH Zurich показало, что если вы не будете осторожны со своими файлами контекста, то, скорее всего, будете саботировать производительность вашего агента, платя при этом на 20% больше за эту привилегию.

Данные: больше токенов — меньше успеха

Исследовательская группа ETH Zurich проанализировала агентов кодирования, таких как Sonnet-4.5, GPT-5.2 и Qwen3-30B, на основе установленных эталонных тестов и нового набора реальных задач под названием AGENTBENCH. Результаты оказались весьма неожиданными:

* Автоматически сгенерированные файлы контекста фактически снизили показатели успеха примерно на 3%.
* Стоимость «помощи»: эти файлы увеличили затраты на вывод более чем на 20% и потребовали больше шагов для решения тех же задач.
* Человеческий фактор: даже файлы, написанные человеком, обеспечили лишь незначительный прирост производительности — 4%.
* Интеллектуальный предел: интересно, что использование более мощных моделей (например, GPT-5.2) для генерации этих файлов не привело к лучшим результатам. Более мощные модели часто имеют достаточно «параметрических знаний» об общих библиотеках, поэтому дополнительный контекст становится лишним шумом.

Почему «хороший» контекст не работает

Исследовательская группа подчёркивает поведенческую ловушку: ИИ-агенты слишком послушны. Агенты кодирования склонны следовать инструкциям, найденным в файлах контекста, но когда эти требования излишни, они усложняют задачу.

Например, исследователи обнаружили, что обзоры кодовой базы и списки каталогов — основа большинства файлов AGENTS.md — не помогают агентам ориентироваться быстрее. Агенты удивительно хорошо находят структуру файлов самостоятельно; чтение ручного списка просто потребляет токены рассуждения и добавляет «умственные» накладные расходы. Кроме того, файлы, сгенерированные LLM, часто бывают избыточными, если у вас уже есть приличная документация в другом месте в репозитории.

Новые правила контекстной инженерии

Чтобы файлы контекста действительно были полезны, нужно перейти от «всеобъемлющей документации» к «хирургическому вмешательству».

1. Что включать (несколько важных пунктов):
* Технический стек и намерения: объясните «что» и «почему». Помогите агенту понять цель проекта и его архитектуру (например, структуру монорепозитория).
* Неочевидные инструменты: здесь AGENTS.md сияет. Укажите, как создавать, тестировать и проверять изменения с помощью конкретных инструментов, таких как uv вместо pip или bun вместо npm.
* Эффект умножения: данные показывают, что инструкции выполняются; инструменты, упомянутые в файле контекста, используются значительно чаще. Например, инструмент uv использовался в 160 раз чаще (1,6 раза за экземпляр против 0,01), когда он был явно упомянут.

2. Что исключить (шум):
* Подробные деревья каталогов: пропустите их. Агенты могут найти нужные файлы без карты.
* Руководства по стилю: не тратьте токены, говоря агенту использовать camelCase. Вместо этого используйте детерминированные линтеры и форматеры — они дешевле, быстрее и надёжнее.
* Инструкции для конкретных задач: избегайте правил, которые применяются только к части ваших задач.
* Непроверенный автоконтент: не позволяйте агенту писать собственный файл контекста без проверки человеком. Исследование доказывает, что «более сильные» модели не обязательно являются лучшими гидами.

3. Как структурировать:
* Держите это лаконично: общее мнение о высокопроизводительных файлах контекста — менее 300 строк. Профессиональные команды часто держат свои файлы ещё более компактными — менее 60 строк. Каждая строка имеет значение, потому что каждая строка внедряется в каждую сессию.
* Прогрессивное раскрытие: не кладите всё в корневой файл. Используйте основной файл, чтобы указать агенту на отдельную, специфичную для задачи документацию (например, agent_docs/testing.md) только тогда, когда это необходимо.
* Указатели вместо копий: вместо встраивания фрагментов кода, которые в конечном итоге устареют, используйте указатели (например, file:line), чтобы показать агенту, где найти шаблоны проектирования или конкретные интерфейсы.

Ключевые выводы

* Негативное влияние автогенерации: файлы контекста, сгенерированные LLM, имеют тенденцию снижать показатели успеха задач в среднем примерно на 3% по сравнению с отсутствием контекста репозитория.
* Значительное увеличение затрат: включение файлов контекста увеличивает затраты на вывод более чем на 20% и приводит к большему количеству шагов, необходимых агентам для выполнения задач.
* Минимальная польза от человека: хотя файлы контекста, написанные человеком (предоставленные разработчиком), работают лучше, чем автоматически сгенерированные, они обеспечивают лишь незначительное улучшение примерно на 4% по сравнению с отсутствием файлов контекста.
* Избыточность и навигация: подробные обзоры кодовой базы в файлах контекста во многом избыточны по сравнению с существующей документацией и не помогают агентам находить соответствующие файлы быстрее.
* Строгое следование инструкциям: агенты обычно соблюдают инструкции в этих файлах, но ненужные или чрезмерно ограничительные требования часто усложняют решение реальных задач для модели.

Ознакомьтесь с [статьёй](https://arxiv.org/pdf/2602.11988). Также подписывайтесь на нас в [Twitter](https://twitter.com/) и присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) (более 120 тысяч участников) и подписывайтесь на [наш Newsletter](https://www.marktechpost.com/newsletter/). А ещё присоединяйтесь к нам в [Telegram](https://t.me/).

1. Какие основные выводы исследования ETH Zurich о влиянии файлов контекста на производительность AI-агентов?

Исследование ETH Zurich показало, что файлы контекста, сгенерированные LLM, снижают показатели успеха задач примерно на 3% по сравнению с отсутствием контекста репозитория. Файлы контекста, написанные человеком, обеспечивают лишь незначительное улучшение примерно на 4%. Также было обнаружено, что включение файлов контекста увеличивает затраты на вывод более чем на 20% и приводит к большему количеству шагов, необходимых агентам для выполнения задач.

2. Какие типы файлов контекста были проанализированы в исследовании и какие результаты были получены для каждого типа?

В исследовании были проанализированы автоматически сгенерированные файлы контекста и файлы, написанные человеком. Результаты показали, что автоматически сгенерированные файлы контекста снизили показатели успеха примерно на 3%, а файлы, написанные человеком, обеспечили лишь незначительный прирост производительности — 4%.

3. Какие рекомендации даёт исследовательская группа ETH Zurich по созданию эффективных файлов контекста?

Исследовательская группа рекомендует:
* включать в файлы контекста только несколько важных пунктов, таких как технический стек и намерения, неочевидные инструменты;
* исключать из файлов контекста шум, например, подробные деревья каталогов, руководства по стилю, инструкции для конкретных задач;
* структурировать файлы контекста лаконично, использовать прогрессивное раскрытие и указатели вместо копий.

4. Почему файлы контекста, сгенерированные LLM, могут быть неэффективными?

Файлы контекста, сгенерированные LLM, могут быть неэффективными, потому что они часто бывают избыточными, если у вас уже есть приличная документация в другом месте в репозитории. Кроме того, они могут содержать ненужные или чрезмерно ограничительные требования, которые усложняют решение реальных задач для модели.

5. Какие практические шаги можно предпринять для оптимизации файлов контекста в соответствии с рекомендациями исследования?

Для оптимизации файлов контекста можно предпринять следующие практические шаги:
* объяснить в файле контекста технический стек и намерения проекта;
* указать неочевидные инструменты, которые могут быть полезны для выполнения задач;
* избегать подробных деревьев каталогов, руководств по стилю и инструкций для конкретных задач;
* структурировать файл контекста лаконично, используя прогрессивное раскрытие и указатели вместо копий.

Источник