Google выпустила Android Bench: систему оценки и таблицу лидеров для больших языковых моделей в разработке под Android

Google официально выпустила Android Bench — новую таблицу лидеров и систему оценки, разработанную для измерения эффективности больших языковых моделей (LLM) в решении задач по разработке под Android. Набор данных, методология и тестовая система стали открытыми и общедоступны на GitHub.

Методология тестирования и разработка задач

Общие тесты кодирования часто не учитывают зависимости от платформы и нюансы мобильной разработки. Android Bench решает эту проблему, подбирая набор задач непосредственно из реальных публичных репозиториев Android на GitHub.

Сценарии оценки охватывают различные уровни сложности, включая:
* устранение критических изменений в выпусках Android;
* специальные задачи в предметной области, такие как работа в сети на устройствах Wear OS;
* миграцию кода на последнюю версию Jetpack Compose (современный инструментарий Android для создания собственных пользовательских интерфейсов).

Чтобы обеспечить оценку, независимую от модели, система предлагает LLM исправить указанную проблему, а затем проверяет исправление с помощью стандартных методов тестирования разработчиков:
* модульные тесты: тесты, проверяющие небольшие изолированные блоки кода (например, одну функцию или класс) без необходимости использования фреймворка Android;
* инструментальные тесты: тесты, запускаемые на физическом устройстве Android или эмуляторе, чтобы проверить, как код взаимодействует с реальной системой Android и API.

Снижение загрязнения данных

Значительной проблемой для разработчиков, оценивающих общедоступные тесты, является загрязнение данных. Это происходит, когда LLM знакомится с задачами оценки в процессе обучения, в результате чего модель запоминает ответы, а не демонстрирует подлинное рассуждение и решение проблем.

Чтобы обеспечить достоверность результатов Android Bench, команда Google реализовала несколько профилактических мер:
* ручная проверка траекторий агентов: разработчики проверяют пошаговые рассуждения и пути действий, которые модель предпринимает для решения задачи;
* интеграция контрольной строки: уникальная идентифицируемая строка текста встраивается в набор данных для тестирования. Это служит сигналом для веб-сканеров и сборщиков данных, используемых компаниями ИИ, чтобы явно исключить эти данные из будущих запусков обучения моделей.

Результаты первых таблиц лидеров Android Bench

В первом выпуске бенчмарк строго измеряет производительность базовой модели, намеренно опуская сложные агентские рабочие процессы или использование инструментов.

Оценка представляет собой средний процент успешно решённых тестовых заданий из 100 по 10 независимым запускам для каждой модели. Поскольку выходные данные LLM могут различаться между запусками, результаты включают доверительный интервал (CI) с p-значением < 0,05. CI предоставляет ожидаемый диапазон производительности, указывая на статистическую надёжность оценки модели. В этом первом выпуске модели успешно выполнили от 16% до 72% задач. | Модель | Оценка (%) | Диапазон CI (%) | Дата |
| — | — | — | — |
| Gemini 3.1 Pro Preview | 72,4 | 65,3 — 79,8 | 2026-03-04 |
| Claude Opus 4.6 | 66,6 | 58,9 — 73,9 | 2026-03-04 |
| GPT-5.2-Codex | 62,5 | 54,7 — 70,3 | 2026-03-04 |
| Claude Opus 4.5 | 61,9 | 53,9 — 69,6 | 2026-03-04 |
| Gemini 3 Pro Preview | 60,4 | 52,6 — 67,8 | 2026-03-04 |
| Claude Sonnet 4.6 | 58,4 | 51,1 — 66,6 | 2026-03-04 |
| Claude Sonnet 4.5 | 54,2 | 45,5 — 62,4 | 2026-03-04 |
| Gemini 3 Flash Preview | 42,0 | 36,3 — 47,9 | 2026-03-04 |
| Gemini 2.5 Flash | 16,1 | 10,9 — 21,9 | 2026-03-04 |

Примечание: вы можете попробовать все оценённые модели для своих проектов Android, используя API-ключи в последней стабильной версии Android Studio.

Ключевые выводы

1. Специализированный подход вместо общих тестов. Android Bench устраняет недостатки общих тестов кодирования, специально измеряя, насколько хорошо LLM справляются с уникальными сложностями, API и зависимостями экосистемы Android.
2. Основано на реальных сценариях. Вместо изолированных алгоритмических тестов бенчмарк оценивает модели на основе реальных задач, взятых из публичных репозиториев GitHub.
3. Верифицируемое тестирование, независимое от модели. Генерация кода оценивается на основе функциональности, а не методологии.
4. Строгие меры по предотвращению загрязнения данных. Чтобы убедиться, что модели действительно рассуждают, а не просто воспроизводят запомненные данные обучения, в бенчмарке используются ручные проверки путей рассуждений агентов и «контрольные строки» для предотвращения сканирования веб-страниц ИИ.
5. Установлены базовые показатели производительности. Первая версия таблицы лидеров фокусируется исключительно на производительности базовой модели без внешних агентских инструментов.

1. Какие проблемы решает система Android Bench, и как она это делает?

Android Bench решает проблему общих тестов кодирования, которые не учитывают зависимости от платформы и нюансы мобильной разработки. Система подбирает набор задач непосредственно из реальных публичных репозиториев Android на GitHub. Это позволяет оценить эффективность больших языковых моделей (LLM) в решении задач по разработке под Android с учётом реальных условий и требований.

2. Какие меры предпринимает Google для предотвращения загрязнения данных в системе Android Bench?

Для предотвращения загрязнения данных команда Google реализовала несколько профилактических мер:
* ручная проверка траекторий агентов: разработчики проверяют пошаговые рассуждения и пути действий, которые модель предпринимает для решения задачи;
* интеграция контрольной строки: уникальная идентифицируемая строка текста встраивается в набор данных для тестирования. Это служит сигналом для веб-сканеров и сборщиков данных, используемых компаниями ИИ, чтобы явно исключить эти данные из будущих запусков обучения моделей.

3. Какие типы тестов используются в системе Android Bench для оценки больших языковых моделей?

В системе Android Bench используются два типа тестов:
* модульные тесты: тесты, проверяющие небольшие изолированные блоки кода (например, одну функцию или класс) без необходимости использования фреймворка Android;
* инструментальные тесты: тесты, запускаемые на физическом устройстве Android или эмуляторе, чтобы проверить, как код взаимодействует с реальной системой Android и API.

4. Какие выводы можно сделать из результатов первых таблиц лидеров Android Bench?

Из результатов первых таблиц лидеров Android Bench можно сделать несколько ключевых выводов:
* специализированный подход вместо общих тестов: Android Bench устраняет недостатки общих тестов кодирования, специально измеряя, насколько хорошо LLM справляются с уникальными сложностями, API и зависимостями экосистемы Android;
* основано на реальных сценариях: вместо изолированных алгоритмических тестов бенчмарк оценивает модели на основе реальных задач, взятых из публичных репозиториев GitHub;
* верифицируемое тестирование, независимое от модели: генерация кода оценивается на основе функциональности, а не методологии;
* строгие меры по предотвращению загрязнения данных: чтобы убедиться, что модели действительно рассуждают, а не просто воспроизводят запомненные данные обучения, в бенчмарке используются ручные проверки путей рассуждений агентов и «контрольные строки» для предотвращения сканирования веб-страниц ИИ.

Источник