Новый конкурс по программированию с использованием ИИ определил своего первого победителя, установив новую планку для ИИ-инженеров.
В среду в 17:00 по тихоокеанскому времени некоммерческая организация Laude Institute объявила о победе бразильского инженера по промтам Эдуардо Роча де Андраде в первом раунде K Prize — многозадачного соревнования по ИИ-кодингу, организованного сооснователем Databricks и Perplexity Энди Конвински. Награда составила $50 000. Однако больше, чем сам факт победы, удивил его финальный результат: он дал правильные ответы всего на 7.5% вопросов теста.
«Мы рады, что создали действительно сложный бенчмарк. Эталонные тесты должны быть сложными, если хотят иметь значение», — заявил Конвински, пообещавший $1 млн первой открытой модели, которая преодолеет порог в 90% правильных ответов.
Подобно известной системе SWE-Bench, K Prize проверяет модели на основе реальных проблем, отмеченных на GitHub, чтобы оценить их способность решать прикладные задачи. Но если SWE-Bench использует фиксированный набор данных, K Prize позиционируется как «версия без загрязнения данных»: тест формируется только из задач, появившихся на GitHub после 12 марта — даты дедлайна первого раунда. Это исключает возможность «натаскивания» моделей под специфику бенчмарка.
Результат в 7.5% резко контрастирует с показателями SWE-Bench, где лидеры показывают 75% на более простом тесте Verified и 34% на сложном Full. Конвински пока не уверен, объясняется ли разрыв «загрязнением» данных в SWE-Bench или сложностью сбора свежих GitHub-задач, но надеется, что K Prize поможет найти ответ: «По мере проведения новых раундов мы лучше поймём динамику, ведь участники будут адаптироваться к регулярным соревнованиям».
Казалось бы, при таком обилии ИИ-инструментов для кодинга низкие результаты должны настораживать. Однако многие эксперты, включая исследователя из Принстона Саяша Капура, видят в подобных бенчмарках решение растущей проблемы оценки ИИ. В недавней работе он отмечал: «Без таких экспериментов нельзя понять, связано ли отставание с загрязнением данных или просто с человеческим вмешательством при настройке моделей под SWE-Bench».
Для Конвински это не только вопрос улучшения метрик, но и вызов индустрии: «Если верить хайпу, ИИ уже готов заменить врачей, юристов и инженеров. Но если мы не можем преодолеть даже 10% на чистой версии SWE-Bench — это реальность, с которой стоит считаться».
*Сан-Франциско | 27–29 октября 2025 г.*
[ССЫЛКА НА РЕГИСТРАЦИЮ]
«Я уверен в необходимости создания новых тестов для существующих бенчмарков», — добавляет Капур, чья статья [https://arxiv.org/abs/2407.01502] подчеркивает важность подобных инициатив для объективной оценки прогресса в области ИИ.