## Стоимость использования модели OpenAI o3 может быть выше ожидаемой
В декабре OpenAI представила свою модель ИИ OpenAI o3**, охарактеризовав ее как способную к сложным “рассуждениям”. Компания сотрудничала с создателями бенчмарка ARC-AGI, чтобы показать возможности новой модели. Этот тест специально разработан для оценки высокоразвитых ИИ. Первоначальные результаты казались прорывными. Однако спустя несколько месяцев Arc Prize Foundation, ответственная за бенчмарк, пересмотрела эти данные. Теперь показатели o3 выглядят куда скромнее.
### Причина пересмотра: вычислительные ресурсы
Фонд Arc Prize Foundation пересмотрел результаты после более детального анализа. Выяснилось, что при тестировании модели **OpenAI o3** было использовано значительно больше вычислительных мощностей (так называемого “compute”), чем допускают правила бенчмарка ARC-AGI. Эти правила устанавливают строгие лимиты на ресурсы, выделяемые для решения каждой задачи. Изначально речь шла о 30 минутах на определенном типе процессора. Позже правила адаптировали и для графических ускорителей (GPU). Однако OpenAI, по сути, обошла эти ограничения.
### Масштаб проблемы
Хотя точные цифры назвать сложно, анализ показал: объем задействованных ресурсов мог быть эквивалентен тысячам или даже миллионам часов работы GPU на одну задачу. Это на порядки превышает установленные лимиты. Поскольку OpenAI предоставила только конечные ответы, а не детальный отчет о ресурсах, проблема вскрылась не сразу. В итоге Arc Prize Foundation пришлось пересчитать балл. Они либо учли гипотетические ресурсы, которые модель *могла бы* использовать в рамках лимита, либо применили штраф за превышение. Результат оказался шокирующим: первоначальные 85% превратились в 34%.
### Новая оценка в контексте
Стоит отметить, что 34% — это все еще высокий результат для бенчмарка ARC-AGI. До этого лучшие публичные модели достигали показателей около 30%. Таким образом, **OpenAI o3** все еще демонстрирует серьезные способности к рассуждению. Но разница между 34% и первоначальными 85% колоссальна. Это ставит под сомнение первоначальные заявления о прорывной эффективности модели.
### Возможные последствия
Главный вывод из этой ситуации: реальная стоимость эксплуатации модели **OpenAI o3** может оказаться существенно выше, чем предполагалось. Если для достижения заявленных (пусть и пересмотренных) результатов требуются огромные вычислительные мощности, ее практическое применение во многих сценариях может быть экономически нецелесообразным. Этот инцидент также подчеркивает важность стандартизации отчетности об используемых ресурсах при тестировании ИИ-моделей. Без этого честное сравнение их эффективности невозможно.
На момент публикации OpenAI официально не прокомментировала пересмотр результатов со стороны Arc Prize Foundation. Эта история — важное напоминание о том, что возможности ИИ-модели и ее практическая эффективность (включая стоимость работы) — не одно и то же. Результаты бенчмарков следует воспринимать с учетом затраченных ресурсов.