Подростки победили ИИ на международной математической олимпиаде

Впервые модели искусственного интеллекта (ИИ) достигли престижных результатов золотого уровня на Международной математической олимпиаде — одном из главных математических соревнований мира. Их успех — неоспоримое достижение для сторонников этой технологии. Но пока что самые передовые экспериментальные программы ИИ от Google и OpenAI не могут превзойти чрезвычайно умного подростка.

Это может показаться иронией, но сложная математика до сих пор является одним из самых серьёзных препятствий для ИИ. Существует множество анализов того, почему это остаётся такой проблемой, но, в общем, это связано с тем, как работает технология. После получения запроса ИИ вроде ChatGPT и Google Gemini разбивают слова и буквы на «токены», затем анализируют и предсказывают соответствующий ответ. Для ИИ ответ — это просто наиболее вероятная последовательность токенов. Люди же обрабатывают их как слова, предложения и законченные мысли.

Учитывая эти параметры, у ИИ нет «логических» возможностей, необходимых для решения сложных математических задач. Во многом это связано с тем, что математические задачи обычно не имеют нескольких возможных ответов — только одно правильное решение. Сегодня карманный калькулятор неизменно даст вам объективно верный ответ на умножение 4596 на 4859 (22 331 964). В то же время ChatGPT может предложить вам ответ 22 325 364.

Значительные улучшения

С 1959 года Международная математическая олимпиада (ММО) является одним из главных событий для молодых математических талантов. Многим математикам потребуется больше отведённого времени, чтобы ответить всего на одну задачу ММО, а большинство людей не смогут решить ни одной из них.

Недавно Австралия принимала 66-ю ежегодную ММО в Квинсленде, где 641 подросток из 112 стран собрались 15 июля, чтобы решить шесть задач менее чем за 4,5 часа. На этот раз у них появился дополнительный соперник: пара экспериментальных моделей ИИ для рассуждений от Google и OpenAI.

Боты показали хорошие результаты. С тех пор обе компании объявили, что их программы набрали достаточно высокие баллы на олимпиаде этого года, чтобы получить золотые медали. Каждый ИИ решил 5 из 6 задач в отведённое время, заработав 35 из максимально возможных 42 баллов. В этом году только около 10 процентов участников-людей получили оценку золотого уровня.

Это стало значительным улучшением по сравнению с прошлогодними результатами Google на ММО. В 2024 году версия ИИ DeepMind от Google достигла серебряного результата, решив четыре из шести задач, хотя для этого потребовалось 2–3 дня вычислений вместо отведённых 4,5 часов. По словам президента ММО Грегора Долинара, одним из самых поразительных моментов в результатах этого года стали не только расчёты ИИ, но и то, как они объясняли свой «мыслительный» процесс для получения каждого ответа.

«Их решения были удивительными во многих отношениях. Члены жюри ММО сочли их ясными, точными, и большинству из них было легко следовать», — сказал Долинар в заявлении Google.

Большие опасения

Есть ещё одна важная веха для обеих компаний на ММО: идеальный результат. В этом году пять подростков достигли этого. И даже если Google или OpenAI сравняются с людьми на ММО в ближайшие годы, победа всё равно потребует контекста. Как отметило AFP, организаторы ММО не смогли подтвердить, сколько вычислительной мощности потребовалось каждой модели ИИ и был ли какой-либо дополнительный контроль со стороны человека во время вычислений.

И хотя последний технологический прорыв ИИ впечатляет, он, вероятно, потребовал тревожно огромного количества энергии и воды. Такие компании, как Google, OpenAI и Microsoft, вкладывают значительные средства в проекты центров обработки данных для поддержки своих проектов в области ИИ, для которых требуются источники питания. В некоторых случаях это может включать расширение использования ископаемого топлива. Ранее наблюдатели подсчитали, что такими темпами индустрия ИИ может потреблять столько же энергии, сколько Аргентина, если не несколько стран вместе взятых. Это проблема, которую ИИ — и его создатели — ещё не решили.

Источник

Оставьте комментарий Отменить ответ