Автор: Аравинд Асок
Этот пост — гостевой. Если у вас есть комментарии, вы можете связаться с автором по адресу asoc@usc.edu.
Недавно были организованы несколько симпозиумов, на которых группы математиков взаимодействовали со специалистами по разработке различных систем искусственного интеллекта (в частности, моделей рассуждений) в структурированном формате. Мы имеем в виду симпозиум Frontier Math, организованный Epoch AI, и семинар Deepmind/IAS. Первое из этих мероприятий получило больше освещения в прессе, чем второе. Оно породило несколько статей, в том числе в Scientific American и Financial Times, хотя обе статьи в настоящее время доступны только по платной подписке.
Любопытно, что в этих обсуждениях отсутствует какое-либо взвешенное мнение математиков относительно такого взаимодействия, хотя гиперболические цитаты из этих статей разошлись по социальным сетям. Ни одно из этих мероприятий не было открыто для публики: участие в обоих мероприятиях было ограничено и по приглашениям. В обоих случаях целью было способствовать прозрачному и открытому взаимодействию.
Контекст
Многие математики провели время, взаимодействуя с моделями рассуждений (например, ChatGPT от Open AI, Gemini от Google и Claude от Anthropic). Хотя математики, конечно, не были освобождены от волны ранних экспериментов с первоначальными публичными моделями ChatGPT, они также исследовали поведение моделей рассуждений в профессиональных аспектах математики, тестируя модели на исследовательской математике, домашних задачах, примерах для различных классов, а также задачах математических соревнований.
Симпозиум, организованный Epoch AI
Для конкретики обсудим симпозиум, организованный Epoch AI. Epoch AI пытается создать эталоны для оценки производительности различных выпущенных LLM (например, чат-ботов вроде ChatGPT от Open AI, Claude от Anthropic, Gemini от Google Deepmind и т. д.). Frontier Math — это эталон, разработанный для оценки математических возможностей моделей рассуждений. Этот эталон состоит из многоуровневых списков задач. Задачи первого уровня — это задачи уровня «математической олимпиады», в то время как задачи второго и третьего уровня — «более сложные», требующие «специализированных знаний на уровне выпускников».
Frontier Math стремилась создать эталон четвёртого уровня «исследовательских задач». Для этого потребовалось привлечь исследовательских математиков. Ранее в этом году Epoch обратилась к математикам по различным каналам. Первоначальные запросы обещали определённую сумму денег за доставку задачи определённого типа, но многие математики, незнакомые с источником сообщения, либо сочли его недостоверным, либо не были заинтересованы в денежной компенсации.
Чтобы ускорить сбор задач четвёртого уровня, Epoch пришла к идее провести симпозиум. Симпозиум был анонсирован в нескольких социальных сетях (например, в Twitter) и с различными математиками связались напрямую по электронной почте. Заинтересованным участникам иногда предлагали пройти собеседование с ведущим математиком Frontier Math Элиотом Глейзером, а также предложить перспективную задачу.
Участники были разделены на группы в зависимости от специфики области (теория чисел, анализ, алгебраическая геометрия, топология/геометрия и комбинаторика) и им было предложено создать подходящие задачи.
Критерии построения задач
Задачи должны:
* иметь определённый, поддающийся проверке ответ (например, большое целое число, символическое действительное число или кортеж таких объектов), который можно проверить вычислительно;
* противостоять догадкам: ответы должны быть «защищёнными от угадывания», что означает, что случайные попытки или тривиальные подходы методом перебора имеют ничтожно малую вероятность успеха;
* быть вычислительно выполнимыми: решение задачи, требующей интенсивных вычислений, должно включать скрипты, демонстрирующие, как найти ответ, начиная только со стандартных знаний в области. Эти скрипты должны в совокупности работать менее часа на стандартном оборудовании.
Обсуждение
В математических исследованиях часто не знаешь заранее решение данной задачи или то, является ли задача вычислительно выполнимой. Более того, решить, какие задачи заслуживают изучения, может быть сложно. Как следствие, участники в основном не ставили задачу как задачу создания исследовательских задач, а скорее как задачу создания подходящих задач.
Способность создавать такие задачи варьировалась от предмета к предмету. Например, один географ сказал, что довольно сложно создать «интересные» задачи с учётом ограничений. Возникают также реальные вопросы о том, насколько «способность противостоять догадкам» действительно измеряет «математическое понимание». Многие участники открыто говорили об этом: даже если ИИ удастся решить созданные ими задачи, они не чувствовали, что это будет означать «понимание» в каком-либо реальном смысле.
Большинство участников написали и отправили задачи до начала симпозиума, но в тот момент мало кто представлял, что будет «легко» или «сложно» для модели.
Модели рассуждений
Одной из ключевых особенностей моделей рассуждений было явное отображение «следов рассуждений», показывающих, как модели «думают». Эти следы показывали, что модели ищут в интернете и определяют соответствующие статьи, но их способность делать это чувствительна к формулировке задачи.
В алгебраической геометрии формулировка задачи в терминах коммутативной теории колец вместо многообразий могла вызвать разные ответы у модели. Однако краеугольным камнем человеческой алгебраической геометрии является способность легко переходить от одной точки зрения к другой.
В геометрии/топологии участники отметили, что модели не продемонстрировали способности к геометрическому мышлению. Например, модели не могли создать простые наглядные модели (были упомянуты диаграммы узлов) для задач и манипулировать ими.
В алгебраической и перечислительной комбинаторике модели хорошо применяли стандартные методы (например, решали линейные рекуррентности, апеллируя к биномиальным тождествам), но если задачи требовали нескольких шагов, а также изобретательности, модели были в тупике, даже если им были предложены соответствующие литературные источники или правильные начальные шаги.
Когда модель выдавала правильный ответ, изучение следов рассуждений иногда указывало на то, что это произошло потому, что задача была построена таким образом, что ответ можно было получить, решив гораздо более простую, но связанную задачу.
Заключение
Участники симпозиума представляют собой довольно тонкий срез математиков, имеющих некоторый интерес к интерфейсу между ИИ (в широком смысле) и математикой. Участники симпозиума активно обсуждали в чате Signal после публикации статьи в Scientific American.
Несомненно, участники чувствовали, что существуют интересные возможности использования ИИ для развития математики. Возникают также реальные вопросы о том, когда будущие «модели рассуждений» достигнут «человеческого уровня» компетентности, а также серьёзные и увлекательные философские вопросы о том, что это вообще значит. Это является прямым вызовом для математического сообщества.
Наконец, существуют важные практические вопросы о влиянии, например, экологическом или геополитическом, вычислений на этом уровне. Все эти вопросы заслуживают внимания: за исключением каких-либо дополнительных, пока ещё не видимых теоретических препятствий, модели рассуждений, похоже, продолжат совершенствоваться, что подчёркивает важность этих вопросов. Однако в настоящее время, особенно когда речь идёт о математических рассуждениях, представляется оправданным проявлять осторожность в экстраполяции будущей исследовательской квалификации моделей.