Это гостевой пост от Аравинда Асока. Если у вас есть комментарии по этому поводу, вы можете связаться с ним по адресу asoc@usc.edu. Мы посмотрим, можно ли разместить здесь модерируемые комментарии.
Недавно были организованы несколько симпозиумов
На них группы математиков взаимодействовали со специалистами по разработке различных систем искусственного интеллекта (в частности, моделей рассуждений) в структурированном формате. Мы имеем в виду симпозиум Frontier Math, организованный Epoch AI, и семинар Deepmind/IAS. Первое из этих мероприятий получило больше освещения в прессе, чем второе. Оно породило несколько статей, включая материалы в Scientific American и Financial Times, хотя обе статьи в настоящее время доступны только по платной подписке.
Любопытно, что в этих обсуждениях отсутствует какое-либо взвешенное мнение математиков относительно такого взаимодействия, хотя гиперболические цитаты из этих статей разошлись по социальным сетям. Ни одно из этих мероприятий не было открытым для публики: участие в обоих было ограничено и по приглашениям. В обоих случаях целью было способствовать прозрачному и открытому взаимодействию.
Взаимодействие математиков с моделями рассуждений
Многие математики провели время, взаимодействуя с моделями рассуждений (например, ChatGPT от Open AI, Gemini от Google и Claude от Anthropic). Хотя математики, конечно, не были освобождены от волны ранних экспериментов с первоначальными публичными моделями ChatGPT, они также исследовали поведение моделей рассуждений в профессиональных аспектах математики, тестируя модели на исследовательской математике, домашних задачах, примерах для различных классов, а также задачах математических соревнований.
Реакции варьируются от пренебрежения до удивления. Однако структурированное групповое взаимодействие с моделями рассуждений даёт качественно иной опыт, чем личные исследования. Поскольку приглашение на эти мероприятия контролировалось, их аудитория была ограничена; событие Epoch было ориентировано на тех, кто выразил особый интерес к ИИ, хотя мероприятие IAS/Deepmind попыталось собрать более случайное поперечное сечение математиков.
Создание задач для моделей ИИ
Кажется справедливым сказать, что математики впечатлены текущими возможностями моделей и видят интересные возможности для расширения математических исследований с помощью инструментов ИИ. Однако многие математики считают проблематичной риторику о том, что «математику можно решить», экстраполируя прогресс в математике соревновательного стиля, рассматриваемой как игра, и, в худшем случае, представляя фундаментальное непонимание целей исследовательской математики в целом.
Обсуждение здесь будет сосредоточено на встрече, спонсируемой Epoch AI, для конкретики. Epoch AI пытается создать эталоны для оценки производительности различных выпущенных LLM (например, чат-ботов, таких как ChatGPT от Open AI, Claude от Anthropic, Gemini от Google Deepmind и т. д.).
Создание задач для моделей ИИ
Frontier Math — это эталон, разработанный для оценки математических возможностей моделей рассуждений. Этот эталон состоит из многоуровневых списков задач. Задачи уровня 1 — это задачи уровня «математической олимпиады», в то время как уровни 2 и 3 являются «более сложными», требующими «специализированных знаний на уровне выпускников». Frontier Math стремилась создать эталон уровня 4 «исследовательских задач».
Для создания эталона уровня 4 потребовалось участие исследователей-математиков. Ранее в этом году Epoch обратилась к математикам по различным каналам. Первоначальные запросы обещали определённую сумму денег за доставку задачи определённого типа, но многие математики, незнакомые с источником сообщения, либо сочли его недостоверным, либо не были заинтересованы в денежной компенсации.
Чтобы ускорить сбор задач уровня 4, Epoch пришла к идее провести симпозиум. Симпозиум был анонсирован в нескольких социальных сетях (например, в Twitter) и с различными математиками связались напрямую по электронной почте. Заинтересованным участникам иногда предлагали пройти собеседование с ведущим математиком Frontier Math Элиотом Глейзером, а также подготовить перспективную задачу.
Критерии построения задач
Задачи должны:
* иметь определённый, поддающийся проверке ответ (например, большое целое число, символическое действительное число или кортеж таких объектов), который можно проверить с помощью вычислений;
* противостоять догадкам: ответы должны быть «защищёнными от угадывания», то есть случайные попытки или тривиальные подходы методом перебора имеют ничтожно малый шанс на успех;
* быть вычислительно выполнимыми: решение задачи, требующей интенсивных вычислений, должно включать скрипты, демонстрирующие, как найти ответ, начиная только со стандартных знаний в этой области. Эти скрипты должны работать в общей сложности менее часа на стандартном оборудовании.
Участники были разделены на группы в зависимости от специфики области (теория чисел, анализ, алгебраическая геометрия, топология/геометрия и комбинаторика) и им было поручено создать подходящие задачи.
Обсуждение задач
В математических исследованиях часто не знаешь заранее решение данной задачи или то, является ли задача вычислительно разрешимой. Более того, решить, какие задачи заслуживают изучения, может быть непросто. Как следствие, в целом участники не ставили задачу как задачу создания исследовательских задач, а скорее как задачу создания подходящих задач.
Способность конструировать такие задачи варьировалась от предмета к предмету. Например, один геометр сказал, что довольно сложно создать «интересные» задачи с учётом ограничений. Также возникают реальные вопросы о том, насколько «способность противостоять догадкам» действительно измеряет «математическое понимание». Многие участники открыто заявляли об этом: даже если ИИ удастся решить созданные ими задачи, они не чувствовали, что это будет означать «понимание» в каком-либо реальном смысле.
При участии в симпозиуме обсуждались различные аспекты взаимодействия моделей с задачами. Модели действительно смогли «решить» некоторые из задач, но это утверждение требует уточнения и более детального понимания того, что представляет собой «решение».
Модели рассуждений
Одной из ключевых особенностей моделей рассуждений было явное отображение «следов рассуждений», показывающих, как модели «думают». Эти следы показывали, как модели ищут информацию в интернете и определяют связанные документы, но их способность делать это зависела от формулировки задачи.
Например, в алгебраической геометрии формулировка задачи в терминах коммутативной теории колец вместо многообразий могла вызвать разные ответы у модели. Однако краеугольным камнем человеческой алгебраической геометрии является способность легко переходить от одной точки зрения к другой.
В геометрии/топологии участники отметили, что модели не продемонстрировали способностей к геометрическому мышлению. Например, модели не могли создавать простые наглядные модели (были упомянуты диаграммы узлов) для задач и манипулировать ими.
В алгебраической и перечислительной комбинаторике модели хорошо применяли стандартные методы (например, решали линейные рекуррентности, обращались к биномиальным тождествам), но если задачи требовали нескольких шагов, а также изобретательности, модели были в тупике, даже если им были предложены соответствующая литература или правильные начальные шаги.
Когда модель выдавала правильный ответ, изучение следов рассуждений иногда показывало, что это произошло потому, что задача была построена таким образом, что ответ можно было получить, решив гораздо более простую, но связанную задачу.
Будущее моделей ИИ
Участники симпозиума пришли к выводу, что будущие модели могут вести себя более по-человечески, демонстрировать «понимание» в человеческом смысле и выделить недостающий ключевой ингредиент. Это создало повсеместный страх, что если следы рассуждений указывают на то, что модели «близки сейчас», то следует экстраполировать, что проблемы будут решаться будущими моделями.
Участники отметили, что если литература в определённой области была достаточно насыщенной, модели могли определить леммы, которые были бы уместны, и генерировать соответствующую математику. Это, безусловно, было впечатляющим, но остаётся вопрос о том, в какой степени естественный языковой вывод влияет на восприятие связности ответов: легко, чтобы вещи «выглядели правильно», если не читать слишком внимательно!
В конце концов, участники сошлись на задачах, которые, как считалось, соответствовали требуемому уровню.
Влияние ИИ на математику
Языковые модели, с которыми мы работали, определённо хорошо справлялись с поиском по ключевым словам, регулярно генерируя полезные списки ссылок. Модели также преуспели в генерации текста на естественном языке и могли генерировать нетривиальный код, что сделало их полезными при создании примеров. Однако в прессе иногда преувеличивали это, предполагая, что модели рассуждений «быстрее» или «лучше», чем профессиональные математики.
Конечно, такие утверждения очень открыты для интерпретации. С одной стороны, это может быть тривиально верно, например, калькуляторы обычно быстрее профессиональных математиков при сложении чисел. Менее тривиально это может означать автоматизацию сложных алгебраических вычислений, но даже это большинство математиков посчитало бы далёким от сути математических открытий.
Участники симпозиума представляют собой довольно тонкий срез математиков, имеющих некоторый интерес к интерфейсу между ИИ (в широком смысле) и математикой. Чат-симпозиум стал очень активным после публикации статьи в Scientific American.
Несомненно, участники чувствовали, что существуют интересные возможности использования ИИ для развития математики. Существуют также реальные вопросы о том, когда будущие «модели рассуждений» достигнут «человеческого уровня» компетентности, а также серьёзные и увлекательные философские вопросы о том, что это вообще значит. Это прямой вызов для математического сообщества.
Наконец, есть важные практические вопросы о влиянии, например, экологическом или геополитическом, вычислений на этом уровне. Все эти вопросы заслуживают внимания: если не возникнет каких-либо дополнительных теоретических препятствий, модели рассуждений, похоже, продолжат совершенствоваться, что подчёркивает важность этих вопросов. Однако в настоящее время, особенно когда речь идёт о математических рассуждениях, осторожность, по-видимому, оправдана при экстраполяции будущей исследовательской квалификации моделей.