Искусственный интеллект в образовании: проверка возможностей больших языковых моделей
Искусственный интеллект стал неотъемлемой частью повседневной жизни многих людей. Большие языковые модели (LLMs), такие как ChatGPT, Gemini или Copilot, пишут для них письма и курсовые работы, дают советы по организации экскурсий во время отпуска или отвечают на вопросы по любой мыслимой теме.
Использование искусственного интеллекта также давно стало рутинным в университетах во многих областях. В какой степени большие языковые модели могут поддерживать студентов естественных наук в качестве самостоятельных репетиторов? Исследовательская группа из Юлихс-Максимилианс-Университета Вюрцбурга (JMU) занялась этим вопросом. Результаты команды опубликованы на сервере препринтов arXiv.
Исследовательская группа из Департамента физической химии, которая до сих пор в основном занималась исследованиями в области спектроскопии наноматериалов, разработала инструмент, который проверяет термодинамическое понимание современных LLM — в частности, выходят ли их навыки за рамки простого фактических знаний. Инструмент называется UTQA (Undergraduate Thermodynamics Question Answering) и предназначен для поддержки преподавателей и исследователей в оценке LLM справедливым и предметно-ориентированным образом, а также для измерения прогресса.
Профессор Тобиас Хертель, руководитель проекта, говорит: «Наше желание состоит в том, чтобы искусственный интеллект однажды смог поддерживать нас в качестве партнёра по обучению без присмотра — например, в форме компетентных чат-ботов, которые индивидуально реагируют на потребности каждого студента при подготовке и последующем изучении лекций. Мы явно ещё не достигли этого, но прогресс впечатляет».
«С помощью UTQA мы показываем, где текущие языковые модели уже убедительны, а где они систематически терпят неудачу — это именно то, что нужно лекторам, чтобы иметь возможность ответственно планировать своё использование в обучении», — объясняет Хертель.
Команда Хертеля использует LLM на лекциях по термодинамике с более чем 150 студентами для еженедельных проверок знаний с зимнего семестра 2023 года. Модели, такие как ChatGPT-3.5 и ChatGPT-4, показали свои сильные стороны, но также и явные слабости.
Это привело к желанию создать предметно-специфический эталон. «UTQA включает в себя 50 сложных заданий с выбором одного правильного ответа из базового курса термодинамики — две трети текстовых, одна треть с диаграммами и эскизами, как это типично для дидактических упражнений», — объясняет Хертель.
Цель состояла не только в том, чтобы проверить фактические знания и определения, но и в том, чтобы проверить способность языковых моделей целенаправленно связывать различные граничные условия и понимать сложные последовательности процессов.
Согласно Хертелю, тестирование наиболее эффективных моделей 2025 года даёт чёткую картину: ни одна модель не достигла требуемого исследовательской группой уровня успешности в 95% для использования в качестве репетитора искусственного интеллекта без присмотра. Даже ведущая модель GPT-o3 достигла только 82% общей точности.
«Две слабости были заметны: во-первых, у моделей последовательно возникали трудности с так называемыми необратимыми процессами, где скорость изменения состояния влияет на результат. Во-вторых, были явные недостатки в задачах, требующих интерпретации изображений», — говорит учёный.
Исторический обзор показывает, что это неудивительно. Около 100 лет назад французский физик Пьер Дюгем уже описывал явление обратимости как одно из самых сложных явлений в термодинамике. Тот факт, что у LLM возникают проблемы с интерпретацией диаграмм, также неудивителен, поскольку восприятие и обработка визуального контента являются одной из выдающихся когнитивных способностей человека.
«На практике это означает, что LLM уже могут быть очень полезны в обучении как под наблюдением, так и без него — но пока недостаточно, чтобы их можно было использовать в качестве репетиторов без присмотра», — говорит Хертель. «В то же время мы наблюдаем огромный прогресс за последние два года. Поэтому мы уверены, что — при условии, что развитие внезапно не остановится — требуемый для помощников преподавателей уровень знаний в нашей дисциплине скоро будет достигнут».
Хертель особенно рад тому, что два студента-преподавателя были значительно вовлечены в исследовательский проект, внеся свой вклад в специализированные дидактические перспективы. Лука-Софи Биен создала первоначальную немецкую версию многих заданий; Анна Гейсслер перевела и расширила коллекцию для международного использования.
По словам Хертеля, термодинамика идеально подходит для проверки понимания и способности моделей к рассуждению. «Это фундаментально для нашего понимания природы, имеет компактные основные законы, но в применении требует точного разграничения между переменными состояния и процесса, теплом или работой, а также обратимыми и необратимыми процессами. Именно здесь способность к рассуждению отделяется от простого запоминания», — говорит физик-химик.
В качестве следующего шага команда планирует расширить инструмент, включив в него реальные газы, смеси, фазовые диаграммы и стандартные циклы. Цель — охватить дополнительные концепции, которые являются центральными в обучении.
«Чем лучше модели смогут обрабатывать мультимодальные связи, то есть сочетание текста и изображений, а также необратимые режимы, тем ближе мы подойдём к надёжным, предметно-чувствительным учебным пособиям искусственного интеллекта», — говорит Хертель.
Предоставлено:
[Julius Maximilian University of Würzburg](https://phys.org/partners/julius-maximilian-university-of-w—rzburg/)