ИИ сопоставим с оценщиками-людьми в ранжировании ответов на экзамене по макроэкономике

Как высокий рост населения влияет на валовой внутренний продукт? Студенты-экономисты слишком хорошо знакомы с подобными вопросами на экзаменах. Они требуют не только специальных знаний, но и умения мыслить и аргументировать экономически. Однако проверка таких ответов — трудоёмкая задача для ассистентов университета: каждый ответ нужно проверить и оценить индивидуально.

Может ли искусственный интеллект (ИИ) справиться с этой работой? Исследователи из Университета Пассау в области экономики и информатики изучили этот вопрос. Их исследование недавно было опубликовано в Scientific Reports. Результаты показали, что языковая модель OpenAI GPT-4 работает аналогично человеческим экзаменаторам при ранжировании ответов в свободной форме.

Основные результаты:

Исследователи пришли к выводу, что ИИ пока не может заменить человека. «Написание хороших примеров решений и повторная проверка должны оставаться задачей человека», — объясняет профессор Иоганн Граф Ламбсдорф, заведующий кафедрой экономической теории в Университете Пассау, который вместе с Деборой Фосс и Штефаном Гешвиндом отвечал за экспериментальный дизайн исследования.

Технические детали:

  • Компьютерный учёный Абдулла Аль Зубаер запрограммировал техническую реализацию и оценку под руководством профессора Майкла Границетера (Data Science).

  • Исследователи утверждают, что экзаменационные задачи должны по-прежнему тщательно контролироваться людьми. Однако ИИ, безусловно, может выступать в качестве критического второго экзаменатора.

Эксперимент:

Для эксперимента исследователи использовали ответы студентов в курсе макроэкономики на шесть вопросов в свободной форме. Команда выбрала по 50 ответов на каждый вопрос. Всего было оценено 300 ответов подготовленными ассистентами по проверке. В то же время ту же задачу по оценке получил GPT.

Поскольку на открытые вопросы нет чёткого «правильного» ответа, неясно, где ошибка — у ИИ или у людей. Чтобы всё равно можно было провести сравнение, исследовательская группа использовала хитрость: она использовала степень согласия между оценками как меру близости к предполагаемой истине. Чем выше согласие, тем ближе к истине.

Начальной точкой стало согласие между людьми-экзаменаторами. Затем одного экзаменатора заменили на GPT. Если это приводило к более высокому уровню согласия, это считалось показателем того, что оценка ИИ была лучше, чем у людей-экзаменаторов.

Фактически GPT смог немного повысить оценку по отдельным вопросам. «Мы сами были отчасти удивлены тому, насколько хорошо ИИ справлялся с некоторыми оценками», — говорит Фосс.

Аль Зубаер добавляет: «В наших тестах качество GPT-4 оставалось в основном стабильным даже при неточных или неверных инструкциях». По словам команды, это показывает, что ИИ надёжен и универсален, даже если он всё ещё немного уступает в балльной оценке.

Предоставлено Университетом Пассау.

Источник