Тест Тьюринга: разбираемся в спорах

На прошлой неделе появились заголовки о том, что чат-бот с искусственным интеллектом официально прошёл тест Тьюринга.

Эти новости основаны на недавнем препринте исследования двух учёных из Университета Калифорнии в Сан-Диего, в котором четыре большие языковые модели (LLM) прошли тест Тьюринга. Одна из моделей — GPT-4.5 от OpenAI — более чем в 70% случаев была неотличима от человека.

Тест Тьюринга стал популярным как окончательный индикатор интеллекта машин. Однако существуют разногласия относительно достоверности этого теста. На самом деле у него неоднозначная история, которая ставит под сомнение, насколько он эффективен для измерения интеллекта машин.

**Что же это значит для значимости нового исследования?**

*Препринт исследования когнитивных учёных Кэмерона Джонса и Бенджамина Бергена был опубликован в марте, но ещё не прошёл рецензирование.*

В исследовании участвовали 284 человека, которым случайным образом было назначено роль либо допрашивающего, либо свидетеля. Они должны были одновременно взаимодействовать с двумя свидетелями на разделенном экране в течение пяти минут, используя интерфейс, имитирующий обычный интерфейс обмена сообщениями. После этого они решали, кто из свидетелей был человеком, а кто — чат-ботом с ИИ.

Участники сочли GPT-4.5 человеком в 73% случаев, а LLaMa-3.1-405B — в 56% случаев. Другие две модели (ELIZA и GPT-4o) ввели участников в заблуждение только в 23% и 21% случаев соответственно.

**Что такое тест Тьюринга?**

Первая версия теста Тьюринга была представлена английским математиком и учёным-компьютерщиком Аланом Тьюрингом в статье 1948 года под названием «Интеллектуальные машины». Первоначально он был предложен как эксперимент с участием трёх человек, играющих в шахматы с теоретической машиной, называемой бумажной машиной, двое из которых были игроками, а один — оператором.

В публикации 1950 года «Вычислительные машины и интеллект» Тьюринг вновь представил эксперимент как «игру имитации» и заявил, что это средство определения способности машины демонстрировать интеллектуальное поведение, эквивалентное человеческому.

Суть эксперимента заключалась в том, что участник C должен был определить, кто из двух других участников является мужчиной, а кто женщиной, задавая им вопросы. Затем ставился вопрос: «Что произойдёт, когда в этой игре роль A будет выполнять машина? Будет ли дознаватель ошибаться так же часто, когда игра ведётся таким образом, как когда игра ведётся между мужчиной и женщиной?»

Эти вопросы были призваны заменить неоднозначный вопрос «Могут ли машины мыслить?». Тьюринг утверждал, что этот вопрос неоднозначен, поскольку требует понимания терминов «машина» и «думать», нормальное использование которых делает ответ на вопрос неадекватным.

С годами этот эксперимент стал известен как тест Тьюринга. Хотя тематика менялась, тест оставался размышлением о том, является ли «X A и Y B» или «X B и Y A».

**Почему тест Тьюринга вызывает споры?**

Хотя тест Тьюринга популяризировали как средство проверки интеллекта машин, он не единогласно признан точным средством для этого. На самом деле тест часто подвергается критике.

Существует четыре основных возражения против теста Тьюринга:

1. Поведение против мышления. Некоторые исследователи утверждают, что способность «пройти» тест — это вопрос поведения, а не интеллекта. Поэтому не будет противоречием сказать, что машина может пройти игру имитации, но не может мыслить.
2. Мозг — это не машина. Тьюринг утверждает, что мозг — это машина, утверждая, что его можно объяснить чисто механическими терминами. Многие учёные опровергают это утверждение и ставят под сомнение достоверность теста на этой основе.
3. Внутренние операции. Поскольку компьютеры — это не люди, их способ достижения вывода может быть несопоставим с человеческим, что делает тест неадекватным, поскольку прямое сравнение не может работать.
4. Область применения теста. Некоторые исследователи считают, что тестирования одного поведения недостаточно для определения интеллекта.

**Так насколько же модель ChatGPT LLM умна по сравнению с человеком?**

Хотя в препринте статьи утверждается, что GPT-4.5 прошла тест Тьюринга, также говорится, что тест Тьюринга — это мера замещаемости: может ли система заменить реального человека без… заметного отличия. Это подразумевает, что исследователи не поддерживают идею о том, что тест Тьюринга является законным показателем человеческого интеллекта. Скорее, это показатель имитации человеческого интеллекта — дань происхождению теста.

Также стоит отметить, что условия исследования не были безупречными. Например, пятиминутный тестовый интервал — это относительно короткий срок. Кроме того, каждой из языковых моделей было предложено принять определённую персону, но неясно, каковы были детали и влияние «персон» на тест.

На данный момент можно с уверенностью сказать, что GPT-4.5 не так умна, как люди, хотя она может достаточно убедительно убедить некоторых людей в обратном.

Источник

Чат-бот и тест Тьюринга: разбираемся в спорах и результатах нового исследования

Оставьте комментарий Отменить ответ