Большие языковые модели (LLMs) — это продвинутые модели искусственного интеллекта (ИИ), обученные анализировать и генерировать тексты на разных человеческих языках. Они становятся всё более распространёнными в последние годы. После выпуска диалоговой платформы ChatGPT, основанной на различных версиях LLM под названием GPT, эти модели получили широкое распространение среди пользователей по всему миру, а также нашли применение в некоторых профессиональных и исследовательских сферах.
Томас Вольфрам, исследователь с докторской степенью по социогеномике из Университета Билефельда, недавно провёл исследование, целью которого было оценить, насколько LLM могут предсказывать образовательные и психологические результаты людей, анализируя эссе, которые они написали в детстве. Его выводы, опубликованные в журнале Communications Psychology, показывают, что некоторые вычислительные модели могут предсказывать эти результаты с точностью, сравнимой с оценками учителей, и значительно лучше, чем на основе генетических данных.
Из интервью с Томасом Вольфамом
«Во время учёбы в бакалавриате меня уже увлекали любые данные, которые отклонялись от стандартных вопросов для опросов, распространённых в социальных и поведенческих науках в рамках тогдашней революции в области вычислительных социальных наук», — рассказал Вольфрам Phys.org.
«Я проводил сетевой анализ, собирал веб-данные и в конце концов занялся обработкой естественного языка. Однако вскоре я понял, насколько ограничены были инструменты, доступные в то время. Это было примерно в 2014–2016 годах, задолго до того, как большие языковые модели стали популярными. Я следил за прогрессом в течение следующих лет на расстоянии».
В 2020 году, когда Вольфрам начал свою докторскую диссертацию по социогеномике, LLM только недавно были представлены после публичного выпуска моделей GPT2 и GPT3. Примерно в то же время он обнаружил набор данных, который мог быть интересен для проведения социологических исследований, содержащий образовательную и психологическую информацию о большой группе людей, родившихся в 1950-х годах.
«Тысячи участников, тщательно опрашиваемых на протяжении десятилетий? Это само по себе уже было достаточно захватывающим, но затем я нашёл эссе, которые эти люди написали в 11 лет, и которые на тот момент только что были оцифрованы — я понял, что это уникальный шанс», — сказал Вольфрам. «Просто читая их, сразу становится очевидно, насколько они различаются по сложности и изощрённости, по длине, объёму и правильности орфографии и грамматики».
Вольфрам начал работать над этим исследованием, вдохновлённый набором данных, который он нашёл. Сначала он попытался определить, может ли он количественно оценить информацию, содержащуюся в детских эссе, которые он обнаружил, используя недавно разработанные вычислительные инструменты.
«Мой основной подход заключался в использовании большой языковой модели — в частности, технологии, аналогичной той, что лежит в основе таких инструментов, как ChatGPT, — для анализа примерно 250-словных эссе, которые дети писали в 11 лет», — объяснил Вольфрам.
«Я использовал модель для преобразования каждого эссе в сложный числовой профиль, известный как «внедрение текста», который отражает его смысл и стиль более чем по 1500 параметрам. Я также извлек более 500 других показателей, которые измеряли такие вещи, как лексическое разнообразие, сложность предложений, читаемость и даже количество грамматических ошибок».
После извлечения этих данных из эссе Вольфрам обучил модель машинного обучения делать прогнозы на основе извлечённых данных. Для целей своего исследования он решил использовать ансамблевую модель машинного обучения, известную как «SuperLearner».
«Вы можете думать об этом как о главной модели, которая интеллектуально объединяет прогнозы нескольких различных алгоритмов — таких как Random Forest, Neural Networks и Support Vector Machines, — чтобы получить наиболее точный окончательный прогноз», — сказал Вольфрам. «Чтобы оценить, насколько хорошо работают эти модели, я использовал 10-кратную перекрёстную проверку, когда я обучал модель на одной части данных и тестировал её на части, которую она никогда раньше не видела».
Для оценки того, насколько модели машинного обучения предсказывают образовательные и психологические результаты, автор в основном использовал показатель, называемый «predictive holdout R2». Этот показатель количественно определяет, сколько вариаций в результате (например, когнитивных способностях человека) модель машинного обучения может объяснить в новых данных по сравнению с простым угадыванием среднего значения.
В целом, результаты этого недавнего исследования показывают, что LLM и другие продвинутые модели машинного обучения обладают большим потенциалом для точного прогнозирования на основе текстовых данных. Кроме того, они подтверждают ценность богатых текстов, таких как эссе и личные письма, показывая, что их можно использовать для получения важной информации о человеке, который их написал.