Обнаружены «отпечатки пальцев» ИИ в миллионах научных статей

Массовое исследование выявляет присутствие ИИ в научных публикациях

Существует вероятность, что вы неосознанно сталкивались с онлайн-контентом, созданным полностью или частично с помощью больших языковых моделей (LLM). По мере того как такие ресурсы, как ChatGPT и Google Gemini, становятся всё более совершенными в создании текстов, близких к человеческому качеству, становится всё труднее отличить чисто человеческое письмо от контента, который был модифицирован или полностью сгенерирован LLM.

Волна сомнительного авторства

Рост количества материалов, созданных с помощью ИИ, вызвал обеспокоенность в академическом сообществе по поводу того, что контент, сгенерированный ИИ, незаметно проникает в рецензируемые публикации.

Масштабное исследование

Чтобы выяснить, насколько широко распространён контент, созданный с помощью LLM, в научных публикациях, группа исследователей из США и Германии проанализировала более 15 миллионов биомедицинских аннотаций на PubMed. Цель исследования — определить, повлияли ли LLM на выбор конкретных слов в статьях.

Результаты исследования

Исследование показало, что с появлением LLM частота использования определённых стилистических слов в научной литературе увеличилась. Данные свидетельствуют о том, что по крайней мере 13,5% статей, опубликованных в 2024 году, были написаны с использованием LLM. Результаты опубликованы в журнале Science Advances.

Рост популярности ИИ

С момента выпуска ChatGPT менее трёх лет назад распространённость искусственного интеллекта (ИИ) и контента, созданного с помощью LLM, в интернете резко возросла, что вызывает опасения по поводу точности и достоверности некоторых исследований.

Ограничения предыдущих исследований

Предыдущие попытки количественно оценить рост использования LLM в научных публикациях были ограничены из-за зависимости от наборов текстов, созданных человеком и LLM. Такая настройка, отмечают авторы, может вносить предвзятость, поскольку требует предположений о том, какие модели учёные используют для написания с помощью LLM, и о том, как именно они их используют.

Новый подход

Чтобы избежать этих ограничений, авторы последнего исследования вместо этого изучили изменения в чрезмерном использовании определённых слов до и после публичного выпуска ChatGPT, чтобы выявить любые характерные тенденции.

Моделирование исследования

Исследователи смоделировали своё исследование на основе предыдущих исследований общественного здравоохранения, связанных с COVID-19, которые смогли определить влияние COVID-19 на смертность, сравнивая избыточную смертность до и после пандемии.

Применяя тот же подход «до и после», новое исследование проанализировало закономерности избыточного использования слов до появления LLM и после. Исследователи обнаружили, что после выпуска LLM произошёл значительный сдвиг от избыточного использования «содержательных слов» к избыточному использованию «стилистических и витиеватых» слов, таких как «демонстрируя», «ключевой» и «борьба».

Анализ частей речи

Путем ручного назначения частей речи каждому избыточному слову авторы определили, что до 2024 года 79,2% избыточного выбора слов были существительными. В 2024 году произошёл чётко идентифицируемый сдвиг: 66% избыточного выбора слов были глаголами, а 14% — прилагательными.

Различия в использовании LLM

Команда также выявила заметные различия в использовании LLM между областями исследований, странами и изданиями.

Источник

Оставьте комментарий Отменить ответ