«Вегетативная электронная микроскопия»: как ошибка стала «цифровым ископаемым»
Термин «вегетативная электронная микроскопия» стал распространяться в научном сообществе, хотя на самом деле это не что иное, как ошибка, сохранённая и усиленная искусственным интеллектом (ИИ).
Начавшись с ошибки при сканировании decades ago, этот термин теперь стал постоянным элементом в мире научных исследований, поднимая важные вопросы о роли ИИ в современной науке.
От ошибки сканирования до «цифрового ископаемого»
Термин «вегетативная электронная микроскопия» появился из-за простой ошибки при сканировании. В 1950-х годах две научные статьи, опубликованные в Bacteriological Reviews, были оцифрованы. Во время этого процесса произошла ошибка: слово «вегетативная» из одного столбца было ошибочно объединено со словом «электронная» из другого. Так появилась бессмысленная фраза, которая оставалась незамеченной в течение многих лет.
Истинное происхождение термина стало известно гораздо позже, когда эта фраза начала появляться в других опубликованных статьях.
В начале 2010-х годов термин «вегетативная электронная микроскопия» начал появляться в иранских научных работах, что можно было проследить до ошибки перевода. В персидском языке слова «вегетативная» и «сканирующая» почти идентичны, различаясь лишь одной точкой. В результате ошибка перешла в англоязычные статьи. То, что когда-то было ошибкой в одной статье, превратилось в цифровое «ископаемое», закрепившееся в наших коллективных научных знаниях.
Роль ИИ в увековечении ошибки
Термин «вегетативная электронная микроскопия», возможно, остался бы похороненным в архивах, если бы не ИИ. Современные языковые модели, такие как GPT-3, используют огромные наборы данных для обучения своих алгоритмов и прогнозирования следующего наиболее вероятного слова в последовательности.
Было обнаружено, что GPT-3 часто завершает предложения с использованием «вегетативной электронной микроскопии», даже когда другие более подходящие альтернативы могли бы подойти лучше. Более ранние модели, такие как GPT-2 и BERT, не проявляли такого поведения, но новые модели, такие как GPT-3 и Claude 3.5, увековечивают этот термин, делая его частью своих предсказательных наборов данных. Фраза теперь закрепилась в языковых моделях ИИ, укрепляя ошибку каждый раз, когда она используется.
Опасности «цифровых ископаемых»
Исследователи и разработчики пытаются найти способы исправить такие ошибки, особенно когда они так глубоко заложены в крупномасштабных моделях. Набор данных CommonCrawl, который используется во многих моделях ИИ, вероятно, сыграл значительную роль в распространении этого термина, но огромные размеры и непрозрачность таких наборов данных делают практически невозможным для независимых исследователей отследить или исправить ошибки.
Ещё более тревожно то, что как только термин вроде «вегетативной электронной микроскопии» попадает в экосистему ИИ, его становится практически невозможно исправить. Хотя модели ИИ часто обучаются исправлять ошибки, сам масштаб данных делает выявление каждой ошибки огромной задачей.
Некоторые системы ИИ теперь помечают этот термин как потенциальный сигнал того, что текст сгенерирован ИИ, но эти инструменты эффективны только для известных ошибок, а не для будущих ошибок, которые могут возникнуть.