В последние два десятилетия массовая оцифровка кардинально изменила ландшафт научных исследований. Возможность искать в цифровых транскрипциях источников конкретные ключевые слова экономит драгоценное время, и учёные больше не привязаны к архивам и библиотекам, если они хотят изучить текст.
Однако с распространением цифровых транскрипций возникают новые проблемы, связанные с трудом, необходимым для обеспечения такой доступности. В новой статье в журнале The Sixteenth Century Journal предложены методы, позволяющие исследователям получать транскрипции оцифрованных источников раннего Нового времени, избегая при этом неэтичных трудовых практик.
«Разблокировка оцифрованного архива ранней печатной продукции: автоматическая транскрипция печатных книг раннего Нового времени»
Авторы статьи — Серена Стрекер и Кимберли Лифтон — начинают с краткой истории двух видов программного обеспечения, используемого для создания транскрипций.
Программное обеспечение для оптического распознавания символов (OCR) хорошо зарекомендовало себя при транскрипции произведений конца XIX — XX веков, но нерегулярности, характерные для раннего Нового времени, делают OCR непригодным для надёжной транскрипции этих источников.
Вместо этого учёные раннего Нового времени обратились к технологии распознавания рукописного текста (HTR). Transkribus, ведущее программное обеспечение HTR, позволяет пользователям либо использовать общедоступные модели транскрипции, либо обучать свои собственные модели.
В своём сравнении различных моделей HTR, протестированных на выборке страниц из четырёх сборников образцов XVI века, Стрекер и Лифтон подчёркивают способность Transkribus облегчить создание специализированных моделей транскрипции, адаптированных к спецификациям желаемого источника учёного, в пять основных шагов.
Используя общедоступные модели Transkribus, исследователи могут генерировать обучающие данные, необходимые для обучения своих собственных высокоточных моделей. Авторы утверждают, что этот процесс «больше не делает необходимым и желательным» полагаться на аутсорсинг труда, такого как труд аспирантов или работников на Глобальном Юге.
«С точной и автоматизированной транскрипцией ранней печатной продукции, которая больше не является целью, а реальностью, область изучения раннего Нового времени должна рассмотреть, какая комбинация человеческого труда и технологий машинного обучения будет принята, поддержана и в конечном итоге определит будущее исследований», — заключают авторы.
«Только настаивая на этических трудовых практиках, учёные могут избежать либо усугубления неравенства в академической иерархии, либо увековечивания устойчивых неравенств колониализма».
Предоставлено Университетом Чикаго.