Машины времени ботаники: ИИ открывает сокровищницу данных в гербариях

В 1770 году, после того как корабль капитана Кука «Индевор» столкнулся с Большим Барьерным рифом и был остановлен для ремонта, ботаники Джозеф Бэнкс и Даниэль Соландер собрали сотни растений.

Одно из этих прессованных растений входит в коллекцию из 170 000 экземпляров в гербарии Мельбурнского университета.

Во всём мире в гербариях хранится более 395 миллионов образцов. Вместе они представляют собой беспрецедентный архив жизни растений и грибов на Земле.

Мы хотели найти более быстрый и эффективный способ получить доступ к этой информации. В нашем новом исследовании описывается разработка и тестирование нового инструмента на базе искусственного интеллекта — Hespi (сокращение от «herbarium specimen sheet pipeline»). Он может революционизировать доступ к данным о биоразнообразии и открыть новые возможности для исследований.

Чтобы раскрыть весь потенциал гербариев, учреждения по всему миру стремятся оцифровать их. Это означает фотографирование каждого образца в высоком разрешении и преобразование информации на его этикетке в доступные для поиска цифровые данные.

После оцифровки записи о образцах могут быть доступны для общественности через онлайн-базы данных, такие как [Коллекция гербария Мельбурнского университета онлайн](https://online.herbarium.unimelb.edu.au/). Они также загружаются на крупные порталы о биоразнообразии, такие как [Австралазийское виртуальное гербарий](https://avh.chah.org.au/), [Атлас живой Австралии](https://www.ala.org.au/) или [Глобальный информационный фонд биоразнообразия](https://www.gbif.org/). Эти платформы делают ботанические знания, накопленные за столетия, доступными для исследователей по всему миру.

Но оцифровка — это грандиозная задача. Большие гербарии, такие как [Национальный гербарий Нового Южного Уэльса](https://www.botanicgardens.org.au/our-science/science-facilities/national-herbarium-new-south-wales) и [Австралийский национальный гербарий](https://www.csiro.au/en/news/all/articles/2022/june/digitising-the-australian-national-herbarium), использовали системы с высокой пропускной способностью для быстрой визуализации миллионов образцов. Даже при таком уровне автоматизации оцифровка 1,15 миллиона образцов в Национальном гербарии Нового Южного Уэльса заняла более трёх лет.

Для небольших учреждений без промышленных установок процесс идёт гораздо медленнее. Сотрудники, волонтёры и граждане-учёные фотографируют образцы и кропотливо вручную переписывают их этикетки.

При нынешних темпах многие коллекции не будут полностью оцифрованы в течение десятилетий. Эта задержка удерживает огромные объёмы данных о биоразнообразии взаперти. Исследователям в области экологии, эволюции, климатологии и охраны природы срочно нужен доступ к крупномасштабным и точным наборам данных о биоразнообразии. Необходим более быстрый подход.

Чтобы решить эту задачу, мы создали Hespi — программное обеспечение с открытым исходным кодом для автоматического извлечения информации из образцов гербария.

Hespi сочетает передовые методы компьютерного зрения с инструментами искусственного интеллекта, такими как обнаружение объектов, классификация изображений и большие языковые модели.

Сначала он делает снимок листа с образцом, который включает в себя прессованное растение и идентифицирующий текст. Затем он распознаёт и извлекает текст, используя комбинацию оптического распознавания символов и распознавания рукописного текста.

Расшифровка рукописного ввода является сложной задачей как для людей, так и для компьютеров. Поэтому Hespi передаёт извлечённый текст через большую языковую модель OpenAI GPT-4o для исправления любых ошибок. Это существенно улучшает результаты.

Таким образом, за считанные секунды Hespi находит основную этикетку образца на листе гербария и считывает содержащуюся в ней информацию. Это включает таксономические названия, данные сборщика, местоположение, широту и долготу, а также даты сбора. Он фиксирует данные и преобразует их в цифровой формат, готовый для использования в исследованиях.

Например, Hespi правильно обнаружил и извлёк все соответствующие компоненты с нижележащего листа гербария. Этот образец крупных бурых водорослей был собран в 1883 году в Сент-Килде.

Мы протестировали Hespi на тысячах изображений образцов из Гербария Мельбурнского университета и других коллекций по всему миру. Мы создали тестовые наборы данных для разных этапов работы и оценили различные компоненты.

Hespi достиг высокой степени точности. Это позволяет сэкономить много времени по сравнению с ручным извлечением данных.

Мы разрабатываем графический интерфейс пользователя для программного обеспечения, чтобы кураторы гербариев могли вручную проверять и корректировать результаты.

Гербарии уже вносят значительный вклад в жизнь общества: от идентификации видов и таксономии до экологического мониторинга, охраны природы, образования и даже криминалистических исследований.

Системы искусственного интеллекта, такие как Hespi, позволяют использовать новые и инновационные приложения в масштабе, который ранее был невозможен.

ИИ использовался для автоматического извлечения детальных измерений листьев и других характеристик из оцифрованных образцов, открывая доступ к столетиям исторических коллекций для быстрых исследований эволюции и экологии растений.

И это только начало — компьютерное зрение и ИИ вскоре могут быть применены во многих других областях, ещё больше ускоряя и расширяя ботанические исследования в предстоящие годы.

Такие конвейеры ИИ, как Hespi, могут извлекать текст с этикеток в любом музее или архивной коллекции, где существуют высококачественные цифровые изображения.

Наш следующий шаг — сотрудничество с Музеем Виктории для адаптации Hespi и создания конвейера оцифровки на базе ИИ, подходящего для музейных коллекций. Конвейер ИИ мобилизует данные о биоразнообразии примерно для 12 500 образцов в коллекции ископаемых граптолитов, имеющей глобальное значение в музее.

Мы также начинаем новый проект с [Австралийским центром исследовательских данных (ARDC)](https://ardc.edu.au/), чтобы сделать программное обеспечение более гибким. Это позволит кураторам музеев и других учреждений настраивать Hespi для извлечения данных из всех видов коллекций, а не только из растительных образцов.

Сотрудничество человека и ИИ может помочь преодолеть одно из самых больших узких мест в оцифровке коллекций — медленную ручную транскрипцию данных с этикеток.

Мобилизация информации, уже хранящейся в гербариях, музеях и архивах по всему миру, необходима для того, чтобы сделать её доступной для междисциплинарных исследований, необходимых для понимания и решения кризиса биоразнообразия.

Предоставлено: [The Conversation](https://phys.org/partners/the-conversation/)

Источник

Другие новости по теме

Другие новости на сайте