В 1770 году, после того как корабль капитана Кука «Индевор» столкнулся с Большим Барьерным рифом и был остановлен для ремонта, ботаники Джозеф Бэнкс и Даниэль Соландер собрали сотни растений.
Одно из этих прессованных растений входит в коллекцию из 170 000 экземпляров в гербарии Мельбурнского университета.
Во всём мире в гербариях хранится более 395 миллионов образцов. Вместе они представляют собой беспрецедентный архив жизни растений и грибов на Земле.
Мы хотели найти более быстрый и эффективный способ получить доступ к этой информации. В нашем новом исследовании описывается разработка и тестирование нового инструмента на базе искусственного интеллекта — Hespi (сокращение от «herbarium specimen sheet pipeline»). Он может революционизировать доступ к данным о биоразнообразии и открыть новые возможности для исследований.
Чтобы раскрыть весь потенциал гербариев, учреждения по всему миру стремятся оцифровать их. Это означает фотографирование каждого образца в высоком разрешении и преобразование информации на его этикетке в доступные для поиска цифровые данные.
После оцифровки записи о образцах могут быть доступны для общественности через онлайн-базы данных, такие как [Коллекция гербария Мельбурнского университета онлайн](https://online.herbarium.unimelb.edu.au/). Они также загружаются на крупные порталы о биоразнообразии, такие как [Австралазийское виртуальное гербарий](https://avh.chah.org.au/), [Атлас живой Австралии](https://www.ala.org.au/) или [Глобальный информационный фонд биоразнообразия](https://www.gbif.org/). Эти платформы делают ботанические знания, накопленные за столетия, доступными для исследователей по всему миру.
Но оцифровка — это грандиозная задача. Большие гербарии, такие как [Национальный гербарий Нового Южного Уэльса](https://www.botanicgardens.org.au/our-science/science-facilities/national-herbarium-new-south-wales) и [Австралийский национальный гербарий](https://www.csiro.au/en/news/all/articles/2022/june/digitising-the-australian-national-herbarium), использовали системы с высокой пропускной способностью для быстрой визуализации миллионов образцов. Даже при таком уровне автоматизации оцифровка 1,15 миллиона образцов в Национальном гербарии Нового Южного Уэльса заняла более трёх лет.
Для небольших учреждений без промышленных установок процесс идёт гораздо медленнее. Сотрудники, волонтёры и граждане-учёные фотографируют образцы и кропотливо вручную переписывают их этикетки.
При нынешних темпах многие коллекции не будут полностью оцифрованы в течение десятилетий. Эта задержка удерживает огромные объёмы данных о биоразнообразии взаперти. Исследователям в области экологии, эволюции, климатологии и охраны природы срочно нужен доступ к крупномасштабным и точным наборам данных о биоразнообразии. Необходим более быстрый подход.
Чтобы решить эту задачу, мы создали Hespi — программное обеспечение с открытым исходным кодом для автоматического извлечения информации из образцов гербария.
Hespi сочетает передовые методы компьютерного зрения с инструментами искусственного интеллекта, такими как обнаружение объектов, классификация изображений и большие языковые модели.
Сначала он делает снимок листа с образцом, который включает в себя прессованное растение и идентифицирующий текст. Затем он распознаёт и извлекает текст, используя комбинацию оптического распознавания символов и распознавания рукописного текста.
Расшифровка рукописного ввода является сложной задачей как для людей, так и для компьютеров. Поэтому Hespi передаёт извлечённый текст через большую языковую модель OpenAI GPT-4o для исправления любых ошибок. Это существенно улучшает результаты.
Таким образом, за считанные секунды Hespi находит основную этикетку образца на листе гербария и считывает содержащуюся в ней информацию. Это включает таксономические названия, данные сборщика, местоположение, широту и долготу, а также даты сбора. Он фиксирует данные и преобразует их в цифровой формат, готовый для использования в исследованиях.
Например, Hespi правильно обнаружил и извлёк все соответствующие компоненты с нижележащего листа гербария. Этот образец крупных бурых водорослей был собран в 1883 году в Сент-Килде.
Мы протестировали Hespi на тысячах изображений образцов из Гербария Мельбурнского университета и других коллекций по всему миру. Мы создали тестовые наборы данных для разных этапов работы и оценили различные компоненты.
Hespi достиг высокой степени точности. Это позволяет сэкономить много времени по сравнению с ручным извлечением данных.
Мы разрабатываем графический интерфейс пользователя для программного обеспечения, чтобы кураторы гербариев могли вручную проверять и корректировать результаты.
Гербарии уже вносят значительный вклад в жизнь общества: от идентификации видов и таксономии до экологического мониторинга, охраны природы, образования и даже криминалистических исследований.
Системы искусственного интеллекта, такие как Hespi, позволяют использовать новые и инновационные приложения в масштабе, который ранее был невозможен.
ИИ использовался для автоматического извлечения детальных измерений листьев и других характеристик из оцифрованных образцов, открывая доступ к столетиям исторических коллекций для быстрых исследований эволюции и экологии растений.
И это только начало — компьютерное зрение и ИИ вскоре могут быть применены во многих других областях, ещё больше ускоряя и расширяя ботанические исследования в предстоящие годы.
Такие конвейеры ИИ, как Hespi, могут извлекать текст с этикеток в любом музее или архивной коллекции, где существуют высококачественные цифровые изображения.
Наш следующий шаг — сотрудничество с Музеем Виктории для адаптации Hespi и создания конвейера оцифровки на базе ИИ, подходящего для музейных коллекций. Конвейер ИИ мобилизует данные о биоразнообразии примерно для 12 500 образцов в коллекции ископаемых граптолитов, имеющей глобальное значение в музее.
Мы также начинаем новый проект с [Австралийским центром исследовательских данных (ARDC)](https://ardc.edu.au/), чтобы сделать программное обеспечение более гибким. Это позволит кураторам музеев и других учреждений настраивать Hespi для извлечения данных из всех видов коллекций, а не только из растительных образцов.
Сотрудничество человека и ИИ может помочь преодолеть одно из самых больших узких мест в оцифровке коллекций — медленную ручную транскрипцию данных с этикеток.
Мобилизация информации, уже хранящейся в гербариях, музеях и архивах по всему миру, необходима для того, чтобы сделать её доступной для междисциплинарных исследований, необходимых для понимания и решения кризиса биоразнообразия.
Предоставлено: [The Conversation](https://phys.org/partners/the-conversation/)
Другие новости по теме
- Садоводство в стиле хаос: дикая красота или беспорядок? Специалист по устойчивому ландшафту объясняет тренд
- Модели на основе спутниковых снимков помогают фермерам, выращивающим нут.
- Компактное устройство обнаруживает кишечную палочку за минуты
- Исследование выявило, что только горбатый кит способен к ловле с помощью пузырьковых сетей
- Новый фундаментальный атлас охватывает весь жизненный цикл Arabidopsis
- Учёные раскрыли давнюю тайну гена ENOD40, связанного с образованием клубеньков у бобовых растений
- Как можно очистить воды от цветения водорослей?
- Тяжёлые металлы в чешуе чёрных мамб помогают отслеживать загрязнители
- Пингвины и приливы: как пингвины используют течения для путешествий и охоты
- Онлайн-продавцы дичи на TikTok: исследование выявило, что в Западной Африке продаются животные из числа исчезающих видов
Другие новости на сайте
- Лесные пожары в Испании: десятилетия упадка сельских районов усугубили ситуацию, но местная экономика может предотвратить дальнейшие разрушения
- Эволюция черт корней кукурузы связана с изменениями окружающей среды и деятельностью человека, показывает исследование
- Исследование: когда наказание приносит выгоду, люди чаще нарушают правила
- Исследование: когда наказание приносит выгоду, люди чаще нарушают правила
- У Урана может быть 29-я луна
- Лиссабон приветствует мировых звёзд на площадке для создателей криптоконтента Crypto Content Creator Campus 2025: Нусейр Ясин, доктор Мэй Маск и другие выступят на сцене
- SEC продвигает регулирование криптовалют после урегулирования спора с Ripple — что нас ждёт?
- Экстремальные погодные оповещения могут влиять на рынки. Вот что инвесторы могут узнать из нашего нового исследования
- NVIDIA выпустила семейство моделей искусственного интеллекта Nemotron Nano 2
- Узлы бунтуют: почти 4000 узлов намерены игнорировать новые правила Bitcoin Core.