Q&A: анализ биоизображений с помощью ИИ — чего не хватает?

Отсутствие стимулов и стандартов метаданных ограничивает потенциал ИИ в анализе биоизображений — общественная инициатива предлагает решения

ИИ может выявлять едва заметные закономерности в миллионах микроскопических изображений или сравнивать сканирование пациента с тысячами других за секунды. Однако на пути стоят несколько технических и культурных препятствий, связанных с метаданными, стимулами, форматами и доступностью.

Команда BioImage Archive: как рекомендации сообщества могут помочь

Руководитель группы BioImage Archive Мэттью Хартли (MH) и биоинформатик Тереза Зулуэта Коараса (TZC) объясняют, как рекомендации сообщества могут помочь.

МХ: «Метаданные — это, по сути, контекст вокруг изображений и аннотаций. Они объясняют, что мы видим и как было подписано изображение — когда, где и при каких условиях».

Для обучения ИИ метаданные делают набор данных интерпретируемым, повторно используемым и ценным за пределами лаборатории, которая его создала. Проблема в том, что разные лаборатории записывают метаданные по-разному, что затрудняет повторное использование их данных другими. Согласование стандартов помогает всем говорить на одном языке.

МХ: «Идея возникла в результате семинара, который мы организовали в 2023 году в рамках проекта AI4Life. В нём приняли участие 45 человек из разных сообществ, включая производителей данных, учёных в области ИИ и аналитиков биоизображений. Мы определили четыре группы рекомендаций, объединённые под аббревиатурой MIFA, которая означает Метаданные, Стимулы, Форматы и Доступность. Статья с описанием наших рекомендаций была опубликована в журнале Nature Methods».

ТЗС: «Для метаданных мы предлагаем новый стандарт, ориентированный на аннотации изображений, основанный на таких стандартах метаданных, как REMBI, которые мы разработали в 2021 году. Это важно, потому что аннотации, такие как маски сегментации, являются неотъемлемой частью этих наборов данных, и учёным необходимо понимать, что они из себя представляют и как были созданы».

Что касается стимулов, мы признаём, что создание аннотированных наборов данных требует много времени и усилий. Сейчас существует мало стимулов, побуждающих лаборатории создавать метаданные или размещать свои изображения в открытых репозиториях, таких как BioImage Archive. Это необходимо изменить, и для этого потребуется совместная работа спонсоров, журналов, архивов данных и сообщества специалистов по биовизуализации.

Оборудование для микроскопии использует различные форматы в зависимости от производителя. Нам необходимо обеспечить единые, совместимые форматы данных, чтобы лаборатории могли легко обмениваться и повторно использовать изображения.

Это не просто абстрактные идеи; это практические рекомендации, разработанные при участии людей, создающих данные, и тех, кому они нужны для обучения ИИ.

ТЗС: «Учёные-биологи тратят месяцы на создание красивых, тщательно аннотированных наборов данных, которые разработчики ИИ часто пытаются интерпретировать. Объединение обеих сторон может помочь преодолеть этот разрыв. Со стандартизированными метаданными модели ИИ, обученные на одном наборе данных, можно будет проверять на других, что повысит воспроизводимость. Это откроет возможность сравнивать модели, повторять результаты и ускорять открытия. Одним словом, это сделает ИИ в области биовизуализации масштабируемым».

МХ: «В сообществе наблюдается настоящий импульс, чтобы это произошло. Например, журналы рекомендуют размещать наборы данных в открытых архивах. Это само по себе создаёт стимул для исследователей более тщательно структурировать и делиться своими данными. Мы действительно верим, что если производители данных примут эти рекомендации, у нас будет благотворный цикл: более качественные наборы данных, более совершенный ИИ и более качественная наука».

Несколько комментариев от коллег, успешно применивших рекомендации MIFA в своей работе:

«Благодаря рекомендациям MIFA и BioImage Archive я смог легко найти подходящие новые наборы данных для проекта, в котором исследовалась возможность переноса и подходящий выбор предварительно обученных моделей сегментации изображений. Доступ к хорошо структурированным метаданным упростил работу с несколькими наборами данных для обучения и оценки нейронных сетей, сэкономив время», — говорит Джошуа Токс, аспирант EMBL.

«Мы надеемся, что, делясь нашими изображениями и аннотациями в соответствии с рекомендациями MIFA, мы максимизируем возможность повторного использования наших наборов данных для обучения новых инструментов ИИ и повысим видимость инструмента ИИ, который мы обучили, используя эти наборы данных», — говорит Родриго Фернандес-Гонсалес, профессор Университета Торонто.

Источник

Другие новости по теме

Другие новости на сайте