Преодолевая сложность одноклеточных организмов с помощью коллективного интеллекта

Исследователи из более чем 50 международных институтов запустили [Open Problems](https://openproblems.bio), совместную платформу с открытым исходным кодом для сравнения, улучшения и проведения соревнований по вычислительным методам в одноклеточной геномике.

Инициатива, возглавляемая Helmholtz Munich и Йельским университетом, направлена на стандартизацию оценок, содействие воспроизводимости и ускорение прогресса в решении открытых задач в этой быстроразвивающейся области. Статья, представляющая платформу, была [опубликована](https://www.nature.com/articles/s41587-025-02694-w) в Nature Biotechnology.

Одноклеточная геномика

Одноклеточная геномика позволяет учёным анализировать отдельные клетки с беспрецедентным разрешением, показывая, как они функционируют, взаимодействуют и способствуют здоровью и болезням. Однако по мере развития этой области растёт и количество вычислительных инструментов — теперь их тысячи — предназначенных для обработки и интерпретации этих сложных данных.

Проблема выбора инструментов

Быстрый рост представляет серьёзную проблему: как исследователи могут определить наиболее подходящий инструмент или определить наилучшую комбинацию шагов обработки для достижения конкретной аналитической цели? Многие инструменты специализированы, и оценка их производительности затруднена из-за ограниченной доступности наборов данных с известными, точными результатами (так называемая «истинная метка»).

В результате исследователи часто обращаются к крупномасштабным сравнительным исследованиям. Однако эти исследования могут быть непоследовательными, быстро устаревать и часто затрудняют сравнение — что усложняет выявление лучшего метода для конкретной задачи.

«Нам нужен общий язык для измерения того, что работает, а что нет, который выдержит испытание временем», — говорит профессор Фабиан Тейс, директор Вычислительного центра здоровья в Helmholtz Munich и профессор в Техническом университете Мюнхена. «С помощью Open Problems мы представляем воспроизводимую, живую и прозрачную структуру для руководства разработкой и оценкой инструментов — ту, которую сообщество может активно формировать и использовать».

Open Problems

В настоящее время Open Problems включает 81 общедоступный набор данных и тестирует 171 метод по 12 основным задачам одноклеточного анализа. Каждый метод оценивается с помощью набора метрик — количественных показателей, которые показывают, насколько хорошо метод справляется с конкретной задачей. Эти метрики включают точность, масштабируемость и надёжность, среди прочих, и выбираются на основе целей каждой задачи. Всего на платформе используется 37 различных метрик, причём для каждой задачи используются наиболее релевантные.

Все оценки выполняются автоматически в облаке и следуют стандартизированным процедурам, чтобы обеспечить полную воспроизводимость результатов. Исследователи могут увидеть, как работает каждый метод, изучить исходный код и предложить улучшения. Чтобы оставаться актуальными и влиятельными в долгосрочной перспективе, платформа спроектирована так, чтобы быть открытой для вклада: учёные могут предлагать новые задачи, добавлять свои методы, участвовать в регулярных вызовах сообщества и принимать участие в совместных хакатонах, чтобы помочь сформировать будущее проекта.

Сравнивая инструменты бок о бок, Open Problems помогает исследователям определить наиболее эффективные методы для их конкретных научных вопросов и часто ставит под сомнение устоявшиеся предположения в этом процессе.

Как объясняет доктор Смита Кришнасвами, доцент кафедры информатики и генетики в Йельском университете: «Мы обнаружили, что изучение общих закономерностей генной активности даёт более точные результаты, чем сосредоточение внимания на отдельных генах при изучении того, как клетки взаимодействуют. А для некоторых задач, таких как идентификация типов клеток в разных наборах данных, простая статистическая модель может на самом деле превзойти сложные методы искусственного интеллекта, делая анализ более быстрым и эффективным для многих исследователей».

Платформа также поддерживает крупные соревнования по машинному обучению, включая задачи по мультимодальной интеграции NeurIPS. Эти глобальные конкурсы собирают экспертов в области биологии и [искусственного интеллекта](https://phys.org/tags/artificial+intelligence/) для решения реальных задач с использованием общих наборов данных и стандартов оценки.

«Open Problems снижает барьер для исследователей в области искусственного интеллекта, не связанных с биологией, чтобы они могли внести свой вклад в геномику», — говорит доктор Мальте Люкен, который руководил проектом. «Это — план для междисциплинарных инноваций».

Весь код и результаты доступны в открытом доступе под лицензией CC-BY на [GitHub](https://github.com/openproblems-bio/openproblems).

Предоставлено [Йельским университетом](https://phys.org/partners/yale-university/).

Источник

Оставьте комментарий