Способность анализировать экспрессию генов на уровне отдельных клеток, известная как секвенирование РНК отдельных клеток (scRNA-seq), произвела революцию в науках о жизни, способствуя открытиям в иммунологии, онкологии и биологии развития. Более 40 000 исследований использовали этот метод для картирования сложного разнообразия клеток в тканях и организмах.
Однако за этим взрывным ростом скрывается постоянная проблема: нестабильность кластеризации. Когда исследователи пытаются сгруппировать клетки по паттернам экспрессии для идентификации типов клеток или состояний заболеваний, они часто сталкиваются с противоречивыми результатами — даже при повторном анализе одного и того же набора данных.
Неточная кластеризация может привести к ошибочной классификации нормальных клеток как раковых или к пропуску редких, но важных типов клеток, что ставит под угрозу интерпретацию и терапевтические решения. Этот «кризис надёжности» вынуждает учёных повторно проводить анализы или полагаться на дорогостоящие с точки зрения вычислений методы для извлечения достоверной информации.
Теперь исследовательская группа под руководством профессора Ким Джэ Кёнга из Корейского передового института науки и технологий (KAIST) и Института фундаментальных наук (IBS) разработала решение: математическую модель под названием scICE (оценщик несогласованности кластеризации отдельных клеток). Исследование [опубликовано](https://www.nature.com/articles/s41467-025-60702-8) в журнале Nature Communications.
Традиционно надёжность кластеризации оценивается путём получения консенсуса посредством повторного анализа того, классифицируются ли отдельные пары клеток в один и тот же кластер. Однако этот подход требует значительных вычислительных ресурсов и не подходит для крупномасштабных наборов данных с десятками тысяч клеток.
В отличие от этого, scICE может быть применён к крупномасштабным наборам данных, поскольку он обходит трудоёмкий процесс попарного совместного кластеринга. Вместо этого он использует математически определённый коэффициент несогласованности (IC) для оценки стабильности назначений ячеек напрямую. Это позволяет инструменту эффективно обнаруживать и отфильтровывать ненадёжные назначения, сохраняя только наиболее стабильные и биологически значимые кластеры.
Доктор Ким Хён, первый автор статьи (IBS), пояснил: «Надёжность при кластеризации отдельных клеток долгое время игнорировалась. scICE открывает новый путь для быстрой и лёгкой проверки результатов».
Исследовательская группа подтвердила эффективность scICE, применив его к 48 реальным и смоделированным наборам данных scRNA-seq, собранным из различных тканей, включая мозг, лёгкие и кровь. Результаты показали, что примерно две трети существующих анализов были статистически нестабильны и ненадёжны.
Между тем scICE эффективно отобрал лишь небольшое количество надёжных результатов, сэкономив время исследователей и вычислительные ресурсы при сохранении высокой точности.
ScICE предоставляет способ математически подтвердить результаты кластеризации, обеспечивая более высокую уверенность в выводах, сделанных на основе данных одноклеточного уровня. Кроме того, scICE привлёк внимание своей способностью эффективно обнаруживать редкие типы клеток, которые часто упускаются из виду традиционными методами кластеризации.
На практике scICE надёжно идентифицировал редкие иммунные клетки, которые легко упустить из виду при обычном анализе, используя субкластеризацию на основе своей структуры.
Соответствующий автор профессор Ким Джэ Кён заявил: «scICE поможет исследователям быстро проводить последующие исследования на основе надёжных результатов. Я надеюсь, что он станет стандартным инструментом для достоверной интерпретации данных во всех науках о жизни».
Исследовательская группа сделала scICE общедоступным на [GitHub](https://github.com/Mathbiomed/scICE).
Предоставлено Институтом фундаментальных наук.