Вычислительный метод помогает разобраться в сложностях анализа отдельных клеток

Мир клеток удивительно многообразен и непредсказуем. Каждая клетка несёт уникальную генетическую информацию, но при попытке измерить клеточную активность сигналы могут теряться или искажаться, а различия между экспериментами могут ещё больше запутывать данные. Эти проблемы затрудняли исследователям возможность уловить истинное поведение клеток, особенно при изучении редких типов клеток или тонких изменений, возникающих на ранних стадиях заболевания.

Пример: секвенирование РНК отдельных клеток

Секвенирование РНК отдельных клеток — мощный метод изучения экспрессии генов на уровне отдельных клеток. Однако он сталкивается с серьёзными проблемами из-за двух основных типов шума: технического шума и шума, связанного с партиями экспериментов.

Технический шум возникает из-за ограничений в процессах измерения, таких как «эффект выпадения», когда определённые гены не обнаруживаются, даже если они экспрессируются. Шум, связанный с партиями, относится к вариациям, возникающим во время экспериментов, например, к различиям в условиях эксперимента или используемом оборудовании, что приводит к несоответствиям в наборах данных.

Решение проблемы: метод RECODE

Чтобы решить эти проблемы, доцент Юсуке Имото и его команда из Института перспективных исследований в области биологии человека (WPI-ASHBi) при Киотском университете разработали RECODE (разрешение проклятия размерности) — высокоразмерный статистический метод, который уменьшает технический шум в данных секвенирования РНК отдельных клеток.

Данные отдельных клеток являются «высокоразмерными», что означает, что в каждой клетке измеряются тысячи генов. В таких высокоразмерных пространствах любой случайный шум может подавлять истинные биологические сигналы — проблема, известная как «проклятие размерности». Традиционные статистические методы с трудом выявляют значимые закономерности в этих условиях.

RECODE преодолевает эту проблему, применяя передовые статистические методы для выявления паттернов экспрессии отдельных генов, близких к их ожидаемым значениям. Этот подход показал себя лучше других методов, обеспечивая чёткие профили активации генов без использования сложных параметров или методов машинного обучения.

На основе RECODE профессор Имото представил iRECODE (интегративный RECODE) — усовершенствованную версию, которая одновременно уменьшает как технический, так и пакетный шум с высокой точностью и низкими вычислительными затратами. Это улучшение позволяет более комплексно снижать шум, облегчая обнаружение редких типов клеток и тонких биологических изменений, критически важных для понимания сложных процессов.

Применение iRECODE

iRECODE работает с различными типами наборов данных отдельных клеток, включая секвенирование РНК, пространственную транскриптомику и scHi-C, выявляя клеточные паттерны, которые ранее были скрыты. Эти результаты были опубликованы онлайн в Cell Reports Methods.

При применении к данным секвенирования РНК отдельных клеток iRECODE уточняет распределения экспрессии генов и устраняет разреженность (когда многие записи данных равны 0, вызваны техническим шумом). Кроме того, iRECODE эффективно уменьшает пакетный шум, улучшая смешивание клеток между партиями, сохраняя при этом уникальную идентичность каждого типа клеток.

Метод примерно в 10 раз более эффективен, чем комбинация методов снижения технического шума и коррекции пакетного шума, и работает с несколькими технологиями, включая Drop-seq, Smart-Seq и несколько протоколов 10x Genomics.

Возможности RECODE выходят за рамки секвенирования РНК отдельных клеток, поскольку он может помочь уменьшить технический шум в других наборах данных отдельных клеток, которые основаны на случайной молекулярной выборке. Например, данные scHi-C измеряют, как различные части хромосомы физически взаимодействуют в отдельных клетках.

Однако данные scHi-C могут быть очень разреженными, что затрудняет идентификацию значимых типов клеток или хромосомных контактов. Применение RECODE значительно снижает эту разреженность и выявляет реальные взаимодействия, которые лучше отражают различия между клетками. Кроме того, сочетание RECODE с существующим методом, основанным на машинном обучении, ускоряет точность кластеризации клеток.

Ещё одним примером применения RECODE является пространственная транскриптомика, которая позволяет нам изучать, как разные клетки ведут себя и взаимодействуют в тканях, хотя технический шум может затушёвывать важные закономерности. На разных платформах, видах, типах тканей и генах RECODE последовательно проясняет сигналы и уменьшает разреженность, демонстрируя свою широкую применимость в пространственной транскриптомике.

iRECODE позволяет исследователям «услышать» истинные голоса отдельных клеток, что делает возможным изучение клеточного поведения с беспрецедентной ясностью. Его способность работать с несколькими типами данных и крупномасштабными наборами данных позиционирует его как ключевой инструмент для будущего анализа отдельных клеток и потенциальный стандартный шаг предварительной обработки для исследований отдельных клеток.

Исследователи ожидают, что iRECODE поможет выявить ранее скрытые биологические закономерности, такие как редкие популяции клеток и тонкие изменения, связанные со старением или ранними стадиями заболеваний.

«Данные отдельных клеток улавливают бесчисленные клеточные „шёпоты“, но услышать эти шёпоты сквозь шум чрезвычайно сложно», — прокомментировал профессор Имото. «iRECODE, эволюция нашего метода RECODE, поднимает эти голоса на поверхность. Я считаю, что скрытые истории клеток, истории, которые мы никогда не могли услышать раньше, постепенно выйдут на свет».

Предоставлено Киотским университетом

Источник

Другие новости по теме

Другие новости на сайте