Вопрос: Центр Эрика и Венди Шмидта фокусируется на четырёх естественных уровнях биологической организации: белки, клетки, ткани и организмы. Что в современном ландшафте машинного обучения делает работу над этими специфическими классами задач особенно актуальной?
Ответ: Биология и медицина переживают «революцию данных». Появление масштабных и разнообразных наборов данных — от геномики и мультиомики до изображений высокого разрешения и электронных медицинских записей — делает этот момент особенно подходящим для работы. Недорогое и точное секвенирование ДНК стало реальностью, продвинутая молекулярная визуализация стала рутинной, а геномика отдельных клеток позволяет профилировать миллионы клеток.
Эти инновации и огромные массивы данных, которые они создают, привели нас к порогу новой эры в биологии, когда мы сможем перейти от характеристики единиц жизни (таких как все белки, гены и типы клеток) к пониманию «программ жизни», таких как логика работы генных цепей и клеточной коммуникации, лежащей в основе формирования тканей, и молекулярных механизмов, лежащих в основе карты генотип-фенотип.
В то же время за последнее десятилетие в машинном обучении произошёл значительный прогресс: модели вроде BERT, GPT-3 и ChatGPT продемонстрировали продвинутые возможности в понимании и генерации текста, а трансформеры для зрения и мультимодальные модели вроде CLIP достигли уровня человека в задачах, связанных с изображениями. Эти прорывы предоставляют мощные архитектурные чертежи и стратегии обучения, которые можно адаптировать к биологическим данным. Например, трансформеры могут моделировать геномные последовательности подобно языку, а модели зрения могут анализировать медицинские и микроскопические изображения.
Важно отметить, что биология готова быть не только бенефициаром машинного обучения, но и значительным источником вдохновения для новых исследований в этой области. В отличие от таких областей, как рекомендательные системы и интернет-реклама, где нет естественных законов для открытия, а прогностическая точность является конечной мерой ценности, в биологии явления физически интерпретируемы, а механизмы причинно-следственных связей являются конечной целью.
Вопрос: Какие проблемы в биологии всё ещё устойчивы к нашему текущему набору инструментов? Есть ли области, возможно, конкретные задачи в области болезней или здоровья, которые, по вашему мнению, созрели для решения?
Ответ: Машинное обучение продемонстрировало замечательные успехи в прогнозных задачах в таких областях, как классификация изображений, обработка естественного языка и моделирование клинического риска. Однако в биологических науках прогностическая точность часто недостаточна. Фундаментальные вопросы в этих областях по своей сути причинно-следственны: как влияет изменение конкретного гена или пути на нижестоящие клеточные процессы? Каков механизм, посредством которого вмешательство приводит к фенотипическим изменениям?
Традиционные модели машинного обучения, которые в первую очередь оптимизированы для выявления статистических ассоциаций в наблюдательных данных, часто не могут ответить на такие интервенционные запросы. Существует острая необходимость в том, чтобы биология и медицина также стимулировали новые фундаментальные разработки в машинном обучении.
Вопрос: Давайте поговорим о некоторых из заголовков, которые недавно появились в новостях из Центра Шмидта. Какими текущими исследованиями, по вашему мнению, люди должны особенно интересоваться и почему?
Ответ: В сотрудничестве с доктором Фэй Чен из Института Броуда мы недавно разработали метод для прогнозирования субклеточного расположения невидимых белков, называемый PUPS. Многие существующие методы могут делать прогнозы только на основе конкретных данных о белках и клетках, на которых они были обучены. PUPS сочетает в себе языковую модель белка с моделью рисования изображений, чтобы использовать как последовательности белков, так и клеточные изображения.
Мы демонстрируем, что вход с последовательностью белка обеспечивает обобщение для невидимых белков, а вход с клеточным изображением фиксирует вариабельность на уровне отдельных клеток, обеспечивая прогнозы, специфичные для типа клеток. Модель изучает, насколько важен каждый аминокислотный остаток для прогнозируемой субклеточной локализации, и может прогнозировать изменения в локализации из-за мутаций в последовательностях белков.
Вместе с профессором Г. В. Шивашанкаром, давним сотрудником ETH Zürich, мы ранее показали, как простые изображения клеток, окрашенных флуоресцентными ДНК-интеркалирующими красителями для маркировки хроматина, могут дать много информации о состоянии и судьбе клетки в здоровье и болезни, когда они объединены с алгоритмами машинного обучения. Недавно мы продолжили это наблюдение и доказали глубокую связь между организацией хроматина и регуляцией генов, разработав Image2Reg — метод, который позволяет прогнозировать невидимые генетически или химически перturbed гены по изображениям хроматина.
Кроме того, мы недавно завершили разработку метода для прогнозирования результатов невидимых комбинаторных генных возмущений и выявления типов взаимодействий, происходящих между возмущёнными генами. MORPH может направлять разработку наиболее информативных возмущений для экспериментов «лаборатория в цикле». Наконец, благодаря своей модульной структуре мы можем применять MORPH к данным о возмущениях, измеренным в различных модальности, включая не только транскриптомику, но и визуализацию.
Вопрос: Какие инновационные методы, описанные в статье, способствуют улучшению понимания биологических процессов и какие потенциальные применения они имеют в медицине?
Ответ: В статье описаны несколько инновационных методов. Например, метод PUPS позволяет прогнозировать субклеточное расположение невидимых белков, сочетая языковую модель белка с моделью рисования изображений. Это обеспечивает обобщение для невидимых белков и прогнозы, специфичные для типа клеток.
Метод Image2Reg позволяет прогнозировать невидимые генетически или химически перturbed гены по изображениям хроматина. Это помогает установить связь между организацией хроматина и регуляцией генов.
Метод MORPH используется для прогнозирования результатов невидимых комбинаторных генных возмущений и выявления типов взаимодействий между возмущёнными генами. Это может направлять разработку наиболее информативных возмущений для экспериментов «лаборатория в цикле».
Вопрос: Какие вызовы стоят перед современными моделями машинного обучения в контексте их применения в биологии и медицине, и как авторы статьи предлагают их преодолеть?
Ответ: Современные модели машинного обучения в биологии и медицине сталкиваются с вызовами, связанными с недостаточной прогностической точностью в фундаментальных вопросах. Традиционные модели, оптимизированные для выявления статистических ассоциаций, часто не могут ответить на интервенционные запросы.
Авторы статьи предлагают преодолеть эти вызовы путём стимулирования новых фундаментальных разработок в машинном обучении, которые могли бы лучше отвечать на причинно-следственные вопросы в биологии. Например, разработка методов, таких как PUPS, Image2Reg и MORPH, которые используют уникальные подходы для анализа биологических данных и прогнозирования результатов.
Вопрос: Какие примеры успешного применения машинного обучения в биологии и медицине приведены в статье и как они иллюстрируют потенциал для будущих исследований?
Ответ: В статье приведены примеры успешного применения машинного обучения в биологии и медицине через разработку методов PUPS, Image2Reg и MORPH.
PUPS демонстрирует, как языковые модели белка и модели рисования изображений могут быть использованы для прогнозирования субклеточного расположения белков. Это иллюстрирует потенциал для будущих исследований в области протеомики и клеточной биологии.
Image2Reg показывает, как изображения хроматина могут быть использованы для прогнозирования генетических регуляций. Это открывает новые возможности для исследований в области эпигенетики и регуляции генов.
MORPH демонстрирует, как можно прогнозировать результаты комбинаторных генных возмущений, что может направлять разработку информативных экспериментов в генетике и молекулярной биологии.