SYNCOGEN: платформа машинного обучения для генерации синтезируемых трёхмерных молекул через совместное моделирование графов и координат

Введение: проблема генерации синтезируемых молекул

В современном открытии лекарств модели генеративного молекулярного дизайна значительно расширили доступное исследователям химическое пространство, позволяя быстро исследовать новые соединения. Однако остаётся серьёзная проблема: многие молекулы, сгенерированные с помощью ИИ, трудно или невозможно синтезировать в лаборатории, что ограничивает их практическую ценность в фармацевтической и химической промышленности.

Хотя методы, основанные на шаблонах (например, деревья синтеза, построенные из шаблонов реакций), помогают решить проблему синтетической доступности, они учитывают только двумерные молекулярные графы, не имея богатой трёхмерной структурной информации, которая определяет поведение молекулы в биологических системах.

Объединение трёхмерной структуры и синтеза: необходимость единой платформы

Последние достижения в области трёхмерных генеративных моделей позволяют напрямую генерировать атомные координаты, что позволяет создавать дизайн на основе геометрии и улучшать прогнозирование свойств. Однако большинство методов не учитывают систематически ограничения синтетической осуществимости: полученные молекулы могут обладать желаемыми формами или свойствами, но нет гарантии, что их можно собрать из существующих строительных блоков с помощью известных реакций.

Синтетическая доступность имеет решающее значение для успешного открытия лекарств и разработки материалов, что требует решений, которые одновременно обеспечивают реалистичную трёхмерную геометрию и прямые синтетические маршруты.

SYNCOGEN: новый фреймворк для проектирования синтезируемых 3D-молекул

Исследователи из Университета Торонто, Кембриджского университета, Университета Макгилла и другие предложили SYNCOGEN (Synthesizable Co-Generation), который устраняет этот пробел с помощью новаторского подхода, совместно моделирующего пути реакций и атомные координаты во время генерации молекул. Эта единая платформа позволяет создавать трёхмерные молекулярные структуры вместе с осуществимыми синтетическими маршрутами, гарантируя, что каждая предложенная молекула не только физически значима, но и практически синтезируема.

Ключевые инновации SYNCOGEN

* Мультимодальная генерация. Сочетая диффузию маскированного графа (для реакционных графов) с согласованием потока (для атомных координат), SYNCOGEN выбирает из совместного распределения строительных блоков, химических реакций и трёхмерных структур.
* Комплексное представление входных данных. Каждая молекула представлена в виде тройки (X, E, C), где:
* X кодирует идентичность строительного блока;
* E кодирует типы реакций и конкретные центры соединения;
* C содержит все атомные координаты.
* Одновременное обучение. Оба графа и координатные модальности моделируются вместе, используя потери, которые объединяют перекрёстную энтропию для графов, замаскированную среднюю квадратичную ошибку для координат и попарные штрафы за расстояние, чтобы обеспечить геометрический реализм.

Набор данных SYNSPACE: обеспечение крупномасштабного обучения с учётом синтезируемости

Для обучения SYNCOGEN исследователи создали SYNSPACE, набор данных, содержащий более 600 000 синтезируемых молекул, каждая из которых построена из 93 коммерческих строительных блоков и 19 надёжных шаблонов реакций. Каждая молекула в SYNSPACE аннотирована несколькими энергетически минимизированными трёхмерными конформациями (всего более 3,3 миллиона структур), что обеспечивает разнообразный и надёжный обучающий ресурс, который точно отражает реалистичный химический синтез.

Архитектура модели и обучение

SYNCOGEN использует модифицированную основу SEMLAFLOW, нейронную сеть, изначально разработанную для трёхмерного молекулярного генерации. Архитектура включает:

* Специализированные входные и выходные головки для перевода между графами на уровне строительных блоков и функциями на уровне атомов.
* Функции потерь и схемы шумоподавления, которые тщательно балансируют точность графа и трёхмерную структурную точность, включая обработку координат с учётом видимости для поддержки переменного количества атомов и маскировки.
* Инновации в обучении, такие как ограничения на количество рёбер, маскировка совместимости и саморегуляция, для поддержания генерации молекул, соответствующих химии.

Производительность: современные результаты в генерации синтезируемых молекул

* Высокая химическая достоверность. Более 96% сгенерированных молекул химически достоверны.
* Превосходная синтетическая доступность. Программное обеспечение для ретросинтеза (AiZynthFinder, Syntheseus) решает задачи со скоростью до 72%, что значительно превосходит большинство конкурирующих методов.
* Отличный геометрический и энергетический реализм. Сгенерированные конформеры близко соответствуют распределениям длин связей, углов и диэдров экспериментальных наборов данных, с низкими энергиями невалентных взаимодействий.
* Практическая полезность. SYNCOGEN позволяет напрямую генерировать синтетические маршруты вместе с трёхмерными координатами, уникально объединяя вычислительную химию и экспериментальный синтез.

Фрагментарное связывание и разработка лекарств

SYNCOGEN также демонстрирует конкурентоспособную производительность в молекулярном инпейнтинге для фрагментарного связывания, ключевой задачи разработки лекарств. Он может генерировать легко синтезируемые аналоги сложных лекарств, производя кандидатов с благоприятными показателями стыковки и ретросинтетической обрабатываемостью — достижение, которое не под силу обычным трёхмерным генеративным моделям.

Будущие направления и приложения

SYNCOGEN знаменует собой фундаментальный прогресс в области молекулярной генерации с учётом синтезируемости, с потенциальными расширениями, включая:

* Генерацию, обусловленную свойствами: прямая оптимизация желаемых физико-химических или биологических свойств.
* Условие связывания с белками: генерация лигандов, адаптированных для конкретных сайтов связывания белков.
* Расширение реакционного пространства: включение более разнообразных строительных блоков и шаблонов реакций для расширения доступного химического пространства.
* Автоматизированная робототехника синтеза: связь генеративных моделей с лабораторной автоматизацией для замкнутого цикла открытия лекарств и материалов.

Заключение: шаг к реализуемому вычислительному молекулярному дизайну

SYNCOGEN устанавливает новый стандарт для совместной генерации трёхмерных молекул и молекул с учётом реакций, позволяя исследователям и фармацевтам проектировать молекулы, которые являются не только структурно значимыми, но и экспериментально осуществимыми. Объединяя генеративные модели со строгими синтетическими ограничениями, SYNCOGEN приближает вычислительный дизайн к лабораторной реализации, открывая новые возможности в открытии лекарств, материаловедении и не только.

Часто задаваемые вопросы

FAQ 1: Что такое SYNCOGEN и как он улучшает генерацию синтезируемых трёхмерных молекул?

SYNCOGEN — это передовая платформа генеративного моделирования, которая одновременно генерирует трёхмерные структуры и синтетические пути реакций для малых молекул. Совместно моделируя реакционные графы и атомные координаты, SYNCOGEN гарантирует, что генерируемые молекулы не только физически реалистичны, но и легко синтезируемы в реальных лабораторных условиях. Этот двойной подход уникально позволяет разрабатывать практические молекулы для открытия лекарств, устраняя критический пробел, оставленный более ранними моделями, которые фокусировались только на двумерных структурах или пренебрегали синтетической доступностью.

FAQ 2: Как SYNCOGEN обучается для обеспечения синтетической доступности и трёхмерной точности?

SYNCOGEN обучается с использованием набора данных SYNSPACE, который включает более 600 000 синтезируемых молекул, построенных из фиксированного набора надёжных строительных блоков и шаблонов реакций, каждый из которых имеет несколько энергетически минимизированных трёхмерных конформеров. Модель использует диффузию маскированного графа для реакционного графа и согласование потока для атомных координат, сочетая перекрёстную энтропию для графов, среднюю квадратичную ошибку координат и попарные штрафы за расстояние во время обучения, чтобы обеспечить химическую достоверность и геометрический реализм. Ограничения по времени обучения, такие как ограничения на количество рёбер и маскировка совместимости, дополнительно обеспечивают генерацию практических, химически достоверных молекул.

FAQ 3: Каковы основные приложения и будущие направления для SYNCOGEN в химических и фармацевтических исследованиях?

SYNCOGEN устанавливает новый стандарт для генерации трёхмерных молекул с учётом синтезируемости, позволяя напрямую предлагать синтетические маршруты вместе с трёхмерными структурами — ключевыми для разработки лекарств, фрагментарного связывания и автоматизированных платформ синтеза. Будущие приложения включают в себя генерацию с учётом конкретных свойств или связывающих карманов белков, расширение библиотеки применимых реакций и строительных блоков, а также интеграцию с лабораторной робототехникой для полностью автоматизированного синтеза молекул и скрининга.

1. Какие ключевые инновации лежат в основе платформы SYNCOGEN и как они способствуют генерации синтезируемых трёхмерных молекул?

В основе платформы SYNCOGEN лежат несколько ключевых инноваций:
* мультимодальная генерация, сочетающая диффузию маскированного графа для реакционных графов и согласование потока для атомных координат;
* комплексное представление входных данных в виде тройки (X, E, C), где X кодирует идентичность строительного блока, E кодирует типы реакций и конкретные центры соединения, а C содержит все атомные координаты;
* одновременное обучение графов и координатных модальностей вместе, используя потери, которые объединяют перекрёстную энтропию для графов, замаскированную среднюю квадратичную ошибку для координат и попарные штрафы за расстояние.

Эти инновации позволяют SYNCOGEN создавать трёхмерные молекулярные структуры вместе с осуществимыми синтетическими маршрутами, гарантируя, что каждая предложенная молекула не только физически значима, но и практически синтезируема.

2. Как набор данных SYNSPACE способствует обучению SYNCOGEN и какие характеристики делают его подходящим для этой цели?

Набор данных SYNSPACE содержит более 600 000 синтезируемых молекул, каждая из которых построена из 93 коммерческих строительных блоков и 19 надёжных шаблонов реакций. Каждая молекула в SYNSPACE аннотирована несколькими энергетически минимизированными трёхмерными конформациями (всего более 3,3 миллиона структур).

Эти характеристики делают SYNSPACE подходящим для обучения SYNCOGEN, поскольку он обеспечивает разнообразный и надёжный обучающий ресурс, который точно отражает реалистичный химический синтез. Это позволяет SYNCOGEN обучаться на большом и разнообразном наборе данных, что способствует его способности генерировать синтезируемые трёхмерные молекулы.

3. Какие преимущества предлагает SYNCOGEN по сравнению с другими методами генерации молекул и как это влияет на его применение в фармацевтической и химической промышленности?

SYNCOGEN предлагает несколько преимуществ по сравнению с другими методами генерации молекул:
* высокая химическая достоверность более 96% сгенерированных молекул;
* превосходная синтетическая доступность, решающая задачи со скоростью до 72%;
* отличный геометрический и энергетический реализм, сгенерированные конформеры близко соответствуют распределениям длин связей, углов и диэдров экспериментальных наборов данных;
* практическая полезность, позволяющая напрямую генерировать синтетические маршруты вместе с трёхмерными координатами.

Эти преимущества делают SYNCOGEN ценным инструментом для фармацевтической и химической промышленности, позволяя исследователям и фармацевтам проектировать молекулы, которые являются не только структурно значимыми, но и экспериментально осуществимыми.

Источник

Оставьте комментарий