Используя машинное обучение, инженеры-химики из Массачусетского технологического института (MIT) создали вычислительную модель, которая может предсказать, насколько хорошо любая заданная молекула растворится в органическом растворителе. Это ключевой шаг в синтезе почти любого фармацевтического препарата.
Предсказание растворимости
Новая модель, которая предсказывает, сколько растворённого вещества растворится в конкретном растворителе, должна помочь химикам выбирать правильный растворитель для любой заданной реакции в их синтезе, говорят исследователи. Обычные органические растворители включают этанол и ацетон, а также сотни других, которые также могут быть использованы в химических реакциях.
«Предсказание растворимости действительно является шагом, ограничивающим скорость, в планировании синтеза и производстве химических веществ, особенно лекарств, поэтому уже давно существует интерес к улучшению прогнозирования растворимости», — говорит Лукас Аттия, аспирант MIT и один из ведущих авторов нового исследования.
Исследователи сделали свою модель свободно доступной, и многие компании и лаборатории уже начали её использовать. Модель может быть особенно полезна для идентификации растворителей, которые менее опасны, чем некоторые из наиболее часто используемых промышленных растворителей, говорят исследователи.
«Есть некоторые растворители, которые, как известно, растворяют большинство веществ. Они действительно полезны, но наносят вред окружающей среде и людям, поэтому многие компании требуют, чтобы вы минимизировали количество используемых растворителей», — говорит Джексон Бёрнс, аспирант MIT, который также является ведущим автором статьи. «Наша модель чрезвычайно полезна для определения следующего по эффективности растворителя, который, как мы надеемся, будет гораздо менее вреден для окружающей среды».
Решение проблемы растворимости
Новая модель возникла в рамках проекта, над которым Аттия и Бёрнс работали вместе на курсе MIT по применению машинного обучения для решения задач химической инженерии. Традиционно химики предсказывали растворимость с помощью инструмента, известного как модель сольватации Абрахама, который можно использовать для оценки общей растворимости молекулы путём сложения вкладов химических структур внутри молекулы. Хотя эти прогнозы полезны, их точность ограничена.
В последние годы исследователи начали использовать машинное обучение, чтобы попытаться сделать более точные прогнозы растворимости. Перед тем как Бёрнс и Аттия начали работать над своей новой моделью, передовой моделью для прогнозирования растворимости была модель, разработанная в лаборатории Грина в 2022 году.
Эта модель, известная как SolProp, работает путём прогнозирования набора связанных свойств и комбинирования их с использованием термодинамики для окончательного прогнозирования растворимости. Однако модели сложно предсказать растворимость для растворённых веществ, которые она раньше не видела.
«Для разработки новой молекулы в процессе открытия лекарств и химикатов вы хотите иметь возможность заранее предсказать, как будет выглядеть её растворимость», — говорит Аттия.
Часть причины, по которой существующие модели растворимости работали не очень хорошо, заключается в том, что не было комплексного набора данных для их обучения. Однако в 2023 году был выпущен новый набор данных под названием BigSolDB, в котором собраны данные почти из 800 опубликованных статей, включая информацию о растворимости примерно 800 молекул, растворённых в более чем 100 органических растворителях, которые обычно используются в синтетической химии.
Аттия и Бёрнс решили попробовать обучить две разные модели на этих данных. Обе модели представляют химические структуры молекул с помощью числовых представлений, известных как вложения, которые включают такую информацию, как количество атомов в молекуле и какие атомы связаны с какими другими атомами. Модели могут затем использовать эти представления для прогнозирования различных химических свойств.
Одна из моделей, использованная в этом исследовании, известная как FastProp и разработанная Бёрнсом и другими в лаборатории Грина, включает «статические вложения». Это означает, что модель уже знает вложение для каждой молекулы до того, как начнёт какой-либо анализ.
Другая модель, ChemProp, изучает вложение для каждой молекулы во время обучения, одновременно изучая, как связать особенности вложения с такой характеристикой, как растворимость. Эта модель, разработанная в нескольких лабораториях MIT, уже использовалась для таких задач, как открытие антибиотиков, разработка липидных наночастиц и прогнозирование скорости химических реакций.
Исследователи обучили обе модели на более чем 40 000 точек данных из BigSolDB, включая информацию о влиянии температуры, которая играет значительную роль в растворимости. Затем они протестировали модели примерно на 1 000 растворённых веществах, которые были исключены из обучающих данных. Они обнаружили, что прогнозы моделей были в два-три раза более точными, чем у SolProp, предыдущей лучшей модели, и новые модели были особенно точны в прогнозировании изменений растворимости из-за температуры.
«Возможность точно воспроизвести эти небольшие изменения растворимости из-за температуры, даже когда общий экспериментальный шум очень велик, была действительно положительным признаком того, что сеть правильно научилась прогнозировать растворимость», — говорит Бёрнс.
Точные прогнозы
Исследователи ожидали, что модель, основанная на ChemProp, которая способна изучать новые представления по мере продвижения, сможет делать более точные прогнозы. Однако, к своему удивлению, они обнаружили, что две модели работают практически одинаково. Это говорит о том, что основным ограничением их производительности является качество данных, и что модели работают так хорошо, как теоретически возможно, основываясь на данных, которые они используют, говорят исследователи.
«ChemProp всегда должен превосходить любое статическое вложение, когда у вас достаточно данных», — говорит Бёрнс. «Мы были поражены, увидев, что статические и изученные вложения были статистически неразличимы по производительности во всех подмножествах, что указывает нам на то, что ограничения данных, присутствующие в этом пространстве, доминировали над производительностью модели».
Модели могли бы стать более точными, говорят исследователи, если бы были доступны лучшие обучающие и тестовые данные — в идеале, данные, полученные одним человеком или группой людей, обученных выполнять эксперименты одинаковым образом.
«Одной из больших ограничений использования таких скомпилированных наборов данных является то, что разные лаборатории используют разные методы и экспериментальные условия, когда они проводят тесты на растворимость. Это способствует вариативности между разными наборами данных», — говорит Аттия.
Поскольку модель, основанная на FastProp, делает свои прогнозы быстрее и имеет код, который другим пользователям проще адаптировать, исследователи решили сделать эту модель, известную как FastSolv, общедоступной. Несколько фармацевтических компаний уже начали её использовать.
«Есть приложения на протяжении всего процесса открытия лекарств», — говорит Бёрнс. «Мы также рады видеть, помимо разработки рецептур и открытия лекарств, где люди могут использовать эту модель».
Исследование было частично профинансировано Министерством энергетики США.
1. Какие проблемы решает новая модель, созданная инженерами-химиками из Массачусетского технологического института (MIT)?
Новая модель решает проблему предсказания растворимости молекул в органических растворителях. Это ключевой шаг в синтезе почти любого фармацевтического препарата.
2. Почему предсказание растворимости является важным шагом в планировании синтеза и производстве химических веществ?
Предсказание растворимости важно, поскольку оно позволяет химикам выбирать правильный растворитель для любой заданной реакции в их синтезе. Это ускоряет процесс разработки новых химических веществ и фармацевтических препаратов.
3. Какие модели использовались для прогнозирования растворимости до разработки новой модели MIT?
До разработки новой модели использовались модель сольватации Абрахама и модель SolProp, разработанная в лаборатории Грина в 2022 году. Однако эти модели имели ограниченную точность.
4. Какие данные использовались для обучения моделей FastProp и ChemProp?
Модели FastProp и ChemProp были обучены на более чем 40 000 точек данных из нового набора данных BigSolDB, который включает информацию о растворимости примерно 800 молекул, растворённых в более чем 100 органических растворителях.
5. Какие выводы сделали исследователи о производительности моделей FastProp и ChemProp?
Исследователи обнаружили, что прогнозы моделей FastProp и ChemProp были в два-три раза более точными, чем у SolProp, предыдущей лучшей модели. Они также обнаружили, что две модели работают практически одинаково, что указывает на то, что основным ограничением их производительности является качество данных.