Совместная работа компаний Meta, Национальной лаборатории Лоуренса в Беркли и Национальной лаборатории Лос-Аламоса позволила создать инструменты для молекулярного скрининга. На сервере препринтов arXiv опубликован «Open Molecules 2025» — набор данных, содержащий беспрецедентное количество молекулярных симуляций. Этот ресурс может ускорить внедрение машинного обучения в исследования в таких областях, как биология, материаловедение и энергетические технологии.
Набор данных «Open Molecules 2025»
Исследователь из Лос-Аламоса и участник проекта Майкл Г. Тейлор отметил: «Препятствием для молекулярного дизайна была экстремальная вычислительная стоимость, необходимая для достижения точности уровня квантовой химии. Чтобы обучить модели машинного обучения, способные достичь точности уровня квантовой химии, нам нужны огромные объёмы разнообразных и достоверных обучающих данных. “Open Molecules 2025” устраняет этот пробел, предлагая набор данных из более чем 100 миллионов расчётов теории функционала плотности, которые можно использовать для обучения моделей машинного обучения достаточно точно для решения всех видов химических задач».
Набор данных играет ключевую роль в использовании потенциала машинного обучения для химических приложений, таких как разработка новых лекарств для борьбы с болезнями или создание аккумуляторных ячеек для хранения энергии.
Расчёты теории функционала плотности в наборе данных позволяют получить точное понимание молекулярного поведения и взаимодействий на атомном уровне. Уникальное программное обеспечение, разработанное Тейлором, сыграло решающую роль в способности «Open Molecules 2025» достичь своих целей.
Для выполнения расчётов и создания набора данных в рамках сотрудничества использовались возможности программного обеспечения Architector, разработанного Тейлором. Architector — это современное программное обеспечение для прогнозирования трёхмерных структур металлических комплексов.
Металлические комплексы — это химические вещества, в которых центральный атом металла связан с множеством других молекул или атомов. Они представляют собой важную область химии, имеющую отношение к таким приложениям, как биология и материаловедение.
Комплекс программного обеспечения Architector, разработанный Тейлором и его коллегами в теоретическом отделе лаборатории, в основном применялся к элементам F-блока: лантаноидам, таким как церий и иттербий, и актинидам, таким как торий и уран. Элементы F-блока включают многие элементы, часто называемые редкоземельными элементами, которые ценны для множества промышленных целей, включая высокотехнологичные приложения в телекоммуникациях, визуализации, хранении данных и других областях.
Металлические комплексы представляют важный класс химии, исследуемый с помощью набора данных «Open Molecules 2025». Другие классы включают ионные молекулы, такие как белки и РНК, малые молекулы, которые могут стать основой для открытия лекарств, и металлы-электролиты, окружённые различными растворителями. По оценкам Тейлора, химия, исследуемая Architector, составляет до трети всего набора данных.
Компания Meta использовала свои огромные вычислительные мощности для выполнения расчётов теории функционала плотности. Проект «Open Molecules 2025» привёл к получению данных примерно о 20 000 структурах каждого из 17 редкоземельных элементов.
Следующий по величине набор данных, доступный в литературе, содержит примерно 1 000 структур на каждый редкоземельный элемент.
Огромные объёмы данных, полученные в результате проекта, теперь можно использовать для обучения других моделей машинного обучения за гораздо меньшее время и с меньшими затратами. Набор данных может привести к созданию предварительно обученных базовых моделей, которые можно будет доработать с минимальными дополнительными данными в интересующих областях.
Весь проект «Open Molecules 2025», включая начальные модели машинного обучения, обученные на этих данных, будет открыт для общественности, что даст исследователям возможность использовать данные и модели, соответствующие их исследованиям.
«Химический дизайн часто сводится к предсказанию свойств новых химических веществ с минимальной информацией и вычислительными затратами», — сказал Тейлор. «Наличие этого набора данных с возможностью обучения моделей машинного обучения для выполнения этой прогностической работы потенциально может изменить научные открытия».
Предоставлено Национальной лабораторией Лос-Аламоса.