Разработана химическая LLM для ускорения поиска лекарств

Учёные и инженеры из Southwest Research Institute создали специализированную большую языковую модель (LLM) для ускорения разработки и поиска лекарств.

Междисциплинарная команда разработала LLM под названием Generative Approaches for Molecular Encodings (GAMES) для генерации строк Simplified Molecular Input Line Entry System (SMILES).

SMILES — это стандартная система в отрасли, которая представляет структуру молекул с помощью короткой последовательности текстовых символов для облегчения хранения, поиска и моделирования. Исследователи научили GAMES понимать и генерировать допустимые новые комбинации SMILES.

«Этот проект демонстрирует систематический способ создания баз данных и сетей молекул для обработки и сравнения с помощью ИИ, используя только язык», — сказал учёный Института доктор Джонатан Боманн, ведущий разработчик программного обеспечения SwRI для молекулярного докинга Rhodium, предназначенного для виртуального скрининга лекарственных соединений.

Программное обеспечение Rhodium использует дескрипторы вместе с графической обработкой для визуализации химических свойств соединений. Включение GAMES в рабочий процесс Rhodium предлагает более быстрый обобщённый подход к открытию и разработке лекарств.

«Используя LLM, мы можем напрямую применять машинное обучение и ИИ к молекулам через строки SMILES, потому что они отображаются в виде читаемых текстовых символов и не требуют перевода в абстрактные представления», — сказал Боманн.

Исследователи обучили модель GAMES классам углеродсодержащих молекул и другим эталонным соединениям, чтобы проверить и настроить генерируемые ею строки SMILES.

«Этот проект демонстрирует возможности обучения LLM в высокотехнических научных областях для решения конкретных задач», — сказал ведущий компьютерный учёный SwRI Майкл Хартнетт. «В данном случае мы работаем в области поиска лекарств, и наша настройка направлена на раскрытие наиболее релевантных знаний».

GAMES сочетает в себе методы LoRA (Low-Rank Adaptation) и QLoRA (Quantized LoRA) для эффективной точной настройки LLM, сокращая аппаратные и энергетические затраты на работу моделей Rhodium.

Команда надеется применить этот подход и в других приложениях и областях Института.

«Использование LLM для генерации точных SMILES может преобразовать процесс поиска лекарств, особенно при обучении на конкретных наборах данных», — сказал учёный-исследователь SwRI Даниэль Инохоса. «Настроенные методы значительно улучшили производительность, увеличив количество допустимых SMILES при одновременном сокращении количества недопустимых выходных данных. Структурированные наборы данных и специальные методы обучения стали ключом к этому достижению».

Исследователи надеются, что GAMES предложит мощную основу для ранжирования соединений, найденных в химических библиотеках, на основе их пригодности для использования в качестве лекарств. Кроме того, они планируют систематически исследовать химические ландшафты с помощью тестирования. Инохоса и Боманн планируют получить дополнительное внутреннее финансирование для продвижения следующего этапа проекта.

«Хотя мы находимся на ранних стадиях разработки, результаты уже оказывают прямое влияние на текущие исследовательские программы в SwRI», — сказал Боманн.

Предоставлено Southwest Research Institute

Источник