Ether0: модель LLM на 24 миллиарда параметров, обученная с помощью RL для решения сложных химических задач

Модели LLM (large language models) в основном повышают точность за счёт масштабирования предварительных данных для обучения и вычислительных ресурсов. Однако из-за ограниченности данных внимание переключилось на альтернативное масштабирование, включая обучение во время тестирования и масштабирование вычислений при выводе.

Модели рассуждений повышают производительность, выдавая мыслительные процессы перед ответами, первоначально с помощью подсказок CoT (Chain-of-Thought). Недавно было использовано пост-обучение с помощью reinforcement learning (RL). Научные области представляют идеальные возможности для моделей рассуждений. Причина в том, что они связаны с «обратными задачами», где оценка качества решения проста, но генерация решения остаётся сложной.

Техническая эволюция архитектур рассуждений

Модели рассуждений эволюционировали от ранних методов, основанных на подсказках, таких как CoT, zero-shot CoT и Tree of Thought, до сложных подходов RL через Group Relative Policy Optimization (GRPO) и масштабирование времени вывода. Более того, модели рассуждений в химии сосредоточены на основанных на знаниях тестах, а не на сложных задачах рассуждений. Примеры включают ретросинтез или молекулярный дизайн.

Хотя такие наборы данных, как GPQA-D и MMLU, оценивают химические знания, они не могут оценить сложные способности химического мышления. Текущие усилия по научному рассуждению остаются разрозненными. Ограниченные попытки включают OmniScience для общих наук, Med-R1 для медицинских задач обработки естественного языка и BioReason для геномных рассуждений. Однако комплексной системы для обучения крупномасштабных моделей химического мышления не существует.

Архитектура и принципы проектирования Ether0

Исследователи из FutureHouse предложили Ether0 — новую модель, которая рассуждает на естественном языке и выводит молекулярные структуры в виде строк SMILES. Она демонстрирует эффективность моделей рассуждений в химических задачах. Она превосходит передовые LLM, экспертов и общие химические модели.

Подход к обучению использует несколько оптимизаций по сравнению с RL. Это включает в себя дистилляцию рассуждений, динамический учебный план и инициализацию экспертной модели для повышения эффективности. Более того, анализируются такие факторы, как эффективность использования данных, режимы отказов и поведение при рассуждении. Этот анализ позволяет лучше понять полезность рассуждений при решении химических задач.

Тренировочный конвейер: интеграция дистилляции и GRPO

Модель использует многоэтапную процедуру обучения, чередуя этапы дистилляции и GRPO. Архитектура вводит четыре специальных токена. Эти токены разграничивают границы рассуждений и ответов. Обучение начинается с SFT (Supervised Fine-Tuning) на длинных последовательностях CoT, сгенерированных DeepSeek-R1. Они фильтруются по действительному формату SMILES и качеству рассуждений. Затем специалист RL оптимизирует политики для разных категорий задач с помощью GRPO. Затем дистилляция объединяет специализированные модели в универсальную. Это слияние происходит через SFT на правильных ответах, собранных во время обучения. На заключительном этапе применяется GRPO к объединённой модели. Это включает в себя непрерывную фильтрацию качества для удаления некачественных рассуждений и нежелательных молекулярных подструктур.

Оценка производительности и сравнительные тесты

Ether0 демонстрирует превосходную производительность по сравнению с LLM общего назначения, такими как Claude и o1, и химическими моделями, включая ChemDFM и TxGemma. Он достигает высочайшей точности по всем категориям открытых ответов, сохраняя при этом конкурентоспособную производительность по вопросам с множественным выбором.

Для эффективности использования данных модель превосходит традиционные молекулярные трансформеры. Она обучена всего на 60 000 реакциях по сравнению с полными наборами данных USPTO. Ether0 достигает 70% точности после просмотра 46 000 обучающих примеров. Молекулярные трансформеры достигли 64,1% на полных наборах данных. В условиях однократного запроса Ether0 превосходит все оценённые передовые модели.

Процедуры согласования безопасности успешно фильтруют 80% небезопасных вопросов без снижения производительности по основным химическим задачам.

Заключение: последствия для будущих научных LLM

В заключение исследователи представили Ether0 — модель на 24 миллиарда параметров, обученную на десяти сложных молекулярных задачах. Она значительно превосходит передовые LLM, экспертов в предметной области и специализированные модели. Это достигается за счёт чередующегося конвейера RL и дистилляции поведения. Модель демонстрирует исключительную эффективность использования данных и возможности рассуждений. Она превосходно справляется с химическими задачами с открытым ответом, включая молекулярный дизайн, завершение, модификацию и синтез. Однако ограничения включают потенциальные проблемы с обобщением за пределами органической химии. Кроме того, наблюдается потеря общего следования инструкциям и отсутствие интеграции инструментов.

Выпуск весов модели, данных для тестирования и функций вознаграждения закладывает основу для продвижения моделей научного рассуждения в различных областях.

Источник

Оставьте комментарий