Знакомьтесь: Kosmos — учёный-ИИ, который автоматизирует открытия на основе данных

Kosmos, разработанный компанией Edison Scientific, — это автономная система открытий, которая проводит длительные исследовательские кампании с единой целью. Получив набор данных и задачу в открытом формате на естественном языке, он выполняет повторные циклы анализа данных, поиска в литературе и генерации гипотез, а затем объединяет результаты в полноценный научный отчёт со всеми ссылками.

Архитектура, модель мира и роли агентов

Основной конструктивный выбор — это структурированная модель мира, которая действует как долговременная память системы. Модель мира — это база данных сущностей, отношений, экспериментальных результатов и открытых вопросов, которая обновляется после каждой задачи. В отличие от простого контекстного окна, она структурирована и доступна для запросов, поэтому информация с ранних этапов остаётся доступной после десятков тысяч токенов.

Kosmos использует двух основных агентов: агент анализа данных и агент поиска в литературе. В каждом цикле система предлагает до 10 конкретных задач, основанных на цели исследования и текущей модели мира. Примеры включают запуск анализа дифференциальной численности в наборе данных метаболомики или поиск путей, связывающих ген-кандидат с фенотипом заболевания. Агенты пишут код, запускают его в среде блокнотов, извлекают и читают статьи, а затем записывают структурированные выходные данные и ссылки в модель мира.

Этот цикл повторяется много раз. В конце прогона отдельный компонент синтеза проходит по модели мира и выдаёт отчёт, в котором каждое утверждение связано либо с ячейкой блокнота Jupyter, либо с конкретным отрывком в основной литературе. Такая явная родословная важна в научных условиях, поскольку позволяет сотрудникам-людям проверять отдельные утверждения, а не рассматривать систему как чёрный ящик.

Точность и эквивалентность времени исследования

Команда оценивает качество отчётов, выбирая 102 утверждения из 3 репрезентативных отчётов Kosmos и предлагая экспертам в предметной области классифицировать каждое утверждение как подтверждённое или опровергнутое. В целом 79,4% утверждений признаны точными. Утверждения об анализе данных являются наиболее надёжными — около 85,5%, утверждения о литературе верны примерно в 82,1% случаев, а утверждения о синтезе, объединяющие доказательства, верны примерно в 57,9% случаев.

Чтобы оценить усилия, эквивалентные человеческим, авторы предполагают, что на типичную траекторию анализа данных уходит 2 часа, а на чтение статьи — 15 минут, затем подсчитывают траектории и количество статей за прогон. Это даёт около 4,1 человеко-месяца на типичный прогон, исходя из 40-часовой рабочей недели. В отдельном опросе 7 сотрудничающих учёных оценили 20-шаговый прогон Kosmos как эквивалентный примерно 6,14 месяцам их собственной работы над той же задачей, и это предполагаемое усилие примерно линейно зависит от количества циклов вплоть до 20.

Репрезентативные открытия

Kosmos протестирован на 7 тематических исследованиях, охватывающих метаболомику, материаловедение, неврологию, статистическую генетику и нейродегенерацию. В 3 случаях он независимо воспроизводит предыдущие результаты, полученные людьми, не имея доступа к оригинальным препринтам во время прогона. В 4 случаях он предлагает механизмы, которые авторы описывают как новые вклады в литературу.

В первом открытии Kosmos анализирует данные метаболомики из эксперимента с гипотермией у мышей. Он определяет нуклеотидный обмен как доминирующий изменённый путь в гипотермических мозгах, с уменьшением предшественников оснований и нуклеозидов и увеличением монофосфатных продуктов. Система приходит к выводу, что пути спасения нуклеотидов доминируют над de novo синтезом во время защитной гипотермии, что соответствует независимому анализу человека, который на момент прогона не был опубликован.

Во втором открытии Kosmos анализирует журналы окружающей среды из системы изготовления перовскитных солнечных элементов. Он восстанавливает человеческий результат о том, что абсолютная влажность во время термического отжига является основным фактором, определяющим эффективность устройства, и определяет критический порог влажности, описанный как фатальный фильтр, при превышении которого устройства выходят из строя. Это открытие соответствует препринту в области материаловедения, который не был доступен для Kosmos во время прогона из-за ограничений обучения модели и ограничений поиска.

В третьем открытии Kosmos получает реконструкции на уровне нейронов для нескольких видов и подгоняет распределения для длины нейритов, степени и количества синапсов. Он приходит к выводу, что распределения степени и синапсов лучше моделировать как логарифмически нормальные, а не как масштабные, и восстанавливает степенное масштабирование между длиной нейритов и количеством синапсов в большинстве наборов данных. Эти результаты соответствуют правилам подключения, представленным в более раннем препринте по неврологии.

Остальные четыре открытия описаны как новые. Они включают анализ менделевской рандомизации, который определяет циркулирующую супероксиддисмутазу 2 как защитный фактор для фиброза миокарда, определение механизма ранжирования, который объединяет апостериорные вероятности включения и мультиомные доказательства для локусов диабета 2 типа, протеомный анализ, который упорядочивает молекулярные события вдоль оси псевдовремени при болезни Альцгеймера, и крупномасштабный анализ одноядерной транскриптомки, который связывает возрастную потерю экспрессии флиппазы и воздействие сигналов фосфатидилсерина на уязвимость нейронов энторинальной коры.

Ключевые выводы

* Kosmos — это автономный учёный-ИИ, который работает до 12 часов над каждой задачей, выполняя около 42 000 строк кода и читая около 1500 статей за прогон, координируемый через структурированную модель мира.
* Система использует параллельных агентов для анализа данных и поиска в литературе, которые разделяют центральную модель мира, что позволяет Kosmos поддерживать согласованное долгосрочное рассуждение примерно в 200 развёртываниях агентов.
* Эксперты оценили 79,4% выбранных утверждений в отчётах как точные, причём утверждения об анализе данных и литературы имеют точность выше 80%, в то время как интерпретационные утверждения остаются менее надёжными.
* 20-цикловый прогон Kosmos оценён сотрудниками как эквивалентный примерно 6 месяцам усилий экспертов, а количество ценных находок примерно линейно зависит от количества циклов вплоть до 20.
* В 7 тематических исследованиях в области метаболомики, материаловедения, неврологии, статистической генетики и нейродегенерации Kosmos как воспроизводит неопубликованные или пост-обрезанные результаты, так и предлагает новые механизмы, при этом всё ещё требуя от учёных-людей выбора наборов данных и проверки.

Комментарии редакции

Kosmos показывает, что происходит, когда структурированная модель мира и независимые от предметной области агенты Edison доведены до пределов текущих инструментов LLM. Он обеспечивает измеримый выигрыш в глубине рассуждений, воспроизводимости и отслеживаемости, всё ещё полагаясь на учёных в области курирования данных, постановки целей и интерпретации утверждений о синтезе, которые остаются менее надёжными, чем утверждения об анализе данных и литературы. В целом, Kosmos — это сильный шаблон для ускоренной с помощью ИИ науки, а не замена человеческим исследователям.

1. Какие основные агенты используются в системе Kosmos и какие задачи они выполняют?

В системе Kosmos используются два основных агента: агент анализа данных и агент поиска в литературе. Агент анализа данных запускает анализ данных, а агент поиска в литературе ищет информацию в научных статьях. Вместе они выполняют задачи, связанные с анализом данных и поиском в литературе, а также пишут код, запускают его в среде блокнотов, извлекают и читают статьи, записывают структурированные выходные данные и ссылки в модель мира.

2. Какова точность отчётов, генерируемых системой Kosmos, и как она оценивается?

Точность отчётов, генерируемых системой Kosmos, оценивается путём выбора утверждений из отчётов и предложения экспертам в предметной области классифицировать каждое утверждение как подтверждённое или опровергнутое. В целом 79,4% утверждений признаны точными. Утверждения об анализе данных являются наиболее надёжными — около 85,5%, утверждения о литературе верны примерно в 82,1% случаев, а утверждения о синтезе, объединяющие доказательства, верны примерно в 57,9% случаев.

3. Сколько времени и усилий требуется для прогона системы Kosmos и как это соотносится с усилиями человека?

Для прогона системы Kosmos требуется около 4,1 человеко-месяца, исходя из 40-часовой рабочей недели. В отдельном опросе 7 сотрудничающих учёных оценили 20-шаговый прогон Kosmos как эквивалентный примерно 6,14 месяцам их собственной работы над той же задачей. Это предполагаемое усилие примерно линейно зависит от количества циклов вплоть до 20.

4. Какие открытия были сделаны с помощью системы Kosmos в различных областях науки?

С помощью системы Kosmos были сделаны открытия в области метаболомики, материаловедения, неврологии, статистической генетики и нейродегенерации. В трёх случаях Kosmos независимо воспроизвёл предыдущие результаты, полученные людьми, а в четырёх случаях предложил механизмы, которые авторы описывают как новые вклады в литературу.

5. Какие выводы можно сделать о роли системы Kosmos в научных исследованиях?

Kosmos — это автономный учёный-ИИ, который работает до 12 часов над каждой задачей, выполняя около 42 000 строк кода и читая около 1500 статей за прогон. Эксперты оценили 79,4% выбранных утверждений в отчётах как точные. Это показывает, что система может быть полезным инструментом для научных исследований, но всё ещё требует от учёных-людей выбора наборов данных и проверки результатов. В целом, Kosmos — это сильный шаблон для ускоренной с помощью ИИ науки, а не замена человеческим исследователям.

Источник