Научные исследования в таких областях, как химия, биология и искусственный интеллект, долгое время основывались на работе экспертов-людей, которые изучали знания, генерировали идеи, разрабатывали эксперименты и уточняли результаты. Однако по мере усложнения проблем и увеличения объёма данных процесс открытия новых знаний замедляется.
Хотя инструменты искусственного интеллекта, такие как языковые модели и робототехника, могут решать конкретные задачи, например, поиск литературы или анализ кода, они редко охватывают весь исследовательский цикл. Преодоление разрыва между генерацией идей и экспериментальной проверкой остаётся ключевой задачей. Чтобы искусственный интеллект мог самостоятельно продвигать науку, он должен выдвигать гипотезы, разрабатывать и проводить эксперименты, анализировать результаты и совершенствовать подходы в итеративном цикле.
Инструменты и проблемы до появления NovelSeek
До появления единой системы исследователи полагались на отдельные инструменты для каждого этапа процесса. Большие языковые модели могли помочь найти соответствующие научные статьи, но они не были напрямую связаны с разработкой экспериментов или анализом результатов. Робототехника может помочь в автоматизации физических экспериментов, а библиотеки кодирования, такие как PyTorch, могут помочь в создании моделей; однако эти инструменты работают независимо друг от друга. Не было единой системы, способной справиться со всем процессом — от формирования идей до их проверки с помощью экспериментов. Это приводило к узким местам, когда исследователям приходилось вручную соединять точки, замедляя прогресс и оставляя место для ошибок или упущенных возможностей.
NovelSeek: инновационный подход
Исследователи из команды NovelSeek в Шанхайской лаборатории искусственного интеллекта разработали NovelSeek — систему искусственного интеллекта, предназначенную для автономного выполнения всего процесса научных открытий. NovelSeek состоит из четырёх основных модулей, которые работают в тандеме:
* система, которая генерирует и совершенствует исследовательские идеи;
* цикл обратной связи, в котором эксперты могут взаимодействовать с этими идеями и совершенствовать их;
* метод преобразования идей в код и планы экспериментов;
* процесс проведения нескольких раундов экспериментов.
Что выделяет NovelSeek, так это его универсальность; он работает над 12 научными задачами, включая прогнозирование выхода химических реакций, понимание молекулярной динамики, прогнозирование временных рядов и выполнение таких функций, как семантическая сегментация 2D и классификация 3D-объектов. Команда разработала NovelSeek так, чтобы минимизировать участие человека, ускорить открытия и обеспечить стабильные, высококачественные результаты.
Система NovelSeek
Система NovelSeek включает в себя несколько специализированных агентов, каждый из которых сосредоточен на определённой части исследовательского рабочего процесса:
* Agent для поиска информации (Survey Agent) помогает системе понять проблему, выполняя поиск научных статей и выявляя релевантную информацию на основе ключевых слов и определений задач.
* Agent для анализа кода (Code Review Agent) изучает существующие кодовые базы, чтобы понять, как работают текущие методы, и выявить области для улучшения.
* Agent для генерации идей (Idea Innovation Agent) генерирует творческие исследовательские идеи, побуждая систему исследовать различные подходы и совершенствовать их, сравнивая с соответствующими исследованиями и предыдущими результатами.
* Agent для планирования и проведения экспериментов (Planning and Execution Agent) превращает идеи в детальные эксперименты, обрабатывает ошибки во время тестирования и обеспечивает бесперебойное выполнение многоэтапных исследовательских планов.
Результаты работы NovelSeek
Система NovelSeek продемонстрировала впечатляющие результаты в различных задачах:
* В прогнозировании выхода химических реакций NovelSeek улучшил производительность с 24,2% (с вариацией ±4,2) до 34,8% (с гораздо меньшей вариацией ±1,1) всего за 12 часов.
* В прогнозировании активности энхансеров, ключевой задаче в биологии, NovelSeek повысил коэффициент корреляции Пирсона с 0,65 до 0,79 за 4 часа.
* В 2D-семантической сегментации точность улучшилась с 78,8% до 81,0% всего за 30 часов.
Эти повышения производительности, достигнутые за небольшую часть времени, необходимого обычно, подчёркивают эффективность системы. NovelSeek также успешно управлял большими сложными кодовыми базами с несколькими файлами, демонстрируя свою способность решать исследовательские задачи на уровне проекта, а не только в небольших изолированных тестах.
Основные выводы из исследования NovelSeek
* NovelSeek поддерживает 12 исследовательских задач, включая прогнозирование химических реакций, молекулярную динамику и классификацию 3D-объектов.
* Точность прогнозирования выхода реакции улучшилась с 24,2% до 34,8% за 12 часов.
* Производительность прогнозирования активности энхансеров увеличилась с 0,65 до 0,79 за 4 часа.
* Точность 2D-семантической сегментации улучшилась с 78,8% до 81,0% за 30 часов.
* NovelSeek включает агентов для поиска литературы, анализа кода, генерации идей и проведения экспериментов.
* Система имеет открытый исходный код, что обеспечивает воспроизводимость и сотрудничество между научными областями.
В заключение, NovelSeek демонстрирует, как объединение инструментов искусственного интеллекта в единую систему может ускорить научные открытия и снизить зависимость от человеческих усилий. Он связывает воедино ключевые этапы — генерацию идей, превращение их в методы и проверку с помощью экспериментов — в один оптимизированный процесс. То, что когда-то занимало у исследователей месяцы или годы, теперь можно сделать за дни или даже часы. Связывая каждый этап исследования в непрерывный цикл, NovelSeek помогает командам быстрее переходить от первоначальных идей к реальным результатам. Эта система подчёркивает способность искусственного интеллекта не только помогать, но и стимулировать научные исследования таким образом, что это может изменить подход к открытиям во многих областях.