В этом руководстве мы пошагово создадим полноценного агента для научных открытий и увидим, как все компоненты взаимодействуют, формируя согласованный рабочий процесс исследования.

Шаг 1: загрузка литературного корпуса

Мы начнём с загрузки нашего литературного корпуса, создания модулей для поиска и обработки естественного языка (LLM), а затем соберём агентов, которые будут искать статьи, генерировать гипотезы, планировать эксперименты и создавать структурированные отчёты.

Шаг 2: построение TF-IDF векторизатора

Мы создаём TF-IDF векторизатор и встраиваем все аннотации, чтобы позже извлекать релевантные документы.

Шаг 3: реализация агента по поиску литературы

Мы преобразуем запросы пользователей в векторное пространство и определяем наиболее релевантные научные статьи с помощью косинусного сходства.

Шаг 4: планирование экспериментов

На основе извлечённой литературы и сгенерированной гипотезы мы проектируем и моделируем эксперименты.

Шаг 5: генерация отчёта

Мы генерируем полный отчёт в научном стиле, используя LLM. Мы собираем гипотезу, протокол, результаты и связанную работу в структурированный документ с чётко определёнными разделами.

Код

«`python
import sys, subprocess

def install_deps():
pkgs = [«transformers», «scikit-learn», «numpy»]
subprocess.check_call([sys.executable, «-m», «pip», «install», «-q»] + pkgs)

try:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
except ImportError:
install_deps()
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

[Код опущен для краткости]

class ScientificAgent:
def init(self):
self.litagent = LiteratureAgent(vectorizer, corpusmatrix, LITERATURE)
self.exp_agent = ExperimentAgent()
self.report_agent = ReportAgent()

def propose_hypothesis(self, question: str, hits: List[PaperHit]) -> str:
# [Код опущен для краткости]

def run_pipeline(self, question: str) -> str:
# [Код опущен для краткости]

if name == «main«:
research_question = (
«How can protein language model embeddings improve CRISPR off-target «
«prediction compared to sequence-only CNN baselines?»
)
agent = ScientificAgent()
finalreport = agent.runpipeline(research_question)
print(final_report)
«`

Мы оркестрируем весь конвейер, ищем литературу, генерируем гипотезу, планируем эксперимент, проводим моделирование и пишем отчёт. Затем мы запускаем систему для решения реальной исследовательской задачи и наблюдаем за полным рабочим процессом в действии. Этот шаг объединяет все модули в единый научный агент.

В заключение мы видим, как компактная кодовая база может превратиться в функционирующего ИИ-соисследователя, способного искать, рассуждать, моделировать и обобщать. Мы понимаем, как каждый фрагмент способствует созданию полного конвейера и как агентские компоненты усиливают друг друга при объединении. Кроме того, мы оказываемся в сильной позиции для расширения агента за счёт более богатых литературных источников, более реалистичных моделей и более сложной экспериментальной логики, продвигая наши научные исследования дальше с каждой итерацией.

1. Какие ключевые этапы включает в себя процесс создания полноценного агента для научных открытий?

Ответ:
Процесс создания полноценного агента для научных открытий включает в себя несколько ключевых этапов:
* загрузку литературного корпуса;
* построение TF-IDF векторизатора;
* реализацию агента по поиску литературы;
* планирование экспериментов;
* генерацию отчёта.

2. Какие технологии и инструменты используются для поиска и обработки естественного языка в агентской системе искусственного интеллекта?

Ответ:
Для поиска и обработки естественного языка в агентской системе искусственного интеллекта используются следующие технологии и инструменты:
* модули для поиска и обработки естественного языка (LLM);
* TF-IDF векторизатор;
* косинусное сходство для определения наиболее релевантных научных статей;
* AutoTokenizer и AutoModelForSeq2SeqLM из библиотеки transformers;
* TfidfVectorizer из scikit-learn;
* cosine_similarity из sklearn.metrics.pairwise.

3. Какие компоненты включает в себя класс ScientificAgent и как они взаимодействуют между собой?

Ответ:
Класс ScientificAgent включает в себя следующие компоненты:
* lit_agent — агент по поиску литературы;
* exp_agent — агент по планированию экспериментов;
* report_agent — агент по генерации отчёта.

Эти компоненты взаимодействуют между собой следующим образом:
* lit_agent ищет релевантные научные статьи на основе запроса пользователя;
* exp_agent планирует эксперименты на основе извлечённой литературы и сгенерированной гипотезы;
* report_agent генерирует полный отчёт в научном стиле, используя LLM.

4. Какие функции выполняет метод propose_hypothesis в классе ScientificAgent?

Ответ:
Метод propose_hypothesis в классе ScientificAgent выполняет функцию генерации гипотезы на основе запроса пользователя и найденных релевантных документов.

5. Какие модули и библиотеки используются для реализации научного агента и какие задачи они решают?

Ответ:
Для реализации научного агента используются следующие модули и библиотеки:
* transformers — для работы с естественным языком;
* scikit-learn — для векторизации текста и извлечения релевантных документов;
* numpy — для работы с массивами данных.

Эти модули и библиотеки решают следующие задачи:
* AutoTokenizer и AutoModelForSeq2SeqLM из библиотеки transformers используются для обработки естественного языка;
* TfidfVectorizer из scikit-learn используется для векторизации текста;
* cosine_similarity из sklearn.metrics.pairwise используется для определения косинусного сходства между запросами и документами.

Источник