В этом руководстве мы создадим ультрасовременный рабочий процесс агентского ИИ, который ведёт себя как исследовательская и рассуждающая система производственного уровня, а не как единый запрос. Мы асинхронно используем реальные веб-источники, разбиваем их на фрагменты с отслеживанием происхождения, и выполняем гибридный поиск с использованием TF-IDF (разреженный) и вложений OpenAI (плотные), затем объединяем результаты для повышения полноты и стабильности.
Основные этапы:
1. Асинхронный сбор данных: мы асинхронно получаем данные из нескольких веб-источников и агрессивно дедуплицируем контент, чтобы избежать избыточных доказательств.
2. Преобразование сырых страниц в структурированный текст: мы преобразуем сырые страницы в структурированный текст и определяем основные модели данных, которые представляют фрагменты и результаты поиска.
3. Обеспечение отслеживания каждого фрагмента текста: мы гарантируем, что каждый фрагмент текста можно отследить до конкретного источника и индекса фрагмента.
Используемые инструменты:
- OpenAI API: для получения вложений.
- SQLite: для хранения эпизодической памяти.
- BeautifulSoup: для очистки HTML.
- Scikit-learn: для векторизации TF-IDF.
Эпизодическая память
Мы внедряем эпизодическую память на основе SQLite, чтобы система могла вспоминать, что работало в предыдущих запусках. Мы сохраняем вопросы, стратегии поиска и полезные источники, чтобы направлять будущее планирование.
Гибридный поиск
Мы строим гибридный поисковый индекс, который сочетает разреженный поиск TF-IDF с плотными вложениями OpenAI. Мы включаем взаимное ранжирование, чтобы разреженные и плотные сигналы дополняли друг друга, а не конкурировали.
Алгоритм работы
1. Сбор данных: асинхронно собираем данные из указанных URL.
2. Дедупликация: удаляем дубликаты контента.
3. Построение индекса: строим гибридный поисковый индекс.
4. Сбор доказательств: собираем доказательства для заданного запроса.
5. Планирование и синтез: планируем и синтезируем ответ на основе собранных доказательств.
6. Проверка и исправление: проверяем ответ на соответствие требованиям и исправляем при необходимости.
Пример использования
Мы разрабатываем комплексный агентский конвейер, устойчивый к распространённым режимам сбоев: нестабильным формам вложений, дрейфу цитирования и отсутствию обоснования в исполнительных резюме. Мы проверяем выходные данные на соответствие разрешённым источникам, извлекаем идентификаторы фрагментов, автоматически нормализуем цитирования и внедряем детерминированные цитирования, когда это необходимо, чтобы гарантировать соответствие без ущерба для корректности.
Заключение
Мы создали систему, которая может быть расширена более сильными оценками (оценка покрытия утверждений доказательствами, состязательная красная команда и регрессионные тесты) для постоянного укрепления системы по мере её масштабирования в новые домены и большие корпуса.
1. Какие инструменты и технологии используются для создания системы ИИ производственного уровня с гибридным поиском?
* В статье упоминаются следующие инструменты и технологии: OpenAI API для получения вложений, SQLite для хранения эпизодической памяти, BeautifulSoup для очистки HTML, Scikit-learn для векторизации TF-IDF.
2. Как обеспечивается отслеживание происхождения фрагментов текста в системе ИИ?
* В статье говорится, что каждый фрагмент текста можно отследить до конкретного источника и индекса фрагмента. Это достигается за счёт асинхронного сбора данных из нескольких веб-источников и дедупликации контента.
3. Какие этапы включает в себя алгоритм работы системы ИИ производственного уровня?
* Алгоритм работы включает в себя следующие этапы: сбор данных, дедупликация, построение индекса, сбор доказательств, планирование и синтез ответа, проверка и исправление.
4. Какие проблемы решает система ИИ производственного уровня с гибридным поиском?
* Система решает проблемы, связанные с нестабильными формами вложений, дрейфом цитирования и отсутствием обоснования в исполнительных резюме. Она также проверяет выходные данные на соответствие разрешённым источникам, извлекает идентификаторы фрагментов, автоматически нормализует цитирования и внедряет детерминированные цитирования.
5. Какие возможности предоставляет эпизодическая память в системе ИИ?
* Эпизодическая память позволяет системе вспоминать, что работало в предыдущих запусках. Она сохраняет вопросы, стратегии поиска и полезные источники, чтобы направлять будущее планирование. Это помогает системе улучшать свою работу на основе предыдущего опыта.