PokeeResearch-7B: агент глубокого исследования с обучением на основе обратной связи от ИИ

Pokee AI выпустила PokeeResearch-7B — агента глубокого исследования с 7 миллиардами параметров. Этот агент выполняет полные циклы исследований, разлагает запросы, выполняет поиск и чтение, проверяет ответы-кандидаты, а затем синтезирует несколько исследовательских потоков в окончательный ответ.

Структура и обучение

Агент работает по циклу исследования и проверки. В исследовании он вызывает внешние инструменты для веб-поиска и чтения страниц или предлагает промежуточный ответ. В проверке он сверяет ответ с полученными доказательствами и либо принимает его, либо перезапускает исследование. Эта структура снижает хрупкость траекторий и позволяет обнаружить очевидные ошибки до окончательного ответа.

PokeeResearch-7B настроен на основе Qwen2.5-7B-Instruct с использованием обучения с подкреплением без аннотаций (RLAIF) с алгоритмом REINFORCE Leave-One-Out (RLOO). Цели вознаграждения — семантическая корректность, достоверность цитирования и соблюдение инструкций, а не перекрытие токенов.

Каркас рассуждений и синтез исследовательских потоков

Каркас включает три механизма:
* Самокоррекция: агент обнаруживает некорректно сформированные вызовы инструментов и повторяет попытку.
* Самопроверка: агент проверяет свой ответ на соответствие доказательствам.
* Синтез исследовательских потоков: агент запускает несколько независимых потоков для каждого вопроса, суммирует их, а затем синтезирует окончательный ответ.

Исследовательская группа сообщает, что синтез повышает точность на сложных тестах.

Результаты в масштабе 7B

PokeeResearch-7B демонстрирует лучшую среднюю точность среди агентов глубокого исследования с 7 миллиардами параметров по 10 наборам данных. На HLE модель сообщает 15,2 без RTS и 17,6 с RTS. На GAIA модель сообщает 36,9 без RTS и 41,3 с RTS. На BrowseComp модель сообщает 5,4 без RTS и 8,4 с RTS.

Ключевые выводы

* Обучение: PokeeResearch-7B настраивает Qwen2.5-7B-Instruct с RLAIF, используя оценщик RLOO, оптимизируя вознаграждения для фактической точности, достоверности цитирования и соблюдения инструкций.
* Каркас: агент выполняет цикл исследования и проверки с синтезом исследовательских потоков, выполняя несколько независимых потоков, а затем синтезируя доказательства для окончательного ответа.
* Протокол оценки: тесты охватывают 10 наборов данных с 125 вопросами в каждом, кроме GAIA с 103, 4 потока на вопрос, средняя точность @4 оценивается с помощью Gemini-2.5-Flash-lite с ограничением в 100 ходов.
* Результаты и выпуск: PokeeResearch-7B сообщает о состоянии искусства среди агентов глубокого исследования с 7 миллиардами параметров, например, HLE 17,6 с RTS, GAIA 41,3 с RTS, BrowseComp 8,4 с RTS, и выпущен под лицензией Apache-2.0 с открытым кодом и весами.

Создание функционального корпоративного ИИ-ассистента

В этом руководстве мы рассмотрим, как можно создать компактного, но мощного корпоративного ИИ-ассистента, который без проблем работает на Colab. Мы начнём с интеграции генерации с извлечением (RAG) с использованием FAISS для извлечения документов и FLAN-T5 для генерации текста.

Интеграция моделей

* Генерация текста: мы используем FLAN-T5 для генерации текста.
* Встраивание представлений: мы используем MiniLM для встраивания представлений.
* Устройство: мы настраиваем обе модели для автоматического использования GPU, если он доступен.

Создание индекса

Мы разбиваем длинные тексты на управляемые фрагменты, чтобы их можно было эффективно встраивать и извлекать. Это помогает нашему ИИ-ассистенту обрабатывать контекстуальную информацию с большей точностью.

Проверка политики

Мы вводим правила цензуры личных данных и проверки политики, чтобы предотвратить неправильное использование данных.

Извлечение и ответы

Мы разрабатываем функцию извлечения, чтобы получать соответствующие разделы документов для каждого пользовательского запроса. Затем мы конструируем структурированный запрос, объединяющий контекст и вопросы для FLAN-T5, чтобы генерировать точные ответы.

Оценка

Мы оцениваем нашу систему, используя образцы корпоративных запросов, которые проверяют шифрование, RFP и процедуры реагирования на инциденты. Мы отображаем извлечённые документы, ответы и простые показатели частоты попаданий, чтобы проверить релевантность.

В заключение мы успешно создали самодостаточную корпоративную систему ИИ, которая извлекает, анализирует и отвечает на бизнес-запросы, сохраняя при этом надёжные ограждения.

1. Какие механизмы используются в PokeeResearch-7B для повышения точности ответов?

В PokeeResearch-7B используются три механизма: самокоррекция (агент обнаруживает некорректно сформированные вызовы инструментов и повторяет попытку), самопроверка (агент проверяет свой ответ на соответствие доказательствам) и синтез исследовательских потоков (агент запускает несколько независимых потоков для каждого вопроса, суммирует их, а затем синтезирует окончательный ответ).

2. Какие параметры используются для оценки эффективности PokeeResearch-7B?

Для оценки эффективности PokeeResearch-7B используются следующие параметры: семантическая корректность, достоверность цитирования, соблюдение инструкций, а также средняя точность на сложных тестах.

3. Какие модели и инструменты используются для создания корпоративного ИИ-ассистента?

Для создания корпоративного ИИ-ассистента используются следующие модели и инструменты: FLAN-T5 для генерации текста, MiniLM для встраивания представлений, FAISS для извлечения документов.

4. Какие шаги необходимо предпринять для создания индекса для корпоративного ИИ-ассистента?

Для создания индекса необходимо разбить длинные тексты на управляемые фрагменты, чтобы их можно было эффективно встраивать и извлекать. Это помогает ИИ-ассистенту обрабатывать контекстуальную информацию с большей точностью.

5. Какие меры предпринимаются для предотвращения неправильного использования данных корпоративным ИИ-ассистентом?

Для предотвращения неправильного использования данных вводятся правила цензуры личных данных и проверки политики.

Источник