Pokee AI выпустила PokeeResearch-7B — агента глубокого исследования с 7 миллиардами параметров. Этот агент выполняет полные циклы исследований, разлагает запросы, выполняет поиск и чтение, проверяет ответы-кандидаты, а затем синтезирует несколько исследовательских потоков в окончательный ответ.
Структура и обучение
Агент работает по циклу исследования и проверки. В исследовании он вызывает внешние инструменты для веб-поиска и чтения страниц или предлагает промежуточный ответ. В проверке он сверяет ответ с полученными доказательствами и либо принимает его, либо перезапускает исследование. Эта структура снижает хрупкость траекторий и позволяет обнаружить очевидные ошибки до окончательного ответа.
PokeeResearch-7B настроен на основе Qwen2.5-7B-Instruct с использованием обучения с подкреплением без аннотаций (RLAIF) с алгоритмом REINFORCE Leave-One-Out (RLOO). Цели вознаграждения — семантическая корректность, достоверность цитирования и соблюдение инструкций, а не перекрытие токенов.
Каркас рассуждений и синтез исследовательских потоков
Каркас включает три механизма:
* Самокоррекция: агент обнаруживает некорректно сформированные вызовы инструментов и повторяет попытку.
* Самопроверка: агент проверяет свой ответ на соответствие доказательствам.
* Синтез исследовательских потоков: агент запускает несколько независимых потоков для каждого вопроса, суммирует их, а затем синтезирует окончательный ответ.
Исследовательская группа сообщает, что синтез повышает точность на сложных тестах.
Результаты в масштабе 7B
PokeeResearch-7B демонстрирует лучшую среднюю точность среди агентов глубокого исследования с 7 миллиардами параметров по 10 наборам данных. На HLE модель сообщает 15,2 без RTS и 17,6 с RTS. На GAIA модель сообщает 36,9 без RTS и 41,3 с RTS. На BrowseComp модель сообщает 5,4 без RTS и 8,4 с RTS.
Ключевые выводы
* Обучение: PokeeResearch-7B настраивает Qwen2.5-7B-Instruct с RLAIF, используя оценщик RLOO, оптимизируя вознаграждения для фактической точности, достоверности цитирования и соблюдения инструкций.
* Каркас: агент выполняет цикл исследования и проверки с синтезом исследовательских потоков, выполняя несколько независимых потоков, а затем синтезируя доказательства для окончательного ответа.
* Протокол оценки: тесты охватывают 10 наборов данных с 125 вопросами в каждом, кроме GAIA с 103, 4 потока на вопрос, средняя точность @4 оценивается с помощью Gemini-2.5-Flash-lite с ограничением в 100 ходов.
* Результаты и выпуск: PokeeResearch-7B сообщает о состоянии искусства среди агентов глубокого исследования с 7 миллиардами параметров, например, HLE 17,6 с RTS, GAIA 41,3 с RTS, BrowseComp 8,4 с RTS, и выпущен под лицензией Apache-2.0 с открытым кодом и весами.
Создание функционального корпоративного ИИ-ассистента
В этом руководстве мы рассмотрим, как можно создать компактного, но мощного корпоративного ИИ-ассистента, который без проблем работает на Colab. Мы начнём с интеграции генерации с извлечением (RAG) с использованием FAISS для извлечения документов и FLAN-T5 для генерации текста.
Интеграция моделей
* Генерация текста: мы используем FLAN-T5 для генерации текста.
* Встраивание представлений: мы используем MiniLM для встраивания представлений.
* Устройство: мы настраиваем обе модели для автоматического использования GPU, если он доступен.
Создание индекса
Мы разбиваем длинные тексты на управляемые фрагменты, чтобы их можно было эффективно встраивать и извлекать. Это помогает нашему ИИ-ассистенту обрабатывать контекстуальную информацию с большей точностью.
Проверка политики
Мы вводим правила цензуры личных данных и проверки политики, чтобы предотвратить неправильное использование данных.
Извлечение и ответы
Мы разрабатываем функцию извлечения, чтобы получать соответствующие разделы документов для каждого пользовательского запроса. Затем мы конструируем структурированный запрос, объединяющий контекст и вопросы для FLAN-T5, чтобы генерировать точные ответы.
Оценка
Мы оцениваем нашу систему, используя образцы корпоративных запросов, которые проверяют шифрование, RFP и процедуры реагирования на инциденты. Мы отображаем извлечённые документы, ответы и простые показатели частоты попаданий, чтобы проверить релевантность.
В заключение мы успешно создали самодостаточную корпоративную систему ИИ, которая извлекает, анализирует и отвечает на бизнес-запросы, сохраняя при этом надёжные ограждения.
1. Какие механизмы используются в PokeeResearch-7B для повышения точности ответов?
В PokeeResearch-7B используются три механизма: самокоррекция (агент обнаруживает некорректно сформированные вызовы инструментов и повторяет попытку), самопроверка (агент проверяет свой ответ на соответствие доказательствам) и синтез исследовательских потоков (агент запускает несколько независимых потоков для каждого вопроса, суммирует их, а затем синтезирует окончательный ответ).
2. Какие параметры используются для оценки эффективности PokeeResearch-7B?
Для оценки эффективности PokeeResearch-7B используются следующие параметры: семантическая корректность, достоверность цитирования, соблюдение инструкций, а также средняя точность на сложных тестах.
3. Какие модели и инструменты используются для создания корпоративного ИИ-ассистента?
Для создания корпоративного ИИ-ассистента используются следующие модели и инструменты: FLAN-T5 для генерации текста, MiniLM для встраивания представлений, FAISS для извлечения документов.
4. Какие шаги необходимо предпринять для создания индекса для корпоративного ИИ-ассистента?
Для создания индекса необходимо разбить длинные тексты на управляемые фрагменты, чтобы их можно было эффективно встраивать и извлекать. Это помогает ИИ-ассистенту обрабатывать контекстуальную информацию с большей точностью.
5. Какие меры предпринимаются для предотвращения неправильного использования данных корпоративным ИИ-ассистентом?
Для предотвращения неправильного использования данных вводятся правила цензуры личных данных и проверки политики.