Moonshot AI представляет Kimi-Researcher: агента, обученного с помощью RL для решения сложных задач и поиска в интернете

Задача: масштабирование автономных агентов с помощью RL

Автономные агенты искусственного интеллекта (ИИ) находятся на переднем крае применения вычислительных возможностей для решения различных задач в реальном мире. Обучение с подкреплением (RL) — ключевой подход в создании агентов. Оно помогает вычислительным агентам учиться, многократно взаимодействуя с окружающей средой, тем самым улучшая свои процессы принятия решений с помощью вознаграждений и штрафов.

Обучение агентов для самостоятельной координации в сложных ситуациях, связанных с длительными взаимодействиями, адаптивным мышлением и динамическим поиском информации, является сложной задачей. Традиционные подходы, основанные либо на контролируемых данных, либо на строгих рабочих процессах, не могут обеспечить создание обобщаемых и гибких агентов, которые эффективно действуют в быстро меняющихся ситуациях, что создаёт серьёзные проблемы при разработке полноценного автономного интеллекта.

Ограничения существующих мультиагентных и контролируемых подходов

Текущие методы разработки агентов можно разделить на две широкие категории, каждая из которых имеет свои ограничения. Мультиагентные рабочие процессы, обычно используемые для решения сложных задач, распределяют роли экспертным субагентам, координируя их взаимодействие через фиксированные протоколы на основе подсказок. Несмотря на свою эффективность в структурированных ситуациях, эти стили требуют значительной ручной адаптации, чтобы оставаться актуальными при изменении агентов или задач, что ограничивает адаптивность и масштабируемость.

Аналогичным образом, процессы контролируемой тонкой настройки во многом основаны на имитационном обучении, используя демонстрации людей для передачи поведения агентов. Это требует интенсивного ручного мечения и создаёт жёсткость, что особенно проблематично в длительных автономных задачах или при непредсказуемом изменении переменных среды.

Оба подхода сталкиваются с трудностями в поддержании высокой функциональности агентов, что указывает на фундаментальную потребность в инновациях.

Введение: Kimi-Researcher — полностью обучен с помощью RL

Исследователи Moonshot AI представили Kimi-Researcher — нового автономного агента, обученного полностью с помощью инновационного сквозного подхода к обучению с подкреплением. Разработанный на основе внутренней модели серии Kimi, этот агент продемонстрировал заметное мастерство в многоходовом мышлении и обширных поисковых возможностях, автономно ориентируясь в сложных сценариях реального мира.

Метод обучения включает в себя предоставление агенту возможности самостоятельно исследовать множество стратегий, оценивать каждую траекторию на основе результатов и итеративно совершенствовать модель соответствующим образом. Этот целостный подход обучения исключает зависимость от вручную определённых ролей или обширных демонстраций с метками, представляя собой существенный сдвиг в сторону создания масштабируемых систем автономного интеллекта.

Синтетическое проектирование задач для использования инструментов и развития когнитивных способностей

Kimi-Researcher использует комплексную стратегию обучения, специально разработанную для развития передовых когнитивных способностей и навыков эффективного использования инструментов. Исследователи создали разнообразный синтетический корпус, намеренно встраивая сценарии, требующие эффективного использования конкретных вычислительных инструментов, таких как функции внутреннего поиска в реальном времени, интерактивные инструменты просмотра текста и среды автоматизированного выполнения кода.

Эти специально разработанные задачи по своей сути требуют сложного принятия решений и рассуждений, обеспечивая развитие у агента надёжных навыков организации эффективного использования инструментов. Команда систематически генерировала и проверяла обширные наборы сложных задач, требующих интенсивных рассуждений, включая математические вычисления, сценарии логического вывода, итеративные процессы поиска и алгоритмические упражнения по решению задач.

Продвинутые методы RL для оптимизации эффективности обучения

Исследователи внедрили передовые методы RL, специально адаптированные к сложности обучения агентов. Алгоритм REINFORCE, широко известный своей эффективностью в решении задач последовательного принятия решений, обеспечивает фундаментальный подход к обучению. Стратегические методы включали строгий контроль за траекториями обучения путём строгого соблюдения генерации данных в соответствии с политикой и выборочной обработки отрицательных образцов для предотвращения деградации обучения.

Структуры вознаграждений, необходимые для закрепления желательного поведения, включали как факторы правильности, так и эффективности траектории, используя механизмы гамма-распада для вознаграждения более коротких, эффективных исследовательских последовательностей по сравнению с более длинными, но столь же правильными альтернативами. Эти продуманные методологические усовершенствования значительно способствовали стабильности обучения и повышению квалификации агентов.

Результаты тестирования: современный уровень производительности Kimi-Researcher

Результаты, полученные Kimi-Researcher, подчёркивают его исключительную производительность в сложных комплексных тестовых наборах. Изначально получив скромные 8,6% на экзамене Humanity’s Last Exam (HLE), Kimi-Researcher значительно улучшил свои показатели и достиг современной точности Pass@1 в 26,9% благодаря исключительному обучению с подкреплением.

Способность агента к решению сложных задач была дополнительно продемонстрирована благодаря 69% Pass@1 на xbench-DeepSearch, тесте, оценивающем навыки глубокого поиска и рассуждения, превзойдя другие конкурентные модели, такие как o3 с инструментами поиска. Примечательно, что агент провёл в среднем 23 шага рассуждений на задачу и изучил более 200 уникальных URL-адресов, что отражает значительную автономность в принятии решений и адаптивность.

Управление контекстом и асинхронные развёртывания для длительных задач

Важным нововведением в рамках обучения стала система управления контекстом высокого уровня, которая могла обрабатывать большие окна контекста, характерные для длительных задач. В отсутствие управления контекстом производительность агента быстро снижалась из-за вычислительной перегрузки от больших информационных контекстов. Благодаря эффективному управлению контекстом, Kimi-Researcher смог поддерживать эффективную производительность в течение 50 итеративных циклов принятия решений, а также продемонстрировал улучшенное управление памятью и расстановку приоритетов информации.

Ключевые выводы: что отличает Kimi-Researcher

* Kimi-Researcher добился значительного улучшения благодаря сквозному обучению с помощью RL, особенно повысив свой показатель Pass@1 на экзамене Humanity’s Last Exam с 8,6% до 26,9%.
* Автономное решение сложных задач включало в себя в среднем 23 шага рассуждений и изучение более 200 URL-адресов на задачу, что подчёркивает значительную автономность в принятии решений и адаптивность.
* Были внедрены инновационные методы генерации синтетических данных, которые обеспечили надёжность и разнообразие задач в масштабе.
* Реализованы сложные методы управления контекстом, позволяющие поддерживать рассуждения в течение длительных итераций, что имеет решающее значение для длительных задач.
* Асинхронная инфраструктура развёртывания значительно повысила вычислительную эффективность, ускорив обучение как минимум в 1,5 раза по сравнению с традиционными синхронными моделями.
* Стратегические методы обучения RL, включая выборочный контроль отрицательных выборок и механизмы вознаграждения с гамма-распадом, повысили стабильность обучения и производительность.

Заключение: к созданию обобщаемых и адаптивных автономных агентов

В заключение, Kimi-Researcher представляет собой значительный прогресс в области агентского обучения с подкреплением, преодолевая значительные ограничения, присущие традиционным методам. Автономно управляя сложными многоходовыми рассуждениями, эффективным использованием инструментов, обширными динамическими поисковыми операциями и надёжной когнитивной обработкой с помощью сквозного обучения с подкреплением, Kimi-Researcher значительно превосходит предыдущие возможности.

TL;DR:

Moonshot AI представляет Kimi-Researcher — автономного агента, обученного с помощью RL для решения сложных задач и поиска в интернете. В отличие от традиционных мультиагентных систем или контролируемого обучения, Kimi-Researcher обучается посредством динамического взаимодействия и самооптимизации. Он демонстрирует значительные улучшения в сложных тестах, таких как Humanity’s Last Exam и xbench-DeepSearch, демонстрируя передовые возможности в многошаговом мышлении, использовании инструментов и исследовании.

Инновации включают в себя синтетическое проектирование задач, формирование вознаграждения с гамма-распадом, управление контекстом и асинхронные развёртывания, что приводит к созданию более масштабируемых, адаптируемых и обобщаемых агентов ИИ.

1. Какие ключевые инновации были внедрены при создании Kimi-Researcher и как они способствуют улучшению его производительности?

При создании Kimi-Researcher были внедрены следующие инновации:
* Синтетическое проектирование задач для развития когнитивных способностей и навыков использования инструментов.
* Передовые методы RL, адаптированные к сложности обучения агентов, включая алгоритм REINFORCE и строгий контроль за траекториями обучения.
* Управление контекстом высокого уровня для обработки больших информационных контекстов.
* Асинхронная инфраструктура развёртывания для повышения вычислительной эффективности.

Эти инновации способствуют улучшению производительности Kimi-Researcher за счёт повышения стабильности обучения, эффективности использования инструментов и способности к многоходовому мышлению.

2. Какие методы RL были использованы для обучения Kimi-Researcher и как они влияют на его способность к решению сложных задач?

Для обучения Kimi-Researcher были использованы передовые методы RL, адаптированные к сложности обучения агентов. В частности, был применён алгоритм REINFORCE, который обеспечивает фундаментальный подход к обучению в задачах последовательного принятия решений.

Методы включают строгий контроль за траекториями обучения путём генерации данных в соответствии с политикой и выборочной обработки отрицательных образцов для предотвращения деградации обучения. Структуры вознаграждений включают как факторы правильности, так и эффективности траектории, используя механизмы гамма-распада для вознаграждения более коротких, эффективных исследовательских последовательностей.

Эти методы способствуют стабильности обучения и повышению квалификации агентов, что влияет на их способность к решению сложных задач.

3. Какие результаты тестирования подтверждают высокую производительность Kimi-Researcher?

Результаты тестирования, подтверждающие высокую производительность Kimi-Researcher, включают:
* Значительное улучшение показателя Pass@1 на экзамене Humanity’s Last Exam с 8,6% до 26,9%.
* Достижение 69% Pass@1 на xbench-DeepSearch, тесте, оценивающем навыки глубокого поиска и рассуждения.
* Проведение в среднем 23 шагов рассуждений на задачу и изучение более 200 уникальных URL-адресов, что отражает значительную автономность в принятии решений и адаптивность.

Эти результаты подтверждают высокую производительность Kimi-Researcher в сложных комплексных тестовых наборах.

4. Какие преимущества предоставляет система управления контекстом высокого уровня, внедрённая в Kimi-Researcher?

Система управления контекстом высокого уровня, внедрённая в Kimi-Researcher, предоставляет следующие преимущества:
* Возможность обработки больших информационных контекстов, характерных для длительных задач.
* Поддержание эффективной производительности в течение 50 итеративных циклов принятия решений.
* Улучшенное управление памятью и расстановка приоритетов информации.

Эти преимущества способствуют повышению эффективности и стабильности работы агента в сложных условиях.

5. Какие факторы способствуют созданию масштабируемых, адаптируемых и обобщаемых агентов ИИ, таких как Kimi-Researcher?

Факторы, способствующие созданию масштабируемых, адаптируемых и обобщаемых агентов ИИ, таких как Kimi-Researcher, включают:
* Синтетическое проектирование задач для развития когнитивных способностей и навыков использования инструментов.
* Передовые методы RL, адаптированные к сложности обучения агентов.
* Управление контекстом высокого уровня для обработки больших информационных контекстов.
* Асинхронная инфраструктура развёртывания для повышения вычислительной эффективности.

Эти факторы способствуют созданию агентов ИИ, которые могут эффективно действовать в различных условиях и решать сложные задачи.

Источник

Оставьте комментарий