Рекурсивные языковые модели (RLM): от концепции MIT до RLMEnv от Prime Intellect для агентов с длинным горизонтом LLM

Введение

Рекурсивные языковые модели (RLM) направлены на преодоление традиционного компромисса между длиной контекста, точностью и стоимостью в больших языковых моделях. Вместо того чтобы заставлять модель считывать гигантский запрос за один проход, RLM обрабатывают запрос как внешнюю среду и позволяют модели решать, как его изучить с помощью кода, а затем рекурсивно вызывать себя для более мелких фрагментов.

Основы

Полный ввод загружается в Python REPL как единая строковая переменная. Корневая модель, например GPT-5, никогда не видит эту строку напрямую в своём контексте. Вместо этого она получает системное приглашение, объясняющее, как считывать фрагменты переменной, писать вспомогательные функции, создавать подвызовы LLM и объединять результаты. Модель возвращает окончательный текстовый ответ, поэтому внешний интерфейс остаётся идентичным стандартной конечной точке завершения чата.

Дизайн RLM использует REPL в качестве контрольной плоскости для длинного контекста. Среда, обычно написанная на Python, предоставляет такие инструменты, как нарезка строк, поиск по регулярным выражениям и вспомогательные функции, такие как llm_query, которые вызывают экземпляр меньшей модели, например GPT-5-mini. Корневая модель пишет код, который вызывает эти вспомогательные функции для сканирования, разделения и обобщения внешней контекстной переменной.

Оценка

Исследование оценивает эту идею на четырёх бенчмарках с длинным контекстом с разной вычислительной структурой. На этих бенчмарках RLM демонстрируют значительное повышение точности по сравнению с прямыми вызовами LLM и общими агентами с длинным контекстом.

Новое от Prime Intellect

Команда Prime Intellect превратила эту концепцию в конкретную среду, RLMEnv, интегрированную в их стек верификаторов и Environments Hub. В их дизайне основной RLM имеет только Python REPL, а подмодели получают тяжёлые инструменты, такие как веб-поиск или доступ к файлам.

Ключевые выводы

1. RLM переосмысливают длинный контекст как переменную среды: рекурсивные языковые модели обрабатывают весь запрос как внешнюю строку в стиле Python REPL, которую LLM изучает и преобразует с помощью кода, вместо того чтобы считывать все токены напрямую в контекст Transformer.

2. Рекурсия во время вывода расширяет контекст до 10 миллионов токенов и более: RLM позволяют корневой модели рекурсивно вызывать подмодели LLM для выбранных фрагментов контекста, что обеспечивает эффективную обработку запросов примерно на два порядка длиннее, чем базовое окно контекста.

3. RLM превосходят общие структуры длинного контекста на сложных бенчмарках: варианты RLM для GPT-5 и Qwen3-Coder улучшают точность и F1 по сравнению с прямыми вызовами моделей, агентами поиска и суммирующими агентами, сохраняя при этом сопоставимую или более низкую стоимость за запрос.

4. Варианты только с REPL уже помогают, рекурсия критична для квадратичных задач: вариант только с REPL без рекурсивных подвызовов всё равно повышает производительность на некоторых задачах, что показывает ценность выгрузки контекста в среду, но для достижения больших успехов в условиях с плотным информационным наполнением, таких как OOLONG Pairs, требуются полноценные RLM.

5. Prime Intellect реализует RLM через RLMEnv и INTELLECT 3: команда Prime Intellect реализует парадигму RLM как RLMEnv, где корневая модель управляет песочницей Python REPL, вызывает инструменты через подмодели и записывает окончательный результат в переменную ответа, и сообщает о последовательных успехах в DeepDive, math python, Oolong и verbatim copy environments с такими моделями, как INTELLECT-3.

Реализация

В этом руководстве мы создадим продвинутую систему оценки с помощью агентов Strands для стресс-тестирования системы искусственного интеллекта, использующей инструменты, против атак с внедрением запросов и неправильного использования инструментов. Мы рассматриваем безопасность агентов как первоочередную инженерную задачу, управляя несколькими агентами, которые генерируют состязательные запросы, выполняют их против охраняемого целевого агента и оценивают ответы по структурированным критериям оценки.

Заключение

У нас есть полностью рабочая система безопасности, основанная на взаимодействии агентов, которая выходит за рамки простого тестирования запросов и переходит к систематической, повторяемой оценке. Мы показываем, как наблюдать за вызовами инструментов, обнаруживать утечку секретов, оценивать качество отказов и агрегировать результаты в структурированный отчёт для красной команды, который может направлять реальные проектные решения.

1. Какие основные преимущества рекурсивных языковых моделей (RLM) по сравнению с традиционными большими языковыми моделями (LLM)?

Ответ: RLM направлены на преодоление традиционного компромисса между длиной контекста, точностью и стоимостью в больших языковых моделях. Они позволяют модели решать, как изучить запрос с помощью кода, и рекурсивно вызывать себя для более мелких фрагментов. Это обеспечивает более эффективную обработку запросов и повышает точность по сравнению с прямыми вызовами LLM.

2. Какие инструменты предоставляет среда RLM для обработки длинного контекста?

Ответ: среда RLM предоставляет такие инструменты, как нарезка строк, поиск по регулярным выражениям и вспомогательные функции, такие как llm_query, которые вызывают экземпляр меньшей модели. Корневая модель пишет код, который вызывает эти вспомогательные функции для сканирования, разделения и обобщения внешней контекстной переменной.

3. Как команда Prime Intellect реализовала концепцию RLM?

Ответ: команда Prime Intellect превратила концепцию RLM в конкретную среду, RLMEnv, интегрированную в их стек верификаторов и Environments Hub. В их дизайне основной RLM имеет только Python REPL, а подмодели получают тяжёлые инструменты, такие как веб-поиск или доступ к файлам.

4. Какие ключевые выводы можно сделать из статьи о рекурсивных языковых моделях?

Ответ:
1. RLM переосмысливают длинный контекст как переменную среды.
2. Рекурсия во время вывода расширяет контекст до 10 миллионов токенов и более.
3. RLM превосходят общие структуры длинного контекста на сложных бенчмарках.
4. Варианты только с REPL уже помогают, рекурсия критична для квадратичных задач.
5. Prime Intellect реализует RLM через RLMEnv и INTELLECT 3.

5. Какие задачи решает продвинутая система оценки с помощью агентов Strands?

Ответ: продвинутая система оценки с помощью агентов Strands решает задачу стресс-тестирования системы искусственного интеллекта, использующей инструменты, против атак с внедрением запросов и неправильного использования инструментов. Она обеспечивает безопасность агентов, управляя несколькими агентами, которые генерируют состязательные запросы, выполняют их против охраняемого целевого агента и оценивают ответы по структурированным критериям оценки.

Источник