Компания Chroma выпустила Context-1: модель поискового агента на 20 миллиардов параметров для многоэтапного поиска, управления контекстом и масштабируемой генерации синтетических задач

В современном мире искусственного интеллекта «окно контекста» стало грубым инструментом. Нам говорят, что если мы просто расширим память передовой модели, проблема поиска исчезнет. Однако любой специалист по ИИ, работающий с системами RAG (Retrieval-Augmented Generation), знает: если поместить миллион токенов в запрос, это часто приводит к увеличению задержек, астрономическим затратам и сбоям в рассуждениях из-за «потерянности в середине», которые не решает даже большой объём вычислений.

Компания Chroma, стоящая за популярной открытой векторной базой данных, использует другой, более хирургический подход. Они выпустили Context-1 — модель поискового агента на 20 миллиардов параметров, предназначенную для выполнения специализированных задач поиска.

Вместо того чтобы быть универсальным механизмом рассуждений, Context-1 — это высокооптимизированный «разведчик».

Он создан для одной цели: находить нужные вспомогательные документы для сложных многоэтапных запросов и передавать их последующей передовой модели для получения окончательного ответа.

Рост агентских подсистем

Context-1 создан на основе gpt-oss-20B, архитектуры Mixture of Experts (MoE), которую компания Chroma настроила с помощью комбинации Supervised Fine-Tuning (SFT) и Reinforcement Learning (RL) через CISPO (поэтапную оптимизацию учебной программы).

Цель — не просто извлекать фрагменты; нужно выполнить последовательную задачу рассуждения. Когда пользователь задаёт сложный вопрос, Context-1 не просто обращается к индексу векторов один раз. Он разбивает высокоуровневый запрос на целевые подзапросы, выполняет параллельные вызовы инструментов (в среднем 2,56 вызова за ход) и выполняет поиск в корпусе итеративно.

Для специалистов по ИИ наиболее важным выводом здесь является архитектурный сдвиг: отделение поиска от генерации.

В традиционном конвейере RAG разработчик управляет логикой поиска. С Context-1 эта ответственность передана самой модели. Она работает внутри специальной агентской системы, которая позволяет ей взаимодействовать с такими инструментами, как searchcorpus (гибридный BM25 + плотный поиск), grepcorpus (регулярные выражения) и read_document.

Ключевая особенность: саморедактируемый контекст

Наиболее значимым техническим нововведением в Context-1 является саморедактируемый контекст.

Пока агент собирает информацию в несколько этапов, его окно контекста заполняется документами, многие из которых оказываются избыточными или нерелевантными для окончательного ответа. Общие модели в конечном итоге «захлёбываются» в этом шуме. Однако Context-1 обучен с точностью обрезки 0,94.

В середине поиска модель просматривает накопленный контекст и проактивно выполняет команду prune_chunks, чтобы отбросить нерелевантные фрагменты. Эта «мягкая обрезка» поддерживает контекстное окно в оптимальном состоянии, освобождая место для более глубокого исследования и предотвращая «контекстную гниль», которая поражает более длинные цепочки рассуждений.

Это позволяет специализированной модели на 20 миллиардов параметров поддерживать высокое качество поиска в пределах ограниченного контекста в 32 тысячи символов, даже при работе с наборами данных, для которых обычно требуются гораздо большие окна.

Создание «защищённого от утечек» бенчмарка: context-1-data-gen

Чтобы обучить и оценить модель многоэтапного рассуждения, нужны данные, в которых «истина» известна и для достижения которой требуется несколько шагов. Компания Chroma предоставила открытый исходный код инструмента, который они использовали для решения этой задачи: репозиторий context-1-data-gen.

Конвейер позволяет избежать ловушек статических тестов, генерируя синтетические многоэтапные задачи в четырёх конкретных областях:
* Веб: многоэтапные исследовательские задачи из открытого интернета.
* SEC: финансовые задачи, связанные с документами SEC (10-K, 20-F).
* Патенты: юридические задачи, связанные с поиском по базе данных патентов США.
* Электронная почта: поисковые задачи с использованием файлов Epstein и корпуса Enron.

Генерация данных основана на строгом шаблоне Explore → Verify → Distract → Index. Он создаёт «подсказки» и «вопросы», ответы на которые можно найти, только объединив информацию из нескольких документов.

Производительность: быстрее, дешевле и конкурентоспособнее GPT-5

Результаты тестов, опубликованные компанией Chroma, являются проверкой реальности для сторонников «фронтирных» моделей. Context-1 был оценён вместе с тяжеловесами эпохи 2026 года, включая gpt-oss-120b, gpt-5.2, gpt-5.4, а также семейства Sonnet/Opus 4.5 и 4.6.

В публичных тестах, таких как BrowseComp-Plus, SealQA, FRAMES и HotpotQA, Context-1 продемонстрировал производительность поиска, сопоставимую с передовыми моделями, которые на порядки крупнее.

Основные показатели эффективности для разработчиков ИИ:
* Скорость: Context-1 обеспечивает до 10 раз более быстрый вывод, чем универсальные передовые модели.
* Стоимость: запуск Context-1 примерно в 25 раз дешевле для тех же задач поиска.
* Парето-оптимальность: используя конфигурацию «4x» (запуск четырёх агентов Context-1 параллельно и объединение результатов с помощью взаимного ранжирования), можно достичь точности, сравнимой с одной моделью GPT-5.4, при меньших вычислительных затратах.

Ключевые выводы

* Стратегия модели «разведчик»: Context-1 — это специализированная модель поискового агента на 20 миллиардов параметров (созданная на основе gpt-oss-20B), предназначенная для выполнения задач поиска. Она доказывает, что компактная специализированная модель может превосходить массивные универсальные LLM в многоэтапном поиске.
* Саморедактируемый контекст: для решения проблемы «контекстной гнили» модель имеет точность обрезки 0,94, что позволяет ей проактивно удалять нерелевантные документы в середине поиска, чтобы поддерживать высокую эффективность окна контекста.
* Защищённый от утечек бенчмаркинг: открытый инструмент context-1-data-gen использует синтетический конвейер «Explore → Verify → Distract» для создания многоэтапных задач в областях веб, SEC, патентов и электронной почты, обеспечивая проверку моделей на основе рассуждений, а не запоминания данных.
* Разделение эффективности: сосредоточившись исключительно на поиске, Context-1 обеспечивает в 10 раз более быстрый вывод и в 25 раз более низкие затраты, чем передовые модели, такие как GPT-5.4, при этом сохраняя точность на сложных тестах, таких как HotpotQA и FRAMES.
* Будущее многоуровневой архитектуры RAG: этот выпуск пропагандирует многоуровневую архитектуру, в которой высокоскоростной подагент курирует «золотой контекст» для последующей передовой модели, эффективно решая проблемы задержек и сбоев в рассуждениях из-за массивных неуправляемых окон контекста.

1. Какие проблемы решает модель Context-1 в контексте многоэтапного поиска?

Ответ: модель Context-1 решает проблему многоэтапного поиска, выполняя специализированные задачи поиска и управляя контекстом. Она разбивает высокоуровневый запрос на целевые подзапросы, выполняет параллельные вызовы инструментов и выполняет поиск в корпусе итеративно. Это позволяет модели находить нужные вспомогательные документы для сложных многоэтапных запросов и передавать их последующей передовой модели для получения окончательного ответа.

2. Какие архитектурные особенности Context-1 отличают его от традиционных систем RAG?

Ответ: Context-1 отличается от традиционных систем RAG архитектурным сдвигом: отделением поиска от генерации. В традиционном конвейере RAG разработчик управляет логикой поиска, а с Context-1 эта ответственность передана самой модели. Она работает внутри специальной агентской системы, которая позволяет ей взаимодействовать с такими инструментами, как searchcorpus, grepcorpus и read_document.

3. Как Context-1 решает проблему «контекстной гнили»?

Ответ: Context-1 решает проблему «контекстной гнили» с помощью саморедактируемого контекста. Пока агент собирает информацию в несколько этапов, его окно контекста заполняется документами, многие из которых оказываются избыточными или нерелевантными для окончательного ответа. Context-1 обучен с точностью обрезки 0,94. В середине поиска модель просматривает накопленный контекст и проактивно выполняет команду prune_chunks, чтобы отбросить нерелевантные фрагменты. Эта «мягкая обрезка» поддерживает контекстное окно в оптимальном состоянии, освобождая место для более глубокого исследования и предотвращая «контекстную гниль».

4. Какие преимущества предлагает Context-1 по сравнению с более крупными моделями, такими как GPT-5?

Ответ: Context-1 предлагает несколько преимуществ по сравнению с более крупными моделями, такими как GPT-5. Во-первых, он обеспечивает до 10 раз более быстрый вывод, чем универсальные передовые модели. Во-вторых, запуск Context-1 примерно в 25 раз дешевле для тех же задач поиска. В-третьих, используя конфигурацию «4x» (запуск четырёх агентов Context-1 параллельно и объединение результатов с помощью взаимного ранжирования), можно достичь точности, сравнимой с одной моделью GPT-5.4, при меньших вычислительных затратах.

5. Какие области применения Context-1 упоминаются в статье?

Ответ: в статье упоминаются следующие области применения Context-1: веб (многоэтапные исследовательские задачи из открытого интернета), SEC (финансовые задачи, связанные с документами SEC), патенты (юридические задачи, связанные с поиском по базе данных патентов США) и электронная почта (поисковые задачи с использованием файлов Epstein и корпуса Enron).

Источник