Anthropic выпустила Claude Opus 4.6 с контекстом на 1 млн токенов, агентным программированием, адаптивным контролем рассуждений и расширенными возможностями инструментов безопасности

Anthropic представила Claude Opus 4.6 — свою наиболее функциональную на сегодняшний день модель, ориентированную на рассуждения в длинном контексте, агентное программирование и высокопроизводительную интеллектуальную работу. Модель основана на Claude Opus 4.5 и уже доступна на claude.ai, в Claude API и у основных облачных провайдеров под идентификатором claude-opus-4-6.

Фокус модели: агентская работа, а не просто ответы

Opus 4.6 предназначена для выполнения многошаговых задач, где модель должна планировать, действовать и вносить правки с течением времени. По словам команды Anthropic, они используют её в Claude Code и сообщают, что модель сосредотачивается на самых сложных частях задачи, лучше справляется с неоднозначными проблемами и сохраняет продуктивность в течение более длительных сеансов.

Модель склонна более глубоко размышлять и пересматривать свои рассуждения, прежде чем ответить. Это повышает производительность при решении сложных задач, но может увеличить затраты и задержку при выполнении простых задач. Anthropic предоставляет параметр /effort с 4 уровнями — low, medium, high (по умолчанию) и max — чтобы разработчики могли явно выбирать глубину рассуждений, скорость и стоимость за конечную точку или вариант использования.

Помимо программирования, Opus 4.6 ориентирован на практические задачи интеллектуальной работы:

* проведение финансового анализа;
* проведение исследований с поиском и просмотром;
* использование и создание документов, электронных таблиц и презентаций.

Внутри Cowork, автономной рабочей поверхности Anthropic, модель может выполнять многошаговые рабочие процессы, охватывающие эти артефакты без постоянного запроса со стороны человека.

Возможности длинного контекста и элементы управления для разработчиков

Opus 4.6 — первая модель класса Opus с контекстным окном на 1 млн токенов в бета-версии. Для запросов длиной более 200 тыс. токенов в этом режиме с контекстом на 1 млн цена возрастает до 10 долларов за 1 млн входных токенов и 37,50 долларов за 1 млн выходных токенов. Модель поддерживает до 128 тыс. выходных токенов, чего достаточно для очень длинных отчётов, обзоров кода или структурированных многофайловых правок в одном ответе.

Чтобы сделать долгосрочные агенты более управляемыми, Anthropic предлагает несколько функций платформы вокруг Opus 4.6:

* Адаптивное мышление: модель может решать, когда использовать расширенное мышление, исходя из сложности задачи и контекста, вместо того чтобы всегда работать на максимальной глубине рассуждений.
* Элементы управления усилиями: 4 дискретных уровня усилий (low, medium, high, max) обеспечивают чёткую поверхность управления для выбора между задержкой, качеством рассуждений и стоимостью.
* Сжатие контекста (бета-версия): платформа автоматически суммирует и заменяет старые части разговора по мере приближения заданного порога контекста, что снижает необходимость в специальной логике усечения.
* Вывод только в США: рабочие нагрузки, которые должны оставаться в регионах США, могут выполняться по цене 1,1× токена.

Эти элементы управления нацелены на распространённый в реальной жизни шаблон: агентские рабочие процессы, в которых накапливаются сотни тысяч токенов при взаимодействии с инструментами, документами и кодом на протяжении многих шагов.

Интеграция с продуктами: Claude Code, Excel и PowerPoint

Anthropic обновила свой продуктовый стек, чтобы Opus 4.6 могла обеспечивать более реалистичные рабочие процессы для инженеров и аналитиков.

В Claude Code новый режим «агентские команды» (исследовательский предварительный просмотр) позволяет пользователям создавать нескольких агентов, которые работают параллельно и координируют свои действия автономно. Это нацелено на задачи с большим объёмом чтения, такие как обзоры кодовых баз. Каждый субагент может быть взят под интерактивный контроль, в том числе через tmux, что соответствует инженерным рабочим процессам, ориентированным на терминал.

Claude в Excel теперь планирует, прежде чем действовать, может принимать неструктурированные данные и выводить структуру, а также может применять многоэтапные преобразования за один проход. В сочетании с Claude в PowerPoint пользователи могут переходить от необработанных данных в Excel к структурированным презентационным слайдам. Модель считывает макеты, шрифты и главные слайды, поэтому сгенерированные колоды остаются согласованными с существующими шаблонами. Claude в PowerPoint в настоящее время находится в исследовательском предварительном просмотре для планов Max, Team и Enterprise.

Профиль бенчмарка: кодирование, поиск, извлечение в длинном контексте

Команда Anthropic позиционирует Opus 4.6 как модель, соответствующую современному уровню по нескольким внешним бенчмаркам, которые важны для агентов кодирования, поисковых агентов и профессиональной поддержки принятия решений.

Ключевые результаты включают:

* GDPval-AA (экономически ценная интеллектуальная работа в финансах, юриспруденции и смежных областях): Opus 4.6 превосходит OpenAI GPT-5.2 примерно на 144 очка Elo и Claude Opus 4.5 на 190 очков. Это означает, что в прямых сравнениях Opus 4.6 побеждает GPT-5.2 в этой оценке примерно в 70% случаев.
* Terminal-Bench 2.0: Opus 4.6 достигает наивысшего балла по этому бенчмарку агентского программирования и системных задач.
* Humanity’s Last Exam: в этом междисциплинарном тесте на рассуждение с использованием инструментов (веб-поиск, выполнение кода и другие) Opus 4.6 лидирует среди других передовых моделей, включая GPT-5.2 и конфигурации Gemini 3 Pro.
* BrowseComp: Opus 4.6 показывает лучшие результаты, чем любая другая модель, в этом агентском поисковом бенчмарке. Когда модели Claude объединяются с многоагентной системой, результаты увеличиваются до 86,8%.

Извлечение в длинном контексте — центральное улучшение

В варианте 8-needle 1M MRCR v2 — бенчмарке «иголка в стоге сена», где факты скрыты в 1 млн токенов текста — Opus 4.6 набирает 76%, по сравнению с 18,5% для Claude Sonnet 4.5. Anthropic описывает это как качественный сдвиг в том, сколько контекста модель может фактически использовать без потери контекста.

Дополнительные повышения производительности в:

* анализе первопричин сложных программных сбоев;
* многоязычном программировании;
* долгосрочном согласовании и планировании;
* задачах кибербезопасности;
* науках о жизни, где Opus 4.6 работает почти в 2 раза лучше, чем Opus 4.5, в оценках вычислительной биологии, структурной биологии, органической химии и филогенетики.

На Vending-Bench 2, долгосрочном экономическом бенчмарке производительности, Opus 4.6 зарабатывает на 3 050,53 доллара больше, чем Opus 4.5 в соответствии с установленной настройкой.

Ключевые выводы

* Opus 4.6 — модель высшего уровня от Anthropic с контекстом на 1 млн токенов (бета-версия): поддерживает 1 млн входных токенов и до 128 тыс. выходных токенов, с премиальной ценой выше 200 тыс. токенов, что делает её подходящей для очень длинных кодовых баз, документов и многошаговых агентских рабочих процессов.
* Явные элементы управления глубиной и стоимостью рассуждений с помощью усилий и адаптивного мышления: разработчики могут настраивать /effort (low, medium, high, max) и позволить «адаптивному мышлению» решать, когда требуется расширенное рассуждение, открывая чёткий компромисс между задержкой, точностью и стоимостью для различных маршрутов и задач.
* Высокие показатели в бенчмарках по кодированию, поиску и задачам экономической ценности: Opus 4.6 лидирует в GDPval-AA, Terminal-Bench 2.0, Humanity’s Last Exam, BrowseComp и MRCR v2 1M, с большими преимуществами перед Claude Opus 4.5 и базовыми показателями класса GPT в длинном контексте и инструментальном мышлении.
* Тесная интеграция с Claude Code, Excel и PowerPoint для реальных рабочих нагрузок: агентские команды в Claude Code, структурированные преобразования в Excel и генерация PowerPoint с учётом шаблонов позиционируют Opus 4.6 в качестве основы для практических инженерных и аналитических рабочих процессов, а не только для чата.

1. Какие новые возможности предоставляет модель Claude Opus 4.6 по сравнению с предыдущими версиями?

Модель Claude Opus 4.6 предлагает более глубокое размышление и адаптивное мышление, что позволяет ей лучше справляться с неоднозначными проблемами и сохранять продуктивность в течение более длительных сеансов. Также модель поддерживает многошаговые задачи, где она может планировать, действовать и вносить правки с течением времени.

2. Какие параметры и уровни усилий доступны разработчикам для настройки глубины рассуждений модели?

Разработчики могут явно выбирать глубину рассуждений, скорость и стоимость за конечную точку или вариант использования с помощью параметра /effort с 4 уровнями — low, medium, high (по умолчанию) и max.

3. Какие практические задачи интеллектуальной работы может выполнять модель Claude Opus 4.6?

Claude Opus 4.6 ориентирована на практические задачи интеллектуальной работы, такие как проведение финансового анализа, проведение исследований с поиском и просмотром, использование и создание документов, электронных таблиц и презентаций.

4. Какие ключевые результаты были получены при тестировании модели Claude Opus 4.6 на внешних бенчмарках?

Ключевые результаты включают:
* GDPval-AA: Opus 4.6 превосходит OpenAI GPT-5.2 примерно на 144 очка Elo и Claude Opus 4.5 на 190 очков.
* Terminal-Bench 2.0: Opus 4.6 достигает наивысшего балла по этому бенчмарку агентского программирования и системных задач.
* Humanity’s Last Exam: в этом междисциплинарном тесте на рассуждение с использованием инструментов Opus 4.6 лидирует среди других передовых моделей.
* BrowseComp: Opus 4.6 показывает лучшие результаты, чем любая другая модель, в этом агентском поисковом бенчмарке.

5. Какие улучшения были сделаны в варианте 8-needle 1M MRCR v2 — бенчмарке «иголка в стоге сена»?

В варианте 8-needle 1M MRCR v2 — бенчмарке «иголка в стоге сена», где факты скрыты в 1 млн токенов текста, Opus 4.6 набирает 76%, по сравнению с 18,5% для Claude Sonnet 4.5. Это свидетельствует о качественном сдвиге в том, сколько контекста модель может фактически использовать без потери контекста.

Источник