Anthropic выпускает Claude 4.6 Sonnet с контекстом в 1 миллион токенов для решения сложных задач кодирования и поиска для разработчиков

Anthropic официально вступает в эру «Мышления». Сегодня компания анонсировала Claude 4.6 Sonnet — модель, призванную преобразить работу разработчиков и специалистов по работе с данными при обработке сложной логики. Наряду с этим выпуском представлена улучшенная функция веб-поиска с динамической фильтрацией — функция, которая использует внутреннее выполнение кода для проверки фактов в режиме реального времени.

Адаптивное мышление: новый логический движок

Ключевым обновлением в Claude 4.6 Sonnet является механизм адаптивного мышления. Доступ к нему осуществляется через расширенный API мышления. Это позволяет модели «приостанавливать» процесс и анализировать проблему, прежде чем генерировать окончательный ответ.

Вместо того чтобы сразу переходить к коду, модель создаёт внутренние монологи для проверки логических путей. Это можно увидеть в новом интерфейсе Thought. Для разработчика, отлаживающего сложное состояние гонки, это означает, что модель выявляет первопричину на этапе «мышления», а не угадывает в выводе кода.

Это улучшает задачи очистки данных. При обработке беспорядочного набора данных 4.6 Sonnet тратит больше вычислительного времени на анализ граничных случаев и несоответствий схем. Этот процесс значительно снижает количество «галлюцинаций», характерных для более быстрых моделей, не использующих рассуждения.

Бенчмарки: сокращение разрыва с Opus

Данные о производительности для 4.6 Sonnet показывают, что теперь модель дышит в спину флагманской модели Opus. Во многих категориях она является наиболее эффективной моделью-«рабочей лошадкой» из доступных на данный момент.

| Категория бенчмарка | Claude 3.5 Sonnet | Claude 4.6 Sonnet | Ключевое улучшение |
| — | — | — | — |
| SWE-bench Verified | 49,0% | 79,6% | Оптимизировано для исправления сложных ошибок и многофайлового редактирования. |
| OSWorld (использование компьютера) | 14,9% | 72,5% | Значительный прирост в автономной навигации по пользовательскому интерфейсу и использовании инструментов. |
| MATH | 71,1% | 88,0% | Улучшенные рассуждения для продвинутой алгоритмической логики. |
| BrowseComp (поиск) | 33,3% | 46,6% | Повышенная точность за счёт встроенной динамической фильтрации на основе Python. |

Оценка 72,5% в OSWorld является важным достижением. Это говорит о том, что Claude 4.6 Sonnet теперь может работать с электронными таблицами, веб-браузерами и локальными файлами с почти человеческой точностью. Это делает его основным кандидатом для создания автономных агентов «использования компьютера».

Поиск встречает Python: динамическая фильтрация

Улучшенный веб-поиск с динамической фильтрацией от Anthropic меняет способ взаимодействия ИИ с живым вебом. Большинство инструментов поиска ИИ просто собирают первые несколько результатов, которые находят.

Claude 4.6 Sonnet идёт другим путём. Он использует песочницу выполнения кода на Python для постобработки результатов поиска. Если вы ищете обновление библиотеки за 2025 год, модель пишет и запускает код для фильтрации любых результатов, которые старше указанной вами даты. Она также фильтрует по авторитетности сайта, отдавая приоритет техническим хабам вроде GitHub, Stack Overflow и официальной документации.

Это означает меньшее количество устаревших фрагментов кода. Модель выполняет «многоступенчатый поиск». Она выполняет первоначальный поиск, анализирует HTML и применяет фильтры, чтобы соотношение «шум-сигнал» оставалось низким. Это повысило точность поиска с 33,3% до 46,6% при внутреннем тестировании.

Масштабирование и ценообразование для производства

Anthropic позиционирует 4.6 Sonnet как основную модель для приложений производственного уровня. Теперь она имеет контекстное окно в 1 миллион токенов в бета-версии. Это позволяет разработчикам вводить весь репозиторий или массивную техническую библиотеку в запрос, не теряя связности.

Цены и доступность:

* Стоимость ввода: 3 доллара за 1 миллион токенов.
* Стоимость вывода: 15 долларов за 1 миллион токенов.
* Платформы: доступна через Anthropic API, Amazon Bedrock и Google Cloud Vertex AI.

Модель также демонстрирует улучшенное соблюдение системных подсказок. Это критически важно для разработчиков, создающих агентов, требующих строгого форматирования JSON или определённых ограничений «персоны».

Ключевые выводы

* Механизм адаптивного мышления: заменяя старый бинарный режим «расширенного мышления», Claude 4.6 Sonnet представляет адаптивное мышление. Используя новый параметр усилий, модель может динамически решать, сколько рассуждений требуется для задачи, оптимизируя баланс между скоростью, стоимостью и интеллектом.
* Передовые агентские характеристики: модель устанавливает новые отраслевые стандарты для автономных агентов, набрав 79,6% в SWE-bench Verified для кодирования и 72,5% в OSWorld для использования компьютера. Эти оценки показывают, что теперь модель может работать со сложным программным обеспечением и средами пользовательского интерфейса с почти человеческой точностью.
* Контекстное окно в 1 миллион токенов: теперь доступное в бета-версии, контекстное окно расширено до 1 миллиона токенов. Это позволяет разработчикам вводить целые многорепозиторные кодовые базы или массивные технические архивы в одном запросе без потери фокуса или «забывания» инструкций моделью.
* Поиск через встроенное выполнение кода: новый улучшенный веб-поиск с динамической фильтрацией позволяет Claude писать и запускать код на Python для постобработки результатов поиска. Это гарантирует, что модель может программно фильтровать самые свежие и авторитетные источники (такие как GitHub или официальные документы) перед генерацией ответа.
* Эффективность для производства: Claude 4.6 Sonnet поддерживает конкурентоспособную цену в 3 доллара за 1 миллион входных токенов и 15 долларов за 1 миллион выходных токенов. В сочетании с новым API сжатия контекста разработчики теперь могут создавать долго работающих агентов, которые поддерживают «бесконечную» историю разговоров более экономично.

1. Какие ключевые обновления и улучшения были представлены в модели Claude 4.6 Sonnet?

В модели Claude 4.6 Sonnet представлено несколько ключевых обновлений и улучшений. Среди них: механизм адаптивного мышления, который позволяет модели «приостанавливать» процесс и анализировать проблему, прежде чем генерировать окончательный ответ; улучшенная функция веб-поиска с динамической фильтрацией, которая использует внутреннее выполнение кода для проверки фактов в режиме реального времени; увеличенное контекстное окно до 1 миллиона токенов, что позволяет разработчикам вводить целые многорепозиторные кодовые базы или массивные технические архивы в одном запросе без потери фокуса или «забывания» инструкций моделью.

2. Какие преимущества предоставляет механизм адаптивного мышления в Claude 4.6 Sonnet?

Механизм адаптивного мышления в Claude 4.6 Sonnet позволяет модели анализировать проблему и генерировать более точные и обоснованные ответы. Это особенно полезно при обработке сложной логики и решении задач, требующих глубокого анализа. Модель создаёт внутренние монологи для проверки логических путей, что улучшает качество ответов и снижает количество ошибок.

3. Какие улучшения были достигнуты в области поиска с помощью динамической фильтрации в Claude 4.6 Sonnet?

Улучшения в области поиска с помощью динамической фильтрации в Claude 4.6 Sonnet включают использование песочницы выполнения кода на Python для постобработки результатов поиска. Модель может писать и запускать код для фильтрации устаревших фрагментов кода или результатов, не соответствующих заданным критериям. Это повышает точность поиска и уменьшает количество устаревших или недостоверных источников в результатах.

4. Какие результаты были получены при тестировании Claude 4.6 Sonnet в различных категориях бенчмарков?

При тестировании Claude 4.6 Sonnet в различных категориях бенчмарков были получены следующие результаты: в SWE-bench Verified — 79,6%, в OSWorld — 72,5%, в MATH — 88,0%, в BrowseComp (поиск) — 46,6%. Эти результаты показывают, что модель является наиболее эффективной моделью-«рабочей лошадкой» из доступных на данный момент и может работать с электронными таблицами, веб-браузерами и локальными файлами с почти человеческой точностью.

5. Какие возможности предоставляет контекстное окно в 1 миллион токенов в Claude 4.6 Sonnet для разработчиков?

Контекстное окно в 1 миллион токенов в Claude 4.6 Sonnet позволяет разработчикам вводить целые многорепозиторные кодовые базы или массивные технические архивы в одном запросе без потери фокуса или «забывания» инструкций моделью. Это значительно упрощает работу с большими объёмами данных и позволяет разработчикам более эффективно решать сложные задачи.

Источник