Anthropic выпускает Claude Sonnet 4.5 с новыми результатами в области кодирования и агентских технологий

Компания Anthropic выпустила обновлённую модель Claude Sonnet 4.5, которая устанавливает новый стандарт в области сквозной разработки программного обеспечения и использования компьютеров в реальных условиях.

Основные нововведения

Изменения в продукте: модель включает контрольные точки Claude Code, встроенное расширение VS Code, инструменты для работы с API и памятью/контекстом.

Агентный SDK: предоставляет те же инструменты, которые используются внутри компании Anthropic.

Цены: остались неизменными по сравнению с Sonnet 4 ($3 за ввод/ $15 за вывод на миллион токенов).

Достижения

SWE-bench Verified: модель достигла 77,2% точности на наборе данных SWE-bench Verified, используя простую двухинструментальную структуру (bash + file edit). При усреднении по 10 запускам без вычислений во время тестирования и бюджете в 200 тысяч «мыслей» модель достигла 78,2%, а при увеличении вычислений с параллельным сбором данных и отклонением — 82%.

OSWorld-Verified: модель лидирует с результатом 61,4%, по сравнению с 42,2% у Sonnet 4, что отражает более эффективное управление инструментами и манипулирование пользовательским интерфейсом для задач на рабочем столе.

Автономность в долгосрочной перспективе: команда наблюдала более 30 часов непрерывной работы над многоэтапными задачами кодирования, что является практическим скачком по сравнению с предыдущими ограничениями и напрямую влияет на надёжность агентов.

Рассуждения и математика: модель демонстрирует значительные улучшения в общих оценках по рассуждениям и математике.

Что нового для агентов?

Sonnet 4.5 нацелен на уязвимые части реальных агентов: расширенное планирование, память и надёжную координацию инструментов. Агентный SDK от Anthropic раскрывает производственные шаблоны (управление памятью для длительных задач, разрешения, координация под-агентов), а не просто предоставляет конечную точку LLM.

Где можно запустить модель?

Anthropic API и приложения: модель доступна через API и приложения Anthropic.

AWS Bedrock: доступна через Bedrock с путями интеграции к AgentCore.

Google Cloud Vertex AI: доступна через Vertex AI с поддержкой многоагентной координации через ADK/Agent Engine.

GitHub Copilot: в стадии публичного предварительного просмотра в Copilot Chat (VS Code, веб, мобильный) и Copilot CLI.

Резюме

Claude Sonnet 4.5 разработан для длительных рабочих нагрузок с интенсивным использованием инструментов, а не для коротких демонстрационных запросов. С документированным результатом 77,2% на SWE-bench Verified, лидерством в OSWorld-Verified с результатом 61,4% и практическими обновлениями (контрольные точки, SDK, доступность в Copilot/Bedrock/Vertex), модель ориентирована на автономную работу, поддержку и управление компьютером. Независимая репликация определит, насколько долговечно утверждение «лучшая для кодирования», но цели дизайна (автономия, поддержка и управление компьютером) соответствуют реальным производственным проблемам сегодня.

1. Какие основные нововведения были представлены в модели Claude Sonnet 4.5 и как они могут повлиять на использование ИИ в разработке программного обеспечения?

Ответ:
Основные нововведения в модели Claude Sonnet 4.5 включают контрольные точки Claude Code, встроенное расширение VS Code, инструменты для работы с API и памятью/контекстом, а также агентный SDK. Эти нововведения могут значительно улучшить процесс сквозной разработки программного обеспечения и использования компьютеров в реальных условиях.

2. Какие достижения модели Claude Sonnet 4.5 были подтверждены независимыми тестами и как они сравниваются с предыдущими версиями?

Ответ:
Модель Claude Sonnet 4.5 достигла 77,2% точности на наборе данных SWE-bench Verified, что является значительным улучшением по сравнению с предыдущими версиями. Также модель лидирует с результатом 61,4% в OSWorld-Verified, что отражает более эффективное управление инструментами и манипулирование пользовательским интерфейсом для задач на рабочем столе.

3. Какие платформы и сервисы поддерживают запуск модели Claude Sonnet 4.5 и как это может повлиять на её распространение и использование?

Ответ:
Модель Claude Sonnet 4.5 доступна через Anthropic API и приложения, AWS Bedrock, Google Cloud Vertex AI и GitHub Copilot. Это может значительно расширить её распространение и использование, так как разработчики и компании могут легко интегрировать модель в свои проекты и приложения.

4. Какие практические обновления были внесены в модель Claude Sonnet 4.5 и как они способствуют её автономности и надёжности?

Ответ:
Практические обновления в модели Claude Sonnet 4.5 включают контрольные точки, SDK и улучшения в управлении памятью для длительных задач. Эти обновления способствуют автономности и надёжности модели, позволяя ей работать над многоэтапными задачами кодирования в течение более длительного времени.

5. Какие цели дизайна были поставлены при разработке Claude Sonnet 4.5 и как они соответствуют реальным производственным проблемам?

Ответ:
Цели дизайна Claude Sonnet 4.5 включают автономию, поддержку и управление компьютером. Эти цели соответствуют реальным производственным проблемам, так как модель ориентирована на длительную работу с интенсивным использованием инструментов, что делает её полезной для разработчиков и компаний, работающих над сложными проектами.

Источник