Компания Anthropic выпустила обновлённую модель Claude Sonnet 4.5, которая устанавливает новый стандарт в области сквозной разработки программного обеспечения и использования компьютеров в реальных условиях.
Основные нововведения
- Изменения в продукте: модель включает контрольные точки Claude Code, встроенное расширение VS Code, инструменты для работы с API и памятью/контекстом.
- Агентный SDK: предоставляет те же инструменты, которые используются внутри компании Anthropic.
- Цены: остались неизменными по сравнению с Sonnet 4 ($3 за ввод/ $15 за вывод на миллион токенов).
Достижения
- SWE-bench Verified: модель достигла 77,2% точности на наборе данных SWE-bench Verified, используя простую двухинструментальную структуру (bash + file edit). При усреднении по 10 запускам без вычислений во время тестирования и бюджете в 200 тысяч «мыслей» модель достигла 78,2%, а при увеличении вычислений с параллельным сбором данных и отклонением — 82%.
- OSWorld-Verified: модель лидирует с результатом 61,4%, по сравнению с 42,2% у Sonnet 4, что отражает более эффективное управление инструментами и манипулирование пользовательским интерфейсом для задач на рабочем столе.
- Автономность в долгосрочной перспективе: команда наблюдала более 30 часов непрерывной работы над многоэтапными задачами кодирования, что является практическим скачком по сравнению с предыдущими ограничениями и напрямую влияет на надёжность агентов.
- Рассуждения и математика: модель демонстрирует значительные улучшения в общих оценках по рассуждениям и математике.
Что нового для агентов?
Sonnet 4.5 нацелен на уязвимые части реальных агентов: расширенное планирование, память и надёжную координацию инструментов. Агентный SDK от Anthropic раскрывает производственные шаблоны (управление памятью для длительных задач, разрешения, координация под-агентов), а не просто предоставляет конечную точку LLM.
Где можно запустить модель?
- Anthropic API и приложения: модель доступна через API и приложения Anthropic.
- AWS Bedrock: доступна через Bedrock с путями интеграции к AgentCore.
- Google Cloud Vertex AI: доступна через Vertex AI с поддержкой многоагентной координации через ADK/Agent Engine.
- GitHub Copilot: в стадии публичного предварительного просмотра в Copilot Chat (VS Code, веб, мобильный) и Copilot CLI.
Резюме
Claude Sonnet 4.5 разработан для длительных рабочих нагрузок с интенсивным использованием инструментов, а не для коротких демонстрационных запросов. С документированным результатом 77,2% на SWE-bench Verified, лидерством в OSWorld-Verified с результатом 61,4% и практическими обновлениями (контрольные точки, SDK, доступность в Copilot/Bedrock/Vertex), модель ориентирована на автономную работу, поддержку и управление компьютером. Независимая репликация определит, насколько долговечно утверждение «лучшая для кодирования», но цели дизайна (автономия, поддержка и управление компьютером) соответствуют реальным производственным проблемам сегодня.
1. Какие основные нововведения были представлены в модели Claude Sonnet 4.5 и как они могут повлиять на использование ИИ в разработке программного обеспечения?
Ответ:
Основные нововведения в модели Claude Sonnet 4.5 включают контрольные точки Claude Code, встроенное расширение VS Code, инструменты для работы с API и памятью/контекстом, а также агентный SDK. Эти нововведения могут значительно улучшить процесс сквозной разработки программного обеспечения и использования компьютеров в реальных условиях.
2. Какие достижения модели Claude Sonnet 4.5 были подтверждены независимыми тестами и как они сравниваются с предыдущими версиями?
Ответ:
Модель Claude Sonnet 4.5 достигла 77,2% точности на наборе данных SWE-bench Verified, что является значительным улучшением по сравнению с предыдущими версиями. Также модель лидирует с результатом 61,4% в OSWorld-Verified, что отражает более эффективное управление инструментами и манипулирование пользовательским интерфейсом для задач на рабочем столе.
3. Какие платформы и сервисы поддерживают запуск модели Claude Sonnet 4.5 и как это может повлиять на её распространение и использование?
Ответ:
Модель Claude Sonnet 4.5 доступна через Anthropic API и приложения, AWS Bedrock, Google Cloud Vertex AI и GitHub Copilot. Это может значительно расширить её распространение и использование, так как разработчики и компании могут легко интегрировать модель в свои проекты и приложения.
4. Какие практические обновления были внесены в модель Claude Sonnet 4.5 и как они способствуют её автономности и надёжности?
Ответ:
Практические обновления в модели Claude Sonnet 4.5 включают контрольные точки, SDK и улучшения в управлении памятью для длительных задач. Эти обновления способствуют автономности и надёжности модели, позволяя ей работать над многоэтапными задачами кодирования в течение более длительного времени.
5. Какие цели дизайна были поставлены при разработке Claude Sonnet 4.5 и как они соответствуют реальным производственным проблемам?
Ответ:
Цели дизайна Claude Sonnet 4.5 включают автономию, поддержку и управление компьютером. Эти цели соответствуют реальным производственным проблемам, так как модель ориентирована на длительную работу с интенсивным использованием инструментов, что делает её полезной для разработчиков и компаний, работающих над сложными проектами.