Новые ИИ-модели Claude 4 от Anthropic способны выполнять многошаговые рассуждения.

В ходе своей первой конференции для разработчиков в четверг компания Anthropic представила две новые ИИ-модели, которые, по заявлениям стартапа, входят в число лучших в отрасли по результатам популярных бенчмарков.

Claude Opus 4 и Claude Sonnet 4, входящие в новое семейство моделей Claude 4, способны анализировать большие наборы данных, выполнять многоэтапные задачи и совершать сложные действия. Обе модели оптимизированы для работы с программированием, что делает их подходящими для написания и редактирования кода.

Платные пользователи и пользователи бесплатных чат-ботов Anthropic получат доступ к Sonnet 4, тогда как Opus 4 будет доступен только подписчикам платных тарифов. Стоимость использования Opus 4 через API (через платформы Amazon Bedrock и Google Vertex AI) составит $15/$75 за миллион токенов (ввод/вывод), а Sonnet 4 — $3/$15 за миллион токенов.

Токены представляют собой базовые единицы данных, с которыми работают ИИ-модели. Один миллион токенов эквивалентен примерно 750 000 словам — на 163 000 слов больше, чем в романе «Война и мир».

Анонс Claude 4 происходит на фоне амбициозных планов Anthropic по увеличению доходов. Согласно отчетам, стартап, основанный бывшими сотрудниками OpenAI, планирует увеличить выручку с прогнозируемых $2,2 млрд в этом году до $12 млрд к 2027-му. Недавно компания привлекла кредитную линию на $2,5 млрд и получила многомиллиардные инвестиции от Amazon и других инвесторов на фоне растущих затрат на разработку передовых моделей.

Конкуренты не упрощают Anthropic удержание лидерства в гонке ИИ. Хотя стартап ранее в этом году выпустил флагманскую модель Claude Sonnet 3.7 и инструмент для автоматизации кода Claude Code, такие компании, как OpenAI и Google, продолжают совершенствовать собственные модели и инструменты для разработчиков.

Opus 4, более мощная из двух новых моделей, способна сохранять «сфокусированное внимание» в многошаговых рабочих процессах. Sonnet 4, позиционируемый как «прямая замена» Sonnet 3.7, демонстрирует улучшения в работе с кодом, математикой и точности выполнения инструкций. Обе модели реже прибегают к «взлому системы вознаграждений» — использованию лазеек для выполнения задач.

Хотя Opus 4 превосходит Google Gemini 2.5 Pro и модели OpenAI o3 и GPT-4.1 в тесте SWE-bench Verified (оценка способностей к программированию), он уступает o3 в мультимодальном тесте MMMU и в GPQA Diamond — наборе вопросов уровня PhD по биологии, физике и химии.

Anthropic усилила меры безопасности для Opus 4, включая улучшенные фильтры вредоносного контента и киберзащиту. Внутренние тесты показали, что модель может «существенно повысить» возможности лиц с научно-техническим образованием в создании или применении химического, биологического или ядерного оружия, что соответствует уровню «ASL-3» в политике ответственного масштабирования компании.

Обе новые модели являются «гибридными» — они способны давать мгновенные ответы и использовать расширенное «мышление» для сложных рассуждений. В режиме рассуждения ИИ показывает пользователю упрощенное описание своего мыслительного процесса, что, как признает Anthropic, частично связано с защитой конкурентных преимуществ.

Модели могут параллельно использовать несколько инструментов (например, поисковые системы), переключаться между reasoning и инструментами для улучшения ответов, а также сохранять информацию в «памяти» для большей надежности.

Для разработчиков Anthropic улучшила Claude Code, добавив интеграцию с IDE (включая VS Code и JetBrains) и GitHub. Новый SDK позволяет подключать Claude Code к сторонним приложениям и использовать его как субпроцесс в поддерживаемых ОС.

Несмотря на прогресс, ИИ-модели все еще допускают ошибки в коде и создают уязвимости. Однако их потенциал для повышения производительности заставляет компании активнее внедрять такие инструменты. Anthropic обещает чаще обновлять модели, чтобы клиенты оставались «на переднем крае технологий».

Оставьте комментарий Отменить ответ