Компания OpenAI только что представила GPT-5.3-Codex — новую агентскую модель кодирования, которая расширяет возможности Codex, позволяя ему не только писать и проверять код, но и выполнять широкий спектр задач на компьютере.
Основные характеристики модели
Модель объединяет возможности кодирования GPT-5.2-Codex с логическими и профессиональными знаниями GPT-5.2 в единую систему и работает на 25% быстрее для пользователей Codex благодаря улучшениям инфраструктуры и выводов.
Для разработчиков GPT-5.3-Codex позиционируется как агент кодирования, который может выполнять длительные задачи, связанные с исследованиями, использованием инструментов и сложным исполнением, оставаясь при этом управляемым «как коллега» во время выполнения.
Оценка агентских возможностей и результатов тестирования
OpenAI оценивает GPT-5.3-Codex по четырём ключевым тестам, которые нацелены на реальное кодирование и агентское поведение: SWE-Bench Pro, Terminal-Bench 2.0, OSWorld-Verified и GDPval.
На SWE-Bench Pro, устойчивом к загрязнениям тесте, построенном на реальных проблемах и запросах GitHub на четырёх языках, GPT-5.3-Codex достигает 56,8% с высокими усилиями по рассуждению. Это немного лучше, чем у GPT-5.2-Codex и GPT-5.2 на том же уровне усилий.
Terminal-Bench 2.0, который измеряет навыки работы с терминалом, необходимые агентам кодирования, показывает более значительный разрыв: GPT-5.3-Codex достигает 77,3%, что значительно выше, чем у предыдущих моделей.
На OSWorld-Verified, агентском тесте использования компьютера, где агенты выполняют задачи по повышению производительности в визуальной среде рабочего стола, GPT-5.3-Codex достигает 64,7%. Люди набирают около 72% в этом тесте, что даёт приблизительную точку отсчёта на уровне человека.
Для профессиональной работы с знаниями GPT-5.3-Codex оценивается с помощью GDPval, оценки, представленной в 2025 году, которая измеряет производительность по чётко заданным задачам в 44 профессиях. GPT-5.3-Codex достигает 70,9% побед или ничьих на GDPval, что соответствует GPT-5.2 при высоких усилиях по рассуждению.
Применение за пределами кодирования
OpenAI подчёркивает, что разработчики программного обеспечения, дизайнеры, менеджеры по продуктам и специалисты по данным выполняют широкий спектр задач помимо генерации кода. GPT-5.3-Codex создан для помощи на протяжении всего жизненного цикла разработки программного обеспечения: отладки, развёртывания, мониторинга, написания PRD, редактирования текстов, проведения пользовательских исследований, тестов и метрик.
С помощью пользовательских навыков, аналогичных тем, что использовались в предыдущих экспериментах GDPval, GPT-5.3-Codex создаёт полноценные рабочие продукты. Примеры в официальном блоге OpenAI включают слайды с финансовыми советами, документ для обучения розничной торговле, таблицу анализа NPV и презентацию в сфере моды.
Интерактивный сотрудник в приложении Codex
По мере того как модели становятся более совершенными, OpenAI видит основную задачу в обеспечении контроля человека над многими агентами, работающими параллельно. Приложение Codex разработано так, чтобы упростить управление и направление агентов, а с GPT-5.3-Codex оно приобретает больше интерактивного поведения.
Codex теперь предоставляет частые обновления во время выполнения, чтобы пользователи могли видеть ключевые решения и прогресс. Вместо того чтобы ждать одного окончательного результата, пользователи могут задавать вопросы, обсуждать подходы и управлять моделью в режиме реального времени. GPT-5.3-Codex объясняет, что он делает, и реагирует на обратную связь, сохраняя контекст. Это «поведение последующего взаимодействия» можно настроить в настройках приложения Codex.
Модель, которая помогла обучить и развернуть себя
GPT-5.3-Codex — первая модель в этом семействе, которая «сыграла важную роль в своём создании». OpenAI использовала ранние версии GPT-5.3-Codex для отладки собственного обучения, управления развёртыванием и диагностики результатов тестов и оценок.
Возможности в области кибербезопасности
GPT-5.3-Codex — первая модель, которую OpenAI классифицирует как «высокоспособную» для выполнения задач, связанных с кибербезопасностью, в соответствии со своей системой Preparedness Framework, и первая модель, обученная напрямую для выявления уязвимостей программного обеспечения.
OpenAI заявляет, что у неё нет окончательных доказательств того, что модель может автоматизировать кибератаки от начала до конца, и применяет осторожный подход, используя свой наиболее полный на сегодняшний день комплекс мер безопасности в киберпространстве.
Ключевые выводы
* Объединённая модель для кодирования и работы: GPT-5.3-Codex сочетает в себе возможности кодирования GPT-5.2-Codex с логическими и профессиональными возможностями GPT-5.2 в одной агентской модели и работает на 25% быстрее в Codex.
* Состояние на уровне искусства в кодировании и агентских тестах: модель устанавливает новые рекорды на SWE-Bench Pro (56,8% при xhigh), Terminal-Bench 2.0 (77,3%) и достигает 64,7% на OSWorld-Verified и 70,9% побед или ничьих на GDPval, часто используя меньше токенов, чем предыдущие модели.
* Поддержка долгосрочного веб- и прикладного разработки: используя такие навыки, как «разработка веб-игры», и общие последующие действия, такие как «исправить ошибку» и «улучшить игру», GPT-5.3-Codex автономно разработал сложные гоночные и дайвинг-игры на миллионы токенов, демонстрируя устойчивую способность к многошаговому развитию.
* Играет важную роль в собственном обучении и развёртывании: ранние версии GPT-5.3-Codex использовались для отладки процесса обучения, анализа поведения, оптимизации стека обслуживания, создания пользовательских конвейеров и суммирования крупномасштабных альфа-логов, что сделало его первой моделью Codex, «сыгравшей важную роль в своём создании».
* Высокоэффективная модель кибербезопасности с ограниченным доступом: GPT-5.3-Codex — первая модель OpenAI, оценённая как «высокоэффективная» для киберпространства, и первая, обученная напрямую для выявления уязвимостей программного обеспечения. OpenAI дополняет её Trusted Access for Cyber, расширенной бета-версией Aardvark и бесплатным сканированием кодовой базы для таких проектов, как Next.js.
1. Какие ключевые характеристики отличают модель GPT-5.3-Codex от предыдущих версий?
Ответ: модель GPT-5.3-Codex отличается от предыдущих версий тем, что объединяет возможности кодирования GPT-5.2-Codex с логическими и профессиональными знаниями GPT-5.2. Она работает на 25% быстрее для пользователей Codex благодаря улучшениям инфраструктуры и выводов.
2. Какие тесты используются для оценки агентских возможностей и результатов GPT-5.3-Codex?
Ответ: для оценки агентских возможностей и результатов GPT-5.3-Codex используются четыре ключевых теста: SWE-Bench Pro, Terminal-Bench 2.0, OSWorld-Verified и GDPval. Эти тесты нацелены на реальное кодирование и агентское поведение.
3. В каких областях, помимо кодирования, может применяться GPT-5.3-Codex?
Ответ: GPT-5.3-Codex может применяться в различных областях помимо кодирования, таких как отладка, развёртывание, мониторинг, написание PRD, редактирование текстов, проведение пользовательских исследований, тестов и метрик. Также модель может быть полезна разработчикам программного обеспечения, дизайнерам, менеджерам по продуктам и специалистам по данным.
4. Какие возможности предоставляет приложение Codex с моделью GPT-5.3-Codex?
Ответ: приложение Codex с моделью GPT-5.3-Codex предоставляет частые обновления во время выполнения, позволяя пользователям видеть ключевые решения и прогресс. Пользователи могут задавать вопросы, обсуждать подходы и управлять моделью в режиме реального времени. GPT-5.3-Codex объясняет свои действия и реагирует на обратную связь, сохраняя контекст.
5. Какие задачи, связанные с кибербезопасностью, может выполнять GPT-5.3-Codex?
Ответ: GPT-5.3-Codex классифицируется как «высокоспособная» модель для выполнения задач, связанных с кибербезопасностью. Она обучена для выявления уязвимостей программного обеспечения, но OpenAI подчёркивает, что у них нет окончательных доказательств того, что модель может автоматизировать кибератаки от начала до конца.