Компания OpenAI только что представила GPT-5.2 — свою самую передовую модель для профессиональной работы и длительных агентов. Модель уже доступна в ChatGPT и через API.
GPT-5.2 — это семейство из трёх вариантов:
* В ChatGPT пользователи видят ChatGPT-5.2 Instant, Thinking и Pro.
* В API соответствующие модели — gpt-5.2-chat-latest, gpt-5.2 и gpt-5.2-pro.
* Instant ориентирован на повседневную помощь и обучение.
* Thinking предназначен для сложной многоэтапной работы и агентов.
* Pro выделяет больше вычислительных ресурсов для сложных технических и аналитических задач.
Профиль бенчмарка: от GDPval до SWE Bench
GPT-5.2 Thinking позиционируется как основная рабочая лошадка для интеллектуальной работы в реальных условиях. На GDPval, оценке специализированных задач по работе со знаниями в 44 профессиях в 9 крупных отраслях, модель превосходит или равна лучшим профессионалам отрасли в 70,9% сравнений, при этом работает более чем в 11 раз быстрее и при менее чем 1% стоимости работы эксперта.
Для инженерных команд это означает, что модель может надёжно генерировать такие артефакты, как презентации, электронные таблицы, расписания и диаграммы, при наличии структурированных инструкций.
На внутреннем бенчмарке задач по моделированию электронных таблиц для младших инвестиционных банков средние оценки повышаются с 59,1% при использовании GPT-5.1 до 68,4% при использовании GPT-5.2 Thinking и до 71,7% при использовании GPT-5.2 Pro.
В области разработки программного обеспечения GPT-5.2 Thinking достигает 55,6% на SWE-Bench Pro и 80,0% на SWE-bench Verified.
Длинные контексты и агентские рабочие процессы
Длинные контексты — основная цель разработки. GPT-5.2 Thinking устанавливает новый уровень в OpenAI MRCRv2, бенчмарке, который вставляет несколько идентичных запросов-игл в длинные диалоги и измеряет, может ли модель воспроизвести правильный ответ. Это первая модель, которая достигла почти 100% точности в варианте 4-иглой MRCR до 256 тыс. токенов.
Для рабочих нагрузок, которые превышают даже этот контекст, GPT-5.2 Thinking интегрируется с конечной точкой Responses /compact, которая выполняет сжатие контекста для расширения эффективного окна для длительных заданий, требующих использования инструментов.
Видение, наука и математика
Качество видения также улучшилось. GPT-5.2 Thinking примерно вдвое снижает количество ошибок при рассуждении о диаграммах и понимании пользовательского интерфейса на таких тестах, как CharXiv Reasoning и ScreenSpot Pro, когда включён инструмент Python. Модель демонстрирует улучшенное пространственное понимание изображений, например, при маркировке компонентов материнской платы с помощью приблизительных ограничивающих рамок, GPT-5.2 идентифицирует больше регионов с более плотным размещением, чем GPT-5.1.
Для научных задач GPT-5.2 Pro набирает 93,2% и GPT-5.2 Thinking — 92,4% на GPQA Diamond, а GPT-5.2 Thinking решает 40,3% задач FrontierMath с 1-го по 3-й уровень при включённом инструменте Python.
Таблица сравнения
| Модель | Основное позиционирование | Окно контекста / максимальный вывод | Отсечка знаний | Примечательные тесты (Thinking / Pro против GPT-5.1 Thinking) |
|———|—————————|————————————|—————|————————————————————-|
| GPT-5.1 | Флагманская модель для кодирования и агентских задач с настраиваемыми усилиями по рассуждению | 400 000 токенов контекста, 128 000 максимальный вывод | 2024-09-30 | SWE-Bench Pro 50,8%, SWE-bench Verified 76,3%, ARC-AGI-1 72,8%, ARC-AGI-2 17,6% |
| GPT-5.2 (Thinking) | Новая флагманская модель для кодирования и агентских задач в разных отраслях и для длительных агентов | 400 000 токенов контекста, 128 000 максимальный вывод | 2025-08-31 | GDPval выигрывает или равен 70,9% по сравнению с профессионалами отрасли, SWE-Bench Pro 55,6%, SWE-bench Verified 80,0%, ARC-AGI-1 86,2%, ARC-AGI-2 52,9% |
| GPT-5.2 Pro | Версия с более высокими вычислительными ресурсами для сложных рассуждений и научных задач, выдаёт более умные и точные ответы | 400 000 токенов контекста, 128 000 максимальный вывод | 2025-08-31 | GPQA Diamond 93,2% против 92,4% для GPT-5.2 Thinking и 88,1% для GPT-5.1 Thinking, ARC-AGI-1 90,5% и ARC-AGI-2 54,2% |
Ключевые выводы
* GPT-5.2 Thinking — новая модель по умолчанию: она заменяет GPT-5.1 Thinking в качестве основной модели для кодирования, интеллектуальной работы и агентов, сохраняя те же 400 тыс. контекста и 128 тыс. максимального вывода, но с явно более высокими показателями на GDPval, SWE-Bench, ARC-AGI и научных QA.
* Существенный скачок точности по сравнению с GPT-5.1 при аналогичном масштабе: на ключевых бенчмарках GPT-5.2 Thinking переходит с 50,8% до 55,6% на SWE-Bench Pro и с 76,3% до 80,0% на SWE-bench Verified, с 72,8% до 86,2% на ARC-AGI-1 и с 17,6% до 52,9% на ARC-AGI-2, сохраняя сопоставимые ограничения по токенам.
* GPT-5.2 Pro ориентирован на сложные рассуждения и науку: GPT-5.2 Pro — это вариант с более высокими вычислительными ресурсами, который в основном улучшает сложные рассуждения и научные задачи, например, достигает 93,2% на GPQA Diamond по сравнению с 92,4% для GPT-5.2 Thinking и 88,1% для GPT-5.1 Thinking, и более высокие баллы на уровнях ARC-AGI.
1. Какие варианты модели GPT-5.2 представлены в ChatGPT и через API?
В ChatGPT пользователи видят ChatGPT-5.2 Instant, Thinking и Pro. В API соответствующие модели — gpt-5.2-chat-latest, gpt-5.2 и gpt-5.2-pro.
2. В чём основное отличие между моделями GPT-5.2 Instant, Thinking и Pro?
Instant ориентирован на повседневную помощь и обучение. Thinking предназначен для сложной многоэтапной работы и агентов. Pro выделяет больше вычислительных ресурсов для сложных технических и аналитических задач.
3. Какие преимущества предлагает модель GPT-5.2 Thinking в сравнении с предыдущей версией GPT-5.1?
GPT-5.2 Thinking превосходит или равна лучшим профессионалам отрасли в 70,9% сравнений на GDPval, работает более чем в 11 раз быстрее и при менее чем 1% стоимости работы эксперта. Также модель демонстрирует улучшенное пространственное понимание изображений и достигает 55,6% на SWE-Bench Pro и 80,0% на SWE-bench Verified.
4. Какие задачи может решать GPT-5.2 Thinking в области разработки программного обеспечения?
GPT-5.2 Thinking достигает 55,6% на SWE-Bench Pro и 80,0% на SWE-bench Verified. Это говорит о том, что модель может быть использована для решения задач в области разработки программного обеспечения.
5. Как GPT-5.2 Thinking справляется с длинными контекстами?
GPT-5.2 Thinking устанавливает новый уровень в OpenAI MRCRv2, бенчмарке, который вставляет несколько идентичных запросов-игл в длинные диалоги и измеряет, может ли модель воспроизвести правильный ответ. Это первая модель, которая достигла почти 100% точности в варианте 4-иглой MRCR до 256 тыс. токенов. Для рабочих нагрузок, которые превышают даже этот контекст, GPT-5.2 Thinking интегрируется с конечной точкой Responses /compact, которая выполняет сжатие контекста для расширения эффективного окна для длительных заданий.