Компания OpenAI выпустила две новые языковые модели с открытым весом: gpt-oss-120B и gpt-oss-20B. Их можно скачать, изучить, настроить и запустить на собственном оборудовании.
Знакомьтесь с моделями: технические чудеса с практическими возможностями
gpt-oss-120B
* Размер: 117 миллиардов параметров (с 5,1 миллиарда активных параметров на токен благодаря технологии Mixture-of-Experts).
* Производительность: на уровне OpenAI o4-mini (или лучше) в реальных тестах.
* Оборудование: работает на одном высокопроизводительном GPU — например, Nvidia H100 или картах класса 80GB. Серверная ферма не требуется.
* Возможности: имеет функции chain-of-thought и агентские возможности — идеально подходит для автоматизации исследований, технического письма, генерации кода и многого другого.
* Настраиваемость: поддерживает настраиваемое «усилие рассуждения» (низкое, среднее, высокое), чтобы можно было увеличить мощность при необходимости или сэкономить ресурсы, когда это не нужно.
* Контекст: обрабатывает до 128 000 токенов — достаточно текста, чтобы читать целые книги за один раз.
* Тонкая настройка: создана для лёгкой настройки и локального/частного вывода — без ограничений по скорости, полная конфиденциальность данных и полный контроль над развёртыванием.
gpt-oss-20B
* Размер: 21 миллиард параметров (с 3,6 миллиарда активных параметров на токен, также Mixture-of-Experts).
* Производительность: находится между o3-mini и o4-mini в задачах рассуждения — наравне с лучшими доступными «маленькими» моделями.
* Оборудование: работает на ноутбуках потребительского уровня — с 16 ГБ ОЗУ или эквивалентом это самая мощная модель с открытым весом, которую можно разместить на телефоне или локальном ПК.
* Мобильная готовность: специально оптимизирована для обеспечения низкой задержки, частного ИИ на устройстве для смартфонов (включая поддержку Qualcomm Snapdragon), периферийных устройств и любых сценариев, требующих локального вывода без использования облака.
* Агентские возможности: как и его старший брат, модель 20B может использовать API, генерировать структурированные выходные данные и выполнять код Python по запросу.
Технические подробности: Mixture-of-Experts и MXFP4 Quantization
Обе модели используют архитектуру Mixture-of-Experts (MoE), активируя лишь несколько «экспертных» подсетей на токен. В результате получаются огромные массивы параметров при скромном использовании памяти и молниеносном выводе — идеально для современного высокопроизводительного потребительского и корпоративного оборудования.
Добавьте к этому нативное квантование MXFP4, уменьшающее объём памяти модели без ущерба для точности. Модель 120B удобно размещается на одном современном GPU; модель 20B может работать на ноутбуках, настольных компьютерах и даже на мобильном оборудовании.
Влияние на реальный мир: инструменты для предприятий, разработчиков и энтузиастов
* Для предприятий: развёртывание на местах для обеспечения конфиденциальности данных и соответствия требованиям. Больше никакого «чёрного ящика» облачного ИИ: финансовый, медицинский и юридический секторы теперь могут владеть и защищать каждый бит своего рабочего процесса LLM.
* Для разработчиков: свобода экспериментировать, настраивать и расширять. Никаких ограничений API, никаких счетов SaaS, только чистый, настраиваемый ИИ с полным контролем над задержкой или стоимостью.
* Для сообщества: модели уже доступны на Hugging Face, Ollama и других платформах — от загрузки до развёртывания можно перейти за считанные минуты.
Как выглядит GPT-OSS?
Вот в чём дело: gpt-oss-120B — это первая свободно доступная модель с открытым весом, которая соответствует производительности топовых коммерческих моделей, таких как o4-mini. Вариант 20B не только устраняет разрыв в производительности для ИИ на устройствах, но и, вероятно, ускорит инновации и расширит границы возможного с локальными LLM.
Будущее снова открыто.
OpenAI’s GPT-OSS — это не просто выпуск; это призыв. Предоставляя разработчикам и исследователям передовые возможности рассуждения, использования инструментов и агентские возможности, OpenAI открывает двери перед целым сообществом создателей, исследователей и предприятий — не только для использования, но и для разработки, итераций и развития.
Ознакомьтесь с gpt-oss-120B, gpt-oss-20B и техническим блогом. Не стесняйтесь посетить нашу страницу GitHub, чтобы найти учебные пособия, коды и записные книжки. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в SubReddit (более 100 тысяч участников машинного обучения) и подписывайтесь на нашу рассылку.
1. Какие ключевые характеристики отличают модель gpt-oss-120B от других языковых моделей?
Ответ: модель gpt-oss-120B отличается большим размером (117 миллиардов параметров), высокой производительностью на уровне OpenAI o4-mini или лучше, возможностью работы на одном высокопроизводительном GPU (например, Nvidia H100), наличием функций chain-of-thought и агентских возможностей, настраиваемым «усилием рассуждения», способностью обрабатывать до 128 000 токенов и лёгкостью настройки для локального использования.
2. Каковы преимущества использования модели gpt-oss-20B по сравнению с другими моделями?
Ответ: модель gpt-oss-20B имеет меньший размер (21 миллиард параметров), оптимизирована для работы на ноутбуках потребительского уровня с 16 ГБ ОЗУ или эквивалентом, обеспечивает низкую задержку и подходит для смартфонов и периферийных устройств. Она также обладает агентскими возможностями, поддерживает API, генерацию структурированных выходных данных и выполнение кода Python по запросу.
3. Какие возможности предоставляют модели gpt-oss-120B и gpt-oss-20B для разработчиков и предприятий?
Ответ: модели gpt-oss-120B и gpt-oss-20B предоставляют разработчикам свободу экспериментировать, настраивать и расширять ИИ-решения без ограничений API и счетов SaaS. Для предприятий они обеспечивают возможность развёртывания на местах для обеспечения конфиденциальности данных и соответствия требованиям, позволяя владеть и защищать каждый бит рабочего процесса LLM в финансовом, медицинском и юридическом секторах.
4. Какие технологии используются в моделях gpt-oss-120B и gpt-oss-20B для оптимизации производительности?
Ответ: в моделях gpt-oss-120B и gpt-oss-20B используется архитектура Mixture-of-Experts (MoE) для активации лишь нескольких «экспертных» подсетей на токен, что позволяет получить огромные массивы параметров при скромном использовании памяти и высокой скорости вывода. Кроме того, применяется нативное квантование MXFP4, уменьшающее объём памяти модели без ущерба для точности.
5. Где можно найти модели gpt-oss-120B и gpt-oss-20B для загрузки и развёртывания?
Ответ: модели gpt-oss-120B и gpt-oss-20B уже доступны на Hugging Face, Ollama и других платформах. От загрузки до развёртывания можно перейти за считанные минуты.