Введение
Выбор стека для вывода (inference) больших языковых моделей (LLM) в промышленном масштабе — это важная задача, которая влияет на производительность и стоимость системы. В этой статье мы рассмотрим четыре широко используемых стека: vLLM, TensorRT-LLM, Hugging Face Text Generation Inference (TGI v3) и LMDeploy.
1. vLLM: PagedAttention как открытая базовая линия
* Основная идея: vLLM построен на основе PagedAttention, реализации внимания, которая обрабатывает кэш KV как постраничную виртуальную память, а не как единый непрерывный буфер для каждой последовательности.
* Ключевые свойства: непрерывное пакетирование (inflight batching) объединяет входящие запросы в существующие пакеты GPU вместо ожидания фиксированных пакетных окон.
* Производительность: vLLM улучшает производительность в 2–4 раза по сравнению с такими системами, как FasterTransformer и Orca, при аналогичной задержке, с более значительным приростом для более длинных последовательностей.
* Многопользовательские и многомодельные настройки: каждый процесс vLLM обслуживает одну модель, многопользовательские и многомодельные настройки обычно строятся с помощью внешнего маршрутизатора или API-шлюза, который распределяет нагрузку по нескольким экземплярам vLLM.
2. TensorRT-LLM: аппаратный максимум на графических процессорах NVIDIA
* Основная идея: TensorRT-LLM — это оптимизированная библиотека вывода от NVIDIA для их графических процессоров. Библиотека предоставляет настраиваемые ядра внимания, непрерывное пакетирование, постраничное кэширование KV, квантование до FP4 и INT4, а также спекулятивное декодирование.
* Производительность: на H100 с FP8 TensorRT-LLM достигает более 10 000 выходных токенов в секунду при пиковой производительности для 64 одновременных запросов, с временем до первого токена около 100 мс.
* Оптимизация: TensorRT-LLM оптимизирует как фазу предварительной обработки (prefill), так и фазу декодирования, используя CUDA-графики, спекулятивное декодирование, квантованные веса и KV, а также слияние ядер.
3. Hugging Face TGI v3: специалист по длинным запросам и многозадачный шлюз
* Основная идея: Text Generation Inference (TGI) — это стек для обслуживания, основанный на Rust и Python, который добавляет HTTP и gRPC API, непрерывное пакетирование, наблюдаемость и крючки для автомасштабирования.
* Производительность: TGI v3 может обрабатывать примерно в 3 раза больше токенов в той же памяти GPU, сокращая объём памяти и используя сегментацию и кэширование.
* Архитектура: TGI разработан как архитектура маршрутизатора и серверной модели. Он может маршрутизировать запросы по многим моделям и репликам, нацеливаясь на разные бэкенды.
4. LMDeploy: TurboMind с заблокированным KV и агрессивным квантованием
* Основная идея: LMDeploy из экосистемы InternLM — это набор инструментов для сжатия и обслуживания LLM, основанный на движке TurboMind. Он фокусируется на высокой пропускной способности и заблокированном кэше KV.
* Производительность: LMDeploy обеспечивает до 1,8-кратного увеличения пропускной способности запросов по сравнению с vLLM.
* Квантование и задержка: LMDeploy включает поддержку квантования кэша KV, обычно int8 или int4, для сокращения объёма памяти KV и пропускной способности.
Выбор стека
* Если вам нужна максимальная пропускная способность и очень низкая задержка на графических процессорах NVIDIA, TensorRT-LLM — это основной выбор.
* Если вы работаете с длинными запросами с повторным использованием, такими как RAG по большим контекстам, TGI v3 — это сильный вариант по умолчанию.
* Если вы хотите простой, открытый движок с высокой базовой производительностью и API в стиле OpenAI, vLLM остаётся стандартной базовой линией.
* Если вы нацелены на открытые модели, такие как InternLM или Qwen, и цените агрессивное квантование с многомодельным обслуживанием, LMDeploy — хороший вариант.
GPT-5.1-Codex-Max: модель для агентского кодирования
OpenAI представила GPT-5.1-Codex-Max, модель для агентского кодирования, предназначенную для длительных задач разработки программного обеспечения, охватывающих миллионы токенов и многочасовые сессии. Модель доступна сегодня в Codex в CLI, расширении IDE, облачной интеграции и поверхностях для проверки кода, с планируемым доступом через API.
GPT-5.1-Codex-Max использует те же механизмы управления усилиями по рассуждению, что и GPT-5.1, но настроенные для кодирования агентов. Усилия по рассуждению определяют, сколько токенов для размышлений использует модель, прежде чем дать ответ.
В качественных тестах GPT-5.1-Codex-Max генерирует высококачественные фронтенд-дизайны с аналогичной функциональностью и визуальным качеством, но при более низкой общей стоимости токенов.
Ключевые выводы
* GPT-5.1-Codex-Max — это модель для агентского кодирования, построенная на обновлённой базе рассуждений, дополнительно обученная на реальных задачах разработки программного обеспечения.
* Модель вводит встроенную поддержку длительных рабочих процессов через сжатие, где она многократно сжимает свою историю, чтобы охватить несколько окон контекста, обеспечивая автономные сеансы кодирования, которые могут продолжаться более 24 часов.
* GPT-5.1-Codex-Max сохраняет контроль над усилиями по рассуждению из GPT-5.1, и при средних усилиях он превосходит GPT-5.1-Codex на SWE bench Verified, используя примерно на 30% меньше токенов для размышлений.
Вопросы для SEO и продвижения в ИИ:
1. Какие ключевые преимущества предлагает vLLM по сравнению с другими технологиями для промышленного вывода LLM?
Ответ: vLLM улучшает производительность в 2–4 раза по сравнению с такими системами, как FasterTransformer и Orca, при аналогичной задержке, с более значительным приростом для более длинных последовательностей. Также vLLM поддерживает многопользовательские и многомодельные настройки.
2. Какие особенности TensorRT-LLM делают его подходящим выбором для графических процессоров NVIDIA?
Ответ: TensorRT-LLM — это оптимизированная библиотека вывода от NVIDIA для их графических процессоров. Она предоставляет настраиваемые ядра внимания, непрерывное пакетирование, постраничное кэширование KV, квантование до FP4 и INT4, а также спекулятивное декодирование. На H100 с FP8 TensorRT-LLM достигает более 10 000 выходных токенов в секунду при пиковой производительности для 64 одновременных запросов, с временем до первого токена около 100 мс.
3. В чём заключается основная идея Hugging Face TGI v3 и как она влияет на производительность?
Ответ: Text Generation Inference (TGI) — это стек для обслуживания, основанный на Rust и Python, который добавляет HTTP и gRPC API, непрерывное пакетирование, наблюдаемость и крючки для автомасштабирования. TGI v3 может обрабатывать примерно в 3 раза больше токенов в той же памяти GPU, сокращая объём памяти и используя сегментацию и кэширование.
4. Какие факторы следует учитывать при выборе между vLLM, TensorRT-LLM, Hugging Face TGI v3 и LMDeploy для промышленного вывода LLM?
Ответ: при выборе стека для промышленного вывода LLM следует учитывать такие факторы, как требуемая пропускная способность, задержка, тип запросов (длинные или короткие), необходимость многопользовательских и многомодельных настроек, а также предпочтения по API и движку. Например, TensorRT-LLM подходит для максимальной пропускной способности и низкой задержки на графических процессорах NVIDIA, TGI v3 — для длинных запросов с повторным использованием, vLLM — для простого, открытого движка с высокой базовой производительностью и API в стиле OpenAI, а LMDeploy — для открытых моделей с агрессивным квантованием и многомодельным обслуживанием.
5. Какие особенности модели GPT-5.1-Codex-Max делают её подходящей для агентского кодирования?
Ответ: GPT-5.1-Codex-Max использует те же механизмы управления усилиями по рассуждению, что и GPT-5.1, но настроенные для кодирования агентов. Усилия по рассуждению определяют, сколько токенов для размышлений использует модель, прежде чем дать ответ. Модель вводит встроенную поддержку длительных рабочих процессов через сжатие, где она многократно сжимает свою историю, чтобы охватить несколько окон контекста, обеспечивая автономные сеансы кодирования, которые могут продолжаться более 24 часов. При средних усилиях GPT-5.1-Codex-Max превосходит GPT-5.1-Codex на SWE bench Verified, используя примерно на 30% меньше токенов для размышлений.