Maia 200 — это новый внутренний ускоритель искусственного интеллекта от Microsoft, разработанный для логического вывода в центрах обработки данных Azure. Он направлен на снижение стоимости генерации токенов для больших языковых моделей и других рабочих нагрузок, связанных с логическими операциями, путём объединения вычислений с узкой точностью, плотной иерархии памяти на чипе и масштабируемой сети на базе Ethernet.
Зачем Microsoft создала специальный чип для логического вывода?
Обучение и логический вывод по-разному нагружают оборудование. Для обучения нужны очень большие объёмы коммуникации «каждый с каждым» и длительные задания. Логический вывод же заботится о количестве токенов в секунду, задержках и количестве токенов на доллар.
Microsoft позиционирует Maia 200 как свою наиболее эффективную систему логического вывода, которая примерно на 30% производительнее по сравнению с новейшим оборудованием в её парке и на доллар.
Maia 200 является частью гетерогенного стека Azure. Он будет обслуживать несколько моделей, включая новейшие модели GPT 5.2 от OpenAI, и обеспечивать работу рабочих нагрузок в Microsoft Foundry и Microsoft 365 Copilot. Команда Microsoft Superintelligence будет использовать чип для генерации синтетических данных и обучения с подкреплением для улучшения своих моделей.
Основные характеристики кремния и числовые параметры
Каждый чип Maia 200 изготовлен на 3-нанометровом техпроцессе TSMC. Чип объединяет более 140 миллиардов транзисторов.
Вычислительный конвейер построен на базе собственных тензорных ядер FP8 и FP4. Один чип обеспечивает более 10 петафлопс в FP4 и более 5 петафлопс в FP8 в пределах 750 Вт TDP SoC.
Память разделена между многоуровневой HBM и SRAM на чипе. Maia 200 предоставляет 216 ГБ HBM3e с пропускной способностью около 7 ТБ в секунду и 272 МБ SRAM на чипе. SRAM организована в виде SRAM уровня плитки и SRAM уровня кластера и полностью управляется программным обеспечением.
Микроархитектура на основе плиток и иерархия памяти
Микроархитектура Maia 200 иерархична. Базовая единица — плитка. Плитка — это наименьшая автономная единица вычислений и хранения на чипе. Каждая плитка включает в себя Tile Tensor Unit для высокопроизводительных матричных операций и Tile Vector Processor в качестве программируемого движка SIMD.
Несколько плиток образуют кластер. Каждый кластер имеет большую многобанковую Cluster SRAM, которая используется совместно всеми плитками в этом кластере. Кластерные DMA-движки перемещают данные между Cluster SRAM и встроенными стеками HBM.
Движение данных на чипе и масштабируемая сеть на базе Ethernet
Для логического вывода часто ограничивающим фактором является перемещение данных, а не пиковая производительность вычислений. Maia 200 использует собственную сеть на чипе вместе с иерархией DMA-движков.
За пределами границ чипа Maia 200 интегрирует собственный сетевой интерфейс и сеть на базе Ethernet, которая использует протокол AI Transport Layer. Встроенный сетевой интерфейс обеспечивает около 1,4 ТБ в секунду в каждом направлении или 2,8 ТБ в секунду двунаправленной пропускной способности и масштабируется до 6144 ускорителей в двухуровневом домене.
Интеграция в систему Azure и охлаждение
На системном уровне Maia 200 соответствует тем же стандартам стойки, электропитания и механики, что и серверы Azure GPU. Он поддерживает конфигурации с воздушным и жидкостным охлаждением и использует теплообменник второго поколения с замкнутым контуром для жидкостного охлаждения в стойках с высокой плотностью размещения.
Ускоритель интегрируется с контрольной панелью Azure. Управление микропрограммами, мониторинг состояния и телеметрия используют те же рабочие процессы, что и другие вычислительные сервисы Azure. Это позволяет выполнять обновления на уровне парка и техническое обслуживание без прерывания рабочих нагрузок искусственного интеллекта.
Ключевые выводы
1. Дизайн, ориентированный на логический вывод: Maia 200 — это первая кремниевая и системная платформа Microsoft, созданная исключительно для логического вывода ИИ, оптимизированная для крупномасштабной генерации токенов в современных моделях рассуждений и больших языковых моделях.
2. Числовые характеристики и иерархия памяти: чип изготовлен на 3-нм техпроцессе TSMC, объединяет около 140 миллиардов транзисторов и обеспечивает более 10 петафлопс FP4 и более 5 петафлопс FP8, с 216 ГБ HBM3e на 7 ТБ в секунду и 272 МБ SRAM на чипе.
3. Производительность по сравнению с другими облачными ускорителями: Microsoft сообщает о примерно на 30% более высокой производительности на доллар по сравнению с новейшими системами логического вывода Azure и заявляет о трёхкратном увеличении производительности FP4 по сравнению с Amazon Trainium третьего поколения и более высокой производительности FP8 по сравнению с Google TPU v7 на уровне ускорителя.
4. Архитектура на основе плиток и сеть на базе Ethernet: Maia 200 организует вычисления в виде плиток и кластеров с локальной SRAM, DMA-движками и сетью на чипе, а также предоставляет встроенный сетевой интерфейс с пропускной способностью около 1,4 ТБ в секунду в каждом направлении по Ethernet, который масштабируется до 6144 ускорителей.
5. Интеграция с Azure: ускоритель интегрируется с контрольной панелью Azure, обеспечивая управление микропрограммами, мониторинг состояния и телеметрию.
1. Какие преимущества предлагает Microsoft с выпуском ускорителя Maia 200 для логического вывода в центрах обработки данных Azure?
Ответ: Microsoft создала специальный чип для логического вывода, чтобы снизить стоимость генерации токенов для больших языковых моделей и других рабочих нагрузок, связанных с логическими операциями. Maia 200 примерно на 30% производительнее по сравнению с новейшим оборудованием в парке Microsoft и обеспечивает более высокую производительность по сравнению с другими облачными ускорителями.
2. Какие технические характеристики у чипа Maia 200?
Ответ: Каждый чип Maia 200 изготовлен на 3-нанометровом техпроцессе TSMC. Чип объединяет более 140 миллиардов транзисторов. Вычислительный конвейер построен на базе собственных тензорных ядер FP8 и FP4. Один чип обеспечивает более 10 петафлопс в FP4 и более 5 петафлопс в FP8 в пределах 750 Вт TDP SoC. Память разделена между многоуровневой HBM и SRAM на чипе. Maia 200 предоставляет 216 ГБ HBM3e с пропускной способностью около 7 ТБ в секунду и 272 МБ SRAM на чипе.
3. Как организована микроархитектура Maia 200 и как она влияет на производительность?
Ответ: Микроархитектура Maia 200 иерархична. Базовая единица — плитка. Каждая плитка включает в себя Tile Tensor Unit для высокопроизводительных матричных операций и Tile Vector Processor в качестве программируемого движка SIMD. Несколько плиток образуют кластер. Каждый кластер имеет большую многобанковую Cluster SRAM, которая используется совместно всеми плитками в этом кластере. Кластерные DMA-движки перемещают данные между Cluster SRAM и встроенными стеками HBM. Это позволяет оптимизировать перемещение данных и повысить производительность логического вывода.
4. Как интегрируется Maia 200 в систему Azure и какие возможности это предоставляет?
Ответ: На системном уровне Maia 200 соответствует тем же стандартам стойки, электропитания и механики, что и серверы Azure GPU. Он поддерживает конфигурации с воздушным и жидкостным охлаждением и использует теплообменник второго поколения с замкнутым контуром для жидкостного охлаждения в стойках с высокой плотностью размещения. Ускоритель интегрируется с контрольной панелью Azure, обеспечивая управление микропрограммами, мониторинг состояния и телеметрию. Это позволяет выполнять обновления на уровне парка и техническое обслуживание без прерывания рабочих нагрузок искусственного интеллекта.
5. Какие модели и рабочие нагрузки будет обслуживать Maia 200 в Azure?
Ответ: Maia 200 будет обслуживать несколько моделей, включая новейшие модели GPT 5.2 от OpenAI, и обеспечивать работу рабочих нагрузок в Microsoft Foundry и Microsoft 365 Copilot. Команда Microsoft Superintelligence будет использовать чип для генерации синтетических данных и обучения с подкреплением для улучшения своих моделей.