Таалас заменяет программируемые графические процессоры специализированными чипами для искусственного интеллекта

В мире инфраструктуры искусственного интеллекта (ИИ) существует одно основное предположение: гибкость — это главное. Мы используем универсальные графические процессоры (GPU), поскольку модели ИИ меняются каждую неделю, и нам нужен программируемый кремний, который может адаптироваться к новым научным прорывам.

Но стартап из Торонто под названием Таалас считает, что именно гибкость сдерживает развитие ИИ. По мнению команды Тааласа, если мы хотим, чтобы ИИ стал таким же распространённым и дешёвым, как пластик, нам нужно перестать «симулировать» интеллект на универсальных компьютерах и начать «встраивать» его непосредственно в кремний.

Проблема: «стена памяти» и «налог на GPU»

Текущие затраты на работу с большими языковыми моделями (LLM) обусловлены физическим узким местом: «стеной памяти».

Традиционные процессоры (GPU) основаны на «архитектуре набора команд» (ISA). Они разделяют вычисления и память. Когда вы запускаете процесс логического вывода в модели вроде Llama-3, чип тратит большую часть времени и энергии на перемещение весов из памяти с высокой пропускной способностью (HBM) в ядра обработки. Этот «налог на перемещение данных» составляет почти 90% энергопотребления в современных центрах обработки данных ИИ.

Решение Тааласа радикально: устранить цикл выборки памяти. Используя собственный автоматизированный процесс проектирования, Таалас переводит вычислительный граф конкретной модели непосредственно в физическую схему чипа. В их чипе HC1 (Hardcore 1) веса и архитектура модели буквально встроены в схему кремния.

Производительность HC1: 17 000 токенов в секунду

Результаты такого подхода «напрямую в кремний» переопределяют потолок производительности для логического вывода. На последнем представлении Таалас продемонстрировал работу HC1 с моделью Llama 3.1 8B. В то время как топовый NVIDIA H100 может обслуживать одного пользователя со скоростью около 150 токенов в секунду, HC1 обслуживает ошеломляющие 16 000–17 000 токенов в секунду.

Это меняет «экономику единицы» ИИ:

* Производительность: один чип HC1 может превзойти небольшой центр обработки данных с GPU по объёму обработки для конкретной модели.
* Эффективность: Таалас заявляет об улучшении эффективности в 1000 раз (производительность на ватт и производительность на доллар) по сравнению с обычными чипами.
* Инфраструктура: поскольку веса встроены в схему, нет необходимости во внешней HBM или сложных системах жидкостного охлаждения. Стандартная стойка с воздушным охлаждением может вместить десять таких карт мощностью 250 Вт, обеспечивая мощность целого кластера GPU в одном серверном боксе.

Преодоление 60-дневного барьера: автоматизированный литейный завод

Очевидной «ловушкой» для разработчика ИИ является гибкость. Если сегодня вы встроите модель в чип, что произойдёт, когда завтра появится лучшая модель? Исторически разработка специализированной интегральной схемы (ASIC) занимала два года и десятки миллионов долларов.

Таалас решил эту проблему с помощью автоматизации. Они создали систему-литейную, подобную компилятору, которая берёт веса модели и генерирует дизайн чипа примерно за неделю. Сосредоточившись на оптимизированном производственном процессе, где они меняют только верхние металлические маски кремния, они сократили время перехода от «весов к кремнию» до двух месяцев.

Это позволяет проводить «сезонный» аппаратный цикл. Компания может настроить передовую модель весной и к лету развернуть тысячи специализированных, высокоэффективных чипов для логического вывода.

Сдвиг на рынке: от лопат к маркам

Этот переход знаменует собой поворотный момент в цикле ажиотажа ИИ. Мы переходим от этапа «исследований и обучения», где GPU необходимы для их гибкости, к этапу «развёртывания и логического вывода», где единственной важной метрикой является стоимость за токен.

Если Таалас добьётся успеха, рынок ИИ разделится на два отдельных уровня:

* Обучение общего назначения: во главе с NVIDIA и AMD, предоставляя массивные гибкие кластеры, необходимые для открытия и обучения новым архитектурам.
* Специализированный вывод: во главе с «литейными заводами» вроде Тааласа, которые берут эти проверенные архитектуры и «печатают» их в дешёвый, повсеместный кремний для всего: от смартфонов до промышленных датчиков.

Ключевые выводы

* Парадигма «встроенного» ИИ: Таалас переходит от программно-определяемого ИИ (запуск моделей на универсальных GPU) к аппаратно-определяемому ИИ. Встраивая веса и архитектуру конкретной модели непосредственно в кремний, они устраняют необходимость в традиционных накладных расходах на набор инструкций, фактически делая модель самим процессором.
* Смерть «стены памяти»: традиционное оборудование для ИИ тратит около 90% своей энергии на перемещение данных между памятью и вычислениями. Чип HC1 (Hardcore 1) от Тааласа устраняет «стену памяти», физически подключая параметры модели к металлическим слоям чипа, устраняя необходимость в дорогой памяти с высокой пропускной способностью (HBM).
* Скачок эффективности в 1000 раз: устраняя «налог на программируемость», Таалас заявляет об улучшении производительности в 1000 раз на ватт и производительности на доллар. На практике это означает, что HC1 может обрабатывать 17 000 токенов в секунду на модели Llama 3.1 8B, значительно превосходя стандартный GPU-стойку, потребляя при этом гораздо меньше энергии.
* Автоматизированный литейный завод «напрямую в кремний»: чтобы решить проблему устаревания моделей, Таалас использует собственный автоматизированный процесс проектирования. Это сокращает время создания специального чипа ИИ с лет до недель, позволяя компаниям «печатать» свои настроенные модели в кремнии на сезонной основе.
* Будущее ИИ как товара: эта технология сигнализирует о переходе от «облачного» к «устройству» ИИ. По мере того как вывод становится дешёвым, встроенным товаром, ИИ будет перемещаться с централизованных серверов в локальное, маломощное оборудование — от смартфонов до промышленных датчиков — с нулевой задержкой и без абонентской платы.

1. В чём заключается основная идея стартапа Таалас и как они предлагают решить проблему «стены памяти» и «налога на GPU» в сфере искусственного интеллекта?

Ответ: стартап Таалас предлагает заменить универсальные графические процессоры (GPU) специализированными чипами для искусственного интеллекта. Они устраняют цикл выборки памяти, переводя вычислительный граф конкретной модели непосредственно в физическую схему чипа. В их чипе HC1 веса и архитектура модели встроены в схему кремния, что позволяет значительно повысить производительность и эффективность.

2. Какие преимущества предлагает чип HC1 от Тааласа по сравнению с традиционными GPU?

Ответ: чип HC1 предлагает ряд преимуществ по сравнению с традиционными GPU. Во-первых, он обеспечивает более высокую производительность — 17 000 токенов в секунду против 150 токенов в секунду у топового NVIDIA H100. Во-вторых, он более эффективен — Таалас заявляет об улучшении эффективности в 1000 раз по сравнению с обычными чипами. В-третьих, он более экономичен — стандартная стойка с воздушным охлаждением может вместить десять таких карт мощностью 250 Вт, обеспечивая мощность целого кластера GPU в одном серверном боксе.

3. Как Таалас решает проблему устаревания моделей и обеспечивает гибкость в разработке специализированных чипов для ИИ?

Ответ: Таалас решает проблему устаревания моделей с помощью автоматизации. Они создали систему-литейную, подобную компилятору, которая берёт веса модели и генерирует дизайн чипа примерно за неделю. Сосредоточившись на оптимизированном производственном процессе, где они меняют только верхние металлические маски кремния, они сократили время перехода от «весов к кремнию» до двух месяцев. Это позволяет проводить «сезонный» аппаратный цикл — компания может настроить передовую модель весной и к лету развернуть тысячи специализированных, высокоэффективных чипов для логического вывода.

4. Какие перспективы открывает технология Тааласа для развития рынка искусственного интеллекта?

Ответ: технология Тааласа открывает новые перспективы для развития рынка искусственного интеллекта. Она позволяет снизить затраты на работу с большими языковыми моделями и сделать ИИ более доступным и распространённым. Это может привести к переходу от этапа «исследований и обучения» к этапу «развёртывания и логического вывода», где единственной важной метрикой является стоимость за токен. В результате рынок ИИ разделится на два отдельных уровня: обучение общего назначения и специализированный вывод.

5. Какие ключевые выводы можно сделать из статьи о технологии Тааласа?

Ответ: из статьи можно сделать несколько ключевых выводов. Во-первых, Таалас переходит от программно-определяемого ИИ к аппаратно-определяемому, встраивая веса и архитектуру конкретной модели непосредственно в кремний. Во-вторых, традиционное оборудование для ИИ тратит около 90% своей энергии на перемещение данных между памятью и вычислениями, а чип HC1 устраняет «стену памяти», физически подключая параметры модели к металлическим слоям чипа. В-третьих, Таалас заявляет об улучшении производительности в 1000 раз на ватт и производительности на доллар. В-четвёртых, автоматизированный литейный завод «напрямую в кремний» позволяет сократить время создания специального чипа ИИ с лет до недель. В-пятых, технология сигнализирует о переходе от «облачного» к «устройству» ИИ, делая его более доступным и распространённым.

Источник