ZenML: путь от стартапа до экосистемы MLOps

### Интервью с Хамзой Тахиром, соучредителем и CTO ZenML

**Вопрос:** От первых проектов до ZenML: учитывая ваш богатый опыт в разработке программного обеспечения и машинном обучении — от новаторских проектов, таких как BudgetML, до сооснования ZenML и создания производственных конвейеров на maiot.io — как ваш личный путь повлиял на подход к созданию экосистемы с открытым исходным кодом для готового к производству ИИ?

**Ответ:** Мой путь от разработки программного обеспечения до сооснования ZenML сильно повлиял на то, как я подхожу к созданию инструментов с открытым исходным кодом для производства ИИ. Работа над BudgetML научила меня, что доступность инфраструктуры для машинного обучения имеет решающее значение — не у всех есть ресурсы корпоративного уровня, но каждый заслуживает доступа к надёжным инструментам.

В моей первой стартап-компании maiot.io я воочию увидел, насколько фрагментированным является ландшафт MLOps, когда команды собирают решения, которые часто не работают в производственной среде. Эта фрагментация создаёт реальные проблемы для бизнеса — например, многие предприятия сталкиваются с длительными циклами вывода на рынок своих моделей машинного обучения из-за этих самых проблем.

Этот опыт побудил меня создать ZenML с акцентом на первоочерёдность производства, а не на его конечность. Мы создали экосистему, которая вносит структуру в хаос управления моделями, гарантируя, что то, что работает в экспериментальной среде, плавно переходит в производство. Наш подход неизменно помогает организациям сократить время развёртывания и повысить эффективность своих рабочих процессов машинного обучения.

Открытый исходный код был не просто стратегией распространения — он был основополагающим для нашей веры в то, что MLOps должен быть демократизирован, позволяя командам любого размера пользоваться лучшими практиками, разработанными в отрасли. Мы видели, как организации всех размеров — от стартапов до корпораций — ускоряют свои циклы разработки машинного обучения на 50–80%, перенимая эти стандартизированные практики, ориентированные на производство.

**Вопрос:** От лаборатории до запуска: могли бы вы поделиться ключевым моментом или технической задачей, которая подчеркнула необходимость в надёжной платформе MLOps при вашем переходе от экспериментальных моделей к производственным системам?

**Ответ:** ZenML вырос из нашего опыта работы в области предиктивного обслуживания. Мы, по сути, функционировали как консультанты, внедряя решения для различных клиентов. Чуть более четырёх лет назад, когда мы начинали, было гораздо меньше доступных инструментов, и те, что существовали, были недостаточно зрелыми по сравнению с сегодняшними вариантами.

Мы быстро обнаружили, что у разных клиентов совершенно разные потребности — некоторым нужен AWS, другим предпочитали GCP. Хотя Kubeflow становился решением, работающим на базе Kubernetes, он ещё не был такой надёжной платформой MLOps, какую предлагает сейчас ZenML.

Ключевой задачей стало то, что мы постоянно писали собственный склейный код для каждой реализации клиента. Эта модель постоянного разработки похожих, но специфичных для платформы решений подчеркнула явную необходимость в более унифицированном подходе. Сначала мы построили ZenML на базе TFX от TensorFlow, но в итоге убрали эту зависимость, чтобы разработать собственную реализацию, которая могла бы лучше обслуживать разнообразные производственные среды.

**Вопрос:** Open-Source vs. Closed-Source в MLOps: хотя решения с открытым исходным кодом ценятся за инновации, как они сравниваются с проприетарными вариантами в рабочих процессах производства ИИ? Можете ли вы поделиться, как вклад сообщества улучшил возможности ZenML в решении реальных задач MLOps?

**Ответ:** Проприетарные решения MLOps предлагают отточенный опыт, но часто им не хватает адаптивности. Их самый большой недостаток — проблема «чёрного ящика»: когда что-то ломается в производственной среде, команды остаются в ожидании поддержки от поставщика. С инструментами с открытым исходным кодом, такими как ZenML, команды могут проверять, отлаживать и расширять инструментарий самостоятельно.

Эта прозрачность обеспечивает гибкость. Фреймворки с открытым исходным кодом внедряют инновации быстрее, чем ежеквартальные релизы проприетарных поставщиков. Для LLM, где лучшие практики меняются еженедельно, такая скорость бесценна.

Сила инноваций, основанных на сообществе, иллюстрируется одним из наших самых трансформационных вкладов — разработчик создал интеграцию оркестратора «Vertex» для Google Cloud Platform. Это была не просто ещё одна интеграция — она представляла совершенно новый подход к оркестрации конвейеров на GCP, который открыл совершенно новый рынок для нас.

До этого вклада у наших пользователей GCP были ограниченные возможности. Член сообщества разработал комплексную интеграцию Vertex AI, которая позволила беспрепятственно осуществлять оркестрацию…

**Вопрос:** Интеграция LLM в производство: с ростом популярности генеративного ИИ и больших языковых моделей, какие ключевые препятствия вы встретили в LLMOps, и как ZenML помогает смягчить эти проблемы?

**Ответ:** LLMOps представляет уникальные задачи, включая управление разработкой подсказок, сложные метрики оценки, растущие затраты и сложность конвейера.

ZenML помогает, предоставляя:
* Структурированные конвейеры для рабочих процессов LLM, отслеживающие все компоненты от подсказок до логики последующей обработки.
* Интеграцию с фреймворками оценки, специфичными для LLM.
* Механизмы кэширования для контроля затрат.
* Отслеживание происхождения для отладки сложных цепочек LLM.

Наш подход объединяет традиционный MLOps и LLMOps, позволяя командам использовать устоявшиеся практики при одновременном решении задач, специфичных для LLM. Расширяемая архитектура ZenML позволяет командам включать новые инструменты LLMOps, сохраняя надёжность и управление.

**Вопрос:** Оптимизация рабочих процессов MLOps: какие лучшие практики вы бы порекомендовали командам, стремящимся создать безопасные и масштабируемые конвейеры машинного обучения с использованием инструментов с открытым исходным кодом, и как ZenML облегчает этот процесс?

**Ответ:** Для команд, создающих конвейеры машинного обучения с использованием инструментов с открытым исходным кодом, я бы порекомендовал:
* Начать с воспроизводимости через строгую версионирование.
* Спроектировать наблюдаемость с первого дня.
* Принять модульность с взаимозаменяемыми компонентами.
* Автоматизировать тестирование для данных, моделей и безопасности.
* Стандартизировать среды через контейнеризацию.

ZenML облегчает эти практики с помощью Pythonic фреймворка, который обеспечивает воспроизводимость, интегрируется с популярными инструментами MLOps, поддерживает модульные шаги конвейера, предоставляет хуки для тестирования и позволяет беспрепятственно осуществлять контейнеризацию.

Мы видели, как эти принципы трансформируют такие организации, как Adeo Leroy Merlin. После внедрения этих лучших практик через ZenML они сократили свой цикл разработки машинного обучения на 80%, а их небольшая команда специалистов по данным теперь развёртывает новые варианты использования машинного обучения от исследований до производства за дни, а не за месяцы, обеспечивая ощутимую бизнес-ценность для нескольких производственных моделей.

Ключевой вывод: MLOps — это не продукт, который вы принимаете, а практика, которую вы реализуете. Наш фреймворк делает следование лучшим практикам наиболее простым путём, сохраняя при этом гибкость.

Источник

Хамза Тахир о ZenML: путь от стартапа до экосистемы с открытым исходным кодом для MLOps

Оставьте комментарий Отменить ответ