Помощь системам хранения данных в условиях революции искусственного интеллекта

Искусственный интеллект меняет подход компаний к хранению данных и обеспечению доступа к ним. Дело в том, что традиционные системы хранения данных были разработаны для выполнения простых команд от нескольких пользователей одновременно. Сегодня же системам ИИ с миллионами агентов необходимо постоянно получать доступ к большим объёмам данных и обрабатывать их параллельно.

Сложность традиционных систем хранения данных приводит к замедлению работы систем ИИ, поскольку данные должны проходить через несколько уровней, прежде чем попасть в графические процессоры (GPU), которые являются «мозговыми клетками» ИИ.

Cloudian помогает идти в ногу с революцией ИИ

Компания Cloudian, основанная Майклом Цзо и Хироси Охта, разрабатывает масштабируемую систему хранения данных для бизнеса, которая обеспечивает бесперебойный поток данных между хранилищем и моделями ИИ.

Система Cloudian снижает сложность за счёт применения параллельных вычислений к хранению данных, объединяя функции ИИ и данные на единой платформе параллельной обработки, которая хранит, извлекает и обрабатывает масштабируемые наборы данных. Платформа обеспечивает прямую высокоскоростную передачу данных между хранилищем и GPU и центральными процессорами (CPU).

Интегрированная платформа хранения данных и вычислений Cloudian упрощает процесс создания инструментов ИИ коммерческого масштаба и предоставляет предприятиям основу хранения данных, которая может идти в ногу с развитием ИИ.

«Одна из вещей, которую люди упускают из виду в ИИ, — это то, что всё дело в данных, — говорит Цзо. — Вы не сможете добиться улучшения производительности ИИ на 10% с помощью на 10% большего объёма данных или даже в 10 раз большего объёма данных — вам нужно в 1000 раз больше данных. Возможность хранить эти данные таким образом, чтобы их было легко управлять, и таким образом, чтобы можно было встраивать в них вычисления, чтобы вы могли выполнять операции, пока данные поступают, не перемещая данные, — вот куда движется эта отрасль».

От MIT до индустрии

Будучи студентом MIT в 1990-х годах, Цзо познакомился с параллельными вычислениями — типом вычислений, при которых многие вычисления происходят одновременно. Цзо также работал над параллельными вычислениями с доцентом Грегом Пападопулосом.

«Это было невероятное время, потому что в большинстве школ был один суперкомпьютерный проект, а в MIT — четыре», — вспоминает Цзо.

В качестве аспиранта Цзо работал с ведущим научным сотрудником MIT Дэвидом Кларком, пионером в области вычислений, который внёс свой вклад в раннюю архитектуру Интернета, особенно в протокол управления передачей (TCP), который доставляет данные между системами.

«Будучи аспирантом в MIT, я работал над операциями с отключённой и прерывистой сетью для крупномасштабных распределённых систем», — говорит Цзо. «Забавно, что спустя 30 лет я всё ещё этим занимаюсь».

После окончания учёбы Цзо работал в архитектурной лаборатории Intel, где изобрёл алгоритмы синхронизации данных, используемые Blackberry. Он также создал спецификации для Nokia, которые положили начало индустрии загрузки рингтонов. Затем он присоединился к Inktomi, стартапу, основанному Эриком Брюером, который стал пионером в области поиска и технологий распространения веб-контента.

В 2001 году Цзо основал Gemini Mobile Technologies вместе с Джозефом Нортоном и другими. Компания разработала крупнейшие в мире системы мобильной передачи сообщений, чтобы справиться с массовым ростом данных с камер телефонов. Затем, в конце 2000-х годов, облачные вычисления стали мощным способом для бизнеса арендовать виртуальные серверы по мере расширения своей деятельности. Цзо заметил, что объём собираемых данных растёт гораздо быстрее, чем скорость работы сетей, поэтому он решил изменить направление деятельности компании.

«Данные создаются в самых разных местах, и у этих данных есть своя гравитация: вам придётся потратить деньги и время, чтобы переместить их», — объясняет Цзо. «Это означает, что конечное состояние — это распределённое облако, которое достигает периферийных устройств и серверов. Вы должны принести облако к данным, а не данные к облаку».

Цзо официально запустил Cloudian в 2012 году, сделав упор на помощь клиентам в масштабируемом, распределённом, облачном хранении данных.

«Когда мы только начинали компанию, мы не видели, что ИИ станет конечным вариантом использования данных на периферии», — говорит Цзо.

Сегодня платформа Cloudian использует архитектуру объектного хранения, в которой все виды данных — документы, видео, данные датчиков — хранятся как уникальный объект с метаданными.

В июле Cloudian объявила о расширении своей системы объектного хранения с помощью векторной базы данных, которая хранит данные в форме, сразу пригодной для использования моделями ИИ. По мере поступления данных Cloudian в режиме реального времени вычисляет векторную форму этих данных для работы с такими инструментами ИИ, как механизмы рекомендаций, поиск и помощники ИИ.

Cloudian также объявила о партнёрстве с NVIDIA, которое позволяет её системе хранения работать напрямую с графическими процессорами компании. Cloudian утверждает, что новая система обеспечивает ещё более быстрые операции ИИ и снижает вычислительные затраты.

«NVIDIA связалась с нами примерно полтора года назад, потому что GPU полезны только с данными, которые их загружают, — говорит Цзо. — Теперь люди понимают, что проще переместить ИИ к данным, чем перемещать огромные массивы данных. Наши системы хранения встраивают множество функций ИИ, поэтому мы можем предварительно и постобработать данные для ИИ рядом с тем местом, где мы собираем и храним данные».

Хранение данных для ИИ

Cloudian помогает примерно 1000 компаниям по всему миру получать больше пользы от своих данных, включая крупных производителей, поставщиков финансовых услуг, организации здравоохранения и государственные учреждения.

Например, одна крупная автомобильная компания использует ИИ для определения того, когда каждому из её производственных роботов необходимо техническое обслуживание. Cloudian также работает с Национальной медицинской библиотекой для хранения исследовательских статей и патентов и с Национальной базой данных по раку для хранения последовательностей ДНК опухолей — обширных наборов данных, которые модели ИИ могут обрабатывать, чтобы помочь исследованиям разработать новые методы лечения или получить новые идеи.

«GPU стали невероятным инструментом, — говорит Цзо. — Закон Мура удваивает объём вычислений каждые два года, но GPU могут распараллеливать операции на чипах, поэтому вы можете соединить GPU вместе и нарушить закон Мура. Этот масштаб выводит ИИ на новый уровень интеллекта, но единственный способ заставить GPU работать на полную мощность — это подавать им данные с той же скоростью, с какой они вычисляют, а единственный способ сделать это — избавиться от всех слоёв между ними и вашими данными».

1. Какие проблемы традиционных систем хранения данных для ИИ выделяет автор статьи?

Автор статьи указывает на то, что традиционные системы хранения данных были разработаны для выполнения простых команд от нескольких пользователей одновременно. Однако системам ИИ с миллионами агентов необходимо постоянно получать доступ к большим объёмам данных и обрабатывать их параллельно. Это приводит к замедлению работы систем ИИ, поскольку данные должны проходить через несколько уровней, прежде чем попасть в графические процессоры (GPU).

2. Какие преимущества предлагает система Cloudian для хранения данных в условиях развития ИИ?

Cloudian предлагает масштабируемую систему хранения данных для бизнеса, которая обеспечивает бесперебойный поток данных между хранилищем и моделями ИИ. Система снижает сложность за счёт применения параллельных вычислений к хранению данных, объединяя функции ИИ и данные на единой платформе параллельной обработки. Платформа обеспечивает прямую высокоскоростную передачу данных между хранилищем и GPU и центральными процессорами (CPU).

3. Какие типы данных хранятся на платформе Cloudian?

Платформа Cloudian использует архитектуру объектного хранения, в которой все виды данных — документы, видео, данные датчиков — хранятся как уникальный объект с метаданными.

4. Какие партнёрства и интеграции имеет Cloudian для улучшения работы с ИИ?

Cloudian объявила о расширении своей системы объектного хранения с помощью векторной базы данных, которая хранит данные в форме, сразу пригодной для использования моделями ИИ. Также Cloudian объявила о партнёрстве с NVIDIA, которое позволяет её системе хранения работать напрямую с графическими процессорами компании.

5. Какие примеры использования Cloudian в различных отраслях приведены в статье?

В статье приведены примеры использования Cloudian крупными производителями, поставщиками финансовых услуг, организациями здравоохранения и государственными учреждениями. Например, одна крупная автомобильная компания использует ИИ для определения того, когда каждому из её производственных роботов необходимо техническое обслуживание. Cloudian также работает с Национальной медицинской библиотекой для хранения исследовательских статей и патентов и с Национальной базой данных по раку для хранения последовательностей ДНК опухолей.

Источник