Помогая машинам понимать визуальный контент с помощью ИИ

Данные должны лежать в основе каждого решения, которое принимает современный бизнес. Но у большинства компаний есть серьёзная проблема: они не знают, что происходит с их визуальными данными.

Компания Coactive работает над тем, чтобы изменить эту ситуацию. Основанная Коди Коулманом (Cody Coleman) и Уильямом Гавириа Рохасом (William Gaviria Rojas), она создала платформу на базе искусственного интеллекта, которая может анализировать такие данные, как изображения, аудио и видео, чтобы получить новые идеи.

Платформа Coactive может мгновенно искать, систематизировать и анализировать неструктурированный визуальный контент, помогая компаниям принимать более быстрые и взвешенные решения.

«В первую революцию больших данных компании научились извлекать ценность из своих структурированных данных, — говорит Коулман, имея в виду данные из таблиц и электронных таблиц. — Но сейчас примерно 80–90% данных в мире являются неструктурированными. В следующей главе о больших данных компаниям придётся обрабатывать такие данные, как изображения, видео и аудио, в больших масштабах, и ИИ является ключевым элементом, позволяющим реализовать эту возможность».

Визуальный контент для компьютеров

Coactive уже сотрудничает с несколькими крупными медиа- и розничными компаниями, помогая им понимать свой визуальный контент без необходимости ручной сортировки и маркировки. Это помогает им быстрее доставлять нужный контент пользователям, удалять откровенный контент со своих платформ и выяснять, как определённый контент влияет на поведение пользователей.

В более широком смысле основатели считают, что Coactive служит примером того, как ИИ может помочь людям работать более эффективно и решать новые задачи.

«Слово coactive означает „работать вместе одновременно“, и это наше грандиозное видение: помогать людям и машинам работать вместе, — говорит Коулман. — Мы считаем, что это видение важнее, чем когда-либо, потому что ИИ может либо отдалить нас друг от друга, либо сблизить. Мы хотим, чтобы Coactive объединяла людей и давала им новые возможности».

Знакомство с ИИ

Коулман познакомился с Гавириа Рохасом летом перед первым годом обучения в рамках программы MIT Interphase Edge. Оба специализировались на электронике и компьютерных науках и работали над тем, чтобы сделать контент MIT OpenCourseWare доступным для мексиканских университетов, среди прочих проектов.

«Это был отличный пример предпринимательства, — вспоминает Коулман о проекте OpenCourseWare. — Было действительно вдохновляюще осознавать ответственность за бизнес и разработку программного обеспечения. Впоследствии это привело меня к открытию собственного небольшого веб-разработческого бизнеса и к прохождению курса [MIT] Founder’s Journey».

Коулман впервые изучил возможности ИИ в MIT, работая научным сотрудником в Управлении цифрового обучения (ныне MIT Open Learning), где он использовал машинное обучение для изучения того, как люди учатся на MITx, где размещаются массовые открытые онлайн-курсы, созданные преподавателями и инструкторами MIT.

«Для меня было действительно удивительно, что можно демократизировать это трансформационное путешествие, которое я прошёл в MIT с помощью цифрового обучения, и что можно применить ИИ и машинное обучение для создания адаптивных систем, которые не только помогают нам понять, как люди учатся, но и предоставляют более персонализированный опыт обучения людям по всему миру», — говорит Коулман о MITx. «Это был также первый раз, когда я смог изучить видеоконтент и применить к нему ИИ».

После MIT Коулман поступил в Стэнфордский университет, чтобы получить докторскую степень, где он работал над снижением барьеров для использования ИИ. Исследования привели его к работе с такими компаниями, как Pinterest и Meta, над приложениями ИИ и машинного обучения.

«Именно там я смог заглянуть в будущее того, что люди хотели бы делать с ИИ и своим контентом, — вспоминает Коулман. — Я видел, как ведущие компании используют ИИ для повышения ценности бизнеса, и именно оттуда возникла первоначальная идея Coactive. Я подумал: „Что, если мы создадим операционную систему корпоративного уровня для контента и мультимодального ИИ, чтобы упростить это?“»

Тем временем Гавириа Рохас переехал в район залива в 2020 году и начал работать специалистом по данным в eBay. В рамках переезда ему понадобилась помощь с транспортировкой дивана, и Коулман оказался тем счастливым другом, которому он позвонил.

«Во время поездки мы поняли, что оба стали свидетелями взрыва, связанного с данными и ИИ, — говорит Гавириа Рохас. — В MIT мы сидели в первом ряду во время революции больших данных и видели, как люди изобретают технологии, чтобы извлечь ценность из этих данных в больших масштабах. Коди и я поняли, что у нас есть ещё один пороховой заряд, связанный с тем, что предприятия собирают огромное количество данных, но на этот раз это мультимодальные данные, такие как изображения, видео, аудио и текст. Не хватало технологии, которая позволила бы раскрыть их в больших масштабах. Это был ИИ».

Платформа, которую создали основатели, — то, что Коулман описывает как «операционную систему ИИ», — является агностичной по отношению к моделям, что означает, что компания может заменять системы ИИ под капотом по мере их совершенствования. Платформа Coactive включает в себя готовые приложения, которые бизнес-клиенты могут использовать для поиска своего контента, создания метаданных и проведения аналитики для извлечения идей.

«До ИИ компьютеры видели мир через байты, а люди — через зрение, — говорит Коулман. — Теперь, с помощью ИИ, машины наконец-то могут видеть мир так же, как и мы, и это приведёт к тому, что цифровой и физический миры сольются воедино».

Улучшение интерфейса «человек-компьютер»

База данных изображений Reuters снабжает мировых журналистов миллионами фотографий. До Coactive компания полагалась на репортёров, которые вручную вводили теги к каждой фотографии, чтобы нужные изображения отображались, когда журналисты искали определённые темы.

«Было невероятно медленно и дорого просматривать все эти необработанные материалы, поэтому люди просто не добавляли теги, — говорит Коулман. — Это означало, что при поиске было ограниченное количество результатов, даже если соответствующие фотографии были в базе данных».

Теперь, когда журналисты на сайте Reuters выбирают «Включить поиск ИИ», Coactive может найти релевантный контент, основываясь на понимании ИИ деталей каждого изображения и видео.

«Это значительно улучшает качество результатов для репортёров, что позволяет им рассказывать более качественные и точные истории, чем когда-либо прежде, — говорит Коулман».

Reuters — не единственная компания, которая борется с управлением всем своим контентом. Управление цифровыми активами является важной составляющей многих медиа- и розничных компаний, которые сегодня часто полагаются на введённые вручную метаданные для сортировки и поиска по этому контенту.

Другой клиент Coactive — Fandom, одна из крупнейших в мире платформ с информацией о телепередачах, видеоиграх и фильмах, с более чем 300 миллионами активных пользователей в месяц. Fandom использует Coactive для понимания визуальных данных в своих онлайн-сообществах и помощи в удалении чрезмерного количества сцен насилия и сексуального контента.

«Раньше на проверку каждого нового фрагмента контента у Fandom уходило от 24 до 48 часов, — говорит Коулман. — Теперь с Coactive они формализовали свои правила сообщества и могут генерировать более детальную информацию в среднем примерно за 500 миллисекунд».

В каждом случае использования основатели видят в Coactive возможность внедрения новой парадигмы в том, как люди работают с машинами.

«На протяжении всей истории взаимодействия человека с компьютером нам приходилось наклоняться над клавиатурой и мышью, чтобы вводить информацию так, как машины могли её понять, — говорит Коулман. — Теперь, впервые, мы можем просто говорить естественно, мы можем делиться изображениями и видео с ИИ, и он может понимать этот контент. Это фундаментальное изменение в том, как мы думаем о взаимодействии человека с компьютером. Основная концепция Coactive заключается в том, что из-за этого изменения нам нужна новая операционная система и новый способ работы с контентом и ИИ».

Источник

Оставьте комментарий