Встречайте DeepFleet: новый набор моделей искусственного интеллекта от Amazon, который может прогнозировать будущие схемы движения для парков мобильных роботов

Amazon достигла значительного рубежа, развернув свой миллионный робот в глобальных центрах выполнения заказов и сортировки, укрепив свои позиции в качестве крупнейшего в мире оператора промышленной мобильной робототехники. Это достижение совпало с запуском DeepFleet — новаторского набора базовых моделей, предназначенных для улучшения координации между огромными парками мобильных роботов.

Рост популярности базовых моделей в робототехнике

Базовые модели, ставшие популярными в области языкового и визуального искусственного интеллекта, используют массивные наборы данных для изучения общих закономерностей, которые можно адаптировать для различных задач. Amazon применяет этот подход в робототехнике, где координация тысяч роботов в динамичной среде складов требует прогнозирования интеллекта, выходящего за рамки традиционного моделирования.

В центрах выполнения заказов роботы транспортируют полки с товарами к работникам, в то время как на сортировочных предприятиях они обрабатывают посылки для доставки. С флотами, исчисляемыми сотнями тысяч, такие проблемы, как пробки и блокировки, могут замедлить работу. DeepFleet решает эти проблемы, прогнозируя траектории движения роботов и их взаимодействия, обеспечивая упреждающее планирование.

Модели основаны на разнообразных данных, охватывающих планировку складов, поколения роботов и операционные циклы, фиксируя возникающие модели поведения, такие как волны заторов. Это богатство данных — охватывающее миллионы часов работы роботов — позволяет DeepFleet обобщать сценарии, подобно тому как большие языковые модели адаптируются к новым запросам.

Исследование архитектур DeepFleet

DeepFleet включает в себя четыре различные архитектуры/модели, каждая из которых имеет уникальные индуктивные смещения для моделирования динамики нескольких роботов:

1. Модель, ориентированная на робота (RC): этот авторегрессионный трансформер фокусируется на отдельных роботах, используя данные о локальном окружении (например, близлежащие роботы, объекты и маркеры) для прогнозирования следующих действий. Он обрабатывает асинхронные обновления и работает с детерминированным симулятором среды для эволюции состояний. С 97 миллионами параметров он показал отличные результаты в оценках, достигнув наименьших ошибок в прогнозировании положения и состояния.

2. Модель «Робот-пол» (RF): используя перекрёстное внимание, эта модель объединяет состояния роботов с глобальными характеристиками пола, такими как вершины и рёбра. Она синхронно декодирует действия, балансируя локальные взаимодействия и контекст всего склада. С 840 миллионами параметров она показала хорошие результаты в прогнозировании времени.

3. Модель «Изображение-пол» (IF): рассматривая склад как многоканальное изображение, она использует свёрточную кодировку для пространственных характеристик и трансформеры для временных последовательностей. Однако она показала худшие результаты, вероятно, из-за проблем с захватом пиксельных взаимодействий роботов в масштабе.

4. Модель «График-пол» (GF): сочетая графовые нейронные сети с трансформерами, она представляет пол в виде пространственно-временного графа. Она эффективно обрабатывает глобальные отношения, прогнозируя действия и состояния всего с 13 миллионами параметров, что делает её вычислительно экономичной, но конкурентоспособной.

Эти конструкции различаются по временным (синхронным и событийным) и пространственным (локальным и глобальным) подходам, что позволяет Amazon тестировать, что лучше всего подходит для крупномасштабного прогнозирования.

Анализ производительности и потенциал масштабирования

Оценки на основе данных склада использовали такие метрики, как динамическое искажение времени (DTW) для точности траектории и ошибка задержки заторов (CDE) для операционного реализма. Модель RC лидировала в целом, с показателями DTW 8,68 для положения и 0,11% CDE, в то время как GF показала сильные результаты при более низкой сложности.

Эксперименты по масштабированию подтвердили, что более крупные модели и наборы данных уменьшают потери при прогнозировании, следуя шаблонам, наблюдаемым в других базовых моделях. Для GF экстраполяции показывают, что версия с 1 миллиардом параметров, обученная на 6,6 миллионах эпизодов, может эффективно оптимизировать вычисления.

Эта масштабируемость имеет ключевое значение, поскольку огромный парк роботов Amazon обеспечивает беспрецедентное преимущество в данных. Ранние приложения включают прогнозирование заторов и адаптивную маршрутизацию с потенциалом для назначения задач и предотвращения блокировок.

Реальное влияние на операции

DeepFleet уже улучшает сеть Amazon, которая охватывает более 300 объектов по всему миру, включая недавнее развёртывание в Японии. Повышая эффективность перемещения роботов, он обеспечивает более быструю обработку посылок и снижение затрат, что напрямую приносит пользу клиентам.

Помимо эффективности, Amazon уделяет особое внимание развитию рабочей силы, повысив квалификацию более 700 000 сотрудников с 2019 года в области робототехники и профессий, связанных с искусственным интеллектом. Эта интеграция создаёт более безопасные рабочие места за счёт переноса тяжёлых задач на машины.

Взгляд в будущее

Поскольку Amazon продолжает совершенствовать DeepFleet, уделяя особое внимание вариантам RC, RF и GF, технология может изменить представление о мультироботных системах в логистике. Используя искусственный интеллект для прогнозирования поведения парка, он выходит за рамки реактивного управления, прокладывая путь для более автономных, масштабируемых операций.

Эта инновация подчёркивает, как базовые модели выходят из цифровых сфер в физическую автоматизацию, потенциально трансформируя отрасли, зависящие от координированной робототехники.

1. Какие проблемы решает DeepFleet в логистике и как он это делает?

DeepFleet решает проблемы пробок и блокировок в парках мобильных роботов, прогнозируя траектории движения роботов и их взаимодействия. Это обеспечивает упреждающее планирование и координацию тысяч роботов в динамичной среде складов.

2. Какие архитектуры моделей включает в себя DeepFleet и чем они отличаются друг от друга?

DeepFleet включает в себя четыре архитектуры/модели:
* Модель, ориентированная на робота (RC): фокусируется на отдельных роботах, используя данные о локальном окружении для прогнозирования следующих действий.
* Модель «Робот-пол» (RF): объединяет состояния роботов с глобальными характеристиками пола.
* Модель «Изображение-пол» (IF): рассматривает склад как многоканальное изображение и использует свёрточную кодировку для пространственных характеристик.
* Модель «График-пол» (GF): представляет пол в виде пространственно-временного графа, эффективно обрабатывая глобальные отношения.

3. Какие метрики использовались для оценки производительности моделей DeepFleet?

Для оценки производительности моделей DeepFleet использовались такие метрики, как динамическое искажение времени (DTW) для точности траектории и ошибка задержки заторов (CDE) для операционного реализма.

4. Какие преимущества предоставляет использование DeepFleet в логистике?

Использование DeepFleet в логистике предоставляет следующие преимущества:
* повышение эффективности перемещения роботов;
* более быстрая обработка посылок;
* снижение затрат;
* создание более безопасных рабочих мест за счёт переноса тяжёлых задач на машины.

5. Какие перспективы развития технологии DeepFleet можно выделить на основе текста?

На основе текста можно выделить следующие перспективы развития технологии DeepFleet:
* совершенствование моделей RC, RF и GF;
* расширение применения технологии в мультироботных системах в логистике;
* выход за рамки реактивного управления и прокладка пути для более автономных, масштабируемых операций.

Источник