Microsoft предлагает OrbitalBrain: распределённое машинное обучение в космосе

Наблюдательные спутники Земли (Earth observation, EO) ежедневно собирают огромные объёмы снимков высокого разрешения, но большая их часть не доходит до Земли вовремя для обучения моделей. Ограниченность пропускной способности канала связи — основное препятствие. Изображения могут находиться на орбите несколько дней, пока наземные модели обучаются на неполных и задержанных данных.

Исследователи Microsoft представили систему OrbitalBrain как новый подход. Вместо того чтобы использовать спутники только в качестве датчиков, передающих данные на Землю, она превращает группировку наноспутников в распределённую систему обучения. Модели обучаются, агрегируются и обновляются непосредственно в космосе, используя бортовые вычислительные ресурсы, межспутниковые каналы связи и прогнозирование распределения энергии и пропускной способности.

Узкое место «BentPipe»

Большинство коммерческих группировок используют модель «BentPipe». Спутники собирают изображения, хранят их локально и передают на наземные станции, когда проходят над ними.

Исследовательская группа оценила группировку, подобную Planet, с 207 спутниками и 12 наземными станциями. При максимальной скорости съёмки система захватывает 363 563 изображения в день. При объёме изображения 300 МБ и реалистичных ограничениях пропускной способности канала связи за этот период можно передать только 42 384 изображения, что составляет около 11,7% от захваченного объёма. Даже если изображения сжать до 100 МБ, до Земли за 24 часа дойдёт только 111 737 изображений, около 30,7%.

Ограниченность бортового хранилища добавляет ещё одно ограничение. Старые изображения необходимо удалять, чтобы освободить место для новых, а это значит, что многие потенциально полезные образцы никогда не становятся доступными для обучения на Земле.

Почему традиционного федеративного обучения недостаточно

Федеративное обучение (FL) кажется очевидным решением для спутников. Каждый спутник может обучаться локально и отправлять обновления модели на наземный сервер для агрегирования. Исследовательская группа оценила несколько базовых алгоритмов FL, адаптированных к этим условиям:
* AsyncFL;
* SyncFL;
* FedBuff;
* FedSpace.

Однако эти методы предполагают более стабильную связь и более гибкое энергопотребление, чем могут обеспечить спутники. При моделировании реалистичной орбитальной динамики, прерывистого контакта с Землёй, ограниченного энергопотребления и неоднородных данных на спутниках эти базовые алгоритмы демонстрируют нестабильную сходимость и значительное снижение точности в диапазоне 10–40% по сравнению с идеализированными условиями.

OrbitalBrain: обучение в космосе, ориентированное на группировку

OrbitalBrain исходит из трёх наблюдений:
1. Группировки обычно управляются одной коммерческой организацией, поэтому необработанные данные могут быть общими для всех спутников.
2. Орбиты, видимость наземных станций и солнечная энергия предсказуемы на основе орбитальных элементов и моделей энергопотребления.
3. Межспутниковые каналы связи (ISLs) и бортовые ускорители теперь практически применимы на наноспутниках.

Framework предоставляет три действия для каждого спутника в окне планирования:
* Local Compute (LC): обучение локальной модели на сохранённых изображениях.
* Model Aggregation (MA): обмен и агрегирование параметров модели по ISLs.
* Data Transfer (DT): обмен необработанными изображениями между спутниками для уменьшения перекоса данных.

Контроллер, работающий в облаке и доступный через наземные станции, вычисляет прогнозное расписание для каждого спутника. Расписание определяет, какое действие приоритезировать в каждом будущем окне, на основе прогнозов энергии, хранилища, орбитальной видимости и возможностей связи.

Ключевые компоненты:
* Profiler — управляемый профилировщик производительности;
* MA — агрегация моделей по ISLs;
* DT — перенос данных для перебалансировки меток;
* Executor — исполнитель.

Экспериментальная установка

OrbitalBrain реализован на Python поверх орбитального симулятора CosmicBeats и платформы федеративного обучения FLUTE. Бортовые вычисления смоделированы как NVIDIA-Jetson-Orin-Nano-4GB GPU, с параметрами мощности и связи, откалиброванными на основе общедоступных спутниковых и радиотехнических спецификаций.

Исследовательская группа моделирует 24-часовые трассы для двух реальных группировок:
* Planet: 207 спутников с 12 наземными станциями.
* Spire: 117 спутников.

Они оценивают две задачи классификации EO:
* fMoW: около 360 тысяч RGB-изображений, 62 класса, DenseNet-161 с последними пятью обучаемыми слоями.
* So2Sat: около 400 тысяч мультиспектральных изображений, 17 классов, ResNet-50 с последними пятью обучаемыми слоями.

Результаты: более быстрое время достижения точности и более высокая точность.

OrbitalBrain сравнивается с BentPipe, AsyncFL, SyncFL, FedBuff и FedSpace при полной физической нагрузке.

Для fMoW после 24 часов:
* Planet: OrbitalBrain достигает 52,8% top-1 точности.
* Spire: OrbitalBrain достигает 59,2% top-1 точности.

Для So2Sat:
* Planet: 47,9% top-1 точности.
* Spire: 47,1% top-1 точности.

Эти результаты улучшаются по сравнению с лучшим базовым уровнем на 5,5–49,5%, в зависимости от набора данных и группировки.

С точки зрения времени достижения точности, OrbitalBrain обеспечивает ускорение в 1,52–12,4 раза по сравнению с современными наземными или федеративными подходами к обучению. Это достигается за счёт использования спутников, которые в настоящее время не могут достичь наземной станции, путём агрегирования по ISLs и за счёт перераспределения данных с помощью DT.

Исследования показывают, что отключение MA или DT значительно снижает как скорость сходимости, так и конечную точность. Дополнительные эксперименты показывают, что OrbitalBrain остаётся устойчивым, когда облачный покров скрывает часть изображений, когда участвует только подмножество спутников и когда размеры и разрешения изображений различаются.

Последствия для рабочих нагрузок спутникового ИИ

OrbitalBrain демонстрирует, что обучение моделей может быть перенесено в космос и что спутниковые группировки могут действовать как распределённые системы машинного обучения, а не только как источники данных. Координируя локальное обучение, агрегацию моделей и передачу данных при строгих ограничениях по пропускной способности, мощности и хранилищу, фреймворк позволяет создавать более свежие модели для таких задач, как обнаружение лесных пожаров, мониторинг наводнений и климатическая аналитика, не дожидаясь дней, пока данные поступят в наземные центры обработки данных.

Ключевые выводы:
1. Downlink «BentPipe» — основное узкое место: группировки EO, подобные Planet, могут передавать на Землю только около 11,7% захваченных изображений объёмом 300 МБ в день и около 30,7% даже при сжатии до 100 МБ, что серьёзно ограничивает обучение моделей на Земле.
2. Стандартное федеративное обучение не работает при реальных ограничениях спутников: AsyncFL, SyncFL, FedBuff и FedSpace снижают точность на 10–40% при применении реалистичной орбитальной динамики, прерывистых каналов связи, ограничений по мощности и неоднородных данных.
3. OrbitalBrain планирует вычисления, агрегацию и передачу данных на орбите: облачный контроллер использует прогнозы орбиты, мощности, хранилища и возможностей связи для выбора локальных вычислений, агрегации моделей через ISLs или передачи данных на спутник, максимизируя функцию полезности для каждого действия.
4. Перебалансировка меток и устаревание моделей обрабатываются явно: управляемый профилировщик отслеживает устаревание модели и потери для определения полезности вычислений, а переносчик данных использует дивергенцию Дженсена – Шеннона на гистограммах меток для управления обменом необработанными изображениями, что снижает влияние неоднородности.
5. OrbitalBrain обеспечивает более высокую точность и до 12,4-кратного ускорения времени достижения точности: в симуляциях на группировках Planet и Spire с fMoW и So2Sat OrbitalBrain улучшает конечную точность на 5,5–49,5% по сравнению с BentPipe и базовыми алгоритмами FL и достигает ускорения в 1,52–12,4 раза по времени достижения точности.

1. Какие проблемы решает система OrbitalBrain в контексте спутниковых группировок и машинного обучения?

В тексте указано, что система OrbitalBrain решает проблему ограниченной пропускной способности канала связи и задержки передачи данных на Землю. Это позволяет использовать бортовые вычислительные ресурсы спутников для обучения моделей в космосе, что ускоряет процесс и улучшает точность.

2. Какие методы обучения были адаптированы для использования в условиях спутниковых группировок, и почему они оказались неэффективными?

В тексте перечислены несколько методов федеративного обучения (AsyncFL, SyncFL, FedBuff, FedSpace), которые были адаптированы для использования в условиях спутниковых группировок. Однако они оказались неэффективными из-за прерывистого контакта с Землёй, ограниченного энергопотребления и неоднородных данных на спутниках.

3. Какие ключевые компоненты включает в себя система OrbitalBrain, и как они взаимодействуют между собой?

Ключевые компоненты системы OrbitalBrain включают управляемый профилировщик производительности (Profiler), агрегацию моделей по межспутниковым каналам связи (MA), перенос данных для перебалансировки меток (DT) и исполнитель (Executor). Они взаимодействуют между собой для планирования вычислений, агрегации моделей и передачи данных на орбите, максимизируя функцию полезности для каждого действия.

4. Какие преимущества предоставляет система OrbitalBrain по сравнению с традиционными методами обучения моделей на Земле?

Система OrbitalBrain предоставляет несколько преимуществ по сравнению с традиционными методами обучения моделей на Земле. Во-первых, она позволяет использовать бортовые вычислительные ресурсы спутников для обучения моделей в космосе, что ускоряет процесс и улучшает точность. Во-вторых, она обеспечивает более высокую точность и ускорение времени достижения точности по сравнению с традиционными методами.

5. Какие задачи классификации EO были использованы для оценки системы OrbitalBrain, и какие результаты были получены?

Для оценки системы OrbitalBrain были использованы две задачи классификации EO: fMoW и So2Sat. Результаты показали, что OrbitalBrain обеспечивает более высокую точность и ускорение времени достижения точности по сравнению с традиционными методами обучения моделей на Земле. Например, для fMoW после 24 часов Planet с OrbitalBrain достигает 52,8% top-1 точности, а Spire — 59,2% top-1 точности.

Источник