Как создать единую модель, которая сможет изучать физические навыки на основе хаотичных данных о работе роботов в реальном мире, не прибегая к симуляции? Компания Generalist AI представила GEN-θ — семейство воплощённых фундаментальных моделей, обученных непосредственно на данных о реальных физических взаимодействиях высокого качества, а не на интернет-видео или симуляциях. Система создана для установления законов масштабирования в робототехнике так же, как большие языковые модели сделали это для текста, но теперь основана на непрерывных сенсорно-моторных потоках от реальных роботов, работающих в домах, на складах и на предприятиях.
Гармоническое рассуждение: мышление и действие в реальном времени
GEN-θ представлена как архитектура воплощённых фундаментальных моделей, которая опирается на сильные стороны моделей зрения и языка и расширяет их за счёт встроенной поддержки рефлексов человеческого уровня и физического здравого смысла. Ключевой особенностью является гармоническое рассуждение, где модель обучается думать и действовать одновременно над асинхронными, непрерывными потоками сенсорных и действующих токенов.
Эта конструкция нацелена на специфическое ограничение в робототехнике. Языковые модели могут просто потратить больше времени на размышления, прежде чем ответить, но роботы должны действовать, пока физика продолжает развиваться. Гармоническое рассуждение создаёт гармоничное взаимодействие между потоками восприятия и действий, чтобы GEN-θ могла масштабироваться до очень больших размеров моделей, не полагаясь на архитектуры System1-System2 или контроллеры с большим временем вывода.
GEN-θ явно кросс-эмбеддирована. Одна и та же архитектура работает на разных роботах и была протестирована на полугуманоидных системах с 6DoF, 7DoF и 16+DoF, что позволяет одному предварительному обучению обслуживать разнородные флоты.
Превышение порога интеллекта в робототехнике
Команда Generalist AI сообщает о фазовом переходе в возможностях по мере масштабирования GEN-θ в режиме больших объёмов данных. Их исследования масштабирования также показывают, что модели должны быть достаточно большими, чтобы поглощать огромные объёмы данных о физическом взаимодействии.
Их поведение таково:
* Модели размером 1 млрд (1B) с трудом поглощают сложные и разнообразные сенсомоторные данные во время предварительного обучения, и их веса перестают поглощать новую информацию, что исследовательская группа описывает как окостенение.
* Модели размером 6 млрд (6B) начинают получать пользу от предварительного обучения и демонстрируют сильные многозадачные возможности.
* Модели размером 7 млрд (7B+) усваивают крупномасштабное роботизированное предварительное обучение, так что несколько тысяч шагов после обучения на последующих задачах достаточно для переноса.
Законы масштабирования для робототехники
Другим направлением этого исследования являются законы масштабирования, которые связывают предварительное обучение данных и вычислений с производительностью после обучения. Исследовательская группа выбирает контрольные точки из запусков обучения GEN-θ на разных подмножествах набора данных для предварительного обучения, затем после обучения этих контрольных точек на многозадачных данных, обусловленных языком. Этот этап тонкой настройки под контролем охватывает 16 наборов задач, охватывающих задачи на ловкость, такие как сборка Lego, отраслевые рабочие процессы, такие как упаковка фастфуда, и задачи обобщения, которые включают любые инструкции по стилю.
В различных задачах увеличение предварительного обучения улучшает потерю валидации и ошибку прогнозирования следующего действия во время пост-обучения. При достаточном масштабе модели взаимосвязь между размером набора данных для предварительного обучения и ошибкой валидации на последующих этапах хорошо описывается степенным законом вида:
$L(D)=(Dc/D)^{αD}$
где $D$ — количество траекторий действий при предварительном обучении, а $L(D)$ — ошибка валидации на последующей задаче. Эта формула позволяет командам робототехники оценить, сколько данных для предварительного обучения необходимо для достижения целевой ошибки прогнозирования следующего действия или сколько помеченных данных для последующего обучения можно обменять на дополнительное предварительное обучение.
Инфраструктура для работы с данными в масштабе робототехники
GEN-θ обучена на собственном наборе данных, состоящем из 270 000 часов траекторий манипуляций в реальном мире, собранных в тысячах домов, на складах и на предприятиях по всему миру. В настоящее время объём данных увеличивается более чем на 10 000 новых часов в неделю. Команда Generalist AI утверждает, что GEN-θ обучена на порядки большем объёме данных о манипуляциях в реальном мире, чем предыдущие крупные наборы данных для робототехники на сегодняшний день.
Чтобы поддерживать этот режим, исследовательская группа создала специальное оборудование, загрузчики данных и сетевую инфраструктуру, включая выделенные интернет-линии для обработки исходящей пропускной способности с распределённых сайтов. Конвейер использует мультиоблачные контракты, специальные машины для загрузки и порядка 10 000 вычислительных ядер для непрерывной мультимодальной обработки. Исследовательская группа сообщает о сжатии десятков петабайт данных и методах загрузки данных из передовых видео-фундаментальных моделей, в результате чего получается система, способная поглощать 6,85 лет опыта манипуляций в реальном мире за день обучения.
Насколько важно предварительное обучение GEN-θ?
Команда Generalist AI проводит крупные исследования на 8 наборах данных для предварительного обучения и 10 наборах задач с длинным горизонтом. Они обнаруживают, что разные смеси данных, а не только их объём, создают модели с разным поведением в 3 группах задач: ловкости, реальных приложениях и обобщении. Производительность измеряется с помощью средней квадратичной ошибки валидации на следующих действиях и обратной дивергенции Кульбака — Лейблера между политикой модели и гауссианом вокруг истинных действий.
Модели с низкой MSE и низкой обратной KL являются лучшими кандидатами для контролируемой тонкой настройки. Модели с более высокой MSE, но низкой обратной KL более мультимодальны в своих распределениях действий и могут быть лучшими отправными точками для обучения с подкреплением.
Ключевые выводы
* GEN-θ — это воплощённая фундаментальная модель, обученная на данных о реальных физических взаимодействиях высокого качества, а не на симуляции или интернет-видео. Она использует гармоническое рассуждение для одновременного мышления и действия в соответствии с законами физики реального мира.
* Эксперименты по масштабированию показывают порог интеллекта около 7 миллиардов параметров, где более мелкие модели окостеневают при высокой нагрузке на данные, а более крупные модели продолжают улучшаться с дополнительным предварительным обучением.
* GEN-θ демонстрирует чёткие законы масштабирования, где производительность после обучения следует степенному закону в зависимости от объёма данных для предварительного обучения, что позволяет командам прогнозировать, сколько данных и вычислений потребуется для достижения целевых уровней ошибок.
* Система обучена на более чем 270 000 часах данных о манипуляциях в реальном мире, увеличиваясь примерно на 10 000 часов в неделю, при поддержке специальной мультиоблачной инфраструктуры, которая может поглощать 6,85 лет опыта за день обучения.
* Крупномасштабные исследования на 8 наборах данных для предварительного обучения и 10 наборах задач с длинным горизонтом показывают, что качество данных и дизайн смесей, измеренные с помощью валидации MSE и обратной KL, так же важны, как и масштаб, поскольку разные смеси дают модели, лучше подходящие для контролируемой тонкой настройки или обучения с подкреплением.
Редакционные комментарии
GEN-θ позиционирует воплощённые фундаментальные модели как серьёзную попытку применить законы масштабирования к робототехнике, используя гармоническое рассуждение, крупномасштабное мультимодальное предварительное обучение и явный анализ смесей данных. Исследование показывает, что модели размером 7 млрд+ (7B+), обученные на 270 000 часах данных о манипуляциях в реальном мире с добавлением 10 000 часов еженедельно, могут преодолеть порог интеллекта, где больше данных о физическом взаимодействии предсказуемо улучшает производительность на последующих этапах в задачах на ловкость, приложениях и обобщении.
1. Какие ключевые особенности отличают GEN-θ от других моделей в робототехнике?
Ответ: GEN-θ отличается от других моделей в робототехнике тем, что она обучена на данных о реальных физических взаимодействиях высокого качества, а не на симуляции или интернет-видео. Ключевой особенностью является гармоническое рассуждение, где модель обучается думать и действовать одновременно над асинхронными, непрерывными потоками сенсорных и действующих токенов. Это позволяет модели масштабироваться до очень больших размеров без потери производительности.
2. Какие законы масштабирования были обнаружены при исследовании GEN-θ?
Ответ: при исследовании GEN-θ были обнаружены законы масштабирования, которые связывают предварительное обучение данных и вычислений с производительностью после обучения. Исследовательская группа выбрала контрольные точки из запусков обучения GEN-θ на разных подмножествах набора данных для предварительного обучения, затем после обучения этих контрольных точек на многозадачных данных, обусловленных языком. Было обнаружено, что производительность после обучения следует степенному закону в зависимости от объёма данных для предварительного обучения.
3. Какой объём данных был использован для обучения GEN-θ и как он влияет на производительность модели?
Ответ: для обучения GEN-θ был использован собственный набор данных, состоящий из 270 000 часов траекторий манипуляций в реальном мире, собранных в тысячах домов, на складах и на предприятиях по всему миру. В настоящее время объём данных увеличивается более чем на 10 000 новых часов в неделю. Эксперименты показывают, что увеличение предварительного обучения улучшает потерю валидации и ошибку прогнозирования следующего действия во время пост-обучения. При достаточном масштабе модели взаимосвязь между размером набора данных для предварительного обучения и ошибкой валидации на последующих этапах хорошо описывается степенным законом.
4. Какие выводы можно сделать о важности предварительного обучения для GEN-θ на основе проведённых исследований?
Ответ: исследования на 8 наборах данных для предварительного обучения и 10 наборах задач с длинным горизонтом показывают, что разные смеси данных, а не только их объём, создают модели с разным поведением. Модели с низкой средней квадратичной ошибкой валидации на следующих действиях и низкой обратной дивергенцией Кульбака — Лейблера между политикой модели и гауссианом вокруг истинных действий являются лучшими кандидатами для контролируемой тонкой настройки. Модели с более высокой средней квадратичной ошибкой, но низкой обратной дивергенцией более мультимодальны в своих распределениях действий и могут быть лучшими отправными точками для обучения с подкреплением.
5. Какие преимущества предоставляет мультиоблачная инфраструктура для работы с данными в масштабе робототехники?
Ответ: мультиоблачная инфраструктура позволяет поддерживать режим обучения GEN-θ на больших объёмах данных. Она включает выделенные интернет-линии для обработки исходящей пропускной способности с распределённых сайтов, специальные машины для загрузки и порядка 10 000 вычислительных ядер для непрерывной мультимодальной обработки. Это позволяет системе поглощать 6,85 лет опыта манипуляций в реальном мире за день обучения.