Hugging Face представляет SmolVLA: компактную модель для зрения, языка и действий для доступной и эффективной робототехники

Несмотря на недавний прогресс в управлении роботами с помощью крупномасштабных моделей зрения, языка и действий (VLA), их реальное внедрение ограничено из-за требований к оборудованию и данным. Большинство моделей VLA зависят от трансформерных бэкбонов с миллиардами параметров, что приводит к значительным затратам на память и вычисления. Это ограничивает эксперименты хорошо оснащёнными лабораториями и облаками, исключая практиков, работающих с более дешёвым оборудованием.

Кроме того, большая часть текущего прогресса в исследованиях VLA остаётся либо собственностью, либо основана на нерепродуцируемых методологиях, что препятствует открытым исследованиям. Наконец, неоднородность данных на роботизированных платформах — различия в морфологии, датчиках и режимах управления — создаёт дополнительные проблемы для обобщаемости и межплатформенного обучения.

Hugging Face представляет SmolVLA: облегчённую открытую платформу VLA

Hugging Face представляет SmolVLA, компактную модель для зрения, языка и действий, разработанную для обеспечения доступности и эффективности развёртывания. В отличие от традиционных VLAs, SmolVLA обучается исключительно на наборах данных, собранных сообществом, и оптимизирована для работы в средах с одним графическим процессором или центральным процессором.

Архитектура модели объединяет урезанный вариант предварительно обученной модели зрения и языка (SmolVLM-2) и трансформерного эксперта по действиям. Эта структура обеспечивает эффективное низкоуровневое управление с помощью инструкций на естественном языке и данных с RGB-камеры.

Отличительной чертой SmolVLA является асинхронный стек логического вывода, который отделяет прогнозирование действий от их выполнения. Такая конструкция обеспечивает управление с низкой задержкой, подходящее для приложений реального времени даже в условиях ограниченных ресурсов.

SmolVLA выпущена под открытой лицензией с сопутствующим кодом, обучающими данными и инструментами для развёртывания.

Архитектурный обзор и компромиссы в проектировании

Модель SmolVLA структурирована в два основных компонента:

1. Модуль восприятия (SmolVLM-2): предварительно обученный компактный кодер зрения и языка обрабатывает последовательности RGB-изображений, сенсомоторных состояний и языковых инструкций. Для повышения эффективности модель ограничивает визуальные токены путём понижения дискретизации и использует только нижнюю половину слоёв трансформатора, основываясь на эмпирических данных, согласно которым более ранние слои часто дают более переносимые функции.

2. Эксперт по действиям: лёгкий трансформер, обученный с помощью потокового сопоставления, предсказывает последовательности непрерывных управляющих действий. Эксперт по действиям чередует слои внутреннего и перекрёстного внимания, балансируя внутреннюю согласованность действий и зависимость от входных данных восприятия. Для обеспечения временной согласованности применяется причинное маскирование.

Чтобы снизить вычислительные затраты, используются линейные проекции для выравнивания размеров токенов модальностей. Вместо одношаговых прогнозов генерируются фрагменты действий, что снижает частоту вызовов логического вывода. Модель обучается с использованием точности bfloat16 и компиляции JIT от Torch для оптимизации времени выполнения.

Эмпирическая оценка: моделирование и производительность в реальных условиях

SmolVLA оценивается как на симуляционных бенчмарках (LIBERO и Meta-World), так и на реальных роботизированных задачах с использованием недорогих платформ SO100 и SO101. Модель обучается с нуля на ~23 тыс. эпизодов на 481 наборе данных сообщества, с автогенерацией меток задач с помощью VLM.

В бенчмарке LIBERO SmolVLA (0,45 млрд параметров) достигает среднего показателя успешности 87,3%, что близко к более крупным моделям, таким как π₀ (3,3 млрд параметров), или превосходит их. В Meta-World модель превосходит диффузионные политики и модели VLAs меньшего масштаба на разных уровнях сложности задач.

В реальных условиях SmolVLA достигает средних показателей успешности 78,3% при выполнении задач по захвату, размещению, укладке и сортировке, превосходя как ACT (обученный с нуля), так и π₀ (дообучена). Более того, SmolVLA обобщает опыт на роботизированные воплощения, сохраняя производительность на SO101, несмотря на обучение исключительно на данных SO100.

Влияние асинхронного логического вывода на производительность

Асинхронный стек логического вывода SmolVLA повышает эффективность управления за счёт перекрытия прогнозирования и выполнения. По сравнению с традиционным синхронным выводом этот подход сокращает среднее время выполнения задачи примерно на 30% и удваивает количество выполненных действий в сценариях с фиксированным временем. Это особенно полезно для периферийных развёртываний, где задержки логического вывода ухудшают производительность в реальном времени.

Заключение

SmolVLA демонстрирует, что компактные, воспроизводимые модели VLA с открытым исходным кодом могут поддерживать компетентное управление роботами на недорогом оборудовании. Благодаря тщательному выбору архитектуры — обрезке слоёв, пакетному прогнозированию действий и асинхронному выполнению — SmolVLA сохраняет производительность при значительном снижении вычислительных требований.

Открытый стек обучения и развёртывания модели в сочетании с оценкой в реальных условиях предлагает практическую основу для дальнейших исследований в области эффективного и доступного обучения роботов. Будущие направления включают расширение наборов данных для межтелесных взаимодействий, масштабирование ёмкости модели без ущерба для задержки и исследование совместного обучения на мультимодальных корпусах за пределами данных робототехники.

Ознакомьтесь с документом и моделью на Hugging Face. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit с более чем 95 тыс. участников и подписывайтесь на нашу рассылку.

Источник

Оставьте комментарий