Tencent выпустила модель Tencent HY-Motion 1.0

Команда Tencent Hunyuan’s 3D Digital Human выпустила HY-Motion 1.0 — открытую модель для генерации трёхмерных движений человека по тексту, основанную на архитектуре Diffusion Transformer (DiT) и Flow Matching. Модель масштабирована до 1 миллиарда параметров в области движения.

Что представляет собой HY-Motion 1.0?

HY-Motion 1.0 — это серия моделей для генерации трёхмерных движений человека по тексту, построенных на основе Diffusion Transformer (DiT). Модель обучена с использованием алгоритма Flow Matching. Представлено два варианта: HY-Motion-1.0 с 1,0 млрд параметров в качестве стандартной модели и HY-Motion-1.0-Lite с 0,46 млрд параметров в качестве облегчённого варианта.

Обе модели генерируют скелетную анимацию трёхмерных персонажей на основе простых текстовых подсказок. На выходе получается последовательность движений на скелете SMPL-H, которую можно интегрировать в трёхмерные анимационные или игровые конвейеры, например, для цифровых людей, кинематографических и интерактивных персонажей.

Данные и таксономия

Данные для обучения взяты из трёх источников: видео с движением людей в естественных условиях, данные захвата движения и трёхмерные ассеты для игрового производства.

Исследовательская группа начинает с 12 миллионов высококачественных видеоклипов из HunyuanVideo, использует алгоритм GVHMR для реконструкции треков движения SMPL X. Сессии захвата движения и библиотеки трёхмерной анимации вносят около 500 часов дополнительных последовательностей движений.

Все данные перенацелены на унифицированный скелет SMPL-H с помощью инструментов подгонки сетки и перенацеливания. Многоуровневый фильтр удаляет дубликаты клипов, аномальные позы, выбросы в скорости суставов, аномальные смещения, длинные статические сегменты и артефакты, такие как скольжение ног. Движения затем канонизируются, пересэмплируются до 30 кадров в секунду и сегментируются на клипы короче 12 секунд с фиксированным мировым фреймом, осью Y вверх и персонажем, обращённым к положительной оси Z.

Окончательный корпус содержит более 3000 часов движения, из которых 400 часов — это высококачественное трёхмерное движение с проверенными подписями.

На основе этого исследовательская группа определяет трёхуровневую таксономию. На верхнем уровне — 6 классов: передвижение, спорт и атлетика, фитнес и мероприятия на свежем воздухе, повседневная деятельность, социальное взаимодействие и досуг, игровые действия персонажей. Эти классы расширяются до более чем 200 мелкозернистых категорий движений, которые охватывают как простые атомарные действия, так и одновременные или последовательные комбинации движений.

Представление движения и HY-Motion DiT

HY-Motion 1.0 использует скелет SMPL-H с 22 суставами тела без кистей рук. Каждый кадр представляет собой вектор размерностью 201, который объединяет глобальный перевод корня в трёхмерном пространстве, глобальную ориентацию тела в непрерывном 6D представлении, 21 локальное вращение суставов в 6D форме и 22 локальных положения суставов в трёхмерных координатах.

Основная сеть — это гибридный HY Motion DiT. Сначала применяются блоки с двумя потоками, которые обрабатывают скрытые данные движения и текстовые токены отдельно. В этих блоках каждая модальность имеет свои собственные проекции QKV и MLP, а модуль совместного внимания позволяет токенам движения запрашивать семантические функции из текстовых токенов, сохраняя при этом структуру, специфичную для модальности.

Обучение и сопоставление потоков

HY-Motion 1.0 использует Flow Matching вместо стандартного шумоподавления. Модель изучает поле скоростей вдоль непрерывного пути, который интерполирует между гауссовским шумом и реальными данными о движении. Во время обучения целью является среднеквадратичная ошибка между прогнозируемыми и истинными скоростями вдоль этого пути.

Во время вывода изученное обыкновенное дифференциальное уравнение интегрируется от шума до чистой траектории, что обеспечивает стабильное обучение для длинных последовательностей и соответствует архитектуре DiT.

Бенчмарки, масштабирование и ограничения

Для оценки команда создаёт тестовый набор из более чем 2000 подсказок, охватывающих 6 категорий таксономии, и включает простые, одновременные и последовательные действия. Человеческие оценщики оценивают выполнение инструкций и качество движения по шкале от 1 до 5.

HY-Motion 1.0 достигает среднего балла за выполнение инструкций 3,24 и показателя SSAE 78,6%. Базовые системы преобразования текста в движение, такие как DART, LoM, GoToZero и MoMask, достигают показателей от 2,17 до 2,31 с SSAE от 42,7% до 58,0%. По качеству движения HY-Motion 1.0 достигает в среднем 3,43 балла против 3,11 у лучшей базовой системы.

Основные выводы

* Масштабирование DiT Flow Matching для движения: HY-Motion 1.0 — первая модель на основе Diffusion Transformer и Flow Matching, масштабированная до уровня 1 миллиарда параметров специально для преобразования текста в трёхмерные движения человека.
* Крупномасштабный, тщательно отобранный корпус данных о движении: модель предварительно обучена на более чем 3000 часах реконструированных данных о движении, данных захвата движения и анимационных данных, а затем дообучена на 400-часовом подмножестве высокого качества.
* Гибридная архитектура DiT с сильной текстовой обусловленностью: HY-Motion 1.0 использует гибридную архитектуру с двумя потоками и одним потоком DiT с асимметричным вниманием, узкополосным временным вниманием и двумя текстовыми кодировщиками, Qwen3 8B и CLIP L, для слияния уровня токенов и глобальной семантики в траектории движения.
* RL-выровненный конвейер переформулировки и обучения подсказкам: специальный модуль на основе Qwen3 30B прогнозирует продолжительность движения и переписывает подсказки пользователя, а DiT дополнительно выравнивается с помощью Direct Preference Optimization и Flow GRPO с использованием семантических и физических вознаграждений, что улучшает реализм и выполнение инструкций за пределами обучения с учителем.

Ознакомьтесь с [полным текстом статьи и кодом](https://arxiv.org/pdf/2512.23464). Подписывайтесь на нас в [Twitter](https://twitter.com/), присоединяйтесь к нашему [ML SubReddit](https://www.reddit.com/r/MachineLearning/) и подписывайтесь на [наш Newsletter](https://www.marktechpost.com/newsletter/). А также присоединяйтесь к нам в [Telegram](https://telegram.me/).

1. Какие основные инновации используются в модели Tencent HY-Motion 1.0 для генерации трёхмерных движений человека по тексту?

В модели Tencent HY-Motion 1.0 для генерации трёхмерных движений человека по тексту используются архитектура Diffusion Transformer (DiT) и алгоритм Flow Matching.

2. Какие данные были использованы для обучения модели Tencent HY-Motion 1.0?

Для обучения модели Tencent HY-Motion 1.0 были использованы данные из трёх источников: видео с движением людей в естественных условиях, данные захвата движения и трёхмерные ассеты для игрового производства.

3. Какие параметры характеризуют модель Tencent HY-Motion 1.0 и её облегчённый вариант HY-Motion-1.0-Lite?

Модель Tencent HY-Motion 1.0 имеет 1 миллиард параметров в области движения, а её облегчённый вариант HY-Motion-1.0-Lite — 0,46 миллиарда параметров.

4. Какие метрики использовались для оценки качества модели Tencent HY-Motion 1.0?

Для оценки качества модели Tencent HY-Motion 1.0 использовались следующие метрики: средний балл за выполнение инструкций и показатель SSAE (Structural Similarity Assessment of External Data).

5. Какие выводы можно сделать о преимуществах модели Tencent HY-Motion 1.0 по сравнению с базовыми системами преобразования текста в движение?

Модель Tencent HY-Motion 1.0 имеет следующие преимущества по сравнению с базовыми системами преобразования текста в движение:
* более высокое качество движения;
* более высокий средний балл за выполнение инструкций;
* более высокая эффективность при работе с длинными последовательностями движений.

Источник