站点图标 高效码农

HY-Motion 1.0革新:腾讯十亿级AI模型让文本一键生成3D动作动画成真

HY-Motion 1.0:腾讯发布十亿参数级文本生成3D动作大模型

Snippet摘要:HY-Motion 1.0是首个十亿参数级文本生成3D人体动作模型,在3000小时数据上预训练,覆盖200+动作类别,指令遵循能力达78.6%,动作质量评分3.43/5.0,显著超越现有开源方案。


文本描述直接生成3D动画,这次是真的来了

想象一下这样的场景:你只需要输入”一个人踢足球,同时挥动手臂”,几秒钟后,一段流畅自然的3D人体动画就生成了。这不是科幻片的情节,而是腾讯混元团队刚刚开源的HY-Motion 1.0模型正在实现的能力。

传统的3D动画制作有多复杂?即使是经验丰富的动画师,配合昂贵的动作捕捉设备,制作一段几秒钟的高质量动画也需要数小时甚至数天的时间。而HY-Motion 1.0的出现,正在彻底改变这个游戏规则。

为什么这次不一样?三个关键突破

突破一:参数规模达到十亿级别

HY-Motion 1.0是文本生成动作领域首个达到十亿参数规模的模型。具体来说,标准版拥有1.0B(10亿)参数,轻量版也有0.46B(4.6亿)参数。

这个规模意味着什么?对比一下现有的开源模型:

  • MoMask的参数量远小于百万级别
  • DART和LoM同样处于较小规模
  • 而HY-Motion 1.0直接将规模提升了数个量级

参数规模的提升带来了质的飞跃。在指令遵循能力测试中,HY-Motion 1.0的平均得分达到3.24分(5分制),而其他模型普遍在2.2分左右徘徊。这不是小幅改进,而是40%以上的性能提升。

突破二:3000小时多样化训练数据

数据质量和规模直接决定了模型的上限。HY-Motion 1.0的训练数据来自三个主要渠道:

野外视频数据:从1200万个高质量视频片段中提取,涵盖真实世界的各种动作场景。这些视频经过严格的预处理流程:

  • 镜头边界检测,分割成连贯场景
  • 人体检测器筛选包含人物的片段
  • 使用GVHMR算法重建3D人体运动轨迹,转换为SMPL-X参数格式

动作捕捉数据:约500小时的专业级动捕数据,主要来自室内可控环境,质量极高但场景多样性有限。

3D动画资产:由专业艺术家为游戏制作手工创建的动作序列,质量卓越但数量相对较少。

最终,经过去重、异常姿态剔除、关节速度异常值检测、足部滑动检测等严格过滤后,获得超过3000小时的高质量动作数据,其中400小时为精选的顶级质量数据。

突破三:完整的三阶段训练范式

这是HY-Motion 1.0最核心的创新之一。不同于传统的单一训练方式,该模型采用”粗到细、监督到反馈”的渐进式训练策略:

阶段一:大规模预训练(3000小时数据)

  • 目标:让模型学会”如何移动”
  • 数据:使用全部3000小时数据,包含各种质量层次
  • 效果:快速建立广泛的动作先验知识,语义理解能力强
  • 代价:生成的动作可能存在高频抖动、足部滑动等瑕疵

阶段二:高质量微调(400小时精选数据)

  • 目标:从”大致正确”提升到”精确流畅”
  • 数据:仅使用400小时经过人工校验的高质量数据
  • 学习率:降至预训练的0.1倍,防止遗忘已学知识
  • 效果:大幅减少抖动和滑动,解剖学一致性更强,能准确区分”挥左手”和”挥右手”这样的细节指令

阶段三:强化学习对齐(双重优化)

  • 第一步DPO(直接偏好优化):基于40000对动作样本,人工标注”更好”和”更差”的选择,从9228对高质量标注中学习人类审美偏好
  • 第二步Flow-GRPO:通过显式的物理和语义奖励函数,强制满足刚性物理约束(如消除足部滑动)和精确的语义对齐

这种三阶段训练让模型在保持多样性的同时,实现了质量和控制精度的双重提升。

技术架构:混合Transformer如何理解文本并生成动作

动作表示方式:201维向量的秘密

HY-Motion 1.0使用SMPL-H骨架定义(22个关节,不含手部),每一帧动作都被编码为一个201维的向量:

  • 全局根部平移(3维):定义角色在空间中的位置
  • 全局身体朝向(6维):使用连续6D旋转表示法
  • 局部关节旋转(126维):21个关节×6维旋转表示
  • 局部关节位置(66维):22个关节×3维坐标

这种表示方法的优势在于与标准动画工作流程兼容,可以直接导入Blender、Maya等主流3D软件。与常用的HumanML3D表示不同,HY-Motion移除了显式的时间导数(速度)和足部接触标签,实验发现这样反而训练收敛更快。

双流单流混合架构

模型的核心是一个混合Transformer,巧妙结合了双流和单流处理:

双流区块(占总层数1/3)

  • 动作和文本各自独立处理,保持模态特有的表示
  • 通过联合注意力机制交互:动作特征可以查询文本语义线索
  • 文本Token不受动作噪声污染,保持语义完整性

单流区块(占总层数2/3)

  • 动作和文本Token拼接成统一序列
  • 并行的空间注意力和通道注意力模块实现深度多模态融合

文本编码器的双重条件策略

  • Qwen3-8B提取细粒度的Token级语义嵌入,通过双向Token精炼器转换为非自回归生成所需的双向表示
  • CLIP-L提取全局文本嵌入,通过AdaLN机制注入,自适应调节网络中的特征统计

注意力机制的两个关键设计

非对称注意力掩码

  • 动作Token可以全局关注文本序列,提取语义线索
  • 文本Token被明确屏蔽,无法看到动作潜变量
  • 目的:防止动作中的扩散噪声污染文本嵌入

窄带时间掩码

  • 动作分支内部,每个帧只关注前后60帧的滑动窗口(30fps下共121帧)
  • 基于假设:运动学动力学主要由局部连续性控制
  • 优势:计算复杂度为线性,可处理长序列

完整RoPE位置编码

  • 将文本和动作嵌入拼接成单一序列后再应用旋转位置嵌入
  • 建立连续的相对坐标系统,让模型理解特定文本Token与时间帧的对应关系

Flow Matching:为什么比传统扩散更高效

HY-Motion使用Flow Matching构建从标准高斯噪声到复杂动作数据分布的连续概率路径。采用最优传输路径,定义为线性插值:x_t = (1-t)x_0 + tx_1

训练目标是最小化预测速度和真实速度之间的均方误差。推理时,从随机噪声x_0出发,通过欧拉法等ODE求解器沿预测的速度场积分,恢复出干净的动作x_1。

相比传统的DDPM扩散模型,Flow Matching的优势:

  • 训练更稳定,不需要复杂的噪声调度
  • 推理步数更少,生成速度更快
  • 数学形式更简洁,易于理解和优化

数据处理管道:从原始视频到精确标注

自动化清洗流程

重定向与统一

  • 所有动作统一重定向到中性SMPL-H骨架
  • SMPL/SMPL-H/SMPL-X格式通过网格拟合转换
  • 其他骨架结构使用重定向工具映射

多层过滤机制

  • 去除重复序列
  • 剔除异常姿态(关节角度超出生理范围)
  • 检测关节速度异常值(突变超过阈值)
  • 识别异常位移(瞬移等非物理现象)
  • 剪除静态动作(运动幅度低于阈值)
  • 检测足部滑动伪影(脚掌接触地面时不应有水平移动)

标准化处理

  • 统一重采样至30fps
  • 长于12秒的序列分割成多个片段
  • 标准化到规范坐标系:Y轴向上,起始位置位于原点,最低身体点对齐地面,初始朝向沿正Z轴

智能标注流程

视频源数据直接使用原始视频
对于从视频提取的动作,直接使用原始视频进行标注。

3D数据合成渲染
对于动捕和动画资产,将SMPL-H模型纹理化并渲染成合成视频。

VLM初步标注
将视频输入视觉语言模型(如Gemini-2.5-Pro),配合针对人体动作优化的提示词,获得初步描述和动作关键词。

人工精校(高质量数据)
对400小时精选数据的VLM输出进行人工验证:

  • 纠正错误描述
  • 补充遗漏的关键动作要素
  • 确保文本与动作完美对应

LLM增强与多样化
使用大语言模型:

  • 标准化描述结构,保持原始语义
  • 创建多样化改写,用于数据增强
  • 生成不同表达风格的同义描述

分层分类体系:覆盖200+动作类别

HY-Motion建立了三级动作分类体系,顶层包含六大类别:

1. 移动运动(Locomotion)

  • 水平移动:行走、跑步、侧步等
  • 垂直移动:跳跃、下蹲等
  • 特殊移动:爬行、攀爬等
  • 载具:骑摩托车等

2. 体育竞技(Sports & Athletics)

  • 球类运动:网球、足球等
  • 精准运动:射箭、射击等
  • 田径项目:跳高、跳远、铅球、短跑等

3. 健身户外(Fitness & Outdoor Activities)

  • 健身房与力量训练:卷腹、平板支撑、压腿伸展等
  • 瑜伽:婴儿式、鸽子式、战士一式等
  • 户外活动:跳伞、冰壶等

4. 日常活动(Daily Activities)

  • 基本姿态:站立、坐下、躺卧
  • 物体交互:拧瓶盖等
  • 家务:扫地等
  • 个人护理:刮胡子、涂抹乳液等
  • 办公学习:打电话等
  • 饮食烹饪

5. 社交休闲(Social Interactions & Leisure)

  • 独自节奏动作
  • 独自语义手势
  • 舞蹈:恰恰、现代舞等
  • 体操与杂技:倒立等
  • 乐器演奏:钢琴等
  • 武术:功夫等
  • 戏剧表演:走秀等

6. 游戏角色动作(Game Character Actions)

  • 防御动作
  • 火器攻击:大炮、火箭筒射击等
  • 受击反应
  • 魔法攻击:法杖施法等
  • 近战攻击
  • 近战武器攻击:单手剑挥砍等

这个分类体系从6个顶级类别逐级细化,最终在叶子节点达到200多个精细动作类别,是目前业界覆盖最广的动作分类体系。

辅助模块:LLM驱动的时长预测与提示词重写

用户输入的文本往往是随意的、口语化的,例如:”踢球”或者”一个人在踢足球”。为了让模型更好地理解和执行,HY-Motion引入了一个独立的LLM模块,负责两个关键任务:

时长预测

LLM利用其内在的常识知识,从文本描述推断动作的典型时长。例如:

  • “挥手”通常持续1-2秒
  • “从坐到站”大约2-3秒
  • “跑步一圈”可能需要10-15秒

为了提高准确性,该LLM在包含真实动作时长的数据集上进行了微调,使其预测与训练数据分布对齐。

提示词重写

将用户的随意输入转换为结构化、模型友好的描述。例如:

  • 输入:”踢球”
  • 输出:”一个人踢足球,伸腿向前踢”

重写过程保持用户原意,但添加了动作细节,使生成更精确。

两阶段训练策略

监督微调(SFT)

  • 基于Qwen3-30B-A3B模型微调
  • 训练数据为{用户提示词, 优化提示词, 时长}三元组
  • 用户提示词由强大的LLM(Gemini-2.5-Pro)合成,模拟真实用户输入的多样性,包括非正式语言、中英混合、不同程度的具体性

强化学习(RL)

  • 使用Group Relative Policy Optimization(GRPO)算法
  • 以更强大的模型(Qwen3-235B-A22B-Instruct-2507)作为奖励评判器
  • 奖励函数评估两个维度:语义一致性(重写是否忠实于用户意图)和时间合理性(预测时长是否与动作复杂度匹配)
  • 通过优化候选输出的相对优势,引导策略生成语义精确且时间连贯的指令

性能对比:远超现有开源方案

指令遵循能力评估

在包含2000多个文本提示的测试集上,覆盖六大类别和从简单原子动作到复杂组合动作的各种场景,人工评审员对生成动作进行1-5分打分:

模型 移动 体育 健身户外 日常 社交休闲 游戏角色 平均分 SSAE准确率
MoMask 2.98 2.41 2.09 2.07 2.38 1.97 2.31 58.0%
GoToZero 2.80 2.23 2.07 2.00 2.32 1.74 2.19 52.7%
DART 2.91 2.47 2.03 2.07 2.40 2.05 2.31 42.7%
LoM 2.81 2.07 1.95 2.00 2.39 1.84 2.17 48.9%
HY-Motion 1.0 3.76 3.18 3.15 3.06 3.25 3.01 3.24 78.6%

HY-Motion 1.0的平均得分3.24,比次优模型高出40%以上。在结构化语义对齐评估(SSAE)中,准确率达到78.6%,比其他模型高出近30个百分点。

SSAE是一种自动化评估方法,将文本-动作对齐问题转换为视频问答任务。对于提示词”一个人挥动手臂同时射足球”,系统会分解为一系列是非问题:

  • “这个人在踢腿吗?”
  • “这个人在挥手臂吗?”
  • “这个人看起来在射足球吗?”

然后让视觉语言模型(Gemini-2.5-Pro)观看渲染视频并回答,正确率即为SSAE得分。

动作质量评估

同样的测试集,评审员对动作的流畅性、物理合理性、自然度打分:

模型 移动 体育 健身户外 日常 社交休闲 游戏角色 平均分
MoMask 3.05 2.91 2.58 2.66 2.77 2.81 2.79
GoToZero 3.11 3.01 2.69 2.72 2.89 2.81 2.86
DART 3.38 3.33 2.94 2.95 3.06 3.07 3.11
LoM 3.14 3.08 2.98 3.01 3.14 3.01 3.06
HY-Motion 1.0 3.59 3.51 3.28 3.37 3.43 3.41 3.43

HY-Motion 1.0在质量维度上同样领先,平均得分3.43,比最接近的竞争者高出10%。

缩放实验:规模的力量

为了验证模型规模和数据量的影响,团队训练了多个不同规模的变体:

指令遵循能力随规模提升:

模型 参数量 训练数据 平均得分
DiT-0.05B 50M 3000小时 3.10
DiT-0.46B 460M 3000小时 3.20
DiT-0.46B-400h 460M 400小时 3.05
DiT-1B 1.0B 3000小时 3.34

关键发现:

  1. 从50M到1B,指令遵循能力持续提升
  2. 相同规模下,3000小时数据比400小时数据训练的模型表现更好(3.20 vs 3.05),证明大规模数据对语义理解至关重要
  3. 从460M到1B,虽然参数增加一倍多,但提升幅度有所收窄

动作质量在中等规模饱和:

模型 参数量 平均得分
DiT-0.05B 50M 2.91
DiT-0.46B 460M 3.26
DiT-0.46B-400h 460M (仅高质量数据) 3.31
DiT-1B 1.0B 3.34

关键发现:

  1. 从50M到460M,质量大幅跃升(2.91到3.26)
  2. 460M之后,继续增大规模带来的质量提升不明显(3.26到3.34)
  3. 相同规模下,高质量数据微调比大规模数据更有利于质量提升(3.31 vs 3.26),证明数据质量对物理真实性至关重要

这些实验验证了数据的双重作用:规模驱动语义理解,质量保证物理真实。

快速上手:两种使用方式

环境准备

系统要求:支持macOS、Windows和Linux系统

安装步骤

  1. 安装PyTorch(访问pytorch.org获取适合你系统的版本)

  2. 克隆代码仓库并安装依赖:

git clone https://github.com/Tencent-Hunyuan/HY-Motion-1.0
cd HY-Motion-1.0
pip install -r requirements.txt
  1. 下载模型权重:
    按照ckpts/README.md中的说明下载必要的模型文件,包括:
  • HY-Motion-1.0(标准版,1.0B参数)
  • HY-Motion-1.0-Lite(轻量版,0.46B参数)

命令行批量推理

适合处理大量提示词的场景:

# 使用标准版
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0

# 使用轻量版
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0-Lite

常用参数配置

  • --input_text_dir:包含.txt或.json格式提示词文件的目录
  • --output_dir:结果保存目录(默认:output/local_infer)
  • --disable_duration_est:禁用基于LLM的时长预测
  • --disable_rewrite:禁用基于LLM的提示词重写
  • --prompt_engineering_host / --prompt_engineering_model_path:动作时长预测和提示词重写模块的主机地址或本地路径

重要提示:如果不设置提示词工程模块参数,必须同时设置--disable_duration_est--disable_rewrite,否则会因无法访问重写服务而报错。

交互式Web界面

更直观的使用方式,启动Gradio应用:

python3 gradio_app.py

运行后,在浏览器中访问http://localhost:7860,你会看到一个友好的界面,可以:

  • 直接输入文本描述
  • 调整生成参数
  • 实时预览生成的动作
  • 下载结果文件

这种方式特别适合快速测试和创意探索。

实际应用场景:解锁创意生产力

游戏开发

传统游戏角色动画制作流程复杂:概念设计→动捕拍摄→清理数据→美术调整→引擎集成,周期长、成本高。

使用HY-Motion 1.0:

  • 输入”一个战士用双手剑斩击”→即时生成基础动画
  • 输入”一个法师用法杖释放火球”→快速原型验证
  • 批量生成NPC日常动作(走路、站立、交谈等)
  • 快速迭代战斗动作设计

预计可将角色动画原型制作时间从数天缩短至数小时。

影视动画预览

在正式拍摄或制作前,导演和编剧可以:

  • 快速可视化剧本中的动作场景
  • 预览复杂打斗编排
  • 测试角色走位和互动
  • 为投资方展示概念验证

大幅降低前期策划的试错成本。

虚拟人与数字人

直播、教育、客服等领域的虚拟形象需要丰富的动作库:

  • 根据文本脚本自动生成讲解动作
  • 实时响应用户指令生成交互动作
  • 为虚拟教师生成各学科相关的演示动作(如物理实验、化学操作)

健身与体育训练

教练和运动员可以:

  • 生成标准动作示范(”标准的深蹲动作”)
  • 可视化复杂组合动作(”跳跃后接侧踢”)
  • 为训练App快速创建动作库
  • 辅助动作分析和纠正

机器人动作规划

虽然HY-Motion生成的是虚拟人体动作,但可以作为人形机器人的动作规划参考:

  • 将自然语言指令转换为运动序列
  • 为机器人学习提供示范数据
  • 评估动作的可行性和自然度

当前局限性:未来改进方向

团队坦诚地指出了HY-Motion 1.0当前的两个主要限制:

复杂指令理解挑战

尽管在语义对齐上显著超越基线模型,但面对高度详细或复杂的指令时仍有困难。例如:

“一个人先用左脚向前踏一步,同时右手向上挥动,然后身体向左侧旋转90度,接着弯腰用右手触碰左脚尖”

这类包含多个步骤、精确方位、严格顺序的指令,模型可能无法完全准确执行。

根本原因:数据标注管道的固有难度。无论是VLM自动标注还是人工精修,为细微复杂的动作创建完整准确的文本描述都极具挑战性。许多细节(如手臂角度、身体重心变化)难以用自然语言精确表达。

人-物交互能力不足

当前数据集主要关注身体运动学,缺乏显式的物体几何信息。因此,模型在生成与外部物体的物理交互时可能不够准确。例如:

  • 握住工具时的接触点可能不精确
  • 推/拉/抬起物体时的力的施加点可能不自然
  • 坐椅子、开门等需要精确空间对齐的动作可能出现穿模或悬空

这是整个领域的共同挑战。未来需要:

  • 包含物体几何的数据集
  • 物理仿真约束
  • 接触感知的生成模型

团队表示正在这些方向上积极研究。

为什么选择开源?

腾讯混元团队将HY-Motion 1.0完全开源,包括:

  • 完整的推理代码
  • 预训练模型权重(1.0B和0.46B两个版本)
  • 详细的技术文档
  • 在线演示平台

开源的理由很简单:

  1. 加速研究进展:让全球研究者在更高的起点上创新
  2. 促进技术民主化:降低3D动画制作门槛,让更多创作者受益
  3. 推动商业成熟:通过社区反馈快速迭代,加速技术走向实用

正如论文所言,他们希望HY-Motion 1.0能成为一个坚实的基线,激发更多探索,加速可扩展、高质量动作生成技术的发展。

核心洞察:数据与规模的双重真理

通过HY-Motion 1.0的开发,团队提炼出两个关键原则:

原则一:数据的二元性

  • 规模驱动语义:扩大训练数据量是提升指令遵循和语义理解的主要驱动力。从实验看,3000小时数据训练的模型在指令理解上明显优于400小时数据训练的同等规模模型。
  • 质量保证真实:提高数据质量是增强动作保真度和物理真实性的决定性因素。高质量数据微调能显著减少抖动、滑动等伪影,即使模型规模不变。

原则二:多阶段训练的有效性
“粗到细”的三阶段框架——大规模预训练、高质量微调、强化学习对齐——被证明是必要的。这种方法有效平衡了动作多样性和精度之间的权衡,为该领域提供了一条稳健的优化路径。

常见问题解答

生成一个动作需要多长时间?

取决于动作长度、模型规模和硬件配置。在配备高端GPU(如NVIDIA A100)的服务器上,生成5秒钟的动作序列(30fps,共150帧)通常需要几秒到十几秒。轻量版模型速度更快,但质量略有降低。

生成的动作可以直接用于游戏或动画制作吗?

可以,但通常需要后处理。HY-Motion输出的是标准SMPL-H骨架格式,兼容主流3D软件(Blender、Maya、Unity、Unreal Engine等)。对于商业项目,建议:

  1. 生成后由专业动画师微调细节
  2. 根据目标角色的体型重定向骨架
  3. 调整时序以匹配具体场景需求

支持多人交互动作吗?

当前版本主要针对单人动作。虽然训练数据中包含一些多人接触类别(如握手、拥抱),但生成的是单个角色的动作序列。真正的多人协同生成(两个角色同时互动,空间位置精确对齐)是下一阶段的研究方向。

能否微调模型以适应特定风格?

可以。如果你有特定领域的动作数据(如某个游戏的战斗风格、特定舞种的编舞),可以基于预训练模型进行微调。建议使用高质量微调阶段的学习率(预训练的0.1倍)以保留已学知识,同时适应新风格。

商业使用有限制吗?

开源模型通常遵循特定许可协议,具体请查看项目的LICENSE文件。一般而言,研究和非商业用途自由,商业用途可能需要额外许可或遵守特定条款。建议联系腾讯混元团队获取明确授权信息。

与闭源商业方案相比如何?

HY-Motion 1.0在开源方案中处于领先地位,但与顶级闭源商业产品(如未公开的大厂内部方案)相比可能仍有差距,特别是在复杂场景和人-物交互方面。开源的优势在于可定制、可审计、无使用限制、社区支持。


一句话总结:HY-Motion 1.0通过十亿级参数规模、3000小时多样化数据和三阶段精细训练,将文本生成3D动作推向新高度,为AI辅助动画制作开启实用化新篇章。

退出移动版