HY-Motion 1.0:腾讯发布十亿参数级文本生成3D动作大模型
Snippet摘要:HY-Motion 1.0是首个十亿参数级文本生成3D人体动作模型,在3000小时数据上预训练,覆盖200+动作类别,指令遵循能力达78.6%,动作质量评分3.43/5.0,显著超越现有开源方案。
文本描述直接生成3D动画,这次是真的来了
想象一下这样的场景:你只需要输入”一个人踢足球,同时挥动手臂”,几秒钟后,一段流畅自然的3D人体动画就生成了。这不是科幻片的情节,而是腾讯混元团队刚刚开源的HY-Motion 1.0模型正在实现的能力。
传统的3D动画制作有多复杂?即使是经验丰富的动画师,配合昂贵的动作捕捉设备,制作一段几秒钟的高质量动画也需要数小时甚至数天的时间。而HY-Motion 1.0的出现,正在彻底改变这个游戏规则。
为什么这次不一样?三个关键突破
突破一:参数规模达到十亿级别
HY-Motion 1.0是文本生成动作领域首个达到十亿参数规模的模型。具体来说,标准版拥有1.0B(10亿)参数,轻量版也有0.46B(4.6亿)参数。
这个规模意味着什么?对比一下现有的开源模型:
-
MoMask的参数量远小于百万级别 -
DART和LoM同样处于较小规模 -
而HY-Motion 1.0直接将规模提升了数个量级
参数规模的提升带来了质的飞跃。在指令遵循能力测试中,HY-Motion 1.0的平均得分达到3.24分(5分制),而其他模型普遍在2.2分左右徘徊。这不是小幅改进,而是40%以上的性能提升。
突破二:3000小时多样化训练数据
数据质量和规模直接决定了模型的上限。HY-Motion 1.0的训练数据来自三个主要渠道:
野外视频数据:从1200万个高质量视频片段中提取,涵盖真实世界的各种动作场景。这些视频经过严格的预处理流程:
-
镜头边界检测,分割成连贯场景 -
人体检测器筛选包含人物的片段 -
使用GVHMR算法重建3D人体运动轨迹,转换为SMPL-X参数格式
动作捕捉数据:约500小时的专业级动捕数据,主要来自室内可控环境,质量极高但场景多样性有限。
3D动画资产:由专业艺术家为游戏制作手工创建的动作序列,质量卓越但数量相对较少。
最终,经过去重、异常姿态剔除、关节速度异常值检测、足部滑动检测等严格过滤后,获得超过3000小时的高质量动作数据,其中400小时为精选的顶级质量数据。
突破三:完整的三阶段训练范式
这是HY-Motion 1.0最核心的创新之一。不同于传统的单一训练方式,该模型采用”粗到细、监督到反馈”的渐进式训练策略:
阶段一:大规模预训练(3000小时数据)
-
目标:让模型学会”如何移动” -
数据:使用全部3000小时数据,包含各种质量层次 -
效果:快速建立广泛的动作先验知识,语义理解能力强 -
代价:生成的动作可能存在高频抖动、足部滑动等瑕疵
阶段二:高质量微调(400小时精选数据)
-
目标:从”大致正确”提升到”精确流畅” -
数据:仅使用400小时经过人工校验的高质量数据 -
学习率:降至预训练的0.1倍,防止遗忘已学知识 -
效果:大幅减少抖动和滑动,解剖学一致性更强,能准确区分”挥左手”和”挥右手”这样的细节指令
阶段三:强化学习对齐(双重优化)
-
第一步DPO(直接偏好优化):基于40000对动作样本,人工标注”更好”和”更差”的选择,从9228对高质量标注中学习人类审美偏好 -
第二步Flow-GRPO:通过显式的物理和语义奖励函数,强制满足刚性物理约束(如消除足部滑动)和精确的语义对齐
这种三阶段训练让模型在保持多样性的同时,实现了质量和控制精度的双重提升。
技术架构:混合Transformer如何理解文本并生成动作
动作表示方式:201维向量的秘密
HY-Motion 1.0使用SMPL-H骨架定义(22个关节,不含手部),每一帧动作都被编码为一个201维的向量:
-
全局根部平移(3维):定义角色在空间中的位置 -
全局身体朝向(6维):使用连续6D旋转表示法 -
局部关节旋转(126维):21个关节×6维旋转表示 -
局部关节位置(66维):22个关节×3维坐标
这种表示方法的优势在于与标准动画工作流程兼容,可以直接导入Blender、Maya等主流3D软件。与常用的HumanML3D表示不同,HY-Motion移除了显式的时间导数(速度)和足部接触标签,实验发现这样反而训练收敛更快。
双流单流混合架构
模型的核心是一个混合Transformer,巧妙结合了双流和单流处理:
双流区块(占总层数1/3):
-
动作和文本各自独立处理,保持模态特有的表示 -
通过联合注意力机制交互:动作特征可以查询文本语义线索 -
文本Token不受动作噪声污染,保持语义完整性
单流区块(占总层数2/3):
-
动作和文本Token拼接成统一序列 -
并行的空间注意力和通道注意力模块实现深度多模态融合
文本编码器的双重条件策略:
-
Qwen3-8B提取细粒度的Token级语义嵌入,通过双向Token精炼器转换为非自回归生成所需的双向表示 -
CLIP-L提取全局文本嵌入,通过AdaLN机制注入,自适应调节网络中的特征统计
注意力机制的两个关键设计
非对称注意力掩码:
-
动作Token可以全局关注文本序列,提取语义线索 -
文本Token被明确屏蔽,无法看到动作潜变量 -
目的:防止动作中的扩散噪声污染文本嵌入
窄带时间掩码:
-
动作分支内部,每个帧只关注前后60帧的滑动窗口(30fps下共121帧) -
基于假设:运动学动力学主要由局部连续性控制 -
优势:计算复杂度为线性,可处理长序列
完整RoPE位置编码:
-
将文本和动作嵌入拼接成单一序列后再应用旋转位置嵌入 -
建立连续的相对坐标系统,让模型理解特定文本Token与时间帧的对应关系
Flow Matching:为什么比传统扩散更高效
HY-Motion使用Flow Matching构建从标准高斯噪声到复杂动作数据分布的连续概率路径。采用最优传输路径,定义为线性插值:x_t = (1-t)x_0 + tx_1
训练目标是最小化预测速度和真实速度之间的均方误差。推理时,从随机噪声x_0出发,通过欧拉法等ODE求解器沿预测的速度场积分,恢复出干净的动作x_1。
相比传统的DDPM扩散模型,Flow Matching的优势:
-
训练更稳定,不需要复杂的噪声调度 -
推理步数更少,生成速度更快 -
数学形式更简洁,易于理解和优化
数据处理管道:从原始视频到精确标注
自动化清洗流程
重定向与统一:
-
所有动作统一重定向到中性SMPL-H骨架 -
SMPL/SMPL-H/SMPL-X格式通过网格拟合转换 -
其他骨架结构使用重定向工具映射
多层过滤机制:
-
去除重复序列 -
剔除异常姿态(关节角度超出生理范围) -
检测关节速度异常值(突变超过阈值) -
识别异常位移(瞬移等非物理现象) -
剪除静态动作(运动幅度低于阈值) -
检测足部滑动伪影(脚掌接触地面时不应有水平移动)
标准化处理:
-
统一重采样至30fps -
长于12秒的序列分割成多个片段 -
标准化到规范坐标系:Y轴向上,起始位置位于原点,最低身体点对齐地面,初始朝向沿正Z轴
智能标注流程
视频源数据直接使用原始视频:
对于从视频提取的动作,直接使用原始视频进行标注。
3D数据合成渲染:
对于动捕和动画资产,将SMPL-H模型纹理化并渲染成合成视频。
VLM初步标注:
将视频输入视觉语言模型(如Gemini-2.5-Pro),配合针对人体动作优化的提示词,获得初步描述和动作关键词。
人工精校(高质量数据):
对400小时精选数据的VLM输出进行人工验证:
-
纠正错误描述 -
补充遗漏的关键动作要素 -
确保文本与动作完美对应
LLM增强与多样化:
使用大语言模型:
-
标准化描述结构,保持原始语义 -
创建多样化改写,用于数据增强 -
生成不同表达风格的同义描述
分层分类体系:覆盖200+动作类别
HY-Motion建立了三级动作分类体系,顶层包含六大类别:
1. 移动运动(Locomotion)
-
水平移动:行走、跑步、侧步等 -
垂直移动:跳跃、下蹲等 -
特殊移动:爬行、攀爬等 -
载具:骑摩托车等
2. 体育竞技(Sports & Athletics)
-
球类运动:网球、足球等 -
精准运动:射箭、射击等 -
田径项目:跳高、跳远、铅球、短跑等
3. 健身户外(Fitness & Outdoor Activities)
-
健身房与力量训练:卷腹、平板支撑、压腿伸展等 -
瑜伽:婴儿式、鸽子式、战士一式等 -
户外活动:跳伞、冰壶等
4. 日常活动(Daily Activities)
-
基本姿态:站立、坐下、躺卧 -
物体交互:拧瓶盖等 -
家务:扫地等 -
个人护理:刮胡子、涂抹乳液等 -
办公学习:打电话等 -
饮食烹饪
5. 社交休闲(Social Interactions & Leisure)
-
独自节奏动作 -
独自语义手势 -
舞蹈:恰恰、现代舞等 -
体操与杂技:倒立等 -
乐器演奏:钢琴等 -
武术:功夫等 -
戏剧表演:走秀等
6. 游戏角色动作(Game Character Actions)
-
防御动作 -
火器攻击:大炮、火箭筒射击等 -
受击反应 -
魔法攻击:法杖施法等 -
近战攻击 -
近战武器攻击:单手剑挥砍等
这个分类体系从6个顶级类别逐级细化,最终在叶子节点达到200多个精细动作类别,是目前业界覆盖最广的动作分类体系。
辅助模块:LLM驱动的时长预测与提示词重写
用户输入的文本往往是随意的、口语化的,例如:”踢球”或者”一个人在踢足球”。为了让模型更好地理解和执行,HY-Motion引入了一个独立的LLM模块,负责两个关键任务:
时长预测
LLM利用其内在的常识知识,从文本描述推断动作的典型时长。例如:
-
“挥手”通常持续1-2秒 -
“从坐到站”大约2-3秒 -
“跑步一圈”可能需要10-15秒
为了提高准确性,该LLM在包含真实动作时长的数据集上进行了微调,使其预测与训练数据分布对齐。
提示词重写
将用户的随意输入转换为结构化、模型友好的描述。例如:
-
输入:”踢球” -
输出:”一个人踢足球,伸腿向前踢”
重写过程保持用户原意,但添加了动作细节,使生成更精确。
两阶段训练策略
监督微调(SFT):
-
基于Qwen3-30B-A3B模型微调 -
训练数据为{用户提示词, 优化提示词, 时长}三元组 -
用户提示词由强大的LLM(Gemini-2.5-Pro)合成,模拟真实用户输入的多样性,包括非正式语言、中英混合、不同程度的具体性
强化学习(RL):
-
使用Group Relative Policy Optimization(GRPO)算法 -
以更强大的模型(Qwen3-235B-A22B-Instruct-2507)作为奖励评判器 -
奖励函数评估两个维度:语义一致性(重写是否忠实于用户意图)和时间合理性(预测时长是否与动作复杂度匹配) -
通过优化候选输出的相对优势,引导策略生成语义精确且时间连贯的指令
性能对比:远超现有开源方案
指令遵循能力评估
在包含2000多个文本提示的测试集上,覆盖六大类别和从简单原子动作到复杂组合动作的各种场景,人工评审员对生成动作进行1-5分打分:
| 模型 | 移动 | 体育 | 健身户外 | 日常 | 社交休闲 | 游戏角色 | 平均分 | SSAE准确率 |
|---|---|---|---|---|---|---|---|---|
| MoMask | 2.98 | 2.41 | 2.09 | 2.07 | 2.38 | 1.97 | 2.31 | 58.0% |
| GoToZero | 2.80 | 2.23 | 2.07 | 2.00 | 2.32 | 1.74 | 2.19 | 52.7% |
| DART | 2.91 | 2.47 | 2.03 | 2.07 | 2.40 | 2.05 | 2.31 | 42.7% |
| LoM | 2.81 | 2.07 | 1.95 | 2.00 | 2.39 | 1.84 | 2.17 | 48.9% |
| HY-Motion 1.0 | 3.76 | 3.18 | 3.15 | 3.06 | 3.25 | 3.01 | 3.24 | 78.6% |
HY-Motion 1.0的平均得分3.24,比次优模型高出40%以上。在结构化语义对齐评估(SSAE)中,准确率达到78.6%,比其他模型高出近30个百分点。
SSAE是一种自动化评估方法,将文本-动作对齐问题转换为视频问答任务。对于提示词”一个人挥动手臂同时射足球”,系统会分解为一系列是非问题:
-
“这个人在踢腿吗?” -
“这个人在挥手臂吗?” -
“这个人看起来在射足球吗?”
然后让视觉语言模型(Gemini-2.5-Pro)观看渲染视频并回答,正确率即为SSAE得分。
动作质量评估
同样的测试集,评审员对动作的流畅性、物理合理性、自然度打分:
| 模型 | 移动 | 体育 | 健身户外 | 日常 | 社交休闲 | 游戏角色 | 平均分 |
|---|---|---|---|---|---|---|---|
| MoMask | 3.05 | 2.91 | 2.58 | 2.66 | 2.77 | 2.81 | 2.79 |
| GoToZero | 3.11 | 3.01 | 2.69 | 2.72 | 2.89 | 2.81 | 2.86 |
| DART | 3.38 | 3.33 | 2.94 | 2.95 | 3.06 | 3.07 | 3.11 |
| LoM | 3.14 | 3.08 | 2.98 | 3.01 | 3.14 | 3.01 | 3.06 |
| HY-Motion 1.0 | 3.59 | 3.51 | 3.28 | 3.37 | 3.43 | 3.41 | 3.43 |
HY-Motion 1.0在质量维度上同样领先,平均得分3.43,比最接近的竞争者高出10%。
缩放实验:规模的力量
为了验证模型规模和数据量的影响,团队训练了多个不同规模的变体:
指令遵循能力随规模提升:
| 模型 | 参数量 | 训练数据 | 平均得分 |
|---|---|---|---|
| DiT-0.05B | 50M | 3000小时 | 3.10 |
| DiT-0.46B | 460M | 3000小时 | 3.20 |
| DiT-0.46B-400h | 460M | 400小时 | 3.05 |
| DiT-1B | 1.0B | 3000小时 | 3.34 |
关键发现:
-
从50M到1B,指令遵循能力持续提升 -
相同规模下,3000小时数据比400小时数据训练的模型表现更好(3.20 vs 3.05),证明大规模数据对语义理解至关重要 -
从460M到1B,虽然参数增加一倍多,但提升幅度有所收窄
动作质量在中等规模饱和:
| 模型 | 参数量 | 平均得分 |
|---|---|---|
| DiT-0.05B | 50M | 2.91 |
| DiT-0.46B | 460M | 3.26 |
| DiT-0.46B-400h | 460M (仅高质量数据) | 3.31 |
| DiT-1B | 1.0B | 3.34 |
关键发现:
-
从50M到460M,质量大幅跃升(2.91到3.26) -
460M之后,继续增大规模带来的质量提升不明显(3.26到3.34) -
相同规模下,高质量数据微调比大规模数据更有利于质量提升(3.31 vs 3.26),证明数据质量对物理真实性至关重要
这些实验验证了数据的双重作用:规模驱动语义理解,质量保证物理真实。
快速上手:两种使用方式
环境准备
系统要求:支持macOS、Windows和Linux系统
安装步骤:
-
安装PyTorch(访问pytorch.org获取适合你系统的版本)
-
克隆代码仓库并安装依赖:
git clone https://github.com/Tencent-Hunyuan/HY-Motion-1.0
cd HY-Motion-1.0
pip install -r requirements.txt
-
下载模型权重:
按照ckpts/README.md中的说明下载必要的模型文件,包括:
-
HY-Motion-1.0(标准版,1.0B参数) -
HY-Motion-1.0-Lite(轻量版,0.46B参数)
命令行批量推理
适合处理大量提示词的场景:
# 使用标准版
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0
# 使用轻量版
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0-Lite
常用参数配置:
-
--input_text_dir:包含.txt或.json格式提示词文件的目录 -
--output_dir:结果保存目录(默认:output/local_infer) -
--disable_duration_est:禁用基于LLM的时长预测 -
--disable_rewrite:禁用基于LLM的提示词重写 -
--prompt_engineering_host/--prompt_engineering_model_path:动作时长预测和提示词重写模块的主机地址或本地路径
重要提示:如果不设置提示词工程模块参数,必须同时设置--disable_duration_est和--disable_rewrite,否则会因无法访问重写服务而报错。
交互式Web界面
更直观的使用方式,启动Gradio应用:
python3 gradio_app.py
运行后,在浏览器中访问http://localhost:7860,你会看到一个友好的界面,可以:
-
直接输入文本描述 -
调整生成参数 -
实时预览生成的动作 -
下载结果文件
这种方式特别适合快速测试和创意探索。
实际应用场景:解锁创意生产力
游戏开发
传统游戏角色动画制作流程复杂:概念设计→动捕拍摄→清理数据→美术调整→引擎集成,周期长、成本高。
使用HY-Motion 1.0:
-
输入”一个战士用双手剑斩击”→即时生成基础动画 -
输入”一个法师用法杖释放火球”→快速原型验证 -
批量生成NPC日常动作(走路、站立、交谈等) -
快速迭代战斗动作设计
预计可将角色动画原型制作时间从数天缩短至数小时。
影视动画预览
在正式拍摄或制作前,导演和编剧可以:
-
快速可视化剧本中的动作场景 -
预览复杂打斗编排 -
测试角色走位和互动 -
为投资方展示概念验证
大幅降低前期策划的试错成本。
虚拟人与数字人
直播、教育、客服等领域的虚拟形象需要丰富的动作库:
-
根据文本脚本自动生成讲解动作 -
实时响应用户指令生成交互动作 -
为虚拟教师生成各学科相关的演示动作(如物理实验、化学操作)
健身与体育训练
教练和运动员可以:
-
生成标准动作示范(”标准的深蹲动作”) -
可视化复杂组合动作(”跳跃后接侧踢”) -
为训练App快速创建动作库 -
辅助动作分析和纠正
机器人动作规划
虽然HY-Motion生成的是虚拟人体动作,但可以作为人形机器人的动作规划参考:
-
将自然语言指令转换为运动序列 -
为机器人学习提供示范数据 -
评估动作的可行性和自然度
当前局限性:未来改进方向
团队坦诚地指出了HY-Motion 1.0当前的两个主要限制:
复杂指令理解挑战
尽管在语义对齐上显著超越基线模型,但面对高度详细或复杂的指令时仍有困难。例如:
“一个人先用左脚向前踏一步,同时右手向上挥动,然后身体向左侧旋转90度,接着弯腰用右手触碰左脚尖”
这类包含多个步骤、精确方位、严格顺序的指令,模型可能无法完全准确执行。
根本原因:数据标注管道的固有难度。无论是VLM自动标注还是人工精修,为细微复杂的动作创建完整准确的文本描述都极具挑战性。许多细节(如手臂角度、身体重心变化)难以用自然语言精确表达。
人-物交互能力不足
当前数据集主要关注身体运动学,缺乏显式的物体几何信息。因此,模型在生成与外部物体的物理交互时可能不够准确。例如:
-
握住工具时的接触点可能不精确 -
推/拉/抬起物体时的力的施加点可能不自然 -
坐椅子、开门等需要精确空间对齐的动作可能出现穿模或悬空
这是整个领域的共同挑战。未来需要:
-
包含物体几何的数据集 -
物理仿真约束 -
接触感知的生成模型
团队表示正在这些方向上积极研究。
为什么选择开源?
腾讯混元团队将HY-Motion 1.0完全开源,包括:
-
完整的推理代码 -
预训练模型权重(1.0B和0.46B两个版本) -
详细的技术文档 -
在线演示平台
开源的理由很简单:
-
加速研究进展:让全球研究者在更高的起点上创新 -
促进技术民主化:降低3D动画制作门槛,让更多创作者受益 -
推动商业成熟:通过社区反馈快速迭代,加速技术走向实用
正如论文所言,他们希望HY-Motion 1.0能成为一个坚实的基线,激发更多探索,加速可扩展、高质量动作生成技术的发展。
核心洞察:数据与规模的双重真理
通过HY-Motion 1.0的开发,团队提炼出两个关键原则:
原则一:数据的二元性
-
规模驱动语义:扩大训练数据量是提升指令遵循和语义理解的主要驱动力。从实验看,3000小时数据训练的模型在指令理解上明显优于400小时数据训练的同等规模模型。 -
质量保证真实:提高数据质量是增强动作保真度和物理真实性的决定性因素。高质量数据微调能显著减少抖动、滑动等伪影,即使模型规模不变。
原则二:多阶段训练的有效性
“粗到细”的三阶段框架——大规模预训练、高质量微调、强化学习对齐——被证明是必要的。这种方法有效平衡了动作多样性和精度之间的权衡,为该领域提供了一条稳健的优化路径。
常见问题解答
生成一个动作需要多长时间?
取决于动作长度、模型规模和硬件配置。在配备高端GPU(如NVIDIA A100)的服务器上,生成5秒钟的动作序列(30fps,共150帧)通常需要几秒到十几秒。轻量版模型速度更快,但质量略有降低。
生成的动作可以直接用于游戏或动画制作吗?
可以,但通常需要后处理。HY-Motion输出的是标准SMPL-H骨架格式,兼容主流3D软件(Blender、Maya、Unity、Unreal Engine等)。对于商业项目,建议:
-
生成后由专业动画师微调细节 -
根据目标角色的体型重定向骨架 -
调整时序以匹配具体场景需求
支持多人交互动作吗?
当前版本主要针对单人动作。虽然训练数据中包含一些多人接触类别(如握手、拥抱),但生成的是单个角色的动作序列。真正的多人协同生成(两个角色同时互动,空间位置精确对齐)是下一阶段的研究方向。
能否微调模型以适应特定风格?
可以。如果你有特定领域的动作数据(如某个游戏的战斗风格、特定舞种的编舞),可以基于预训练模型进行微调。建议使用高质量微调阶段的学习率(预训练的0.1倍)以保留已学知识,同时适应新风格。
商业使用有限制吗?
开源模型通常遵循特定许可协议,具体请查看项目的LICENSE文件。一般而言,研究和非商业用途自由,商业用途可能需要额外许可或遵守特定条款。建议联系腾讯混元团队获取明确授权信息。
与闭源商业方案相比如何?
HY-Motion 1.0在开源方案中处于领先地位,但与顶级闭源商业产品(如未公开的大厂内部方案)相比可能仍有差距,特别是在复杂场景和人-物交互方面。开源的优势在于可定制、可审计、无使用限制、社区支持。
一句话总结:HY-Motion 1.0通过十亿级参数规模、3000小时多样化数据和三阶段精细训练,将文本生成3D动作推向新高度,为AI辅助动画制作开启实用化新篇章。
