Index-AniSora:B站开源的终极动漫视频生成模型
前言:开启动漫创作新时代
在当今人工智能技术飞速发展的浪潮中,视频生成技术正迎来前所未有的突破。然而,当大多数模型聚焦于自然视频生成时,哔哩哔哩(B站)团队敏锐地捕捉到了二次元创作者的需求缺口,推出了革命性的开源项目——Index-AniSora。这款专为动漫视频生成设计的模型,将彻底改变动画制作的工作流程,为创作者提供前所未有的技术支持。
项目概述:二次元世界的技术礼物
Index-AniSora是B站献给全球动漫爱好者的技术礼物,它代表着目前最强大的开源动漫视频生成模型。不同于传统视频生成模型,AniSora专门针对动漫内容进行了优化,能够生成多种风格的高质量动画视频:
-
🎬 番剧片段:生成日式动画风格的连贯场景 -
🖌️ 国创动画:支持中国本土动画艺术风格 -
📚 漫画改编:将静态漫画转化为动态视频 -
🎤 VTuber内容:创建虚拟主播的直播素材 -
🎞️ 动画PV:生成宣传短片和预告片 -
😜 鬼畜/MAD:制作二次创作和混剪内容
该项目基于已被IJCAI’25录用的研究论文《http://arxiv.org/abs/2412.10255》,代表了动漫视频生成领域的最新突破。
技术架构解析
核心创新:统一时空掩码框架
AniSora的核心突破在于其创新的时空掩码框架(Spatiotemporal Mask Module),这是区别于其他视频生成模型的关键技术:
[object Promise]
该框架实现了三大核心功能:
-
图像到视频生成:将单张静态图像转化为动态视频序列 -
精确时间控制:支持首帧/尾帧引导、关键帧插值、多帧控制 -
局部空间控制:通过运动掩码指定特定区域的运动模式
模型版本演进
版本 | 基础架构 | 创新点 | 适用场景 | 硬件需求 |
---|---|---|---|---|
AniSora V1.0 | CogVideoX-5B | 时空掩码控制、局部区域引导 | 80%应用场景 | RTX 4090 |
AniSora V2.0 | Wan2.1-14B | 蒸馏加速、NPU原生支持 | 90%应用场景 | Ascend 910B |
AniSora V1.0_RL | 强化学习优化 | 人类偏好对齐 | 艺术创作 | 多GPU集群 |
V1.0基于CogVideoX-5B模型,在RTX 4090等消费级显卡上即可部署,包含完整的训练与推理代码。V2.0则采用更先进的Wan2.1-14B架构,通过知识蒸馏技术实现加速推理,并原生支持华为Ascend 910B NPU,实现全流程国产芯片训练。
实战演示:生成效果展示
图像到视频生成
提示词 | 输入图像 | 生成效果 |
---|---|---|
角色坐在前进的汽车里,朝后方挥手,长发在风中左右摆动 | .gif) | |
两位身着红色婚服的角色拉着红绳,携手远去 | .gif) | |
岩石爆炸,耀眼光芒四射,碎片向四周激射 |
精确时间控制
控制类型 | 首帧 | 中间帧 | 末帧 | 生成效果 |
---|---|---|---|---|
首+中+末帧引导 | ||||
首+末帧引导 | – | |||
末帧引导 | – | – |
局部空间控制
提示词 | 输入图像 | 运动掩码 | 生成效果 |
---|---|---|---|
小丑鱼马林和尼莫在紫色珊瑚附近交谈 | |||
同场景不同运动模式 |
性能评测:权威数据验证
VBench基准测试结果
模型 | 运动平滑度 | 主体一致性 | 图像-视频一致 | 美学质量 |
---|---|---|---|---|
Vidu | 97.71 | 88.27 | 93.06 | 53.68 |
CogVideo | 97.67 | 90.29 | 91.79 | 54.87 |
MiniMax | 99.20 | 93.62 | 95.42 | 54.56 |
AniSora V1 | 99.34 | 96.99 | 95.04 | 54.31 |
AniSora V2 | – | 92.75 | 91.96 | 85.91 |
专用动漫基准测试
模型 | 角色一致性 | 文本-视频一致 | 视觉吸引力 |
---|---|---|---|
Vidu-1.5 | 82.57 | 60.71 | 50.68 |
CogVideoX | 83.07 | 67.98 | 39.59 |
AniSora V1 | 94.88 | 74.26 | 65.38 |
AniSora V2 | 92.75 | 90.98 | 85.91 |
真实视频(GT) | 95.08 | 92.51 | 89.72 |
评测数据显示,AniSora在角色一致性上达到94.88分,接近真实动画的95.08分,远超同类模型。这证明其在保持角色特征稳定性的关键技术突破。
完整生态系统
数据处理流水线
项目包含完整的端到端数据集处理流水线,位于data_pipeline
目录:
-
自动化动画数据清洗工具 -
高质量训练数据扩充方案 -
支持千万级数据处理能力
评测奖励系统
位于reward
目录的专用评测体系:
-
动漫视频生成专用评测模型 -
强化学习奖励模型 -
ACG审美对齐的测试集 -
人类偏好对齐机制
基准数据集
项目包含948段专业动画视频片段组成的评测基准:
-
每个动作标签含10-30个视频样本 -
文本提示由Qwen-VL2生成+人工校对 -
全面覆盖各种动画风格和运动类型
快速开始指南
硬件要求
版本 | 最低配置 | 推荐配置 |
---|---|---|
V1.0 | RTX 3090 (24GB) | RTX 4090 (24GB) |
V2.0 | Ascend 910B | Ascend 910B集群 |
安装步骤
-
克隆仓库:
git clone https://github.com/bilibili/Index-anisora.git cd Index-anisora
-
安装依赖:
# 对于V1.0版本 cd anisoraV1_infer pip install -r requirements.txt # 对于V2.0版本 cd anisoraV2_gpu pip install -r requirements.txt
-
下载预训练模型:
# Hugging Face平台 huggingface-cli download IndexTeam/Index-anisora # 或ModelScope平台 modelscope download bilibili-index
基础使用示例
from anisora_pipeline import AniSoraGenerator
# 初始化生成器
generator = AniSoraGenerator(version="v1.0")
# 图像到视频生成
result = generator.image_to_video(
input_image="path/to/image.png",
prompt="画面中,角色抬起手臂,手臂表面有气流流动效果"
)
# 保存结果
result.save("output_video.mp4")
高级控制功能
# 时间控制示例(首尾帧引导)
result = generator.temporal_control(
first_frame="frame_start.jpg",
last_frame="frame_end.jpg",
prompt="夜晚,金发女子在车门后张望,星空满月"
)
# 空间控制示例(运动掩码)
result = generator.spatial_control(
input_image="scene.png",
motion_mask="mask.png",
prompt="水下世界,鱼类在珊瑚周围游动"
)
未来发展规划
短期路线图
-
2025年5月:发布AniSora V2.0的14B参数版本 -
2025年6月:开放高质量训练数据集申请 -
2025年7月:更新SOTA模型性能基准
长期愿景
-
多风格融合:实现不同动漫风格的无缝转换 -
长视频生成:突破短视频限制,生成完整动画场景 -
创作者生态:构建基于AniSora的二次创作平台 -
实时生成:将推理速度提升至实时级别
资源获取与社区
官方资源渠道
平台 | 链接 | 资源类型 |
---|---|---|
GitHub | https://github.com/bilibili/Index-anisora | 源代码、文档 |
Hugging Face | https://huggingface.co/IndexTeam/Index-anisora | 预训练模型 |
Model Scope | https://www.modelscope.cn/organization/bilibili-index | 中文模型仓库 |
学术论文引用
@article{jiang2024anisora,
title={AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era},
author={Yudong Jiang, Baohan Xu, Siqian Yang, Mingyu Yin, Jing Liu, Chao Xu, Siqi Wang, Yidi Wu, Bingwen Zhu, Xinwen Zhang, Xingyu Zheng,Jixuan Xu, Yue Zhang, Jinlong Hou and Huyang Sun},
journal={arXiv preprint arXiv:2412.10255},
year={2024}
}
结语:动漫创作的新纪元
Index-AniSora代表了开源动漫视频生成领域的重大突破,其创新的时空掩码框架解决了传统视频生成模型在动画领域的适配问题。通过提供完整的生态系统——从数据处理到模型训练再到效果评估——该项目为创作者提供了前所未有的技术支持。
在动漫产业日益数字化的今天,AniSora不仅是一个技术项目,更是连接技术与艺术的桥梁。随着模型的不断进化与社区的共同建设,我们正见证着动漫创作从专业工作室向全民创作转变的历史性时刻。无论您是独立动画师、内容创作者,还是AI技术研究者,AniSora都为您打开了一扇通往无限创意可能的大门。
项目已全面开源,立即加入这场动漫创作革命:
https://github.com/bilibili/Index-anisora