站点图标 高效码农

Inferix推理引擎详解:浙大阿里港科大联手在4090上实现分钟级AI视频生成

兄弟们,我直接说结论:

2025 年 11 月 24 日,AI 视频圈真正的“核弹”来了。

它不叫 Sora 2,也不叫 Kling 2,它叫 Inferix。

它不是一个新模型,而是一把“手术刀”——专门为下一代“世界模拟器”(World Model)量身打造的推理引擎。

一句话总结:
有了 Inferix,普通 4090 就能跑分钟级、可交互、物理真实、永不崩坏的开放世界视频了!

这才是真正离 AGI 最近的一步枪。

先给你看个最离谱的数据

用最强的 Wan2.1 14B 模型(就是那个 5 秒视频要跑 6800 秒的狠角色),
在单张 H20(相当于消费级 4090 的 70% 性能)上生成 5 秒视频:

  • 传统扩散模型:6800 秒(113 分钟,纯折磨)
  • 用 Inferix 跑 Block-Diffusion(半自回归)后:速度暴涨几十倍,还能无限续下去!

更离谱的是,它还能边生成边直播给你看,像玩游戏一样实时交互。

这已经不是生成视频了,这是造世界

它到底怎么做到的?(我用大白话给你翻译)

大家都知道,现在最强的视频生成模型分两派:

  1. 纯扩散模型(Sora、OpenAI 那套):画质炸裂,但一到 10 秒以上就飘、就崩、就忘了前面演了啥,而且死贵死慢。
  2. 纯自回归(MovieGen 那套):能无限续,但画质和物理真实感被扩散甩几条街。

然后 2025 年出现了一个“杂交神种”——Block-Diffusion(半自回归)

  • 把视频切成一小块一小块(比如每块 1~2 秒)
  • 每块内部用扩散模型画得极致细腻(画质拉满)
  • 块和块之间用自回归的方式接力,还能用 LLM 那套 KV Cache 记住前面所有内容

翻译成人话:
既保留了扩散模型的“脸好看到认不出是 AI”,又拥有自回归的“老子能演一辈子不崩”!

但是!这个新物种太难伺候了,原来的 vLLM、xDiT 这些推理引擎全都不好使。

所以浙大 + 港科大 + 阿里 DAMO 直接自己动手,造了一把专武——Inferix

Inferix 的六把杀招(直接抄作业就行)

  1. 块级 KV Cache:前面演了 100 秒的剧情,它全记得住,角色永远不会变脸、背景永远不会融化
    → 解决长视频“漂移”“遗忘”这个世纪难题

  2. 支持实时流式输出:RTMP + WebRTC,边生成边推流,像开游戏直播一样看 AI 演电影

  3. 换 Prompt 继续演:想让主角突然去打怪?中途改 Prompt 就行,AI 立马转场,丝滑到你以为是真人导演

  4. 分布式并行 + 超强量化:8bit、FP8、DAX 量化全拉上,8 张卡能跑以前 80 张卡才跑得动的模型

  5. 自带 LV-Bench:1000 条真·分钟级长视频评测集,专门测“60 秒后还崩不崩”,让所有模型原形毕露

  6. 开箱即用:已经支持 MAGI-1、CausVid、Self Forcing 三大顶级世界模型,复制粘贴就能跑 Demo

这意味着什么?

意味着 2026 年你家里 5090 可能就能跑一个“私人黑神话悟空电影生成器”:

你输入:
“一个赛博朋克城市,下雨天,一个穿风衣的男人追逐飞行汽车,最后跳上车顶打斗,镜头要像《银翼杀手 2049》”

然后你就可以坐在沙发上一边喝可乐,一边看 AI 给你现场拍 30 分钟无剪辑电影,
想让主角掏枪?打字就行,AI 秒接!

这已经不是工具了,这是平行宇宙生成器

最后一句大实话

Sora 让我们看到了“AI 能拍电影”,
Kling 让我们看到了“AI 能拍好电影”,
但只有 Inferix + Block-Diffusion 这条路,
才真正让我们看到了“AI 能造世界”。

论文刚出 3 天,GitHub 星已经破万,社区直接炸穿。

我把项目地址甩给你(点开就收藏,别等我催):

GitHub:https://github.com/inferix/inferix
论文:https://arxiv.org/abs/2511.20714

2025 年的风,真的越来越大。
而 Inferix,就是把这阵风变成龙卷风的那台发动机。

兄弟们,冲了!
明年见,我们在 AI 造的世界里见面!

退出移动版