Skip to content

SANA-WM:NVIDIA 用 26 亿参数造了一分钟的世界,然后开源了

2026 年 5 月,NVIDIA 研究团队开源了一个 26 亿参数的世界模型 SANA-WM。一张图片、一条相机轨迹,出 720p、一分钟长的视频。不是 demo 级别的"能看",是工业基线级别的"能用"。训练只用 213K 公开视频、64 张 H100 跑 15 天。推理?一张 GPU 搞定。

在所有人盯着 Sora 和 Kling 卷"视频好不好看"的时候,NVIDIA 在回答一个更底层的问题:一个能被控制的世界模型,需要多少资源?答案比你想的少得多。


先说结论:效率才是世界模型的真正战场

AI 视频生成走到 2026 年,"能出视频"已经不是新闻了。Sora、Seedance、Veo、Kling——每家都在拼画质、拼时长、拼"看不出来是 AI 生成的"。

但有个问题没人解决:你没法控制它。

你让 Sora 生成一段视频,只能说"镜头从左往右摇"。至于摇多快、摇到哪个角度、精确的相机路径——对不起,它不听你的。对于想用 AI 做游戏场景、做虚拟拍摄、做具身智能训练的人来说,这就不是"能不能看"的问题,是"能不能用"的问题。

SANA-WM 解决的就是这个问题。它是一个可控的世界模型——你给它一张起始图片和一条 6 自由度(6-DoF)的相机轨迹,它沿着这条轨迹生成一分钟的视频。相机路径精确到亚像素级别。

然后它开源了。


关键数据

维度SANA-WM
参数量2.6B(主模型),17B(第二阶段精炼器)
输出720p,60 秒视频
输入1 张图片 + 6-DoF 相机轨迹
训练数据~213K 公开视频片段
训练成本64 张 H100,15 天
推理硬件1 张 H100(标准版),1 张 RTX 5090(蒸馏版)
蒸馏推理速度60 秒 720p 视频,34 秒出片
吞吐量比开源基线高 36 倍
开源状态代码 + 论文已公开,模型权重即将发布
团队NVIDIA(Haoyi Zhu, Haozhe Liu, Song Han 等)

四个设计选择,每个都在回答"为什么这么省"

SANA-WM 的论文标题里有三个字:Efficient。这不是凑字数的。整个模型架构的每一步设计,都在对抗同一个敌人——长视频生成的显存爆炸。

1. Hybrid Linear Attention:用线性注意力打长上下文

标准 Transformer 的 softmax attention 计算复杂度是 O(n²)。60 秒 720p 视频,序列长度直接把显存打爆。SANA-WM 的解法是 Hybrid Linear Attention——帧内用 Gated DeltaNet(线性复杂度),周期性地插几层 softmax 保持全局一致性。

说白了就是:大多数时候用便宜的线性注意力,偶尔用贵的 softmax 做一次全局校准。 不是不用 softmax,是不用那么多次。

2. Dual-Branch Camera Control:两条路走同一条轨迹

相机控制是这个世界模型的核心卖点。SANA-WM 用了双分支设计:一个粗粒度的全局位姿分支做整体路径规划,一个细粒度的像素对齐几何分支做精确跟随。

两条分支的信息融合后,模型能精准到什么程度?论文里给了一个直接的指标:在自建的一分钟世界模型 benchmark 上,SANA-WM 的相机跟随精度超过所有开源基线

3. Two-Stage Pipeline:先出长视频,再打磨质量

不是一步到位的。第一阶段用主模型(2.6B)生成完整的一分钟长视频,第二阶段用一个 17B 的精炼器提升纹理清晰度、运动流畅度和后半段质量。

两阶段的设计有个好处:你可以只用第一阶段做快速预览,满意了再跑第二阶段。 这在实际使用中省了大量时间。

4. Robust Annotation Pipeline:从公开视频里"抠"出训练标签

训练世界模型需要精确的相机位姿标注。这些标注要么用合成数据(不真实),要么人工标注(太贵)。SANA-WM 用了一个自动化流程——从公开视频里提取公制尺度的 6-DoF 相机位姿,直接当训练标签。

结果是:只用 ~213K 段公开视频,训练出了可比肩工业级基线的模型。 数据效率高到什么程度?作为对比,Sora 的训练数据估计在数百万到数千万视频的量级。


跟工业级基线比,它真的能打吗?

论文里列了三个对手:LingBot-World、HY-WorldPlay,以及若干开源基线。

视觉质量方面,SANA-WM 达到了工业级基线的可比水平(comparable)。不是碾压,是同一档。

但效率方面,它是碾压的:36 倍吞吐量优势

这就是开源项目的价值所在——不一定要做到绝对第一,但要做到"人人能用"。LingBot-World 背后是多少资源?HY-WorldPlay 用了多少卡?SANA-WM 用 64 张 H100 训练 15 天,推理跑在单张 GPU 上。把门槛从"大厂专属"拉到了"实验室可用"。


对独立开发者意味着什么

说到这,你可能觉得这玩意儿跟独立开发没什么关系——一个 26 亿参数的视频世界模型,我又不是 NVIDIA。

但你换个角度想:

1. 游戏和虚拟场景的门槛在塌。 以前做一款 3D 游戏场景,你得会建模、会材质、会灯光。现在呢?一张概念图 + 相机路径 = 一分钟的 3D 世界漫游视频。虽然现在还是"视频"而不是"可交互的 3D 场景",但这条路的终点很明确。

2. 具身智能的训练数据有了一个新的生成方式。 机器人需要海量的"在真实世界里走动"的视频来训练。以前靠采集,成本极高。SANA-WM 能用一张照片生成任意相机路径的漫游视频,这意味着训练数据可以大量合成。

3. 开源的意义不只是"免费用"。 SANA-WM 的代码、论文、训练流程全部公开。这意味着你可以学到 NVIDIA 团队是怎么做 Hybrid Linear Attention 的、怎么设计双分支相机控制的、怎么从公开视频提取位姿标注的。这些技术方案才是真正的宝藏——模型会过时,方法论不会。


诚实边界:它现在还不能做什么

说几个它做不到的事,免得你期望太高:

  • 不能生成人物运动。 它生成的是"世界在动"——风吹、水流、光线变化——但不会有人物走动、奔跑这类复杂动作。它是一个环境世界模型,不是角色动画引擎。
  • 模型权重还没完全放出。 论文和代码已经公开,但模型权重标注的是 "Models (soon)"。可能要等几周。
  • 720p 不是 4K。 画质跟工业级可比,但分辨率天花板在那。不过对于一个 2.6B 的模型来说,720p 已经相当不错了。
  • 相机控制 ≠ 语义控制。 你能控制镜头往哪走,但不能说"让那扇门打开"或"让天气变成雨天"。语义级控制是下一代世界模型要解决的问题。

效率数字背后的哲学

最后说一个我觉得特别有意思的点。

SANA-WM 的蒸馏版能在一张 RTX 5090 上用 34 秒生成一分钟 720p 视频。RTX 5090 是消费级显卡,不是什么数据中心专属的怪兽。

这意味着什么?NVIDIA 在把世界模型从云端往本地推。 不是因为它做不出更大的模型,而是因为它看到了一个更大的市场——游戏、AR/VR、机器人训练、实时渲染——这些场景都需要本地部署。

把一件事做小、做快、做得人人能用,往往比做得最大最强更有战略意义。SANA-WM 的 2.6B 不是因为做不到 26B,是因为 2.6B 足以在一张消费级显卡上跑起来。

这跟做产品的道理是一样的——不是参数越多越好,是能跑在用户的设备上才算数。


链接

最近更新

基于 MIT LICENSE 许可发布