技术突破|自回归视频生成进入实时时代:NFD框架如何实现每秒30帧

那是在2025年初,当我第一次看到NFD的演示视频时,整个人都愣住了。在NVIDIAA100上,一个参数量仅310M的模型,竟然能够以超过每秒30帧的速度生成视频,而且画面质量依然保持在相当高的水准。这种效率意味着什么?意味着视频生成终于从“期货”变成了“现货”。 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术

帧间并行:打破自回归效率瓶颈

传统自回归视频生成的问题在于,它将视频Token逐个生成,既无法利用GPU并行计算能力,又破坏了帧内的空间相关性。就像一个厨师必须等上一道菜做完才能开始做下一道,整体效率自然低下。NFD的核心创新在于帧内并行采样、帧间自回归的架构设计。Transformer内部采用块状因果注意力机制,将帧内双向注意力和帧间因果依赖结合,在保持时间连贯性的同时大幅提升推理效率。相比计算密集的3D全注意力方法,成本降低50%。 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术

FlowMatching训练体系:简洁与稳定的平衡

NFD采用FlowMatching构建训练流程。对每个视频帧分配独立时间步,通过线性插值生成加噪版本,训练目标是最小化FlowMatching损失。采样阶段使用DPM-Solver++,对同一帧的所有Token并行去噪。这种设计追求简单和稳定,为后续优化奠定了坚实基础。 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术

一致性蒸馏与投机采样:效率倍增的关键

为进一步减少推理采样次数,研究团队将一致性蒸馏扩展到视频领域。通过数学变换将流匹配模型转换为TrigFlow模型,实现连续时间一致性模型的简化训练。同时提出投机采样方法,利用游戏动作连续性特征,并行预测多个未来帧。当预测动作与实际输入不一致时,立即丢弃后续投机帧并重新开始。这种策略让310M模型达到31.14FPS的生成速度,比MineWorld1.2B模型快2倍以上。 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术

性能实测:参数减半,速度翻倍

数据最有说服力。NFD在FVD指标上达到212,PSNR为16.46,全面优于MineWorld的FVD227和PSNR15.69。NFD+版本通过4步采样和投机采样结合,130M模型达到42.46FPS,310M模型达到31.14FPS。即使加速后,310M模型在PSNR上仍保持16.83的高水准。这意味着更小的模型、更快的速度、更好的效果,视频生成的效率革命已经到来。 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术

应用前景:从游戏引擎到世界模型

微软研究院团队此前打造的MineWorld已经证明,基于Minecraft的交互式自回归世界模型具备每秒4-7帧的交互能力。NFD将这个数字提升到30帧以上,意味着游戏开发者可以直接与模型交互生成游戏内容,无需传统游戏引擎。未来的游戏可能是玩家与模型实时对话,共同创造游戏世界。这种范式转变的影响,远不止于视频生成本身。 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术

 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术 技术突破 | 自回归视频生成进入实时时代:NFD框架如何实现每秒30帧 IT技术