微信扫码
添加专属顾问
我要投稿
人工智能视频生成模型的数量不断增长,本周推出了一种新的模型Pyramid Flow,它可以提供长达 10 秒的高质量视频片段,速度快,而且全部开源。大部分镜头和用户感受都是 10 - 30s之间。加大投入干到稳定 30s
,超越 Sora,做到标杆。
Pyramid Flow 由北京大学、北京邮电大学和快手科技的研究人员合作开发,(后者是广受好评的专有 Kling AI 视频生成器的创造者
)。它利用一种新技术,其中单个 AI 模型分阶段生成视频,其中大多数是低分辨率的,仅在生成过程结束时保存全分辨率版本。
代码已经开源:https://huggingface.co/rain1011/pyramid-flow-sd3,但需要用户在自己的机器上下载并运行模型代码进行推理。
,牛的。并且与 Runway 的 Gen-3 Alpha、Luma 的 Dream Machine、Kling 和 Haulio 等付费专有产品直接竞争,对于不限订阅的用户来说,这些产品每年可能要花费数百甚至数千美元。
这一步就给中小公司留下后路,虽然模型不怎么强,但重在免费。小公司很多需要体验用户,收费多模态扛不住成本。官方 case
。值得注意的是,图像金字塔已在判别神经网络中得到广泛验证。团队研究了两种类型的金字塔:帧内的空间金字塔和连续帧之间的时间金字塔。在这种金字塔生成轨迹中,只有最后阶段以全分辨率运行,大大减少了早期时间步长的冗余计算。主要优点有两个:

:左边是现有的扩散模型以全分辨率运行,在非常嘈杂的潜在数据上花费大量计算。而右图是作者的方法,利用流匹配的灵活性在不同分辨率的潜在数据之间进行插值。这允许同时生成和解压缩视觉内容,并且具有更好的计算效率。其中,黑色箭头表示去噪轨迹,蓝色箭头表示时间条件。Pyramidal Flow Matching
在推理过程中,每个阶段的输出都会通过校正高斯噪声进行再噪声化,这有助于保持连续金字塔阶段之间概率路径的连续性。此外,以自回归的方式制定视频生成,用前面生成的历史为条件迭代地预测下一个视频条件。鉴于全分辨率历史中存在高冗余度,作者使用逐步压缩的低分辨率历史作为条件来策划时间金字塔序列,从而进一步减少标记数并提高训练效率。空间金字塔和时间金字塔的协作为视频生成带来了显著的训练效率。与常用的全序列扩散相比,团队的方法显著减少了训练过程中的视频 token 数量(例如,≤15,360 个 token 对比 10 秒 241 帧视频的 119,040 个 token),从而减少了所需的计算资源和训练时间。
确实牛了,这样推理速度快,难怪只要十几秒就能干一个短视频,用户体验也增加了。并发和压缩思想用得好。
空间复杂性
为了减轻空间内早期步骤中的冗余计算,团队在数据和压缩的低分辨率噪声之间插入流。让 ⊕ 表示不同分辨率的潜在值之间的插值,并设 K 分辨率,每个分辨率都将前一个分辨率减半,那么 flow 可以表示为:其中 Down 表示下采样,也就是前一个分辨率。
通过上面公式,可以得到如下图每个阶段从像素化和噪声的起点到无像素化和更清晰的结果。(从上往下,上采样的输入来自下采样 K+1)
时间复杂性
团队观察到全分辨率历史条件中存在高度冗余。例如,视频中较早的帧往往提供高级语义条件,与外观细节关系不大。这促使团队使用压缩的低分辨率历史进行自回归视频生成。
在每个金字塔阶段,生成都以压缩的低分辨率历史为条件,以提高自回归模型的训练效率,如每一行行所示。另外也设计了一种兼容的位置编码方案,该方案在空间金字塔中进行推理过程中进行内插值,以允许条件的空间对齐。
https://github.com/jy0205/Pyramid-Flow/blob/main/LICENSE)这使得 Pyramid Flow 成为希望将模型集成到专有系统中的开发人员和公司的一个有吸引力的选择,并且可能挑战 Luma AI 和 Runway,因为它们都希望为寻求将其专有 AI 视频生成技术集成到面向客户或员工的应用程序的开发人员提供付费应用程序编程接口。
说白了,你还是要买算力,自己本地部署也行。Pyramidal Flow Matching 背后的研究团队也致力于开放性和可访问性。所有代码和模型权重都将通过其官方项目页面免费向公众开放,确保世界各地的研究人员和开发人员都能利用和借鉴这项工作。
。53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-05
TinyAI :全栈式轻量级 AI 框架
2025-11-04
百灵大模型 Ling 和 Ring 系列首发支持 SGLang-JAX 推理引擎
2025-11-04
首个国产开源AI原生后端,不再写后端,AI就是全栈工程师。
2025-11-04
DeepCode: 用多智能体架构重新定义代码生成
2025-11-04
AI Infra:POINTS-Reader,腾讯开源的文档解析和OCR工具
2025-11-03
震惊,Github开源,真正让程序员效率提升 90%的AI辅助工具来啦!!!
2025-11-03
Dify迎来最强开源对手!这个本地Agent内置微调+超细权限控制~
2025-11-03
我们大胆做了个决定,大会所有音乐bgm由AI生成,这部分预算可以省了!|Jinqiu Scan
2025-08-20
2025-09-07
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-10-20
2025-08-22
2025-09-08
2025-08-12
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08