微信扫码
添加专属顾问
我要投稿
新一代AI视频生成技术,6G显存笔记本轻松驾驭! 核心内容: 1. FramePack AI视频算法简介及其开源信息 2. 低算力需求实现高质量视频生成 3. 斯坦福大学研发背景及核心优势解析
Stable Diffusion 都用过吧?
大名鼎鼎的 ControlNet,可以控制图片生成的插件,应该也不陌生?
而它的作者 lllyasviel,现在又开源了一个 AI 视频生成算法 FramePack。
可以根据图片,生成对应的视频,这是动起来的水母:
上传一张图片,然后设定提示词:
The girl dances gracefully, with clear movements, full of charm.
就能得到这样的视频:
我们再一起看下 FramePack 生成 AI 视频的其它效果:
猜猜要生成上面的视频需要使用多少算力?
过去,答案往往是需要多张A100一起工作。
而现在,使用新发布的 FramePack,只需要一个带有 6GB GPU 内存的 RTX 3060 笔记本,就可以在本地流畅地生成。
FramePack一经发布,在外网上也是收获了一波好评。
接下来,让我们一起了解一下 FramePack 究竟是如何做到的。
项目地址:
https://lllyasviel.github.io/frame_pack_gitpage/
代码地址:
https://github.com/lllyasviel/FramePack
FramePack 是由斯坦福大学的 Lvmin Zhang 和 Maneesh Agrawala 联合发布的一种 next-frame(next-frame-section)预测神经网络结构,可以逐步生成视频。
顺便提一嘴,Lvmin Zhang 就是大名鼎鼎的ControlNet 的作者张吕敏。
FramePack 将输入上下文压缩为恒定长度,并且根据帧的重要性实现不同的压缩模式。
这样的操作显著降低了对 GPU 显存的要求,从而实现了与图片扩散模型相似的计算消耗。
为了缓解“漂移”现象,FramePack 提出了三种反漂移采样方法。
btw 漂移是指在下一帧预测模型中出现的视觉质量会随着视频长度的增加而下降的问题。
实验发现第三种采样方法可以将用户的输入视为高质量的第一帧,并不断优化生成以接近用户帧,从而可以获得整体高质量的视频。
这就意味着在不显著牺牲品质的情况下,FramePack 可以生成更长时间的视频。
并且用户能够即时查看每一帧生成后的画面,方便进行预览和调整。
所以如果你要生成一段120s 长的视频,在看到画面觉得不满意就可以停止重试,而不需要等到整个视频完成后,节约了用户时间。
接着,我们一起看看 FramePack 最突出的性能优势。
极小的硬件需求:可以仅仅使用笔记本电脑 6GB GPU 内存,驱动 13B 模型以 30 FPS 生成上千帧视频。目前已经测试的显卡系列包括 Nvidia GPU 中的 RTX 30XX、40XX、50XX 系列,支持 fp16 和 bf16。可在Windows及Linux操作系统上使用。
微调高速:在单个 8xA100/H100 节点上以 64 的批量大小微调 100B 视频模型,用于个人/实验室实验。
生成速度快:个人版 RTX 4090 的生成速度为2.5秒/帧,使用 teacache 优化后可以达到1.5秒/帧。
FramePack 的安装和使用非常便捷。
Windows 系统用户直接点击下面的链接,会自动开始下载。
https://github.com/lllyasviel/FramePack/releases
下载后,对文件进行解压缩。
先运行 update.bat 进行更新,然后使用 run.bat 运行。
对于 Linux 系统用户,建议使用独立的 Python 3.10。
安装使用的命令如下:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -r requirements.txt
然后使用下面的命令启动GUI:
python demo_gradio.py
安装好后就可以亲自上手试试。
GUI 左侧用来上传图像和输入 prompt。右侧是生成的视频。你也能在看到下一部分的预览以及各个部分的进度条
值得注意的是因为这是一个 next-frame-section 预测模型,所以视频的生成时间会越来越长。
并且初始进度可能比后期扩散慢,因为设备可能需要一些预热。
FramePack 的出现非常重要,不仅是对技术本身的突破,而是在大幅度降低本地 AI 视频创作硬件需求的情况下,让 AI 视频生成技术变得更加更加容易上手玩,让更多人可以享受到 AI 视频创作的乐趣。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-29
如何评测 AI 智能体:试试字节开源的扣子罗盘
2025-08-29
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
2025-08-28
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
2025-08-28
我摊牌了,PDF的终结者出现了!这个开源神器,让你的RAG项目吞吐能力暴增10倍!
2025-08-28
面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快
2025-08-28
1.9K Star 微软开源TTS王炸!90分钟超长语音合成,4人对话自然切换!
2025-08-27
初探:从0开始的AI-Agent开发踩坑实录
2025-08-27
ollama v0.11.7发布:深度集成DeepSeek-V3.1与Turbo云端推理模式解析
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12