更稳定的复杂运动生成能力:
微信扫码
添加专属顾问
我要投稿
阿里云视频生成大模型万相2.1(Wan)全面开源,性能领先全球,开启AI视频新纪元。 核心内容: 1. 阿里云万相2.1模型全面开源,包含14B和1.3B参数版本 2. 万相2.1模型在多个基准测试中大幅领先现有模型 3. 万相大模型的关键技术创新解读,包括自研3D VAE架构等
刚刚,阿里云视频生成大模型万相2.1(Wan)重磅开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace、魔搭社区下载体验。
此次开源的两个参数版本模型:
14B版本万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。
1.3B版本万相模型不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。
从2023年开始,阿里云就坚定大模型开源路线,千问(Qwen)衍生模型数量已超过10万个,是全球最大的AI模型家族。随着万相的开源,阿里云两大基模全部开源,实现了全模态、全尺寸大模型的开源。
万相2.1(Wan)模型技术解读
#模型性能
万相大模型在多个内部和外部基准测试中,均大幅超越现有的开源模型以及顶尖商业闭源模型。万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。
在指令遵循能力方面,能够准确理解中英文长文本指令,还原各种场景切换、角色互动。
#关键技术
基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。
高效的因果3D VAE:万相自研了一种专为视频生成设计的新型因果3D VAE架构,并结合多种策略来改进时空压缩、降低内存使用以及确保时间因果性。
万相大模型视频VAE
视频Diffusion Transformer:万相模型架构基于主流的视频DiT结构,通过Full Attention机制确保长时程时空依赖的有效建模,实现时空一致的视频生成。
万相视频模型架构图
模型训练和推理效率优化:训练阶段,对于文本、视频编码模块,我们使用DP 和FSDP 组合的分布式策略;对于DiT模块,我们采用DP、FSDP、RingAttention、Ulysses混合的并行策略。在推理阶段,为了使用多卡减少生成单个视频的延迟,我们需要选择CP来进行分布式加速。此外,当模型较大时,还需要进行模型切分。
DiT并行策略
#开源社区友好
万相已经在Github、HuggingFace、魔搭社区平台开源,全面支持了多种主流框架,已支持Gradio体验、xDiT并行加速推理,Diffusers和ComfyUI也在快速接入中,以方便开发者一键推理部署。这不仅降低了开发门槛,还为不同需求的用户提供了灵活的选择,无论是快速原型开发还是高效生产部署都能轻松实现。
开源社区链接:
Github: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
魔搭社区:https://modelscope.cn/organization/Wan-AI
#附录:万相模型生成demo展示
首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型:
更稳定的复杂运动生成能力:
更灵活的运镜控制能力:
更好的物理规律理解、更好的模拟真实的世界:
高级质感、多种风格、多长宽比:
图生视频,让创作更可控:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-06
Qwen3-Coder-Next 上线模力方舟:仅 3B 激活参数,媲美主流大模型的 Agent 编码能力
2026-02-06
给自己搭一个 AI 搭档:OpenClaw 安装使用全记录
2026-02-06
Qwen3-TTS:2026年最强开源文本转语音模型完全指南
2026-02-06
OpenClaw 爆火之后,我们看到了这些创业信号
2026-02-05
从Clawdbot到OpenClaw:爆款本地AI Agent的产品逻辑与争议
2026-02-05
Clawdbot 如何实现像人一样的长期记忆?
2026-02-05
全球最多下载中文开源数据集更新|OpenCSG持续打造中文高质量数据集开源底座
2026-02-05
【开源】12.1K Star!用 Markdown 给大模型装上“外挂大脑”,不写后端、不搭平台,这个开源项目让你用 Git 管理 AI 任务流
2025-11-19
2026-01-27
2025-12-22
2026-01-12
2026-01-29
2025-11-17
2025-12-10
2026-01-28
2025-12-23
2026-01-06
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02