微信扫码
添加专属顾问
阿里云开源视频大模型万相2.1,性能超越Sora,8G显卡即可运行。 核心内容: 1. 万相2.1双版本模型参数规模及适用场景 2. 万相2.1在基准测试中的性能优势 3. 万相2.1的多项功能支持和应用演示
智东西2月26日报道,昨夜,阿里云视觉生成基座模型万相2.1(Wan)宣布开源!
万相2.1共有两个参数规模,140亿参数模型适用于对生成效果要求更高的专业人士,13亿参数模型生成速度较快且能兼容所有消费级GPU,两个模型的全部推理代码和权重已全部开源。
综合来看,万相2.1的主要优势集中于以下五点:
SOTA性能:万相2.1在多个基准测试中优于现有的开源模型和商业解决方案,140亿参数专业版万相模型在权威评测集VBench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,居于榜首。
支持消费级GPU:13亿参数模型仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU,约4分钟内(未使用量化等优化技术)在RTX 4090上生成5秒的480P视频。
多项任务:万相2.1同时支持文生视频、图生视频、视频编辑、文生图和视频生音频。
视觉文本生成:万相2.1是首个能够生成中英文文本的视频模型,无需外部插件就能生成文字。
强大的视频VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的1080P视频进行编码和解码,同时保留时间信息。
通义官网体验地址:https://tongyi.aliyun.com/wanxiang/
Github: https://github.com/Wan-Video/Wan2.1
在生成能力方面,万相2.1可以还原复杂运动表现、遵循物理规律、影院级别画质、具备文字生成和视觉特效制作能力。
万相2.1不仅支持生成走路、吃饭等基本的日常运动,还能还原复杂的旋转、跳跃、转身跳舞以及击剑、体操等体育运动类的动作。
此外,其能在遵循物理世界规律的前提下,还原重力、碰撞、反弹、切割等物理场景,并生成万物生长等有创意的视频。
在画质方面,万相2.1生成的视频达到影院级别画质,同时理解多语言、长文本指令,呈现角色的互动。
同时,万相2.1是首次在开源模型中支持中英文文字渲染,中英文艺术字生成。
阿里云还公开了多个万相2.1生成视频的Demo。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。
纪实摄影风格,低空追踪视角,一辆宝马M3在蜿蜒的山路上疾驰,车轮扬起滚滚尘土云。高速摄像机定格每个惊险过弯瞬间,展现车辆极致的操控性能。背景是连绵起伏的山脉和蓝天。画面充满动感,轮胎与地面摩擦产生的烟雾四散。中景,运动模糊效果,强调速度感。
微观摄影,珊瑚管虫和霓虹刺鳍鱼在五彩斑斓的海底世界中游弋。珊瑚管虫色彩鲜艳,触手轻轻摇曳,仿佛在水中舞蹈;霓虹刺鳍鱼身体闪耀着荧光,快速穿梭于珊瑚之间。画面充满奇幻视觉效果,真实自然,4k高清画质,展现海底世界的奇妙与美丽。近景特写,水下环境细节丰富。
中国古典风格的动画角色,一个身穿淡紫色汉服的女孩站在樱花树下。她有着大大的眼睛和精致的五官,头发上装饰着粉色的花朵。女孩表情温柔,眼神中带着一丝忧郁,仿佛在思考什么。背景是朦胧的古建筑轮廓,花瓣在空中轻轻飘落,营造出一种宁静而梦幻的氛围。近景特写镜头,强调女孩的面部表情和细腻的光影效果。
为了评估万相2.1的性能,研发人员基于1035个内部提示集,在14个主要维度和26个子维度上进行了测试,然后通过对每个维度的得分进行加权计算来计算总分,其中利用了匹配过程中人类偏好得出的权重。详细结果如下表所示:
文生视频的评估结果:
图生视频的评估结果:
其结果显示,万相2.1均优于其他开源、闭源模型。
不同GPU上的计算效率:
可以看到,13亿参数模型可兼容消费级显卡,并实现较快的生成速度。
基于主流的DiT和线性噪声轨迹Flow Matching范式,万相2.1基于自研因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标提升了模型最终性能表现。
VAE是视频生成领域广泛使用的模块,可以使得视频模型在接近无损情况下有效降低资源占用。
在算法设计上,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例,为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。
此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。
万相2.1模型架构基于主流的视频DiT结构,通过Full Attention机制确保长时程时空依赖的有效建模,实现时空一致的视频生成。
采样策略上,模型的整体训练则采用了线性噪声轨迹的流匹配(Flow Matching)方法。如模型架构图所示,模型首先使用多语言umT5编码器对输入文本进行语义编码,并通过逐层的交叉注意力层,将文本特征向量注入到每个Transformer Block的特征空间,实现细粒度的语义对齐。
此外,研发人员通过一组在所有Transformer Block中共享参数的MLP,将输入的时间步特征T映射为模型中AdaLN层的可学习缩放与偏置参数。在相同参数规模下,这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。
数据方面,研究人员整理并去重了一个包含大量图像和视频数据的候选数据集。在数据整理过程中,其设计了四步数据清理流程,重点关注基本维度、视觉质量和运动质量。通过强大的数据处理流程快速获得高质量、多样化、大规模的图像和视频训练集。
训练阶段,对于文本、视频编码模块,研究人员使用DP和FSDP组合的分布式策略;对于DiT模块采用DP、FSDP、RingAttention、Ulysses混合的并行策略。
基于万相2.1模型参数量较小和长序列带来的计算量较大的特征,结合集群计算性能和通信带宽采用FSDP切分模型,并在FSDP外嵌套DP提升多机拓展性,FSDP和DP的通信均能够完全被计算掩盖。
为了切分长序列训练下的Activation,DiT部分使用了Context Parallelism (CP) 对序列维度进行切分,并使用外层RingAttention、内层Ulysses的2D CP的方案减少CP通信开销。
此外,为了提升端到端整体效率,在文本、视频编码和DiT模块间进行高效策略切换避免计算冗余。具体来说,文本、视频编码模块每个设备读不同数据,在进入DiT之前,通过循环广播方式将不同设备上的数据同步,保证CP组里中数据一样。
在推理阶段,为了使用多卡减少生成单个视频的延迟,选择CP来进行分布式加速。此外,当模型较大时,还需要进行模型切分。
一方面,模型切分策略时,单卡显存不足时必须考虑模型切分。鉴于序列长度通常较长,与张量并行(TP)相比,FSDP的通信开销更小,并且可以被计算掩盖。因此,研究人员选择FSDP方法进行模型切分(注意:这里仅做切分权重,而不做数据并行);另一方面采用序列并行策略:采用与训练阶段相同的2D CP方法:外层(跨机器)使用RingAttention,内层(机器内)使用Ulysses。
在万相2.1 140亿参数模型上,使用FSDP和2D CP的组合方法,在多卡上具有如下图所示的近线性加速:
显存优化方面,研究人员采用分层的显存优化策略,选择一些层进行Offload,其他层根据不同算子计算量和显存占用的分析使用细粒度Gradient Checkpointing(GC)进一步优化Activation显存。最后利用PyTorch显存管理机制,解决显存碎片问题。
在训练稳定性方面,万相2.1借助于阿里云训练集群的智能化调度、慢机检测以及自愈能力,在训练过程中可以自动识别故障节点并快速重启任务,平均重启时间为39秒,重启成功率超过98.23%。
2023年8月,阿里云率先开源Qwen模型,正式拉开了开源大模型的序幕。随后,Qwen1.5、Qwen2、Qwen2.5等四代模型相继开源,覆盖了从0.5B到110B的全尺寸范围,涵盖大语言、多模态等领域。目前其千问(Qwen)衍生模型数量已超过10万个。其官方文章显示,随着万相的开源,阿里云实现了全模态、全尺寸的开源。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
我做了一个开源 AI 语音输入法——SayIt
2026-07-04
ThinkParse 1.1.0 开源发布:把文档解析,做成可扩展的企业级服务
2026-07-04
Agent 工程终于有脚手架了, Google开源一个开发agent的工具
2026-07-03
用云新范式:Qoder Cloud Agents × Alibaba Cloud Skills
2026-07-03
Ornith-1.0 发布: 新一代 Agentic Coding 之王,MIT 开源
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-07-02
ollama v0.31.1发布:Apple Silicon上Gemma 4提速近90%,默认开启无感升级
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-31
2026-05-20
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。