2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

达摩院跨入 AIGC 深水区,发布一站式 AI 视频创作平台「寻光」

发布日期:2024-07-10 06:22:08 浏览次数: 2826
作者:AI科技评论

微信搜一搜,关注“AI科技评论”

 AI 生产力与人类日益增长的想象力之间的需求还有多久才能满足?

年初,OpenAI 推出文本-视频生成模型 Sora,只需输入提示文本描述,或输入一张图片,Sora 就能生成类似电影大片的逼真场景视频,前所未有的新奇观感,让大众直呼「现实不存在了」。

惊叹之余,Sora 所展现出的神奇「魔法」,也让业界意识到 AI 视频生成在高清晰度、高保真度、高质量方面的巨大潜力与价值。

此后,AI 视频生成模型摇身一变成为科技圈新的宠儿,并一改之前大语言模型一家独大的格局为两者的分庭抗礼。

「Sora热」开始席卷全球,直到现在,国内外相关的 AI 视频生成模型或产品工具都将 Sora 奉为业界标杆,沿着一条类 Sora、比肩 Sora、超越 Sora 的道路狂奔。

但不可否认,相较于大语言模型的「狂飙」,目前 AI 视频生成技术还处于早期阶段,距离「ChatGPT」式的爆发仍有一段距离。即便强大如 Sora,也并非完美,在技术端依旧存在着许多未解的问题与挑战。

为此,在当下, 如何利用大模型技术的强大能力,破解 AI 视频生成领域的难题,更大程度上地释放 AI 生产力,助推 AI 视频生成再往前进一步,是业界在不断思考和探索的重心。

前几天,在世界人工智能大会上,阿里达摩院发布了一站式 AI 视频创作平台——寻光,似乎为 AI 视频生成的发展带来了新的范式。



1

可控编辑、一致性难以实现

现有 AI 工作流亟待重塑

关注 Sora 的业界从业者应该都知道几个月前的著名「打假贴」事件。

简单来说,当时 Sora 一经发布,OpenAI 为了展示其强大能力和维持话题热度,邀请了一些专业创作者、行业 KOL 等试用 Sora,并时不时放出双方合作生成的创意视频,吸引大众目光。

其中,有一个合作方是来自于多伦多的 Shy Kids 团队,他们使用 Sora 制作的《Air Head(气球人)》短片,因为创意新颖、将艺术与 AI 技术的完美结合,得到了大众的一致赞美,更有甚者将之称为「Sora 史上最佳短片作品」。

可是令人意想不到的是,后来制作团队发文称,《Air Head》并非由 Sora 一键生成,在实际的制作过程中,有大量的视觉效果是经过人工后期编辑而成,才呈现出最终效果。

据他们介绍,整个短片是由多个视频片段组成的,但是在生成不同的视频片段时,很难保证主角始终是个长着黄色气球脑袋的人,有时候气球上会自动「长出」一张人脸,或者依照常识给主角安装一个不符合剧情的脑袋,等等,bug多到创作人员频频吐槽「生成过程很难控制」。

另外,还有角色对象一致性的问题。

在短片中,主角的衣服和那顶标志性的黄色气球脑袋充斥着剧情的始终,「丝滑」到看不出这是由多个视频片段组成的。但实际上,Sora 并不能够保证不同分镜头之间的主体一致性,仅仅依靠输入提示词,就想让主角的衣服和气球颜色保持一致根本不可行。这也是为什么后期需要那么多的人工参与。

彼时新闻一出,业界在感到震惊之余,也意识到,即便是 Sora,生成内容都需要大量的人工参与,难以为这些问题提供良好的解决方案,那么可想而知在整个领域中这些问题的普遍性。

的确如此。

据达摩院视觉技术实验室高级算法专家陈威华介绍,在寻光平台的研发过程中,团队对当下的一众现有视频创作工具进行了大量的调研,并走访了许多视频创作者,对目前业界存在的问题汇总、分析之后发现,当前在 AI 视频生成领域,对于生成内容的可控编辑、一致性等问题是创作过程中的重要需求,也是当前算法面临的最大挑战。

「现有 AI 工作流亟待重塑。」

在他看来,如今各种视频生成大模型已经让大家感受到了 AI 技术带来的福利,给短视频制作提供了各种各样的素材。而在素材齐全之后,接下来要做的就是进一步提升视频制作的效率,解决视频后期编辑中存在的各种问题。

而这也正是达摩院推出寻光平台的初衷。

据了解,此次达摩院发布的寻光平台,定位为 PUGC 一站式 AI 视频创作平台,能够解决 AI 视频编辑不够精准可控的痛点,可支持接入多种视频生成模型,并在行业首次落地基于图层的视频编辑,为复杂视频创作提供了更高效、易用的 AI 工作流。

「我们的目标是用 AI 能力去重塑传统视频制作的整个流程,打造 AI 时代的全新视频工作流。寻光视频创作平台,最大的特点是让用户实现对视频内容的精准控制,同时可以保持多个视频中角色和场景的一致性。」陈威华说道。



2

「让编辑像操作PPT一样

简洁直观,容易上手」

在发布现场,陈威华形容寻光平台的推出,会对当前的视频创作工作流进行优化,使得 AI 视频生成的工作范式发生新的变革,「让编辑像操作 PPT 一样简洁直观,容易上手」。

那么,寻光平台具体是怎么做到的呢?其实可以通过几个关键词来认识它。

一个是「一站式 AI 视频创作平台」,如何理解?

大家都知道,当前市面上存在各种各样的 AI 视频生成工具,但是仔细看下来,当创作者想要创作一个视频时,可能需要不同的工具来生成文字、图片、分镜头等素材,最后再把它们汇总放在一起,生成最终的视频。但在这个过程中,创作者往往需要在不同工具间流转,获取不同的素材,不仅耗时,而且容易出错,对创作者来说十分不友好。

而有了寻光平台,直接可以一步到位,不再需要再多个平台中间来回「转场」。

比如,用户在创作时,从剧本创作、分镜生成到素材编辑等全套操作,都可以在寻光平台上完成。另外,通过工作流整合提升了创作全流程的效率,支持对生成及上传素材进行丰富的 AI 编辑,提供人物控制、场景控制、风格迁移、运镜控制、目标新增/消除/修改等十多种 AI 编辑功能,让视频中的元素和对象精准可控。

举例来说,对于视频中的分镜头,用户可以选择在平台上通过剧本自动生成,也可以选择自己上传原始视频素材,由算法切分成多个分镜头。

另外,在创作空间中,如果用户在查看分镜头的时候,发现有些细节需要完善,那么就可以通过编辑工具栏对分镜头做进一步的编辑,不再像传统的视频制作过程那样,需要专门的工具来制作,然后再进行复制粘贴等操作。

可以说,一站式的工作流程,体现了寻光在用户交互上面的友好,而这正是它的一大亮点所在。

据了解,寻光平台是目前业界首个一站式 AI 视频创作平台。

第二个关键词是首创「基于图层的视频编辑」。

前面在 Sora 的案例中提到,AI 视频生成创作中,多个分镜头之间的场景与人物的一致性是至关重要的,其中的一个关键因素就在于分镜头中的视频图层,如果能够基于图层,在语义层面而不是像素层面实现可控编辑,是不是就能保证内容的一致性呢?寻光就是这样做的。

具体来看,寻光平台是通过把视频图层相关的各项能力以一个系统性的方式完整地呈现给用户,让用户基于图层进行视频的编辑、创作,主要包括前景图层的生成、图层拆解、图层融合等环节,从而保证视频的一致性。

比如,寻光平台上有个前景图层功能,用户可以通过输入文本生成符合文本描述的、并且具有透明背景的视频图层。

另外,寻光平台还提供图层拆解功能,即如果用户想从自己的已有视频素材中提取需要的图层,那么就可以使用拆解功能,算法就会把整段视频中对应物体的内容拆解出来,然后形成一个独立的带透明背景的视频图层。

获得了视频图层后,针对不同的创作需求,用户就可以通过寻光平台上的「图层融合」功能,将前景图层与不同的背景进行融合,从而生成各种各样的视频。

比如,以「小和尚练功」的视频为例。

在原视频中,小和尚正在练功,背景环境中有寺庙、竹林。那么,如果想要让小和尚在不同的背景环境中练功,就可以通过寻光平台的图层拆解功能,将小和尚作为一个整体图层拆解出来,然后根据具体的创作需求,将小和尚与不同的背景环境融合,生成新的视频。



3

写在最后

看到寻光平台居然可以实现这么强大的功能,是不是有被震撼到?原来 AI 视频生成也可以这么简单。

如今,类 Sora 产品层出不穷。在世界人工智能大会上,不少国内厂商的视频生成模型也展示出令人惊艳的效果。但不可否认的是,它们距离广泛应用还有很长的距离,原因就在于AI视频编辑流程复杂、门槛高,并不是人人都可以流畅玩转。

而达摩院推出的寻光平台,定位为解决当前业界类 Sora 产品涌现之后的编辑与创作问题,聚焦该如何满足人类日益增长的想象力与 AI 生产力之间的需求,希望借此真正释放 AI 生产力。

按照官方所展示的功能,寻光平台将对传统视频制作的整个流程进行重塑,在不久的将来,每个人都拥有、并熟练使用 AI 视频生成工具将变成可能。到那时候,我们或许会距离 AI 视频生成迎来「ChatGPT」式爆发再近一步。

「我们希望寻光视频创作平台就是每一个人手中的利器,是 AIGC 时代,每一个人的专属视频工作室。」陈威华说。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅