2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

实时语音交互的游戏队友——网易伏羲 AI Agent 创新应用

发布日期:2024-12-26 07:57:43 浏览次数: 3860
作者:DataFunSummit

微信搜一搜,关注“DataFunSummit”



01

网易伏羲介绍


网易伏羲是国内首个游戏人工智能研究机构,自 2017 年成立以来,已在全球各类学术顶级会议中发表 270 余篇学术论文,并持有 600 多项技术专利,为人工智能、元宇宙、数字孪生、智能决策技术等众多前沿科技领域的理论研究和实践应用做出贡献。


自成立以来,网易伏羲不断推陈出新,积极探索前沿技术和应用场景,实现了游戏AI 领域的多项创新技术突破,推出了基于照片、文字的 AI 捏脸、智能 NPC、剧组模式、语音交互式捏脸和语音 AI 队友等多个行业首创的AI 应用。通过将 AI 技术融入游戏系统的各个层面,网易伏羲成功助力《逆水寒》手游、《永劫无间》手游等游戏打造多项创新玩法,极大地提升了玩家的游戏体验。


近期,网易伏羲助力《永劫无间》手游推出全新的游戏 Copilot——“语音 AI 队友”,该玩法一经推出即受到玩家的高度评价,相关用户生成内容迅速登上抖音和 B 站热门榜单。


02


语音 AI 队友的设计与实现




传统游戏中,机器人往往存在行为呆板、缺乏互动交流等问题。对于有社交焦虑的玩家,他们希望在避免与真人玩家直接语音交流的同时,仍能享受游戏中的社交体验及多人对战的乐趣。此外,玩家匹配到技术不佳或配合度低的队友,会导致游戏体验不佳。因此,玩家希望能够找到一个既能提供高质量的游戏技巧支持又能陪伴聊天的对象,从而满足自身情绪需求,提升整体游戏体验。


为了满足玩家对于游戏互动性和情绪价值的需求,《永劫无间》手游推出了一种多模态实时交互的语音 AI 队友。AI 队友能够在战斗中自主跑图、执行战术动作,并根据玩家指令汇报战况。此外,它还能与玩家进行自然对话,提供情感支持。对于新手玩家,该语音 AI 队友还具备教学引导功能,可以帮助他们更快地熟悉游戏机制。


(视频来源于网络)


在《永劫无间》手游中设计的 AI 队友 Agent 能够综合处理游戏环境中的状态变化和玩家输入的语音信息。基于对当前环境状况的认知、决策能力,以及利用游戏知识库与战斗记忆,该 AI 队友能够做出合理的行动决策并给予相应的语音反馈。



在这一应用场景下,为实现高效互动和辅助功能,Agent 需要具备的认知与决策能力主要包括:语音识别、指令理解、教学问答、人设对话、语音生成,以及协同完成任务所需的战斗智能体等。


接下来将详细介绍几个核心能力。



首先,作为 AI 队友,必须具备“听得懂”的能力,能够像真人一样与玩家实时语音互动。因此在设计之初就去掉了智能音箱等场景中常用的唤醒词设计,比如“Hey Siri”,而是采用全开麦实时语音交互。这种模式虽然极大地提升了用户体验,但也带来了很大挑战。比如环境噪音、不同设备的兼容性、玩家方言口音差异以及存在一些专业术语等问题。为了解决这些问题,我们基于 AOP(Agent-Oriented-Programming,面向智能体编程)框架的核心能力,构建了自主数据闭环的训练模型,使 Agent 具备自主进化的能力,并且构建了标准的测试集,有效利用测试和线上数据扩充数据集,推动模型迭代。我们的语音识别在经过几次场景数据的闭环训练之后,在噪声过滤、热词适配等方面都得到了显著的加强。



除了听得懂,AI 队友还需能够进行表达和对话。通过结合大语言模型与文语转换(TTS)技术,AI 队友实现了自主对话的功能。为了增强语音生成模型的泛化能力,我们利用多年积累的大数据对语音基础大模型进行了训练,并针对具体游戏场景进行了自适应优化。



在听得懂、能说话的基础上,我们给 AI 队友设计了非常丰富的人设选项,比如彩虹屁萌妹、温柔体贴御姐以及温暖深情暖男等等。这些具有鲜明个性的 AI 队友,不仅可以和玩家产生复杂的互动关系,还可以根据不同的游戏情境展现出其独特的性格特点,进一步增强游戏的沉浸感和互动感。比如上图中展示的,一个玩家在玩的过程中通过和不同 AI 队友的交互体验,画出了一个关系图。



作为游戏的陪玩或队友,对于游戏的理解需要非常到位,对于问到游戏相关内容时,要做出非常好的回答。为了实现 AI 队友的教学问答功能,我们构建了一个强大的知识库系统,该系统包括游戏的静态知识(如规则和机制)和动态知识(如赛事信息)。当玩家提出问题时,AI 会通过 embedding 模型将问题转化为向量,并在向量库中搜索最匹配的答案。如果答案不明确,则会利用 RAG(检索增强生成)和更高级的大语言模型进行进一步的检索和推理,以确保提供准确的回答。



AI 队友还必须拥有基本的游戏执行能力。当玩家发出如“集火胡桃”这样的指令时,系统首先在预处理模块中解析并理解该指令的意图。识别出意图后,系统将“集火”这一行为类型和“胡桃”这一目标转化为状态信息,并将其作为战斗模块的输入。最终,基于强化学习的战斗模型会根据这些输入信息做出相应的行动决策,从而执行玩家的指令,做出集火胡桃的动作在客户端表现出来。


基于上述介绍,可以看到 AI 队友系统具备多种能力,包括理解语音、自然对话、展现个性以及执行任务等,因此它是一个多智能体系统,类似于人类大脑中不同区域分工明确且协同工作的机制。行业中已有一些成熟的多智能体框架,如 MetaGPT 和 AutoGEN 等,支持复杂系统的开发与应用。


下面以一个玩家制作的视频来回顾一下 AI 队友实现的能力。
在做 Agent 设计和落地时,常会遇到场景适配的问题,比如语音识别,需要适配环境噪音、口音等问题。我们是如何解决这些问题的呢?这就引入了下一部分内容——AOP 框架。


03


Agent 能力迭代- AOP 数据闭环



AOP(Agent-Oriented-Programming,面向智能体编程) 是网易伏羲设计的一套全新的编程范式,其核心价值在于为开发者对接智能体(包括 AI 和人),提供统一范式的接口和服务,并自动构建数据闭环让智能体具备自主进化能力。开发者可通过 AOP 使用伏羲有灵机器人平台预置的公共智能体能力,包括 ChatGPT、Midjourney 等预训练模型,以及数据标注、美术制作、工程机械操控等众包能力,也可针对行业细分场景定制化构建智能体应用。


AOP 的设计思想,是基于马尔可夫决策过程(Markov Decision Processes,MDP)的定义来进行任务建模,即 Agent(智能体,包括人类或机器)在进行某个任务时,首先会和环境进行交互,产生新的状态(State),同时环境会给予相应的奖励(Reward),这一过程循环往复,Agent 与环境之间的交互产生了大量的数据。Agent 利用这些新数据不断调整自身的行为策略,经过多次迭代后,Agent 便能够学习到完成特定任务所需的最佳动作策略。




图中展示的是我们所定义的一个用于语音识别的智能体。我们详细规定了该智能体的状态观察机制及其自身的能力,无论是指定使用人工智能还是人工操作。一旦完成接口描述语言(IDL, Interface Description Language)的定义,便能够生成并编译出这一智能体。编译完成后,我们将获得一段运行时代码,这段代码提供了同步与异步调用的接口。接着,利用 AOP 平台的一键发布功能,即可实现智能体的快速部署。部署完毕后,就可以在具体的业务场景中直接调用此智能体。例如,根据图示代码所示,可以选择调用 AI 执行的自动语音识别(ASR)功能或人类执行的语音识别服务。


该 AOP 框架已成功应用于多个案例之中,除了文本提到的 AI 语音队友以外,还在《逆水寒》手游的文字捏脸、《永劫无间》手游的交互式捏脸等应用中落地。


网易伏羲 AOP SDK 即将开启内测,感兴趣的伙伴可以扫描二维码进入微信群,第一时间获得内测信息。


04


语音技术在游戏场景的应用



最后来分享一下语音技术在游戏场景的一些其他应用。



在游戏场景下,除了实时互动的语音 AI 队友,我们在音频内容生产上也做了一定工作。游戏场景下的音频内容,主要包含音乐、音效、语音三个方面。游戏音乐,包括背景音乐、剧情、战斗和关卡中的音乐等等。音效包括各种各样的声音效果,像环境音效、动作音效等等,例如法术释放、技能特效、爆炸声等,完美的音效设计可以给玩家带来更好的沉浸感和互动体验。游戏人物语音是指游戏角色所发出的人声,常见的有对话语音、战斗语音,语音设计师可以根据角色的角色设定、角色性格、场景和情节需求,来创造适合的语音内容和表达方式。在传统的游戏生产链路中,这三部分都是人工完成的,耗费人力和时间很多,随着 AI 生成式技术的兴起,我们尝试用技术去帮助游戏音频设计师更快更好地生产内容。下面,将以人物语音为例,介绍我们在游戏里面的一些落地案例。



《逆水寒》手游自去年上线就获得了很大的关注度,玩家可以在汴京、虹桥等很多地方,和澜儿、高衙内等数十个 NPC 进行互动交流,这种细致入微的互动,为游戏增添了更多的乐趣和丰富性。游戏里大家所听到的这些 NPC 的声音,就是我们语音合成技术所实时合成的。形形色色的会说话的 NPC,增加了《逆水寒》手游街头巷尾的烟火气息,让玩家获得了更好的沉浸式体验。


为了增强游戏的社交性、可玩性,提高游戏丰富度在《逆水寒》手游中,我们首次在游戏里加入了声音的 DIY 玩法——自定义技能喊话,玩家可以设置技能释放时候播放的语音内容,玩家可以输入文本,选择音色进行定制,也可以输入自己的语音进行音色转换来定制。


另外,我们还应用了歌声合成和转换技术,来制作歌声内容。


在游戏场景中,对变声器,即语音转换能力的需求比语音合成更多,我们在这块做了深入的探索,发表的论文有 DualVC、DualVC2、DualVC3、Expressive-VC 等等。比如在直播时可以选择将自己的声音更换为另一种特定的音色。实时变声器可以在很多玩法上做嵌套,但也会遇到法律边界的挑战。



围绕语音生成,网易伏羲在 Codec 和 LLM 两个方面都做了探索。Codec 方面,网易伏羲基于自身技术积累,自研了适配生成式大语言模型的语音 Codec,不仅实现了语音的离散化和高质量重建,而且做到了内容属性与音色属性的解耦。


LLM 方面,在文本生成语音时,使用了 Speech LLM,利用数十万小时的语音数据训练,融合 SFT+RLHF 等手段,实现了媲美真人的语音合成效果。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅