2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

AIGC落地应用:腾讯云如何助力产业智能化升级?

发布日期:2024-06-25 19:50:37 浏览次数: 3097
作者:腾讯云TVP

微信搜一搜,关注“腾讯云TVP”



引言


点击查看活动精彩瞬间

在过去一年,AIGC 以星星之火,点燃全球燎原之势。如今巨变仍在进行,各行各业积极拥抱技术变革,带来诸多智能应用创新。然而开发者在实际落地 AIGC 的过程中,如何做技术选型?如何将前沿技术有效地融入现有业务流程,兼顾实用性和用户体验?如何加快前沿技术落地,进而推动产业升级?




6 月 15 日, 由腾讯云 TVP 与 CSDN 联合主办的「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」活动在上海举办,本次沙龙汇聚 AI 领域产学研优秀代表、技术大咖,聚焦 AIGC落地思考与应用实践,分享最新、最实用的案例,一同探讨如何加快 AI 应用的创新步伐。

从科研到实践的深度探索

数智人“娇娇”全解析


上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利



未来已来,数字人已渗透到各行各业,成为新一代的生产力和创造力。从科研到实践,数智人“娇娇”的诞生,既是技术的集成展示,也是对个性化、互动性未来的创新探索。



上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利在《科研到落地:“数智人-娇娇”》的演讲中,先是回顾近五年来数字人技术的演变历程,梳理当前数字人技术的前沿进展,如基于语音驱动的运动稳定的数字人视频合成,基于显式、隐式记忆增强的语音驱动数字人合成,身份匹配对应学习的高保真人脸驱动,基于解耦潜在运动表征的高保真数字人驱动、高保真音频驱动的歌唱数字人合成等创新研究。



不仅探索学术研究,宋教授还带领团队积极进行技术落地,推出数智人“娇娇”项目。“娇娇”以一位擅长直播的同学为原型,通过拍摄绿幕视频并结合声音数据进行训练而成,“娇娇”可以进行对话聊天、口播、歌曲演唱、新闻播报、健康顾问、多语种口译等工作。“娇娇”不仅体现了数字人在娱乐、教育等领域的广泛应用潜力,还作为首个高校虚拟数字人主播,引发广泛关注。



如今数字人向更广泛的商业和社会应用场景迈进,与此同时,数字人行业存在政策风险和商业模式不确定性等挑战。在宋教授看来,尽管 ToC 市场吸引力大,但 ToB 领域因成本效益和应用深度,展现出更大的商业潜力。数字人处于快速发展中,不仅在形象创造上不断进步,也在向更复杂的动作、情感交互等方向探索。展望未来,结合高质量的交互能力将是未来数字人发展的重要方向。


分享Agent内容生产辅助技术实践

探索未来新图景


阅文集团AIGC技术负责人 马宇峰



展望未来,一是通过不断细化垂类来提升 Agent 的可控性与稳定性,二是构建繁荣生态系统,未来 Agent 如同一个 OS,灵活集成多样化的 Agent 模块以优化生产流程,实现既有用又有趣的定制化内容创作解决方案。



阅文集团 AIGC 技术负责人 马宇峰发表以《基于 Agent 的内容生产辅助探索》为主题的演讲。AI Agent 正逐渐成为内容生产的重要辅助工具,特别是在提高生产效率和内容多样性方面展现出巨大潜力。马宇峰强调,尽管大模型作为基础,具备记忆、规划和工具使用等能力,使 Agent 能在特定任务模拟人类工作,但实际应用中仍面临多步执行准确率下降、工具使用能力有限等问题。



针对这些挑战,马宇峰提出“有用”与“有趣”两大类 Agent 的应用场景:“有用的 Agent”侧重于提高生产效率,如批量创意素材生产,需要模型输出高度准确、格式规范;“有趣的 Agent”则更注重创新和情感互动,如角色扮演对话,允许一定程度的发散和创造性。同时他指出生产环境的 Agent,为适配场景的可控性,需要进行垂类建模。


马宇峰介绍 Agent 技术在视频生成领域的应用探索可分为四个阶段:通过大模型对网文理解,将海量小说批量化分镜;基于网文文生图基座,为网文配图;通过音频合成,为角色配音;通过多模态视频生成技术来讲述故事。



最后马宇峰强调,Agent 在落地的过程中,一方面要考虑大语言模型能力,另一方面需要考虑大语言模型在垂类场景的可控程度,才能将“有趣”和“有用”的特点发挥到极致。AIGC 技术的正确落地方式在于找到特定场景,通过针对性的数据训练提升模型的可控性和准确度。


腾讯混元大模型赋能AIGC应用落地

推进产业智能化升级


腾讯云大模型产品专家 屈蕾



腾讯混元大模型历经迭代日趋成熟,坚持全链路自主研发技术,支持众多场景的创新应用,实现技术与应用同行,期待更多开发者与企业加入,共创大模型应用新纪元。



腾讯云大模型产品专家 屈蕾在《腾讯混元大模型全场景 AIGC 应用实践》的主题演讲中介绍,腾讯混元大模型是腾讯全链路自主研发的通用大语言模型,自 2023 年 9  月上线以来,经历多轮迭代,腾讯混元大模型不断成长、性能不断提升,现已拥有万亿级参数规模,从稠密模型架构向稀疏化架构演进,孵化不同的模型形态,采用混合专家模型 (MoE) 结构,提高训练和推理效率及专业领域适应性,具备强大的中文创作能力。



腾讯混元大模型构建三层自主可控的国产大模型全栈技术架构:上层为自研高速网络互联来支撑模型训练,预计 2024 年将达到单集群 10 万卡规模,低端卡也能训练万亿参数大模型;中层为自研 Angel 大模型训练和推理平台,可高效调度异构卡集群,将万亿大模型的推理成本较开源模型下降 70%,并持续优化;底层是采用混合专家模型 (MoE) 结构。



腾讯混元大模型在 SuperClue 和沙利文报告等第三方测评中获得高度评价,效果居于国内第一梯队。目前混元大模型已接入 600+ 腾讯内部业务,其应用场景广泛,如腾讯文档 AI 智能助手辅助文案创作、腾讯会议 AI 小助手自动总结、智能数字人和游戏 npc 的角色扮演能力增强用户体验、AI 代码生成等,实现技术与应用同行,充分释放生产力。



此外,腾讯混元大模型在多模态能力上也持续迭代升级。在生图领域,腾讯混元文生图基础架构已全面升级至 Sora 同款的 DiT 架构,支持中英文双语输入及理解,具备多轮绘图能力,测评结果国内领先;在生视频领域,腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,已经支持 16s 视频生成;在生 3D 层面,腾讯混元已布局文/图生 3D,单图仅需 30 秒即可生成 3D 模型。



目前,腾讯混元大模型多模态能力已通过腾讯云以 API 形式面向企业用户和开发者开放,在广告、电商、传媒、游戏、教育等不同行业落地应用。其中,混元生文提供了万亿参数 hunyuan-pro、千亿参数 hunyuan-standard、百亿参数 hunyuan-lite等多种尺寸的模型服务,期待更多伙伴与开发者加入,共同探索大模型的边界与新应用场景,携手推进大模型技术创新发展。



解读QQ影像中心AIGC创新与实践

释放AI无限潜力


QQ专家算法研究员 程培



面对日新月异的 AIGC 技术发展,QQ 构建 AIGC 技术体系,持续推出系列创新工具和应用,赋能用户个性化内容创造,积极探索 AIGC 的广泛应用潜力与价值。



QQ 专家算法研究员 程培在《QQ 影像中心 AIGC 的创新和应用》的分享中谈到,目前 QQ 在基础层,打造出语言以及图文大模型、3D 生成大模型;在组件层,拥有图片/视频生成技术,3D 数字资产生成技术;在应用层,QQ 相机、小程序、天天 P 图、超级 QQ 秀等均已融入 AIGC 技术。



QQ 影像中心在几年前开始部署研究 AIGC 技术,目前取得一些进展:Diffusion 模型广受热议,然而在落地的过程中,面临画面构图不稳定、语义质量差等效果瓶颈,优质结果生成投入成本高等性能瓶颈。早在 2022 年,程培团队针对 Diffusion 模型进行优化,从 0 到 1 搭建“优化-选型-生产-上线”流程,持续进行风格效果训练积累,积累风格超 20 种。最终将优化后的技术应用到 QQ 小世界 520 活动上,得到用户的热烈讨论与关注。QQ 作为国内最早一批上线这类创新 AIGC活动,例如热门特效 “异次元的我”,用户只需上传一张自己的照片,就能通过 AI 识别,一键生成与自己十分相像的漫画图片,当时的传播率极高。



AI 写真照最初用户的使用门槛高,需要用户上传多张不同角度的照片,还要在线训练,对机器资源消耗较大,且可能影响用户体验。如何在不进行后置微调的情况下,只给一张人像照,让 Diffusion 模型具备人脸 ID 的保持、变化、风格化等能力,使得模型的生成结果具备多样性。对此,腾讯推出 FaceStudio,通过先进的混合人脸 ID 引导机制,在不牺牲个人身份特征的情况下,实现风格化的人物图像合成。这项技术成功应用在 QQ 头像定制馆、七夕头像等活动。



大多数扩散模型使用 CLIP 作为文本编码器,这将可能限制它们理解复杂提示的能力,对此腾讯推出 ELLA,可将 LLM 与扩散模型无缝结合,将 LLM 能力注入扩散模型,提升现有文生图模型语义匹配程度,还可轻松集成社区模型和工具,兼容社区生态。并进一步研发 EMMA 框架,解决角色一致性生成问题,使同一人物在不同场景中保持一致,实现连贯的视觉叙事。



在视频生成上,实现稳定且风格强烈的视频内容生成,展现在多人及单人场景中的良好应用效果,目前团队将相关算法落地在 QQ 短视频开发者开放平台。在 3D 生成上,打造超 Q 服饰纹理生成系统,落地超 Q 秀业务,给用户带来崭新体验。


 


开发者如何拥抱AI 2.0时代?


易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者 田杰



开发者积极拥抱 AI 2.0时代,通过在 AIGC 工具层与应用层创新,在细分领域创造价值,无需畏惧被技术替代,致力成为利用 AI 提升业务与个人竞争力的先行者。



易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者 田杰在《开发者如何拥抱AI 2.0 时代》中指出,随着 AIGC 的兴起,普通开发者面临被技术替代的焦虑,但同时存在转型与机遇。田杰通过分析最新行业动态、市场数据等,帮助开发者清思路,鼓励开发者把握 AIGC 新机遇,通过持续学习和创新,成为 AIGC 的弄潮儿。




田杰鼓励开发者不应局限于传统编程语言的学习,更应关注如何结合 AI 技术提升个人竞争力,利用智能体为用户提供更高效、个性化的服务。他表示,“所有的 App 应用都值得用 AI 重新做一遍,这就是应用级开发者的机会”。尽管大型科技公司正积极布局大模型市场,但对于小型企业和个人开发者而言,专注于细分领域、创新业务模式和应用场景,利用好信息差和快速反应能力,如高考志愿填报助手等,通过快速响应市场需求和提供定制化解决方案, 实现技术与市场的有效对接。



结语


随着 AI 技术飞速发展,AIGC 正从概念走向广泛的应用实践,为各行各业带来前所未有的创新变革。在本次「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」,五位技术大咖从多角度分享前沿、多元的 AIGC 亲身实践,为开发者带来诸多启发。在各位嘉宾的精彩分享下,本次活动圆满落幕。


未来,腾讯云 TVP 将继续携手更多专家大咖,为开发者朋友分享更多干货技术和前沿洞察、落地实践,献上一场场精彩有料、有趣、有用的技术盛宴。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅