AIGC落地应用：腾讯云如何助力产业智能化升级？

发布日期：2024-06-25 19:50:37 浏览次数： 3097

作者：腾讯云TVP

微信搜一搜，关注“腾讯云TVP”

引言

点击查看活动精彩瞬间

在过去一年，AIGC 以星星之火，点燃全球燎原之势。如今巨变仍在进行，各行各业积极拥抱技术变革，带来诸多智能应用创新。然而开发者在实际落地 AIGC 的过程中，如何做技术选型？如何将前沿技术有效地融入现有业务流程，兼顾实用性和用户体验？如何加快前沿技术落地，进而推动产业升级？

6 月 15 日，由腾讯云 TVP 与 CSDN 联合主办的「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」活动在上海举办，本次沙龙汇聚 AI 领域产学研优秀代表、技术大咖，聚焦 AIGC落地思考与应用实践，分享最新、最实用的案例，一同探讨如何加快 AI 应用的创新步伐。

从科研到实践的深度探索

数智人“娇娇”全解析

上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利

未来已来，数字人已渗透到各行各业，成为新一代的生产力和创造力。从科研到实践，数智人“娇娇”的诞生，既是技术的集成展示，也是对个性化、互动性未来的创新探索。

上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利在《科研到落地：“数智人-娇娇”》的演讲中，先是回顾近五年来数字人技术的演变历程，梳理当前数字人技术的前沿进展，如基于语音驱动的运动稳定的数字人视频合成，基于显式、隐式记忆增强的语音驱动数字人合成，身份匹配对应学习的高保真人脸驱动，基于解耦潜在运动表征的高保真数字人驱动、高保真音频驱动的歌唱数字人合成等创新研究。

不仅探索学术研究，宋教授还带领团队积极进行技术落地，推出数智人“娇娇”项目。“娇娇”以一位擅长直播的同学为原型，通过拍摄绿幕视频并结合声音数据进行训练而成，“娇娇”可以进行对话聊天、口播、歌曲演唱、新闻播报、健康顾问、多语种口译等工作。“娇娇”不仅体现了数字人在娱乐、教育等领域的广泛应用潜力，还作为首个高校虚拟数字人主播，引发广泛关注。

如今数字人向更广泛的商业和社会应用场景迈进，与此同时，数字人行业存在政策风险和商业模式不确定性等挑战。在宋教授看来，尽管 ToC 市场吸引力大，但 ToB 领域因成本效益和应用深度，展现出更大的商业潜力。数字人处于快速发展中，不仅在形象创造上不断进步，也在向更复杂的动作、情感交互等方向探索。展望未来，结合高质量的交互能力将是未来数字人发展的重要方向。

分享Agent内容生产辅助技术实践

探索未来新图景

阅文集团AIGC技术负责人马宇峰

展望未来，一是通过不断细化垂类来提升 Agent 的可控性与稳定性，二是构建繁荣生态系统，未来 Agent 如同一个 OS，灵活集成多样化的 Agent 模块以优化生产流程，实现既有用又有趣的定制化内容创作解决方案。

阅文集团 AIGC 技术负责人马宇峰发表以《基于 Agent 的内容生产辅助探索》为主题的演讲。AI Agent 正逐渐成为内容生产的重要辅助工具，特别是在提高生产效率和内容多样性方面展现出巨大潜力。马宇峰强调，尽管大模型作为基础，具备记忆、规划和工具使用等能力，使 Agent 能在特定任务模拟人类工作，但实际应用中仍面临多步执行准确率下降、工具使用能力有限等问题。

针对这些挑战，马宇峰提出“有用”与“有趣”两大类 Agent 的应用场景：“有用的 Agent”侧重于提高生产效率，如批量创意素材生产，需要模型输出高度准确、格式规范；“有趣的 Agent”则更注重创新和情感互动，如角色扮演对话，允许一定程度的发散和创造性。同时他指出生产环境的 Agent，为适配场景的可控性，需要进行垂类建模。

马宇峰介绍 Agent 技术在视频生成领域的应用探索可分为四个阶段：通过大模型对网文理解，将海量小说批量化分镜；基于网文文生图基座，为网文配图；通过音频合成，为角色配音；通过多模态视频生成技术来讲述故事。

最后马宇峰强调，Agent 在落地的过程中，一方面要考虑大语言模型能力，另一方面需要考虑大语言模型在垂类场景的可控程度，才能将“有趣”和“有用”的特点发挥到极致。AIGC 技术的正确落地方式在于找到特定场景，通过针对性的数据训练提升模型的可控性和准确度。

腾讯混元大模型赋能AIGC应用落地

推进产业智能化升级

腾讯云大模型产品专家屈蕾

腾讯混元大模型历经迭代日趋成熟，坚持全链路自主研发技术，支持众多场景的创新应用，实现技术与应用同行，期待更多开发者与企业加入，共创大模型应用新纪元。

腾讯云大模型产品专家屈蕾在《腾讯混元大模型全场景 AIGC 应用实践》的主题演讲中介绍，腾讯混元大模型是腾讯全链路自主研发的通用大语言模型，自 2023 年 9 月上线以来，经历多轮迭代，腾讯混元大模型不断成长、性能不断提升，现已拥有万亿级参数规模，从稠密模型架构向稀疏化架构演进，孵化不同的模型形态，采用混合专家模型 (MoE) 结构，提高训练和推理效率及专业领域适应性，具备强大的中文创作能力。

腾讯混元大模型构建三层自主可控的国产大模型全栈技术架构：上层为自研高速网络互联来支撑模型训练，预计 2024 年将达到单集群 10 万卡规模，低端卡也能训练万亿参数大模型；中层为自研 Angel 大模型训练和推理平台，可高效调度异构卡集群，将万亿大模型的推理成本较开源模型下降 70%，并持续优化；底层是采用混合专家模型 (MoE) 结构。

腾讯混元大模型在 SuperClue 和沙利文报告等第三方测评中获得高度评价，效果居于国内第一梯队。目前混元大模型已接入 600+ 腾讯内部业务，其应用场景广泛，如腾讯文档 AI 智能助手辅助文案创作、腾讯会议 AI 小助手自动总结、智能数字人和游戏 npc 的角色扮演能力增强用户体验、AI 代码生成等，实现技术与应用同行，充分释放生产力。

此外，腾讯混元大模型在多模态能力上也持续迭代升级。在生图领域，腾讯混元文生图基础架构已全面升级至 Sora 同款的 DiT 架构，支持中英文双语输入及理解，具备多轮绘图能力，测评结果国内领先；在生视频领域，腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持 16s 视频生成；在生 3D 层面，腾讯混元已布局文/图生 3D，单图仅需 30 秒即可生成 3D 模型。

目前，腾讯混元大模型多模态能力已通过腾讯云以 API 形式面向企业用户和开发者开放，在广告、电商、传媒、游戏、教育等不同行业落地应用。其中，混元生文提供了万亿参数 hunyuan-pro、千亿参数 hunyuan-standard、百亿参数 hunyuan-lite等多种尺寸的模型服务，期待更多伙伴与开发者加入，共同探索大模型的边界与新应用场景，携手推进大模型技术创新发展。

解读QQ影像中心AIGC创新与实践

释放AI无限潜力

QQ专家算法研究员程培

面对日新月异的 AIGC 技术发展，QQ 构建 AIGC 技术体系，持续推出系列创新工具和应用，赋能用户个性化内容创造，积极探索 AIGC 的广泛应用潜力与价值。

QQ 专家算法研究员程培在《QQ 影像中心 AIGC 的创新和应用》的分享中谈到，目前 QQ 在基础层，打造出语言以及图文大模型、3D 生成大模型；在组件层，拥有图片/视频生成技术，3D 数字资产生成技术；在应用层，QQ 相机、小程序、天天 P 图、超级 QQ 秀等均已融入 AIGC 技术。

QQ 影像中心在几年前开始部署研究 AIGC 技术，目前取得一些进展：Diffusion 模型广受热议，然而在落地的过程中，面临画面构图不稳定、语义质量差等效果瓶颈，优质结果生成投入成本高等性能瓶颈。早在 2022 年，程培团队针对 Diffusion 模型进行优化，从 0 到 1 搭建“优化-选型-生产-上线”流程，持续进行风格效果训练积累，积累风格超 20 种。最终将优化后的技术应用到 QQ 小世界 520 活动上，得到用户的热烈讨论与关注。QQ 作为国内最早一批上线这类创新 AIGC活动，例如热门特效 “异次元的我”，用户只需上传一张自己的照片，就能通过 AI 识别，一键生成与自己十分相像的漫画图片，当时的传播率极高。

AI 写真照最初用户的使用门槛高，需要用户上传多张不同角度的照片，还要在线训练，对机器资源消耗较大，且可能影响用户体验。如何在不进行后置微调的情况下，只给一张人像照，让 Diffusion 模型具备人脸 ID 的保持、变化、风格化等能力，使得模型的生成结果具备多样性。对此，腾讯推出 FaceStudio，通过先进的混合人脸 ID 引导机制，在不牺牲个人身份特征的情况下，实现风格化的人物图像合成。这项技术成功应用在 QQ 头像定制馆、七夕头像等活动。

大多数扩散模型使用 CLIP 作为文本编码器，这将可能限制它们理解复杂提示的能力，对此腾讯推出 ELLA，可将 LLM 与扩散模型无缝结合，将 LLM 能力注入扩散模型，提升现有文生图模型语义匹配程度，还可轻松集成社区模型和工具，兼容社区生态。并进一步研发 EMMA 框架，解决角色一致性生成问题，使同一人物在不同场景中保持一致，实现连贯的视觉叙事。

在视频生成上，实现稳定且风格强烈的视频内容生成，展现在多人及单人场景中的良好应用效果，目前团队将相关算法落地在 QQ 短视频开发者开放平台。在 3D 生成上，打造超 Q 服饰纹理生成系统，落地超 Q 秀业务，给用户带来崭新体验。

开发者如何拥抱AI 2.0时代？

易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者田杰

开发者积极拥抱 AI 2.0时代，通过在 AIGC 工具层与应用层创新，在细分领域创造价值，无需畏惧被技术替代，致力成为利用 AI 提升业务与个人竞争力的先行者。

易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者田杰在《开发者如何拥抱AI 2.0 时代》中指出，随着 AIGC 的兴起，普通开发者面临被技术替代的焦虑，但同时存在转型与机遇。田杰通过分析最新行业动态、市场数据等，帮助开发者理清思路，鼓励开发者把握 AIGC 新机遇，通过持续学习和创新，成为 AIGC 的弄潮儿。

田杰鼓励开发者不应局限于传统编程语言的学习，更应关注如何结合 AI 技术提升个人竞争力，利用智能体为用户提供更高效、个性化的服务。他表示，“所有的 App 应用都值得用 AI 重新做一遍，这就是应用级开发者的机会”。尽管大型科技公司正积极布局大模型市场，但对于小型企业和个人开发者而言，专注于细分领域、创新业务模式和应用场景，利用好信息差和快速反应能力，如高考志愿填报助手等，通过快速响应市场需求和提供定制化解决方案，实现技术与市场的有效对接。

结语

随着 AI 技术飞速发展，AIGC 正从概念走向广泛的应用实践，为各行各业带来前所未有的创新变革。在本次「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」，五位技术大咖从多角度分享前沿、多元的 AIGC 亲身实践，为开发者带来诸多启发。在各位嘉宾的精彩分享下，本次活动圆满落幕。

未来，腾讯云 TVP 将继续携手更多专家大咖，为开发者朋友分享更多干货技术和前沿洞察、落地实践，献上一场场精彩有料、有趣、有用的技术盛宴。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业