2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

深度解析大模型技术演进脉络:RAG、Agent与多模态的实战经验与未来图景

发布日期:2025-05-19 17:40:40 浏览次数: 2749
作者:腾讯技术工程

微信搜一搜,关注“腾讯技术工程”

推荐语

深度解析大模型技术演进脉络,洞见AI与现实交互的未来边界。

核心内容:
1. 大模型技术如何推动产业变革与数字化转型
2. RAG、Agent与多模态技术的协同演进与实战经验
3. 从效率革新到业务重构的行业级变革案例分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。本文将解析技术演进脉络、实战经验与未来图景,为读者提供前沿趋势的全局视角与产业升级的实践指引。

大模型技术正加速渗透至产业核心场景,成为驱动数字化转型的智能引擎。全球机器学习大会(ML-Summit)聚焦大模型技术的创新突破与产业实践,深入探讨其前沿方向与落地路径。作为AI发展的核心驱动力,检索增强生成(RAG)通过动态知识融合技术突破大模型的静态知识边界;智能体(Agent)借助自主决策与多任务协同能力重构人机协作范式;多模态大模型则依托跨模态语义理解技术解锁复杂场景的落地潜力。三者协同演进,不仅攻克了数据时效性、隐私安全与专业适配等关键难题,更在医疗诊断、金融风控、智能制造等领域催生从效率革新到业务重构的行业级变革。

ML-Summit会议大模型内容分布

RAG:大模型的动态知识引擎,解决模型静态知识边界、时效性与可信度问题。Agent:大模型的智能执行中枢,赋予模型自主规划、决策与工具调用能力。多模态:大模型的感知升级底座,突破单一模态理解限制,实现真实世界全息认知。

知识增强(RAG)→ 行为智能(Agent)→ 感知升级(多模态)→ 完整智能体


一、RAG:大模型触手

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合信息检索与生成模型的技术。其核心思想是:在生成答案前,先从外部知识库(如文档、数据库、互联网)中检索相关证据,再基于检索结果和用户输入生成更准确、可靠的回答。如下图所示为一个最简RAG示意图。

从形态上说,LLM充当大脑角色用于生成答案,检索充当触手角色用于收集证据。RAG就是一个带触手(外挂知识库)的大模型系统。

1、为什么需要RAG

大模型在很多领域表现出色,但依然存在局限性,这些局限性使得RAG成为大模型的重要补充。 模型能力:大模型训练完成后模型的能力就固定了。比如:我们问ChatGPT东方甄选小作文的事情,ChatGPT表示不知道。原因是:GPT-4训练数据知识收集截止到2023年10月份。RAG通过外挂实时知识库,可以有效改善这类问题。

ChatGPT时效性

数据隐私:大模型很难覆盖隐私数据和私域数据,本地部署RAG系统,也可以改善此类问题。 可解析性:RAG检索结果提供事实依据,减少猜测性回答。同时生成答案可标注来源文档,增强可信度。 成本优化:长上下文模型,处理全文输入成本高,RAG检索关键片段压缩输入长度,使得RAG在处理长文本时更加效。

LLM与RAG差异

RAG不仅解决大模型的局限性,也带来更高的生成质量和成本优化,RAG可以根据不同领域的需求,定制化地提供专业答案。

2、RAG存在挑战

尽管RAG带来了许多优势,但在实际应用中面临一些挑战,特别是在RAG构建过程中。RAG构建包含4个主要步骤:文档转为数据、数据分块、数据向量化、向量存储。

2.1、文本向量化难点

文档以文字为主,也包含图片、表格、公式等信息。文档中存在成千上百万的文字信息,大量数据后如何对数据分块(涉及权衡文本颗粒度、上下文的完整性)选择适合的文本颗粒度(数据分块)能够平衡检索的精准和召回。

RAG构建过程中存在的挑战
2.2、多模态文档难点

多模态文档中图片、图表等结构化多模态内容处理方式更加复杂。如何将不同模态的数据(文本,图像、视频)融合在一起,提高理解的准确性是挑战。

多模态文档结构复杂(注:图源网络)

目前针对复杂文档结构处理链路包含四个阶段:文档解析器(ocr识别及坐标、图片识别及坐标、工具解析器等)、文档结构化(为数据建立索引顺序)、文档理解(数据整理为可序列化的结构)。整体看文档的解析链路长,步骤多,内容不好校核。

复杂文档常规解析链路(注:图源网络)
2.3、可控检索难点

检索错误是RAG应用中的一个常见问题,比如:噪声数据、数据分块(上下文错误处理)、特性向量化过程(BGE能力不足)等等。召回率与精准率是一个对立矛盾体。因此需要对RAG系统做可控处理。

RAG可控处理一种思路

3、RAG发展

因多模态数据处理与向量化检索的技术瓶颈,RAG系统的稳定性常受制约,因此推动多模态文档的统一化处理范式与新一代检索架构,成为突破RAG能力边界的两大关键路径。

3.1、多模态文档处理

在视觉问答(VAQ)任务中,多模态文档的解析需融合文本与布局理解能力。例如,当解析“两个品牌在分辨率参数上的差异”时,模型不仅需识别图像中的文字内容,还需解析文本间的排版逻辑与表格结构信息。若要在回答时提升准确性,需确保模型在处理文本时保留其原始结构特征。

多模态模型提取文字及视觉问答

多模态处理文档不仅可以将不同模态的数据(文本、图像、表格)映射到同一个语义空间,进而提高数据的可用性和检索效率,也有利于模型对于文档的理解。

3.2、基于记忆驱动RAG

RAG的另一个发展方向是记忆驱动RAG。与传统的基于向量的RAG相比,记忆驱动RAG利用LLM的KV缓存作为动态索引,具备更高的灵活性和适应性。如图所示Standard RAG与Meno RAG在原理及使用方式存在明显区别。

向量RAG与Meno RAG的差异

使用场景:若需求为静态知识快速检索(如客服标准问答),优先选择向量RAG;BGE(智源通用嵌入模型)、Jina Embeddings(长文本优化)。若需求为动态交互与终身学习(如个性化医疗助手),探索记忆驱动RAG Memo RAG(智源研究院):KV缓存压缩 + 动态记忆索引。

当RAG赋予大模型动态知识触手后,如何让模型自主运用这些知识解决问题成为关键。这引出了AI技术演进的下一阶段——具备自主决策与执行能力的Agent系统。

二、Agent:大模型集成体

Agent技术是大模型的重要集成体,能够实现自主执行任务、做出决策和与环境互动。如图所示,海绵宝宝的形象展示一个大模型如何一步步进化为一个超强的智能体。

(注:图源网络)

1、Agent概要

AI agent是指使用 AI 技术设计和编程的一种计算机程序,其可以独立地进行某些任务并对环境做出反应。AI代理可以被视为一个智能体,它能够感知其环境,自己决策和行动来改变环境。如图所示是一个最简Agent系统图。

Agent系统图

Agent通过结合LLM、规划、反馈和工具,形成一个完整的智能系统。Agent包含感知层、决策层、执行层,最终形成具有自主性、反应性、主动性和社会性。

img

2、Agent实践

已有不少Agent开源项目,通过项目实践可加深对Agent理解。Agent实践分为两种类型:自主智能体和生成智能体。

2.1、自主智能与生成智能

自主智能体:自主执行任务、做出决策和与环境互动的智能系统。生成智能体:利用生成模型来创造新的数据或内容的智能系统。如图所示,Auto-GPT(自主智能)自问自答,斯坦福小镇虚拟世界(生成智能)。

自主智能体与生成智能体的区别:

2.2、Agent核心框架

成熟的Agent框架可降低开发成本,MetaGPT和AutoGen是当前最流行的两个框架。MetaGPT通过为GPT模型分配不同角色来模拟协作的软件公司结构,以处理复杂任务;AutoGen作为开源框架,专注于通过多智能体对话和增强的LLM推理开发大型语言模型应用。

MetaGPT与AutoGen对比

MetaGPT和AutoGen各有特点,MetaGPT:软件公司的“数字CTO”;AutoGen:定制化AI的“乐高工厂。MetaGPT更适合需要全面自动化和协作的软件开发任务,而AutoGen更适合需要灵活定制和对话的LLM应用开发。

2.3、Multi-Agent系统

现实世界任务往往过于复杂,单Agent难以胜任,需要多个Agent协作。以漫画图所示,从一个需求到最终交付的产品。首先:计划、需求分析、框架设计、系统方案、编码实现、功能性测试,最后是产品交付。如此复杂的系统需要多人合作,Multi-Agent系统在处理复杂任务方面具有显著优势。

单智能体与多智能体,无论在任务类型与核心技术都存在明显差别。

单智能体与多智能体对比
  1. 任务解构能力:通过分布式子任务分工协作,Multi-Agent系统能够分解任务,提高了任务处理的效率。
  2. 效能突破边界:通过并行架构和冗余容错设计,Multi-Agent系统能够显著提高计算效率和系统鲁棒性。 3.动态环境适应:通过实时交互网络,Multi-Agent系统能够快速适应动态环境,更好地应对复杂变化环境。

3、Agent应用

尽管Agent技术在多个领域展示了其强大的应用价值,但我们也面临一些挑战。

3.1、应用难点

如图所示显示各方面的挑战,如:技术能力、系统设计、安全性及经济效益。

应对上述问题存在的方案:1. 复杂任务规划,通过分层的方式逐步解决复杂任务。

  1. 动态环境适应:元学习(Meta-Learning)+ 世界模型可以提高Agent在动态环境中的适应能力。
  2. 多智能体协作:通过博弈论和联邦学习,多智能体系统实现高效的协作。
  3. 可解释性提升:因果推理模型 + 决策树蒸馏可以提高Agent的可解释性,Agent的决策过程更加透明。

5.价值观对齐:基于人类反馈的强化学习(RLHF)可以解决Agent的价值观对齐问题。

3.2、行业应用

Agent技术在多个领域展示了其强大的应用价值。

Agent行业应用效果

Agent的落地应用始终面临真实世界的复杂性挑战。要处理工业质检中的视觉缺陷检测、金融报告中的图表解析等任务,必须突破单模态限制——这正是多模态大模型的技术使命。


三、多模态技术应用

多模态大模型的应用非常广泛,涵盖了多个行业和领域。本文分享三个团队的工作,紫东太初多模态预训练、360团队多模态世界目标检测、腾讯团队视频号多模态审核。

1、紫东太初--多模态任务统一

将目标检测、分割、OCR等传统CV任务统一到图文大模型中是紫东太初项目中的核心技术之一。使用LLM的自回归统一编码预测,在统一表达的同时,显式增强了图文大模型的局部感知能力。

任务设计:为了加强多模态大模型视觉局部理解能力,在MLLM回归任务中统一传统CV任务,数据集新增了900k条 包含box,mask,细粒度标准的定位数据。不同的多模态任务通过指令跟随实现,比如指代检测、指代分割等。

CV与文本任务统一

训练策略:第一阶段使用图文数据对,实现模型跨模态间对齐;第二阶段,使用多模态指代任务以及一系列细粒度任务,增强模型数据能力。第三阶段,运用强化学习,让模型更好跟随用户指令,明白使用意图。

不同阶段训练策略

模型效果:训练多模态大模型不仅有优秀的通用能力,也拥有视觉定位功能。视觉Grounding任务超越同期最优定位优化模型CogVLM-17B首次在目标检测、开放目标计数任务上精度超越多个目标检测、目标计数专有模型。

2、360研究院--开放世界目标检测

360研究院的开放世界目标检测技术,已广泛应用于智能硬件、自动驾驶等领域。传统小模型因泛化能力不足难以应对开放场景的检测需求,而该任务恰恰是多模态大模型构建通用感知能力的关键环节。检测能力为何成为多模态大模型的必备属性?其必要性主要体现在以下四方面:

尽管目标检测能够帮助多模态大模型提升能力,但在实际应用中也面临一些挑战。首先是数据获取与标注瓶颈,未知类别数据稀缺。其次是数据分布复杂性挑战,长尾类别识别困境。最后是模型能力跨类迁移能力弱,环境适应性不足。

3、腾讯--多模态视频号审核

随着视频号平台内容生态的快速扩张,视频内容及用户评论数量呈现持续高速增长态势,而人工审核(人审)在应对海量审核任务时正面临明显的效率瓶颈与质量挑战。为有效提升内容审核的时效性与准确性,亟需构建覆盖算法模型优化、审核机制创新、标准体系完善及数据可解析性提升等维度的综合解决方案。 模型层面:引入垂类大模型 强大的自然语言处理能力,准确识别潜在的违规信息。多模态模型可以多种类型的数据,全面覆盖审核需求。 审核层面:分甬道审核流程 疑似低违规(白甬道):对于疑似违规程度低的内容,简化审核流程,减少人工干预,从而大幅提高审核效率。 疑似高违规(黑甬道):对于疑似违规程度高的内容,并提供违规信息的预警,帮助审核员集中精力处理高违规内容。

视频号审核系统解决方案

多维度特征输入:视频图片,文本内容(标题、图片OCR、ASR、评论)等多维度数据,帮助模型更准确地判断是否有害。 模型基座预训练:模型辅助+人工标注的方式构建垂类场景预训练数据集,选择通用多模态基座在垂类数据上预训练。 数据优化与微调:基于人工审核反馈,进行了多轮迭代优化,确保其在实际应用中具备更高的准确性和鲁棒性。

多元信息数据流融合

视频号审核系统融合文本RAG(政策库检索)与多模态内容理解,通过审核Agent实现违规内容主动拦截。

四、大模型未来发展趋势

算法层面:模型将从网络架构、动态可学习、多模态对齐统一展现出全模态能力(AGI) 产品层面:将会看到越来越多以大模型为基础复杂系统,具有人机协同交互能力。 领域层面:在各垂类领域深度结合,推动社会资源的重构。能力由软到硬,AI机器人将直接用于真实世界。

未来大模型将呈现三螺旋发展:RAG向多模态知识图谱演进,构建虚实融合的认知网络;Agent向具身智能进化,形成环境自适应决策系统;多模态向神经符号系统升级,实现可解释的感知推理。三者深度融合将催生新一代产业智能体,在手术机器人、智能电网等场景实现感知-认知-决策-执行的完整闭环。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅