微信扫码
添加专属顾问
编者按:大模型的上下文理解能力直接影响到 LLMs 在复杂任务和长对话中的表现。本期内容聚焦于两种主流技术:长上下文(Large Context Windows)和检索增强生成(RAG)。这两种技术各有何优势?在实际应用中,我们又该如何权衡选择?
文章不仅详细阐述了这两种技术的工作原理,还深入分析了它们在效率、准确性和实施成本等方面的差异。文章特别提到了在执行重复性任务时使用 Context Caching 优化长上下文的优势,然而,缓存策略的效果很大程度上取决于提示词的可预测性。如果用户输入变化无常,缓存的效果可能会大打折扣。
本文可供各位读者进行技术选型时参考,期待未来看到更多提升 LLMs 上下文理解能力的创新方案。
作者 | Priyanka Vergadia
编译 | 岳扬
大语言模型(Large Language Models ,LLMs)技术正飞速发展,尤其是模型在生成文本时能够处理的上下文信息量极速提升。尽管 LLMs 在文本的处理和生成等方面表现出色,但它们却面临一个固有的挑战:难以捕捉信息背景全貌,尤其是在应对冗长对话或涉及多重细节的复杂任务时。为了解决这一问题,研究人员引入了长上下文(Large context windows)和检索增强生成(Retrieval-Augmented Generation ,RAG)两种技术。这两种技术各有千秋,选择哪种取决于具体的应用需求。下面,我们将探讨为何提升模型的上下文理解能力如此重要。
上下文(Context)的重要性:
让我们设想一下日常生活中的对话场景。要理解对方此刻的话语,我们需要回顾之前的对话内容。如若大语言模型(LLMs)缺乏必要的上下文理解能力,在这方面可能会“头疼”。本文认为上下文非常重要,有如下几点理由:
能够保持对话的连贯性:在日常对话交谈中,如果有人突然提到“那只狗?”,我们能立即明白他指的是之前讨论过的那只狗?,而不是凭空出现的一只新狗。长上下文(Large context windows)或检索增强生成(RAG)技术能够帮助 LLMs 在交互过程中保持这种语义连贯性。
理解复杂信息及其复杂关系:某些任务需要理解信息之间错综复杂的关系。比如,要准确总结一篇学术论文,就需要理解研究方法与实验结果之间的联系。长上下文或 RAG 使 LLMs 能够全面考虑所有相关内容,从而更深入地把握整体信息。
减少"幻觉"现象:LLMs 在缺乏足够的上下文信息时,可能会自行编造数据或内容来填补认知空白,导致输出错误荒谬或毫无意义的信息。这种现象在人工智能领域被称为"幻觉(Hallucinations)"。长上下文或 RAG 技术通过提供更多的背景信息,能够有效地将 LLMs 的生成内容锚定在现实基础之上,使其生成内容更符合实际情况。
长上下文让大语言模型(LLMs)在生成响应前能处理更多的文本信息。这说明 LLMs 可以一次性掌握大量的数据和信息,从而更好地把握全局,生成的模型响应也更能贴合对话主题。这对于那些需要深度理解对话历史或背景信息的任务尤其有用。不过,处理海量文本会带来较高的计算成本,同时也会影响处理速度。
在处理长上下文带来的计算负担时,采用缓存策略是一种有效的成本优化途径。缓存机制会保存已处理过的上下文信息,以便在遇到类似提示词时能迅速调用,这一举措能够大幅缩短模型响应时间,尤其在执行重复性工作时效果显著。
实例解析:设想一个专门用于总结学术论文的大语言模型。借助缓存功能,LLMs 能够存储之前分析过的论文段落(如引言、实验方法等)。当接收到一篇新论文,且其结构与以往处理过的论文类似时,模型便能直接调用缓存中的相关上下文,仅需集中精力分析创新部分的内容(如实验结果和结论)。
不过,启用缓存也会给系统引入额外的复杂度。决策者必须权衡哪些信息值得缓存以及缓存期多长时间。此外,缓存是否有效直接取决于提示词的可预测性(predictability)。若用户的提示词内容变化无常,缓存的效果可能会大打折扣。
RAG 技术能够显著提升大语言模型(如 GPT-3 等)的准确度与可靠性。其核心在于将 LLMs 与外部知识库(如维基百科或企业内部文档)连接,使得模型在生成响应前,能够先从这些知识库中检索并使用最相关的信息。相较于单纯依赖缓存长上下文的方法,RAG 的优势如下:
效率提升:RAG 只检索最相关的关键信息,因此速度更快,成本效益更高。
准确性增强:聚焦于最相关的信息有效降低了大模型出现幻觉的风险,确保了叙述的事实更为准确。
然而,RAG 技术的引入虽开辟了一条新路径,却也伴随着较高的前期工作成本。RAG 系统的搭建与运维,需依托于一套复杂的检索机制,该机制依赖向量搜索(vector search)及嵌入(embeddings)技术,以确保 LLM 能够高效获取最为契合的信息资源。
长上下文(Large context windows)赋予 LLMs 直接处理海量历史信息的能力,尤其适用于需要进行深度分析的复杂任务。然而,这种全面覆盖的方式计算成本较高,执行效率相对低下。RAG 则另辟蹊径,利用检索系统,从庞大的知识库中精挑细选出最相关的信息片段供给 LLM 使用。此举不仅能够提速增效,还可以大幅节省成本,并有效降低出错的风险。但需要注意的是,RAG 的高效运行需仰仗一套完善的数据检索体系,且初期部署较为繁琐。综上所述,这个问题的最优解应基于决策者对深度分析能力、系统运行效率的要求。
决策指南概览:
带缓存的长上下文:当面对需深度剖析的大数据集,并且提示词具有一定的可预测性,利于缓存机制发挥效能时,此选项值得考虑。
RAG:如若信奉效率至上,追求事实的准确性,或使用场景的提示词内容变化莫测,此时缓存机制的作用有限,则 RAG 可成为优选方案。
总体而言,理想的技术策略应紧密结合项目特性和可利用的资源数量。进行决策时,务必综合考虑使用成本、准确性、部署运维难度以及提示词内容的可预测性。希望本文能够帮助各位读者准确理解 RAG 技术与长上下文技术间的本质区别,敬请关注本博客,不要错过后续精彩内容哦~
Thanks for reading!
https://topmate.io/pvergadia
Head of North America Developer Advocacy @Google | Author | Technical Storyteller | Cloud Computing & AI | bio.link/pvergadia
END
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-07-01
Sonnet 5终于来了,然而Opus 4.8现在有点尴尬
2026-07-01
AI可观测性:Prompt、Tool Call、Trace、Token全链路追踪
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。