微信扫码
添加专属顾问
上下文工程2.0时代来临,揭秘人机交互背后的熵减艺术与科学。 核心内容: 1. 上下文工程的定义与本质:从高熵到低熵的转化过程 2. 发展历程:从1.0时代的翻译功能到2.0时代的指令系统 3. 未来展望:上下文工程在AI理解人类情境中的关键作用
2025年6月,Shopify CEO Tobi Lütke 和 AI 大神 Andrej Karpathy 在 X 上提出了一个新概念——上下文工程。Karpathy 将其定义为"一门微妙的艺术与科学,旨在填入恰到好处的信息,为下一步推理做准备。"
然而,这个新概念与提示词工程有什么不同?为什么它会和 RAG、MCP 等技术扯上关系?过往的回答大多从技术角度出发,试图拆解上下文都包括什么,如何让它能够发挥最好的效果。
10月30日,上海交通大学和 GAIR 实验室发表了论文《上下文工程 2.0:上下文工程的上下文》,用一种更全面的视角定义了这个新兴学科。它不再把人机交互视为技巧,而是回归到了交流动力学的基础逻辑。
本文将以这篇论文为基础,系统性地回答三个核心问题:上下文工程到底是什么?它的基础构件是什么?未来会如何发展?
要理解上下文工程,必须先回答:为什么人与机器的交流如此困难?
论文认为,这是因为人类与机器之间,存在一道认知鸿沟。
人类的交流是高熵的,他们的表达无序、混乱、充满隐含信息。当我对同事说"帮我搞定那个报告",他需要记忆中的"那个报告"指什么、从我的语气判断紧急程度、理解"辛苦"背后的社交暗示。这些都是海量的、模糊的、非结构化的上下文。
而机器是低熵生物,它无法接受足够多的上下文,只能理解明确的、毫不含糊的指令。
为了弥合这道鸿沟,人类必须将"高熵"意图转化为机器可理解的"低熵"指令。其手段,就是建立更丰富有效的上下文。正如马克思所说,人的本质是社会关系的总和。想要让AI更理解我们,就得让它理解人身处的一切情景。
这就是上下文工程的本质,通过更好的上下文,达成系统性的熵减过程。
在这个系统中,最重要的是实体,即人、应用、环境。上下文,就是描述实体状态的所有信息 。
上下文工程则是设计和优化上下文的收集、管理、使用, 以提升机器理解和任务表现的努力。
从这个意义上讲,上下文工程根本不是新概念。在AI之前,它已经发展了20多年,而现在,我们已经在上下文工程 2.0 时代了。
从计算机出现后,我们就开始探索人机理解的逻辑。操作系统的UI就是最古老、最成功的上下文工程实践。
在那个时代,上下文工程的核心是翻译,即把人的自然语言意图,翻译成机器可理解的语言。工程师通过设计图形界面(GUI),用鼠标操作和结构化界面将高熵意图"工程化"为低熵交互流程。编程语言也是如此,它把自然语言框架化成规范指令。
但这个过程其实很违反人类的自然表达天性。比如学编程,你不光要学语言,还要学习一种规范化的思维。
2020年,随着 GPT-3 发布,我们迎来了一个全新时代。用户可以直接用自然语言和机器对话。
翻译的中间层消失了,设计师和程序员的熵减工作也随之消失。
但普通用户发现,虽然和 AI 说话不需要翻译了,它依然理解不了话语背后的信息。
熵减的需求并没有消失,只是转移到了用户身上。他们必须学会精确表达意图、构建有效 prompt、调试输出。
这就是提示词工程爆发的原因,人们在试图重新发明一种结构化的自然语言来减少沟通中的障碍。
但除了规范自己的表达,我们也可以从模型本身下手,给它提供更好的脚手架和系统,让它更好地理解我们的意图。
这就是上下文工程诞生的背景。
既然上下文工程是为了解决目前人与AI沟通的Gap,那它做不到和我们人类一样可以高熵交流的核心原因都有什么呢?
论文通过与人类沟通做对比,总结了八大AI的缺陷,我们可以把它归结成四种。正是因为这些缺陷存在,它理解不了我们的高熵交流,造成了Gap。
首先,AI的感官是残缺的。人类沟通时会接收大量文字外信息,而 AI 只能获得用户明确的输入。它看不见我们所处的环境,上下文收集存在先天缺陷。
第二是AI的理解能力有限。与人类相比,AI理解和整合上下文的能力很有限。就算它感官不残缺,即使把所有信息都喂给 AI,它也不一定理解其中关系。当前模型难以处理复杂逻辑和图像中的关系信息。
第三个最要命,就是记忆的缺失。Transformer 架构存在长上下文性能瓶颈,导致模型既没有长期记忆系统,也难以捕捉长距离依赖关系。AI记不住过去的对话,就不可能像人一样建立背景共识。正是这些"我们都知道的过去",让人类说话如此省力。而当前试图去存储记忆的方法,如RAG等,仍然效率较低。
第四是相对于人来讲,AI的注意力是涣散的。这被论文称为“上下文选择困难”。就算我们解决了上一个问题,给 AI 外挂了长期记忆,比如RAG,理论上讲就是可以存储所有内容。但面对海量信息时,AI 并不知道该看哪里。
针对这些缺点,过去提示词工程通过添加"前情提要"修补记忆缺失,通过手动精炼信息、规范化表达减少理解和注意力负担。它就是上一代针对模型缺陷的全面补丁。
但这个过程太耗费力气了。
因此一个好的上下文工程,就是尽可能搭建脚手架,让模型借助脚手架,解决当下能力不足的问题。让AI真的可以成为人的数字存在(Digital Presence),人们可通过上下文"数字永生",让你的对话、决策、交互轨迹可以持续演化。
但这个过程太耗费人力。一个好的上下文工程,应该搭建脚手架,让模型借助系统解决当前能力不足的问题。
为了解决模型当前问题,论文提出了一个包含收集、管理、使用三个阶段的完整上下文工程体系。这张技术地图详细说明了我们为弥补 LLM 缺陷而必须搭建的庞大脚手架系统。
这一构件主要修复 AI 的"感官残缺"与"记忆缺失"。
上下文收集方面,我们必须超越简单的文本输入,转向多模态、分布式的收集。
多模态融合,就是将文本、图像、音频通过各自编码器映射到共享向量空间,让模型真正理解多模态意涵。
而分布式收集,则通过智能手机、可穿戴设备、IoT 传感器,甚至脑机接口,主动捕捉用户无法用文字清楚表达的环境上下文和高熵信息。
存储系统则是给记忆搭建脚手架。为了解决 Transformer 带来的记忆缺失,我们需要构建分层内存架构,让模型形成类人的记忆结构。
它类似操作系统的内存管理:短期记忆是 AI 的内存,即有限的上下文窗口;长期记忆是 AI 的硬盘,用于持久化存储高重要性上下文的外部数据库。
两层之间,需要建立类似睡眠的记忆转移机制。系统处理过往内容,将重要的短期记忆转存为长期记忆。
这主要解决 AI 理解能力有限,难以处理复杂逻辑和关系信息的问题。
核心是上下文抽象,论文称之为"自我烘焙"(Self-Baking)。既然 AI 看不懂原始的、高熵的上下文,这个脚手架就充当预处理器,主动将上下文消化并烘焙成 AI 能理解的低熵结构。
这并非简单摘要,而是区分记忆存储和学习的关键。没有它,智能体只是在回忆;有了它,智能体才是在积累知识。
目前流行实现方法从简单到高级分为三种:
自然语言摘要:让 AI 自己摘要重要信息,但它是纯文本,缺少结构,难以深度推理。
模式化提取:从原始上下文提取关键事实(人、地点、事件),按固定模式存入知识图谱。AI 不再需要理解复杂关系,只需查询已准备好的结构化关系图。
在线蒸馏:如 Thinking Machine 提出的方法,将上下文渐进式压缩为向量,转化成模型自己的知识。
这个构件主要解决 AI 注意力涣散问题,规范收集和管理后的上下文如何进行协作和推理。
论文提出的解决方法也很直接,即构建高效的上下文选择机制,先过滤注意力。
当前,模型在 RAG 中搜索记忆时过于依赖语义相关性(向量搜索),会搜出大量信息,导致上下文过载,理解能力大幅下降。
因此,我们需要一个更高效的搜索机制。它需要满足以下几个特质:
理解逻辑依赖。让AI使用RAG搜索时用逻辑关系,而不是简单地问“什么信息在语义上最像?”
平衡新近度与频率。优先关注“最近使用过”或“经常使用”的信息
最终,模型能够达到主动需求推断的水平。系统不再被动地等待你提问,而是基于上下文,对你隐藏目标做分析,主动推断你下一步可能需要什么信息,并提前为你准备好。
至此,这个上下文工程框架通过收集、管理、使用上下文,弥补了 AI 在"感官"、"理解"、"记忆"和"注意力"上的四大缺陷,形成了一整套关于上下文的闭环工作流程。
在这个流程下,我们可以把提示词工程的重担转移回模型自身,让它通过系统尽可能好地理解我们。
论文的"蓝图"并未止步于此。随着基础模型认知能力不断提升,我们将迎来熵减努力主体的第二次、乃至第三次转移。
上下文工程 3.0 时代,将在当机器智能达到人类水平,能处理情绪、暗示等复杂上下文模态时到来。
这时理解瓶颈将被打破,记忆处理将成熟,AI 将主动理解我们的"场景"并与我们协作。但在这个时代,长期记忆问题仍未解决,模型主动性依然有限。
上下文工程 4.0 时代,则将在机器智能达到"超人智能"时到来。此时,人机交流的熵被彻底消除。你什么都不用说,它都能预测你想干什么并执行安排。
在这个时代,上下文工程消失了。
或者用更好的方法讲,它所搭建的脚手架最终融入了核心架构。
这在技术发展的历史中,几乎是常态。最典型的案例就是注意力机制本身。这个机制最初是作为编码器-解码器 RNN 的"外挂补丁"出现的,用来解决序列翻译中的瓶颈问题。但到了 2017 年,Transformer 架构彻底将注意力机制内化为核心,只是移除了RNN部分以实现并行处理。曾经的脚手架,变成了今天所有大语言模型的基础架构。
同样的故事,在上下文工程领域其实也在进行中。
2025年3月,Sam Altman 宣布将在所有OpenAI产品中添加 MCP 支持,包括 ChatGPT 桌面应用。这标志着工具使用这个能力,不再是简单的"外挂",而是正在成为 Agent 架构的固定组成部分。
从注意力机制到 MCP,我们看到了同一个模式:当某种脚手架被证明足够有效且通用时,它就会从外部工具演变为标准协议,最终融入模型或 Agent 的核心架构。
因此,即使我们知道上下文工程有一天会消失,但当下,它依然是通往 AGI 路上的必经之路。
不是因为它能让模型"更聪明",那是算法和算力的任务。而是因为它能让模型"更好用。
正如 Transformer 不需要等到模型完全理解语言才出现,MCP 也不需要等到模型拥有完美记忆才部署。它们的存在,让我们可以用今天的模型,实现明天才能达到的应用体验。
这些脚手架,最终会以某种形式,也许是协议、也许是架构、也许是全新的神经网络层,融入未来的模型。它们不会消失,只会invisible。
上下文工程的终极形态,就是让自己成为不需要被谈论的基础设施。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-07-01
Sonnet 5终于来了,然而Opus 4.8现在有点尴尬
2026-07-01
AI可观测性:Prompt、Tool Call、Trace、Token全链路追踪
2026-07-01
AI Infra 全景图:Agent Framework、调度、编排、沙箱、记忆管理、Tracing 分层拆解
2026-07-01
Claude Science发布:60+科学数据库一个对话搞定
2026-07-01
AI 的向量空间里藏着心理学,这是一场嵌入模型的情绪对决
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。