2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

汤道生:人工智能正式进入 Harness 时代

发布日期:2026-04-13 17:33:24 浏览次数: 1891
作者:腾讯研究院

微信搜一搜,关注“腾讯研究院”

推荐语

AI行业正从模型竞赛转向Harness时代,如何驾驭AI的工程能力成为新焦点。

核心内容:
1. AI行业从模型参数竞赛到Harness系统的转变
2. Harness如何将大模型转化为实用工具
3. 工程能力在AI落地中的关键作用与未来趋势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


2026年春天,AI行业出现了一个值得关注的变化:大家不再只聊模型了。

过去三年,整个行业最热衷的话题是模型参数。1750亿、万亿、十万亿,数字越来越大,叙事越来越激进。每一次参数跃升,都伴随着一轮关于“涌现能力”的讨论。模型学会了推理,学会了编程,学会了创作,好像离真正的智能只差一步。
然后,一只小龙虾搅动了整个行业。
OpenClaw没有发布任何新模型,没有刷新任何基准测试,甚至没有训练一个新参数。它只做了一件朴素的事,给大模型搭建了一套完整的工作环境:文件系统、代码沙箱、工具链、反馈循环、自动验收。同一个模型,在这套环境中,不再是一个只会对话的聊天机器人,而是一个能持续工作、自主解决问题的智能体。
变量只有一个:壳。而这层壳,现在有了一个正式的名字,Harness。
Harness,直译是马具,缰绳、辔头、马鞍、挽具的统称。一匹野马拥有惊人的力量,但没有缰绳,你骑不上去;没有挽具,它拉不了车;没有马鞍,你坐不稳。马的力量是原始的、澎湃的,而Harness,就是把这股力量转化为文明前进动力的那套系统。



AI落地不只是算法题,更是一道工程题

要理解Harness,我们需要一个更清晰的框架:
大模型是发动机,Harness是线束,使用者是驾驶员。
发动机能提供原始动力,但发动机本身不会开车。就像大模型,它能思考对话,但没有操作能力。它需要一套线束,将动力传导到车轮、将信号传导到仪表盘、将驾驶员的意图翻译成机械动作的系统,才能变成一辆可以上路的汽车。三者缺一不可,但三者的价值权重,正在经历剧烈的重新分配。
过去三年,全世界的注意力都在发动机上。OpenAI、Google、Anthropic、Meta,最聪明的头脑和最多的资本,都砸在一件事上:造更大、更强的发动机。这当然重要,没有发动机,一切无从谈起。
但一个行业共识正在形成:模型能力的提升曲线正在放缓。单纯增加参数和数据,已经越来越难带来显著的性能突破,边际效益在急剧递减。
就像一百年前的汽车工业。当所有厂商都在比拼发动机马力时,福特意识到一件不同的事:关键不在马力,而在于如何让马力为普通人所用。于是,他发明了流水线、标准化零件,发明了让汽车从贵族玩具变成大众工具的整套系统。本质上,那就是工业时代的Harness。
今天的AI行业,站在同样的拐点上。
发动机的差异化空间收窄,竞争焦点自然转向谁能更好地使用发动机。这就像当年CPU的军备竞赛,最终让位于操作系统和应用生态的竞争。芯片性能当然重要,但真正创造价值的,是上层建筑。
2026年,Anthropic发布了一组工程实验数据:同一个模型、同一句提示词,用简单方式跑20分钟花9美元,核心功能完全无效;而用完整的Harness跑6小时,花200美元,交付了一个真正可用的游戏,核心交互全部跑通。
模型没变,变的是驾驭它的线束。
模型之外的一切,包括代码、配置、执行逻辑、反馈循环、约束机制,都归入Harness的范畴。模型是能力的来源,Harness让能力变成可用的系统。
我们在腾讯内部也有类似的实践感受。在同样的模型能力下,不同的脚手架设计,比如给模型调用什么工具、如何做分层的上下文工程、如何管理长记忆、如何设计工作流,对实际使用效果与tokens成本,有很大的影响。


Harness走到台前

为什么Harness在2026年突然从幕后走到台前?
根本原因是AI使用范式的转变。
2025年是智能体元年。大模型的定位,从回答问题进化到执行任务。过去,你给模型一个问题,它给你一个回答,一次性交互,干干净净。但智能体不同,它需要持续工作,需要记住上下文,需要调用工具,需要判断下一步做什么,需要在犯错时自我修正。
正如APP之于移动互联网时代,智能体正在成为AI时代的主要应用载体。智能体让模型从“回答”变成了“工作”。而工作,天然就需要工作环境,工具、文件系统、反馈循环、验收标准。这套东西,就是Harness。
在这套工作环境里,Skills是最关键的模块之一。Skills是大模型能直接读懂的、基于文本描述的能力单元,告诉模型"这个工具是什么、能干什么、怎么调用"。它的价值,在于通用性。只要是基于自然语言描述的Skills,就能被不同的Harness框架调用。SkillHub,正是为这个时代搭建的Skills流通平台,让能力可沉淀、可复用、可跨框架共享。
在工程实践中,行业有四个关键发现,直接推动了关注点的转向。
第一个发现:模型能力的天花板,不在模型里面,而在模型外面。
最具说服力的实验来自Nate B Jones:同一个模型,只换Harness,编程成功率从42%跳到78%。LangChain的数据也印证了这一点:同一模型仅改变Harness,Terminal Bench 2.0成绩从52.8%升到66.5%,排名从三十名开外直接进入前五。
这颠覆了一个假设:要让AI更强,就得训练更好的模型。事实上,在当下这个节点,优化模型外面的“壳”,回报率可能比等待下一代模型更高。
第二个发现:约束不是对智能的压制,而是对智能的引导。
Cursor团队在大规模Agent实验中,发现一个反直觉的现象:当模型可以生成任何东西时,反而浪费大量token探索死胡同;但当Harness定义了清晰的边界,Agent反而更快收敛到正确答案。约束解空间,反而提高了Agent的生产力。
第三个发现:Harness让大模型更安全。
一个没有Harness的大模型,就像一个没有操作规程的实习生,能力不差,但你不知道他下一步会做什么。Harness通过权限边界、沙箱隔离、操作审计和人工审批节点,将模型的行动空间限定在可控范围内。多数Harness都明确规定:哪些系统可以访问、哪些操作需要二次确认、哪些数据绝对不能触碰。
这不是对AI能力的削弱,而是让AI真正进入企业生产环境的前提。AI要让人放心,只有用得放心,才能用得起,才能真正用得上。
第四个发现:AI无法可靠地评价自己。
Anthropic的工程师发现,当Agent评估自己刚完成的工作时,它会自信地表示“做得很好”,即便在人类看来质量明显不行。他们的描述是:“开箱即用的Claude是一个很差的QA Agent。”这意味着,仅靠模型自身无法形成有效的质量闭环,必须在模型外部建立独立的评估机制,这正是Harness的核心职责之一。
这些实践发现汇聚成了一股不可逆转的趋势。
回看AI工程的进化脉络:
2022到2025年,关键词是Prompt Engineering,如何写好一条指令;
2025年,进化到Context Engineering,如何动态构建整个上下文;
2026年,Harness Engineering来了,如何搭建整个工作环境。
打个比方:Prompt Engineering是给驾驶员一张地图,Context Engineering是给驾驶员一套导航系统,Harness Engineering是给驾驶员造一辆完整的车,带仪表盘、反馈系统、安全约束和自动巡航。
每一代进化对前一代不是否定,而是包含。地图和导航都很重要,但只有地图和导航,没有车,哪儿也去不了。

驾驶员的觉醒:

AI越强大,对人的要求越高

在发动机-线束-驾驶员的三角关系中,驾驶员是最容易被忽视的角色。过去三年的叙事主角是模型,2026年的新宠是Harness,但真正决定最终产出质量的,始终是坐在驾驶座上的人。
这里有一个深刻的命题:AI越强大,对人的要求不是降低了,而是提高了。
想想自动驾驶。表面上,自动驾驶是为了让人不用开车。但一个能够安全监督自动驾驶系统的人,需要比普通驾驶员更深刻地理解驾驶本身。他需要理解系统边界,知道什么时候该信任机器、什么时候该接管控制,需要在突发情况下做出比机器更好的判断。自动驾驶的驾驶员不是一个更轻松的角色,而是一个更高阶的角色。
AI也是如此。对AI的驾驭,需要同时理解人类工程实践和AI的思维方式,需要对系统行为的深刻洞察,需要将错误模式抽象为规则的能力,更需要在人类智慧和机器智能之间搭建桥梁的品味。
品味。这个词越来越被频繁提及。它不是审美偏好,而是一种更深层的东西:判断什么是好的、什么是对的、什么是值得做的能力。同样的发动机,同样的Harness,不同的驾驶员产出的东西可以有天壤之别。
对于大多数人来说,Harness时代是一个更乐观的未来。
回到汽车的隐喻。今天的汽车行业存在两个看似矛盾的趋势:一方面,F1赛车手这些顶尖驾驶者的技能价值从未如此之高;另一方面,自动驾驶正在让普通人的出行变得前所未有的安全和便利。这两个趋势不矛盾,它们是同一枚硬币的两面。
AI正在创造一个双层结构。在上层,顶尖的驾驶员,那些真正理解发动机、善于设计线束的人,将产出最优秀的作品。他们的竞争壁垒不是执行力,而是品味、判断力和创造性。在下层,大多数人不需要成为高阶驾驶者,也能享受AI带来的能力提升。
这就是AI Harness的普惠性。你不需要理解发动机的每一个零件,不需要亲手设计线束的每一根导线,就能享受AI带来的生产力工具。AI Harness正在将智能变成一种基础设施,让Intelligence as a Service(智能即服务)成为现实。
换一个更直观的说法:Harness就是那个"永不疲倦的数字员工"。它不请假,不忘事,7×24小时在岗。更重要的是,它的能力边界由你定义,它的行动范围由你把控,它的输出质量由你审核。一旦配置好,它可以在你睡觉的时候处理邮件、整理数据、生成报告、跑通流程。这不是科幻,是今天已经在发生的事情。
让每个人都能成为AI加持的“超级个体”,一个人就能扮演多个角色,一个人就能把事情办完。这正是我们一直坚持的方向。
当公众习惯了更高质量的内容产出,他们的审美阈值和期待值自然水涨船高。他们会更挑剔、更能分辨什么是真正的巧思,什么是平庸的套路。这反过来倒逼专业创作者去追求更风格化、更深刻的作品。这不是零和游戏,而是一个共同繁荣的生态。



当模型自己长出手脚

但这个双层结构未必是终局。我们必须看到一个正在发生的趋势。
随着模型能力的持续增强,上下文窗口越来越大,记忆能力不断提升,推理链条越来越长,模型正在自己长出手脚。今天需要外部搭建的工具调用、上下文管理、反馈循环、记忆系统,模型正在一项一项地内化。
外面的这套脚手架正在变薄。极端地说,当模型足够强大时,Harness可能被模型完全吸收。就像早期汽车需要复杂的外部操作机构来转化发动机动力,而现代电动车的发动机和传动系统已经高度一体化,线束越来越简单,因为发动机自己就“懂”了。
OpenClaw是第一只“爬上岸”的龙虾,也许明天还会出现螃蟹、海螺、皮皮虾——这些不同形态、不同侧重的Harness框架,会持续涌现和迭代。但这些都是表象,更重要的是:让大模型长出手脚、真正干活,已经是一个不可逆的趋势。框架可以换,范式不会回头。
当这一天到来,驾驶员的角色将从“操作者”升级为“委托人”,不再告诉AI怎么跑,而是告诉它要去哪里,然后它自己找路。
但即便模型吸收了所有的工具和流程,有一件事它永远无法自己生成:目的地。去哪里,为什么去,到了之后怎么判断值不值,这些关于方向、意义和价值的问题,永远是人的责任。模型越强,这个责任越重。因为当机器什么都能干的时候,“干什么”变成了唯一重要的问题。
这恰恰印证了一个朴素的道理:AI的价值不在于它有多强大,而在于我们能在多大程度上驾驭这种力量,让它服务于真实的场景、真实的人、真实的需求。



结语

数千年前,人类在欧亚草原上第一次给马匹套上缰绳。那一刻,人类文明获得了前所未有的机动性:农耕范围扩大了,贸易距离延伸了,思想传播加速了。改变世界的不是马的力量,而是人类发明的那套驾驭系统。
今天,我们站在一个相似的节点。大模型是这个时代的野马,力量惊人。Harness是我们发明的缰绳,它将这股原始力量转化为可控的、可预期的、可协作的能力。而驾驶员,你、我及每一个与AI共处的人,是决定这股力量驶向何方的主体。
人工智能正式进入Harness时代。真正稀缺的能力,不在模型里面,在模型外面。驯服一匹野马,需要的不是更长的鞭子,而是一副趁手的缰绳,和一个知道目的地的骑手。
在这个充满不确定的时代,我们需要继续锚定技术创新、开放协作、专注价值,让AI真正成为用得上、用得起、用得放心的普惠生产力工具。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅