汤道生：人工智能正式进入 Harness 时代

发布日期：2026-04-13 17:33:24 浏览次数： 1891

作者：腾讯研究院

微信搜一搜，关注“腾讯研究院”

2026年春天，AI行业出现了一个值得关注的变化：大家不再只聊模型了。

过去三年，整个行业最热衷的话题是模型参数。1750亿、万亿、十万亿，数字越来越大，叙事越来越激进。每一次参数跃升，都伴随着一轮关于“涌现能力”的讨论。模型学会了推理，学会了编程，学会了创作，好像离真正的智能只差一步。

然后，一只小龙虾搅动了整个行业。

OpenClaw没有发布任何新模型，没有刷新任何基准测试，甚至没有训练一个新参数。它只做了一件朴素的事，给大模型搭建了一套完整的工作环境：文件系统、代码沙箱、工具链、反馈循环、自动验收。同一个模型，在这套环境中，不再是一个只会对话的聊天机器人，而是一个能持续工作、自主解决问题的智能体。

变量只有一个：壳。而这层壳，现在有了一个正式的名字，Harness。

Harness，直译是马具，缰绳、辔头、马鞍、挽具的统称。一匹野马拥有惊人的力量，但没有缰绳，你骑不上去；没有挽具，它拉不了车；没有马鞍，你坐不稳。马的力量是原始的、澎湃的，而Harness，就是把这股力量转化为文明前进动力的那套系统。

AI落地不只是算法题，更是一道工程题

要理解Harness，我们需要一个更清晰的框架：

大模型是发动机，Harness是线束，使用者是驾驶员。

发动机能提供原始动力，但发动机本身不会开车。就像大模型，它能思考对话，但没有操作能力。它需要一套线束，将动力传导到车轮、将信号传导到仪表盘、将驾驶员的意图翻译成机械动作的系统，才能变成一辆可以上路的汽车。三者缺一不可，但三者的价值权重，正在经历剧烈的重新分配。

过去三年，全世界的注意力都在发动机上。OpenAI、Google、Anthropic、Meta，最聪明的头脑和最多的资本，都砸在一件事上：造更大、更强的发动机。这当然重要，没有发动机，一切无从谈起。

但一个行业共识正在形成：模型能力的提升曲线正在放缓。单纯增加参数和数据，已经越来越难带来显著的性能突破，边际效益在急剧递减。

就像一百年前的汽车工业。当所有厂商都在比拼发动机马力时，福特意识到一件不同的事：关键不在马力，而在于如何让马力为普通人所用。于是，他发明了流水线、标准化零件，发明了让汽车从贵族玩具变成大众工具的整套系统。本质上，那就是工业时代的Harness。

今天的AI行业，站在同样的拐点上。

发动机的差异化空间收窄，竞争焦点自然转向谁能更好地使用发动机。这就像当年CPU的军备竞赛，最终让位于操作系统和应用生态的竞争。芯片性能当然重要，但真正创造价值的，是上层建筑。

2026年，Anthropic发布了一组工程实验数据：同一个模型、同一句提示词，用简单方式跑20分钟花9美元，核心功能完全无效；而用完整的Harness跑6小时，花200美元，交付了一个真正可用的游戏，核心交互全部跑通。

模型没变，变的是驾驭它的线束。

模型之外的一切，包括代码、配置、执行逻辑、反馈循环、约束机制，都归入Harness的范畴。模型是能力的来源，Harness让能力变成可用的系统。

我们在腾讯内部也有类似的实践感受。在同样的模型能力下，不同的脚手架设计，比如给模型调用什么工具、如何做分层的上下文工程、如何管理长记忆、如何设计工作流，对实际使用效果与tokens成本，有很大的影响。

Harness走到台前

为什么Harness在2026年突然从幕后走到台前？

根本原因是AI使用范式的转变。

2025年是智能体元年。大模型的定位，从回答问题进化到执行任务。过去，你给模型一个问题，它给你一个回答，一次性交互，干干净净。但智能体不同，它需要持续工作，需要记住上下文，需要调用工具，需要判断下一步做什么，需要在犯错时自我修正。

正如APP之于移动互联网时代，智能体正在成为AI时代的主要应用载体。智能体让模型从“回答”变成了“工作”。而工作，天然就需要工作环境，工具、文件系统、反馈循环、验收标准。这套东西，就是Harness。

在这套工作环境里，Skills是最关键的模块之一。Skills是大模型能直接读懂的、基于文本描述的能力单元，告诉模型"这个工具是什么、能干什么、怎么调用"。它的价值，在于通用性。只要是基于自然语言描述的Skills，就能被不同的Harness框架调用。SkillHub，正是为这个时代搭建的Skills流通平台，让能力可沉淀、可复用、可跨框架共享。

在工程实践中，行业有四个关键发现，直接推动了关注点的转向。

第一个发现：模型能力的天花板，不在模型里面，而在模型外面。

最具说服力的实验来自Nate B Jones：同一个模型，只换Harness，编程成功率从42%跳到78%。LangChain的数据也印证了这一点：同一模型仅改变Harness，Terminal Bench 2.0成绩从52.8%升到66.5%，排名从三十名开外直接进入前五。

这颠覆了一个假设：要让AI更强，就得训练更好的模型。事实上，在当下这个节点，优化模型外面的“壳”，回报率可能比等待下一代模型更高。

第二个发现：约束不是对智能的压制，而是对智能的引导。

Cursor团队在大规模Agent实验中，发现一个反直觉的现象：当模型可以生成任何东西时，反而浪费大量token探索死胡同；但当Harness定义了清晰的边界，Agent反而更快收敛到正确答案。约束解空间，反而提高了Agent的生产力。

第三个发现：Harness让大模型更安全。

一个没有Harness的大模型，就像一个没有操作规程的实习生，能力不差，但你不知道他下一步会做什么。Harness通过权限边界、沙箱隔离、操作审计和人工审批节点，将模型的行动空间限定在可控范围内。多数Harness都明确规定：哪些系统可以访问、哪些操作需要二次确认、哪些数据绝对不能触碰。

这不是对AI能力的削弱，而是让AI真正进入企业生产环境的前提。AI要让人放心，只有用得放心，才能用得起，才能真正用得上。

第四个发现：AI无法可靠地评价自己。

Anthropic的工程师发现，当Agent评估自己刚完成的工作时，它会自信地表示“做得很好”，即便在人类看来质量明显不行。他们的描述是：“开箱即用的Claude是一个很差的QA Agent。”这意味着，仅靠模型自身无法形成有效的质量闭环，必须在模型外部建立独立的评估机制，这正是Harness的核心职责之一。

这些实践发现汇聚成了一股不可逆转的趋势。

回看AI工程的进化脉络：

2022到2025年，关键词是Prompt Engineering，如何写好一条指令；

2025年，进化到Context Engineering，如何动态构建整个上下文；

2026年，Harness Engineering来了，如何搭建整个工作环境。

打个比方：Prompt Engineering是给驾驶员一张地图，Context Engineering是给驾驶员一套导航系统，Harness Engineering是给驾驶员造一辆完整的车，带仪表盘、反馈系统、安全约束和自动巡航。

每一代进化对前一代不是否定，而是包含。地图和导航都很重要，但只有地图和导航，没有车，哪儿也去不了。

驾驶员的觉醒：

AI越强大，对人的要求越高

在发动机-线束-驾驶员的三角关系中，驾驶员是最容易被忽视的角色。过去三年的叙事主角是模型，2026年的新宠是Harness，但真正决定最终产出质量的，始终是坐在驾驶座上的人。

这里有一个深刻的命题：AI越强大，对人的要求不是降低了，而是提高了。

想想自动驾驶。表面上，自动驾驶是为了让人不用开车。但一个能够安全监督自动驾驶系统的人，需要比普通驾驶员更深刻地理解驾驶本身。他需要理解系统边界，知道什么时候该信任机器、什么时候该接管控制，需要在突发情况下做出比机器更好的判断。自动驾驶的驾驶员不是一个更轻松的角色，而是一个更高阶的角色。

AI也是如此。对AI的驾驭，需要同时理解人类工程实践和AI的思维方式，需要对系统行为的深刻洞察，需要将错误模式抽象为规则的能力，更需要在人类智慧和机器智能之间搭建桥梁的品味。

品味。这个词越来越被频繁提及。它不是审美偏好，而是一种更深层的东西：判断什么是好的、什么是对的、什么是值得做的能力。同样的发动机，同样的Harness，不同的驾驶员产出的东西可以有天壤之别。

对于大多数人来说，Harness时代是一个更乐观的未来。

回到汽车的隐喻。今天的汽车行业存在两个看似矛盾的趋势：一方面，F1赛车手这些顶尖驾驶者的技能价值从未如此之高；另一方面，自动驾驶正在让普通人的出行变得前所未有的安全和便利。这两个趋势不矛盾，它们是同一枚硬币的两面。

AI正在创造一个双层结构。在上层，顶尖的驾驶员，那些真正理解发动机、善于设计线束的人，将产出最优秀的作品。他们的竞争壁垒不是执行力，而是品味、判断力和创造性。在下层，大多数人不需要成为高阶驾驶者，也能享受AI带来的能力提升。

这就是AI Harness的普惠性。你不需要理解发动机的每一个零件，不需要亲手设计线束的每一根导线，就能享受AI带来的生产力工具。AI Harness正在将智能变成一种基础设施，让Intelligence as a Service（智能即服务）成为现实。

换一个更直观的说法：Harness就是那个"永不疲倦的数字员工"。它不请假，不忘事，7×24小时在岗。更重要的是，它的能力边界由你定义，它的行动范围由你把控，它的输出质量由你审核。一旦配置好，它可以在你睡觉的时候处理邮件、整理数据、生成报告、跑通流程。这不是科幻，是今天已经在发生的事情。

让每个人都能成为AI加持的“超级个体”，一个人就能扮演多个角色，一个人就能把事情办完。这正是我们一直坚持的方向。

当公众习惯了更高质量的内容产出，他们的审美阈值和期待值自然水涨船高。他们会更挑剔、更能分辨什么是真正的巧思，什么是平庸的套路。这反过来倒逼专业创作者去追求更风格化、更深刻的作品。这不是零和游戏，而是一个共同繁荣的生态。

当模型自己长出手脚

但这个双层结构未必是终局。我们必须看到一个正在发生的趋势。

随着模型能力的持续增强，上下文窗口越来越大，记忆能力不断提升，推理链条越来越长，模型正在自己长出手脚。今天需要外部搭建的工具调用、上下文管理、反馈循环、记忆系统，模型正在一项一项地内化。

外面的这套脚手架正在变薄。极端地说，当模型足够强大时，Harness可能被模型完全吸收。就像早期汽车需要复杂的外部操作机构来转化发动机动力，而现代电动车的发动机和传动系统已经高度一体化，线束越来越简单，因为发动机自己就“懂”了。

OpenClaw是第一只“爬上岸”的龙虾，也许明天还会出现螃蟹、海螺、皮皮虾——这些不同形态、不同侧重的Harness框架，会持续涌现和迭代。但这些都是表象，更重要的是：让大模型长出手脚、真正干活，已经是一个不可逆的趋势。框架可以换，范式不会回头。

当这一天到来，驾驶员的角色将从“操作者”升级为“委托人”，不再告诉AI怎么跑，而是告诉它要去哪里，然后它自己找路。

但即便模型吸收了所有的工具和流程，有一件事它永远无法自己生成：目的地。去哪里，为什么去，到了之后怎么判断值不值，这些关于方向、意义和价值的问题，永远是人的责任。模型越强，这个责任越重。因为当机器什么都能干的时候，“干什么”变成了唯一重要的问题。

这恰恰印证了一个朴素的道理：AI的价值不在于它有多强大，而在于我们能在多大程度上驾驭这种力量，让它服务于真实的场景、真实的人、真实的需求。

结语

数千年前，人类在欧亚草原上第一次给马匹套上缰绳。那一刻，人类文明获得了前所未有的机动性：农耕范围扩大了，贸易距离延伸了，思想传播加速了。改变世界的不是马的力量，而是人类发明的那套驾驭系统。

今天，我们站在一个相似的节点。大模型是这个时代的野马，力量惊人。Harness是我们发明的缰绳，它将这股原始力量转化为可控的、可预期的、可协作的能力。而驾驶员，你、我及每一个与AI共处的人，是决定这股力量驶向何方的主体。

人工智能正式进入Harness时代。真正稀缺的能力，不在模型里面，在模型外面。驯服一匹野马，需要的不是更长的鞭子，而是一副趁手的缰绳，和一个知道目的地的骑手。

在这个充满不确定的时代，我们需要继续锚定技术创新、开放协作、专注价值，让AI真正成为用得上、用得起、用得放心的普惠生产力工具。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业