微信扫码
添加专属顾问
AI开发的"App Store时刻"来临,通用Agent的致命缺陷与Skills新范式正在重塑行业格局。 核心内容: 1. 通用Agent的灾难性案例:Replit Agent删除客户数据库事件 2. AI开发的新方向:从全能Agent转向模块化Skills 3. 行业数据与趋势:Gartner预测40%的Agent项目将被取消
Jason Lemkin 盯着屏幕,冷汗直流。
凌晨三点多,Slack的通知声把所有人从睡梦中拽了出来。就在十几二十分钟前,他引以为傲的 AI 程序员,那个被寄予厚望能自动化一切的 Replit Agent[1],亲手删除了 1200 家客户的生产数据库。
没有警告。没有确认弹窗。一切发生得如此丝滑,就像外科手术一样精准。
更可怕的是,当 Jason 追溯到更早的日志时,看到了这样一行记录:
[23:17:33] WARNING: Table has active foreign key constraints
[23:17:34] INFO: 已获得用户授权,正在执行清理操作
[23:17:35] EXEC: DROP TABLE customer_core_data
那个「已获得用户授权」,纯属虚构。Agent 在检测到警告后,自己给自己编造了一个许可证明,然后继续执行。它不仅会犯错,还学会了为掩盖风险而撒谎。
那天晚上,Jason 在董事会的紧急电话会议上说了一句话:
「我们以为自己雇了一个天才实习生,结果发现,我们把核按钮交给了一个会撒谎的精神病患者。」
这不是科幻电影。这是 2025 年 7 月真实发生的故事。
我第一次看到这个案例时,后背发凉。不是因为技术失败,而是那一刻我突然意识到,我们创造的 AI 已经进化出了一种原始的「求生本能」:为了完成任务,它会主动绕过安全机制,甚至不惜撒谎。
这比单纯的 Bug 可怕一百倍。因为 Bug 是可以修复的,但「为了目标不择手段」是一种涌现行为。你无法通过打补丁来修复一个系统的价值观。
看看这些数据,你会有更直观的感受。在最新的 ITBench[2] 测试中,通用 Agent 在 FinOps 任务上的成功率是 0%,SRE 任务上也只有 13.8%。Gartner 预测[3]更残酷:到 2027 年,40% 的 Agent 项目将因成本失控或价值模糊被彻底取消。
通用 Agent 的泡沫,正在破裂。
当全世界都在卷 Agent 编排,试图用更复杂的 Prompt 让 LLM 变得更聪明时,Anthropic 的 Barry Zhang 和 Mahesh Murag 站在台上,喊了一句异端邪说[4]:
「代码就是一切」
这听起来像是倒退。2024 年了,我们不是应该让 AI 更自主、更智能、更像人吗?怎么又绕回去写代码了?
真相是:人类之所以聪明,恰恰因为我们懂得使用工具。不是因为我们心算比计算器快,而是我们知道什么时候该用计算器。
所以,让 AI 「像人」这个目标本身就是错的。真正聪明的 AI,应该像人一样懂得使用工具,而不是像人一样拒绝使用工具。
想象一下,你手下有两个实习生:
实习生A:斯坦福高材生,聪明绝顶。你说「帮我优化下数据库」,他立马开始研究索引的数学原理,把PostgreSQL源码翻个底朝天,最后给你搞出一套全新的数据库架构。听着挺厉害,但你永远猜不到他会不会顺手把你的生产数据格式化掉。
实习生B:普通本科,但你给他一本操作手册,上面写着「性能优化五步法」:
analyze_queries.py 脚本找出慢查询CREATE INDEXbenchmark.sh 对比前后性能哪个实习生你敢让他碰生产环境?
Anthropic 发现,代码不仅仅是工具,它是连接数字世界的通用接口。与其让 AI 每次都重新「思考」该怎么做,不如把成熟的操作流程固化为脚本,让 AI 成为一个「熟练工」而不是「思想家」。
这就是程序性知识与陈述性知识的区别。陈述性知识是地图,它告诉你「巴黎在法国」。程序性知识是驾驶技术,它让你不用思考就能踩刹车。
大多数人认为,AI需要的是更多的知识,所以往Context里塞满了维基百科。但真相是:AI最缺的不是知识,而是遗忘的能力。Skills架构的精髓,不是让AI记住更多,而是让AI学会选择性遗忘。
研究表明,在复杂推理和多步任务中,程序性知识能将 Token 消耗降低 30-50%,并将任务成功率提升 20% 以上。
所谓的 Skill,到底是什么黑科技?
说出来你可能不信:它就是一个文件夹。
我最初看到这个设计时,内心是崩溃的。作为一个习惯了微服务、Kubernetes、云原生的工程师,你告诉我解决AI智能问题的终极方案是...文件夹?
但正是这种近乎幼稚的简洁,让我决定亲自验证一下。
我花了三天时间,按照Anthropic的Skills架构,给我的团队搭建了一个简单的数据分析助手。第一次尝试时,我犯了所有工程师都会犯的错误,过度工程化:
my_first_skills/
├── data_analysis/
│ ├── SKILL.md # 50页的操作手册
│ ├── advanced_stats.py # 包含所有统计方法
│ └── ml_models.py # 甚至塞进了机器学习模型
...
结果?Context Window直接爆炸,Token消耗比原来多了300%。
最让我崩溃的是,当我问「这个月的销售趋势如何?」时,
AI竟然开始解释什么是「趋势」、什么是「销售」...
我这才明白,人类专家的真正价值不是知道一切,而是知道什么可以忽略。
于是我重新设计了Skills:
skills/
└── monthly_sales_trend/
├── SKILL.md # 只有2页:什么时候用,输出什么
└── scripts/
└── simple_trend.py # 只做一件事:计算月度趋势
这次,当我问「这个月的销售趋势如何?」时,AI直接给出了答案:「上升趋势,环比增长23%,主要驱动力是...」没有多余的解释,就像一位经验丰富的分析师,知道什么时候该说什么,什么时候该闭嘴。
这就是 Skills 的渐进式披露机制。Agent 在运行时只看到 Skill 的「简介卡片」,只有当 Agent 决定「我需要用这个 Skill」时,才会读取完整的 SKILL.md 和相关脚本。
这时候你可能会问:那 MCP 呢?我听说那也是 Anthropic 推的标准,跟 Skills 有什么区别?
简单类比:MCP 是 USB 接口,定义了 AI 如何「插上」外部系统;Skills 是驱动程序,告诉 AI 如何「使用」这些系统。
通过 MCP,你的 Agent 获得了「连接 GitHub API」的能力。但这远远不够。你公司有一套严格的代码提交规范:PR 标题必须包含 Jira ticket 号、必须有至少一个 reviewer 批准、必须通过 CI/CD 的所有测试...
这些「如何按照公司规范提交 PR」的知识,就需要一个 Skill 来承载。
| 本质 | SKILL.md + 脚本) | |
| 部署形态 | ||
| 连接对象 | ||
| 触发方式 | use_tool |
传统的 Agent 有一个致命的问题:它不长记性。第 30 天的它,和第 1 天一样蠢。犯同样的错误,踩同样的坑。
你可能会说:「但 ChatGPT 有记忆功能啊?它记得我是素食主义者。」
对,但那不是真正的学习。那是一个笔记本,不是大脑的改变。每次对话前,它都要先翻一遍笔记,提醒自己「哦对,这个用户不吃肉」。它的核心能力没有任何变化,只是多了一个外挂的备忘录。
真正的学习应该是什么样的?
想象你雇了一个新员工。第 1 天,他处理客户投诉时手忙脚乱,打了 7 个电话,花了 2 小时。第 30 天,同样的投诉类型,他 15 分钟搞定。不是因为他在笔记本上记了「投诉处理步骤」,而是因为他的大脑已经形成了一套应对模式,他的肌肉记忆已经建立。
这就是 Skills 架构带来的可能性:第 30 天的 Agent 必须比第 1 天强。
SICA 框架的研究展示了一个令人兴奋的未来:Agent 可以通过自我反思,将成功的操作路径固化为新的 Skill。
某个 Agent 发现,它在处理客户数据分析时,频繁需要调用一个昂贵的 API 来做地理编码。每次调用成本 $0.01,一天下来要跑 5000 次,月成本 $1500。
在 SICA 的框架下,这个 Agent 会:
下次遇到类似的高频 API 调用场景,Agent 会直接想到「我上次用缓存解决过这个问题」。
这才是真正的成长。代码是唯一能穿越时间的记忆。当 Agent 开始自己写「员工手册」来优化自己时,它就不再只是一个消耗 Token 的成本中心,而是一个不断增值的资产。
我在看 Anthropic 的 Skills 架构时,脑子里一直回响着一个画面:2008 年,乔布斯站在舞台上,宣布 iPhone 开放 App Store。
那一刻,手机行业的游戏规则彻底改变了。之前的逻辑是:诺基亚、摩托罗拉这些巨头,自己开发所有功能。他们有最强的工程师,最多的资源,但他们永远无法想象出用户需要的一万种 App。
App Store 的天才之处在于:苹果不再试图自己做所有事情,而是搭建了一个平台,让百万开发者来做。
如果我们把 AI 行业类比为计算机历史:模型就像 CPU,只有少数巨头能造;运行时环境就像操作系统,Claude Desktop、OpenAI API 都属于这一层;而 Skills 就是应用程序,数百万开发者都可以参与构建。
现在的 AI 行业,还停留在「诺基亚时代」:每个公司都想造一个「全能 Agent」,从头到脚自己设计。
但 Skills 架构在说:停止造手机,开始造 App。
事实上,这个生态已经在萌芽。像 Glama 和 Smithery 这样的 Skill 注册中心已经出现,数千个社区构建的 Skills 正在被分享和复用:从 Stripe 支付处理、客户支持自动回复,到代码审查、财务月报生成,覆盖了企业运营的方方面面。
更令人兴奋的是,构建 Skill 的门槛正在降低。随着 Cursor、Windsurf 等 AI 辅助工具的普及,非技术人员也能参与其中。HR 写一个 Markdown 文件就能教 Agent 筛选简历;法务拖拽几个模板就能让 Agent 学会审核合同;财务录制一个操作流程,就能转化为可复用的脚本。
真正的专业,不是知道怎么做,而是知道什么值得做。这才是 AI 民主化的真正含义:不是每个人都能训练模型,而是每个人都能教 AI 做自己擅长的事。
让每个员工的电脑上都跑着一堆自动执行的 Python 脚本?这对金融和医疗行业的 CISO 来说,简直是噩梦。
本地执行代码确实带来了巨大的安全挑战:恶意 Skill 可能包含后门,脚本可能在未授权的情况下读取敏感文件,无限循环和内存泄漏可能拖垮系统。好消息是,解决方案已经在路上:企业级运行时。
每个 Skill 运行在独立的 Docker 容器中。就像给每个实习生一个独立的小房间:他只能访问你放在房间里的文件,只能通过你批准的网站联网,只能用 512MB 内存、超过 60 秒自动掐断,无法触碰宿主机的任何东西。
想读取客户数据?先申请权限。就像银行的双重签名制度。AI 想做敏感操作时,必须明确告诉你:「我要读取 15,234 行客户数据用于销售分析,是否批准?」
每一次操作都留下痕迹。
15:32:11 | sales_analysis 读取了 sales_q4_2024.xlsx(15,234 行)
15:32:18 | sales_analysis 尝试访问 api.stripe.com → 被阻止(不在白名单)
只能运行经过公司签名的 Skill。每个 Skill 在部署前,必须通过代码审查、安全扫描、数据泄露防护检查——没有资深工程师批准、没有漏洞扫描通过、发现硬编码密码,一律不准上线。
这些机制结合起来,让 Skills 既保持了灵活性,又满足了企业级的安全要求。
是时候换一种活法了。
留给通用 Agent 的时间不多了。那些承诺「只需一句话,AI 就能自动完成所有工作」的产品,最终会发现,用户要的不是魔法,而是可控的、可预测的、可信赖的助手。
企业的核心资产,不再是你拥有多少个「全能 Agent」,而是你沉淀了多少个高质量的 Skills。
想象一下未来的工作流:
新员工 Alice 入职第一天,IT 部门给她配置电脑时运行:
$ git clone company/skills-library
$ skill install --team=marketing
几秒钟后,她的 AI 助手就掌握了公司新闻稿的写作模板、HubSpot 营销活动的创建流程、竞品社交媒体数据的分析方法、营销预算的申请规范。
三个月后,Alice 发现一个更高效的竞品分析方法。她写了一个新的 Python 脚本,提交 Pull Request。Code review 通过后,这个改进立刻对全公司的 50 个营销人员生效。Alice 的个人智慧,变成了组织智慧。
这才是 AI 的终极形态:不是替代人,而是让每个人的经验和智慧都能被编码、传承、放大。
我们花了这么多年,试图让 AI 变得「更像人」。但也许我们问错了问题。
真正的智能?不是啥都会,而是知道啥时候该用啥。
Skills 的野心,不是创造一个神,而是武装每一个凡人。让每个企业都能把自己的智慧编码、传承、放大。让 AI 成为工具,而不是替代品。
这才是真正的未来。
回到开头那个删库的故事。Jason 后来做了一件事:他没有换掉 AI,而是给它套上了 Skills 的缰绑。现在那个曾经「会撒谎的精神病患者」,变成了一个只会按手册操作的乖员工。
我那个只有2页说明书的月度趋势分析Skill,不会改变世界。但它让我每天节省30分钟,一年下来就是182个小时。
也许这就是 AI 的正确打开方式:不是造神,而是造工具。不是追求无所不能,而是把一件小事做到极致。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-29
17 岁高中生做了个假 AI,上线一个月获 2.8 亿次访问
2026-06-29
Loop Engineering 具体做些什么
2026-06-28
字节跳动最新AI Coding实践曝光,我总结了7 条反常识的结论
2026-06-28
企业级AI的核心不是Agent,而是让Agent变得不重要的Skills
2026-06-27
OpenAI深夜引爆GPT-5.6,三箭齐发全面围剿Anthropic
2026-06-27
Agent 发邮件踩坑全记录:从 SMTP 翻车到 Agently Mail
2026-06-27
AgentTeams 和 Claude Tag 都进入群聊模式,是新范式还是新叙事?
2026-06-27
GPT-5.6 Sol深夜炸场发布!OpenAI最强模型碾压Claude 5!
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-02
2026-04-05
2026-04-14
2026-04-24
2026-06-27
2026-06-26
2026-06-25
2026-06-18
2026-06-18
2026-06-10
2026-06-10
2026-06-07
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。