微信扫码
添加专属顾问
揭秘如何将AI从普通助手升级为业务专家:4个实战教训+工程化训练方法,助你打造稳定可靠的AI员工。 核心内容: 1. AI在业务场景中的常见短板与痛点 2. 打造高效AI员工的4大关键训练法则 3. 从web-testing案例看Skill迭代的工程化实践
为什么 AI 很聪明,却总干不好复杂任务?不是模型不行,而是欠缺“业务 SOP”! 本文复盘了打造 web-testing Skill 时的 4 个真实翻车教训,分享一套极具实操性的工程化训练心法(门禁规则、Checklist、自动迭代)。教你告别玄学 Prompt,把 AI 真正调教成能闭环交付的 S 级员工!不是 AI 不够强,而是大多数 AI 还没有被你训练成“懂业务、会自检、能稳定交付”的员工。
OpenClaw 火了以后,一个变化非常明显:几乎每个人都拥有了一个“什么都能干一点”的 AI 助手。
写文案、查资料、写代码、做分析、跑测试,它都能上。
但真正把 AI 拉进工作流之后,问题很快就暴露了:
AI 不是不能干活,而是经常干得不稳、不深、不像一个真正懂你业务的人。
它能执行,但不一定知道你这个场景里什么算“完成”。 它能输出,但不一定知道你团队真正要的交付物长什么样。 它能连续干很久,但上下文一长,它就会开始“失忆”、偷步骤、压缩细节,最后给你一个“看起来做完了,实际上没做全”的结果。
我最近一直在打磨一个 web-testing Skill,目标是:
给它任意一个网站的链接,它都能深入完整的探索到每一层页面的每一个细节,并输出完整的测试报告。测试报告包含总评分,站点地图,UI/UX 设计审查、功能测试、CURD全链路测试、每个测试点的截图等,自动梳理出每个页面的 bug 并按严重程度归类。输出格式包含可修改的 md 文件和更美观的 html 文件,人工审查没问题后,再交给 AI 按照报告自动修复。
实现全自主的自动化测试、自动修复、再次自动测试验证,形成发现问题 → 解决问题的 AI 自驱动式全链路自动化测试,为产品质量保驾护航。
当前还有很多细节需要打磨,但是主体功能已经完成。
这个过程给我最大的感受是:
训练 Skill,本质上不是给 AI 多喂几句 Prompt,而是在把一个聪明但不稳定的通用模型,带成一个能独立扛活的业务员工。
而且这件事,不玄学,甚至很工程化。
先说结论:把 AI 训成 S 级员工,我现在最信这 4 件事
如果只让我把这篇文章压缩成一句话,那就是:
Skill 的作用,不是让 AI 更聪明,而是让 AI 在你的业务里更可靠。
因为大模型默认拥有的是通用能力,不是岗位能力。
通用能力解决的是:
岗位能力解决的是:
这两者不是一个层级的问题。
很多人第一次用 AI,会被它的“会很多”震住;但真正把它扔进复杂任务里,你会发现它特别像一个非常聪明的新同学:
而 Skills 做的事,就是把这些原本散落在你脑子里、团队经验里、事故教训里的内容,变成 AI 可以执行的岗位 SOP。
换句话说:
模型提供通用智力,Skill 提供业务操作系统。
这是我这次做 web-testing Skill 时感受最深的一点。
很多人训练 Skill,默认假设 AI 会一直按你说的做下去。但现实不是这样。
现实是:
所以,复杂任务不是“写清楚一次”就结束了,而是必须被设计成“每一步都能自我校验”的流程。
下面这张图,是我现在最认可的 Skill 训练闭环:
注意,图里最关键的不是“再次执行”,而是中间那一步:
把错误写成规则,把经验写成 SOP,把 SOP 写成 AI 自己也能检查的门禁。
这部分我不讲抽象方法论,直接讲真实翻车。
因为真正有效的 Skill,几乎都不是靠想象写出来的,而是从一次次真实翻车里长出来的。
这是整个 web-testing Skill 演进里最关键的一次修正。
想要实现全站自动化测试,第一个重难点就是页面发现。如果页面都没发现完全,最终的结果肯定不是完整的。
然而我们要做的是具备通用性的 Skill,即随便拿过来一个网站都能深度分析到每一个页面,而不是针对某个具体网站的专属 Skill,没有固定的点击路径、公式做约束,只能让 AI 依靠我们的描述和规则自主发现。
举一个例子:一开始,AI 在页面发现阶段漏掉了一个关键页面:
/admin/product/deployment/{deploymentId}
这个页面并不在最显眼的位置,它藏在:
听起来是不是很像真实业务系统里最常见的那种“藏得不深,但很容易被漏”的入口?
问题就出在这里。
AI 当时的策略是:
于是结果就变成了:
它不是完全没探索,而是探索到一半,靠主观判断停下来了。
大家可以看下面这张图,红框圈出来的就是被 AI 漏掉的部分。深层页面入口,最容易被 AI“看见但没真正点进去”
这类问题特别有代表性,因为它揭示了一个真相:
Web 测试的难点,很多时候不在“有没有能力点击”,而在“知不知道哪些交互必须被系统性穷举”。
所以这次改 Skill,不是补一句“请更仔细”,而是直接把“仔细”拆成了可执行动作:
也就是说,Skill 里不能写:
请认真检查页面,不要遗漏入口。
而要写成:
当页面存在 Tab、展开行、子表格、蓝色链接时,必须执行 DOM 枚举与逐链接验证;只要还存在未验证链接,就禁止结束阶段 1。
这就是我现在很确定的一条原则:
不要写原则,要写触发条件 + 必做动作 + 结束门槛。
在进行修改完善后,发现的页面明显变多了,能下钻到隐藏更深的页面。下面第一张图是优化前,只识别到了2层页面。第二张图是优化后,识别到了4层页面,并标注了页面类型是只读还是可以 CURD 操作。
这个案例让我真正意识到:
AI 不是天然会“穷举”的。穷举能力,很多时候要靠 Skill 强行教出来。
后面我又踩到一个特别经典的坑。
阶段 4 的要求明明是输出三个文件:
sitemap.mdtest-report.mdtest-report.html结果 AI 只生成了 HTML。
为什么?
因为 HTML 最像“最终成果”。 它最显眼、最复杂,也最容易吸走模型的注意力和上下文预算。
于是 AI 的心理活动大概是这样的:
这件事很像很多新同学:
不是故意偷懒,而是本能地优先做那个最有存在感的东西。
所以这一轮修复,不是说“记得全部生成”,而是直接把顺序写死:
sitemap.mdtest-report.mdtest-report.html这是 Skill 设计里特别容易被忽视的一点:
复杂任务里,顺序本身就是质量控制。
还有一次,AI 为了生成带截图的 HTML 报告,走了一条“看起来很聪明”的捷径:
python3 -c 直接拼长脚本结果很直接:
Shell 命令长度上限被打爆,整条命令失败。
这次教训特别大,因为它说明了一件事:
模型并不天然具备你当前执行环境里的工程常识。
它可能“知道有这种写法”。 但它不知道这在你的环境里是否稳定、是否可维护、是否会炸。
所以后面我把一类以前觉得“没必要写这么细”的规则,也明确写进了 Skill:
python3 -c 生成长报告echo "..." > file 硬写大文件从这以后,我对 Skill 又多了一层理解:
Skill 不只是业务手册,它还得是 AI 的“工程生存指南”。
否则逻辑明明全对,最后死在命令行里。
这是最近这轮迭代里,我觉得最值钱的一次翻车。
本来以为大成了,但仔细一检查发现个很扎心的问题:
为什么以前每个页面都有详细测试报告,现在最新版没有了?
表面看,报告其实是有的。 甚至还有问题列表、CRUD 结果、结论。
但一对模板才发现:
真正关键的“逐页面详细模块”被悄悄压缩掉了。
少了什么?
根因也很现实:
前面测试过程已经消耗了大量上下文,到了最后生成报告时,AI 自动进入“节约模式”,开始压缩结构。
这类错误为什么最危险?
因为它不是“完全没有”,而是“看上去像有”。
它最容易骗过第一次验收。
所以这一次修的核心,不是“补内容”,而是补结构门禁。
复杂任务如果没有门禁,AI 很容易从“完整交付”滑向“看起来完成”
我后来专门在 Skill 里补了一套类似这样的检查:
报告结构完整性 checklist(示意)
- [ ] 页面模块数 = sitemap 页面数
- [ ] 每页都有截图
- [ ] 每页都有 UI/UX 审查
- [ ] 每页都有功能测试结果表
- [ ] 每页都有本页问题汇总
- [ ] HTML 中 page-card 数量 = 页面数
- [ ] 问题汇总表存在
- [ ] 修复计划表存在
- [ ] 数据清理记录存在
关键不是这个 checklist 写得多漂亮。 关键是它要变成门禁:
上一项没过,下一项不能开始;最终结构没过,整个阶段不能宣告完成。
这就是为什么我现在越来越不相信“靠 AI 自觉”了。
复杂任务里,自觉是加分项,门禁才是底线保障。
如果你也想把一个通用 AI 训练成你业务里的“靠谱员工”,我现在建议直接按下面这套顺序来。
别一上来就闭门写一大坨 Skill。
先让 AI 真做 3~5 次真实任务。
重点不是看它做得多惊艳,而是看它怎么错:
没有真实翻车,就很难写出真的有用的 Skill。
这是最容易被忽略的一点。
坏写法:
好写法:
区别在哪?
前者是在提要求。 后者是在写 SOP。
而 Skill 要的,恰恰是 SOP。
很多人会以为:
“我已经描述得很清楚了,AI 应该不会漏吧?”
很遗憾,复杂任务里真不是这样。
因为上下文一长,AI 会自动做几件事:
所以,Skill 里必须有两层东西:
没有 checklist,AI 不知道该怎么自检。 没有门禁,AI 就算知道也可能跳过去。
这一步,特别像带新人:
你不能只告诉他“注意质量”。 你得告诉他:
这是我这次最推荐大家立刻就能用起来的一招。
很多人调 Skill 的方式是:
这样当然也行,但效率并不高。
更好的方式是:
也就是说,AI 不只是执行者,还应该成为 Skill 的共同调参者。
我现在很喜欢用一类这样的迭代指令:
请基于本次执行结果,对当前 Skill 做一次复盘:
1. 哪些输出没有达到预期?
2. 这些问题分别属于:页面发现、交付完整性、工程约束、结构完整性、消费场景适配中的哪一类?
3. 根因是什么?是规则缺失、规则不明确、没有门禁,还是上下文过长导致细节被忽略?
4. 请给出应补充到 Skill 中的具体规则,要求包含:触发条件、必做动作、自检方式、不通过后果。
5. 直接输出修改后的 Skill 片段,并说明这次修改预期解决什么问题。
这个方法特别适合复杂业务场景,因为它能把“这次错了”变成“以后尽量别再错”。
Skill 一旦进入这个循环,就会越来越像一个真正会吸收经验的业务系统,而不只是一个长 Prompt。
web-testing 的文件目录
下面是 web-testing 的目录
web-testing/
├── SKILL.md
├── references/
│ ├── checklist-template.md
│ ├── report-template.md
│ └── ui-ux-checklist.md
这个 web-testing Skill 的目录里,真正构成能力核心的文件主要有 4 个:
SKILL.md:主控文件,定义触发条件、执行流程、门禁规则、失败模式references/checklist-template.md:执行过程的“进度控制器”和“阶段门禁表”references/report-template.md:最终 Markdown / HTML 报告的输出契约references/ui-ux-checklist.md:UI/UX 审查时的详细评分参考标准通过主 SKILL.md + checklist 的形式,确保了 AI 在执行过程中不健忘,按照期望交付成果。
很多人提到 AI,总会讨论上限:
但真到了业务里,决定体验的往往不是上限,而是下限。
你最怕的不是 AI 偶尔不够惊艳,最怕的是它:
所以 Skill 真正解决的是:
让 AI 的交付质量从“靠状态”变成“靠机制”。
这也是为什么我现在越来越觉得:
训练 Skill,本质上不是增强 AI 的天赋,而是在建立 AI 的职业素养。
它要知道流程,它要记住教训,它要会自检,它要过门禁,它要稳定交付。
这才是一个“S 级员工”的样子。
做完这个 web-testing Skill 之后,我最大的感受就是:
要把自己的业务经验、失败教训、质量标准、交付契约,沉淀成 AI 可以反复执行的 Skill。
训练 Skill,不是在教 AI 做题,而是在带一个聪明新人上岗。
你要让它先去干活,你要允许它犯错, 你要把错复盘出来,你要把经验写回 Skill, 然后你再让它继续干。
反复几轮之后,它就会慢慢从“能干活”,进化成“能把活干好”。
而这,才是 AI 真正变成 S 级员工的开始。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
为什么 MCP 会"让位"于 Skill?AI 工具架构的演进思考
2026-07-02
这个开源的Skill让你发送会议纪要就能生成PRD、还能自动进行需求评审
2026-07-01
我做了一个律师办案skill:案件接收与中转站
2026-07-01
AI Agent 的 Skill 系统设计
2026-07-01
我们做了一款招投标Skill,数据按需调用
2026-07-01
Harness 工程之道:Skill 原理与最佳实践
2026-07-01
SkillOpt 架构拆解:把 Skill 文本当参数,用执行轨迹训练 Agent
2026-07-01
重新思考研发基础设施:当 Agent 成为第一公民
2026-05-15
2026-04-05
2026-05-24
2026-04-16
2026-04-14
2026-04-09
2026-05-06
2026-05-19
2026-05-20
2026-05-03
2026-06-28
2026-06-23
2026-06-11
2026-06-11
2026-06-09
2026-06-08
2026-05-28
2026-05-19
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。