微信扫码
添加专属顾问
我要投稿
揭秘如何将AI从普通助手升级为业务专家:4个实战教训+工程化训练方法,助你打造稳定可靠的AI员工。核心内容: 1. AI在业务场景中的常见短板与痛点 2. 打造高效AI员工的4大关键训练法则 3. 从web-testing案例看Skill迭代的工程化实践
作者:solonnliu
为什么 AI 很聪明,却总干不好复杂任务?不是模型不行,而是欠缺“业务 SOP”! 本文复盘了打造 web-testing Skill 时的 4 个真实翻车教训,分享一套极具实操性的工程化训练心法(门禁规则、Checklist、自动迭代)。教你告别玄学 Prompt,把 AI 真正调教成能闭环交付的 S 级员工!不是 AI 不够强,而是大多数 AI 还没有被你训练成“懂业务、会自检、能稳定交付”的员工。
OpenClaw 火了以后,一个变化非常明显:几乎每个人都拥有了一个“什么都能干一点”的 AI 助手。
写文案、查资料、写代码、做分析、跑测试,它都能上。
但真正把 AI 拉进工作流之后,问题很快就暴露了:
AI 不是不能干活,而是经常干得不稳、不深、不像一个真正懂你业务的人。
它能执行,但不一定知道你这个场景里什么算“完成”。 它能输出,但不一定知道你团队真正要的交付物长什么样。 它能连续干很久,但上下文一长,它就会开始“失忆”、偷步骤、压缩细节,最后给你一个“看起来做完了,实际上没做全”的结果。
我最近一直在打磨一个 web-testing Skill,目标是:
给它任意一个网站的链接,它都能深入完整的探索到每一层页面的每一个细节,并输出完整的测试报告。测试报告包含总评分,站点地图,UI/UX 设计审查、功能测试、CURD全链路测试、每个测试点的截图等,自动梳理出每个页面的 bug 并按严重程度归类。输出格式包含可修改的 md 文件和更美观的 html 文件,人工审查没问题后,再交给 AI 按照报告自动修复。
实现全自主的自动化测试、自动修复、再次自动测试验证,形成发现问题 → 解决问题的 AI 自驱动式全链路自动化测试,为产品质量保驾护航。
当前还有很多细节需要打磨,但是主体功能已经完成。
这个过程给我最大的感受是:
训练 Skill,本质上不是给 AI 多喂几句 Prompt,而是在把一个聪明但不稳定的通用模型,带成一个能独立扛活的业务员工。
而且这件事,不玄学,甚至很工程化。
先说结论:把 AI 训成 S 级员工,我现在最信这 4 件事
如果只让我把这篇文章压缩成一句话,那就是:
Skill 的作用,不是让 AI 更聪明,而是让 AI 在你的业务里更可靠。
因为大模型默认拥有的是通用能力,不是岗位能力。
通用能力解决的是:
岗位能力解决的是:
这两者不是一个层级的问题。
很多人第一次用 AI,会被它的“会很多”震住;但真正把它扔进复杂任务里,你会发现它特别像一个非常聪明的新同学:
而 Skills 做的事,就是把这些原本散落在你脑子里、团队经验里、事故教训里的内容,变成 AI 可以执行的岗位 SOP。
换句话说:
模型提供通用智力,Skill 提供业务操作系统。
这是我这次做 web-testing Skill 时感受最深的一点。
很多人训练 Skill,默认假设 AI 会一直按你说的做下去。但现实不是这样。
现实是:
所以,复杂任务不是“写清楚一次”就结束了,而是必须被设计成“每一步都能自我校验”的流程。
下面这张图,是我现在最认可的 Skill 训练闭环:
注意,图里最关键的不是“再次执行”,而是中间那一步:
把错误写成规则,把经验写成 SOP,把 SOP 写成 AI 自己也能检查的门禁。
这部分我不讲抽象方法论,直接讲真实翻车。
因为真正有效的 Skill,几乎都不是靠想象写出来的,而是从一次次真实翻车里长出来的。
这是整个 web-testing Skill 演进里最关键的一次修正。
想要实现全站自动化测试,第一个重难点就是页面发现。如果页面都没发现完全,最终的结果肯定不是完整的。
然而我们要做的是具备通用性的 Skill,即随便拿过来一个网站都能深度分析到每一个页面,而不是针对某个具体网站的专属 Skill,没有固定的点击路径、公式做约束,只能让 AI 依靠我们的描述和规则自主发现。
举一个例子:一开始,AI 在页面发现阶段漏掉了一个关键页面:
/admin/product/deployment/{deploymentId}
这个页面并不在最显眼的位置,它藏在:
听起来是不是很像真实业务系统里最常见的那种“藏得不深,但很容易被漏”的入口?
问题就出在这里。
AI 当时的策略是:
于是结果就变成了:
它不是完全没探索,而是探索到一半,靠主观判断停下来了。
大家可以看下面这张图,红框圈出来的就是被 AI 漏掉的部分。深层页面入口,最容易被 AI“看见但没真正点进去”
这类问题特别有代表性,因为它揭示了一个真相:
Web 测试的难点,很多时候不在“有没有能力点击”,而在“知不知道哪些交互必须被系统性穷举”。
所以这次改 Skill,不是补一句“请更仔细”,而是直接把“仔细”拆成了可执行动作:
也就是说,Skill 里不能写:
请认真检查页面,不要遗漏入口。
而要写成:
当页面存在 Tab、展开行、子表格、蓝色链接时,必须执行 DOM 枚举与逐链接验证;只要还存在未验证链接,就禁止结束阶段 1。
这就是我现在很确定的一条原则:
不要写原则,要写触发条件 + 必做动作 + 结束门槛。
在进行修改完善后,发现的页面明显变多了,能下钻到隐藏更深的页面。下面第一张图是优化前,只识别到了2层页面。第二张图是优化后,识别到了4层页面,并标注了页面类型是只读还是可以 CURD 操作。
这个案例让我真正意识到:
AI 不是天然会“穷举”的。穷举能力,很多时候要靠 Skill 强行教出来。
后面我又踩到一个特别经典的坑。
阶段 4 的要求明明是输出三个文件:
sitemap.mdtest-report.mdtest-report.html结果 AI 只生成了 HTML。
为什么?
因为 HTML 最像“最终成果”。 它最显眼、最复杂,也最容易吸走模型的注意力和上下文预算。
于是 AI 的心理活动大概是这样的:
这件事很像很多新同学:
不是故意偷懒,而是本能地优先做那个最有存在感的东西。
所以这一轮修复,不是说“记得全部生成”,而是直接把顺序写死:
sitemap.mdtest-report.mdtest-report.html这是 Skill 设计里特别容易被忽视的一点:
复杂任务里,顺序本身就是质量控制。
还有一次,AI 为了生成带截图的 HTML 报告,走了一条“看起来很聪明”的捷径:
python3 -c 直接拼长脚本结果很直接:
Shell 命令长度上限被打爆,整条命令失败。
这次教训特别大,因为它说明了一件事:
模型并不天然具备你当前执行环境里的工程常识。
它可能“知道有这种写法”。 但它不知道这在你的环境里是否稳定、是否可维护、是否会炸。
所以后面我把一类以前觉得“没必要写这么细”的规则,也明确写进了 Skill:
python3 -c 生成长报告echo "..." > file 硬写大文件从这以后,我对 Skill 又多了一层理解:
Skill 不只是业务手册,它还得是 AI 的“工程生存指南”。
否则逻辑明明全对,最后死在命令行里。
这是最近这轮迭代里,我觉得最值钱的一次翻车。
本来以为大成了,但仔细一检查发现个很扎心的问题:
为什么以前每个页面都有详细测试报告,现在最新版没有了?
表面看,报告其实是有的。 甚至还有问题列表、CRUD 结果、结论。
但一对模板才发现:
真正关键的“逐页面详细模块”被悄悄压缩掉了。
少了什么?
根因也很现实:
前面测试过程已经消耗了大量上下文,到了最后生成报告时,AI 自动进入“节约模式”,开始压缩结构。
这类错误为什么最危险?
因为它不是“完全没有”,而是“看上去像有”。
它最容易骗过第一次验收。
所以这一次修的核心,不是“补内容”,而是补结构门禁。
复杂任务如果没有门禁,AI 很容易从“完整交付”滑向“看起来完成”
我后来专门在 Skill 里补了一套类似这样的检查:
报告结构完整性 checklist(示意)
- [ ] 页面模块数 = sitemap 页面数
- [ ] 每页都有截图
- [ ] 每页都有 UI/UX 审查
- [ ] 每页都有功能测试结果表
- [ ] 每页都有本页问题汇总
- [ ] HTML 中 page-card 数量 = 页面数
- [ ] 问题汇总表存在
- [ ] 修复计划表存在
- [ ] 数据清理记录存在
关键不是这个 checklist 写得多漂亮。 关键是它要变成门禁:
上一项没过,下一项不能开始;最终结构没过,整个阶段不能宣告完成。
这就是为什么我现在越来越不相信“靠 AI 自觉”了。
复杂任务里,自觉是加分项,门禁才是底线保障。
如果你也想把一个通用 AI 训练成你业务里的“靠谱员工”,我现在建议直接按下面这套顺序来。
别一上来就闭门写一大坨 Skill。
先让 AI 真做 3~5 次真实任务。
重点不是看它做得多惊艳,而是看它怎么错:
没有真实翻车,就很难写出真的有用的 Skill。
这是最容易被忽略的一点。
坏写法:
好写法:
区别在哪?
前者是在提要求。 后者是在写 SOP。
而 Skill 要的,恰恰是 SOP。
很多人会以为:
“我已经描述得很清楚了,AI 应该不会漏吧?”
很遗憾,复杂任务里真不是这样。
因为上下文一长,AI 会自动做几件事:
所以,Skill 里必须有两层东西:
没有 checklist,AI 不知道该怎么自检。 没有门禁,AI 就算知道也可能跳过去。
这一步,特别像带新人:
你不能只告诉他“注意质量”。 你得告诉他:
这是我这次最推荐大家立刻就能用起来的一招。
很多人调 Skill 的方式是:
这样当然也行,但效率并不高。
更好的方式是:
也就是说,AI 不只是执行者,还应该成为 Skill 的共同调参者。
我现在很喜欢用一类这样的迭代指令:
请基于本次执行结果,对当前 Skill 做一次复盘:
1. 哪些输出没有达到预期?
2. 这些问题分别属于:页面发现、交付完整性、工程约束、结构完整性、消费场景适配中的哪一类?
3. 根因是什么?是规则缺失、规则不明确、没有门禁,还是上下文过长导致细节被忽略?
4. 请给出应补充到 Skill 中的具体规则,要求包含:触发条件、必做动作、自检方式、不通过后果。
5. 直接输出修改后的 Skill 片段,并说明这次修改预期解决什么问题。
这个方法特别适合复杂业务场景,因为它能把“这次错了”变成“以后尽量别再错”。
Skill 一旦进入这个循环,就会越来越像一个真正会吸收经验的业务系统,而不只是一个长 Prompt。
web-testing 的文件目录
下面是 web-testing 的目录
web-testing/
├── SKILL.md
├── references/
│ ├── checklist-template.md
│ ├── report-template.md
│ └── ui-ux-checklist.md
这个 web-testing Skill 的目录里,真正构成能力核心的文件主要有 4 个:
SKILL.md:主控文件,定义触发条件、执行流程、门禁规则、失败模式references/checklist-template.md:执行过程的“进度控制器”和“阶段门禁表”references/report-template.md:最终 Markdown / HTML 报告的输出契约references/ui-ux-checklist.md:UI/UX 审查时的详细评分参考标准通过主 SKILL.md + checklist 的形式,确保了 AI 在执行过程中不健忘,按照期望交付成果。
很多人提到 AI,总会讨论上限:
但真到了业务里,决定体验的往往不是上限,而是下限。
你最怕的不是 AI 偶尔不够惊艳,最怕的是它:
所以 Skill 真正解决的是:
让 AI 的交付质量从“靠状态”变成“靠机制”。
这也是为什么我现在越来越觉得:
训练 Skill,本质上不是增强 AI 的天赋,而是在建立 AI 的职业素养。
它要知道流程,它要记住教训,它要会自检,它要过门禁,它要稳定交付。
这才是一个“S 级员工”的样子。
做完这个 web-testing Skill 之后,我最大的感受就是:
要把自己的业务经验、失败教训、质量标准、交付契约,沉淀成 AI 可以反复执行的 Skill。
训练 Skill,不是在教 AI 做题,而是在带一个聪明新人上岗。
你要让它先去干活,你要允许它犯错, 你要把错复盘出来,你要把经验写回 Skill, 然后你再让它继续干。
反复几轮之后,它就会慢慢从“能干活”,进化成“能把活干好”。
而这,才是 AI 真正变成 S 级员工的开始。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-23
技多不压身,那龙虾的 Skill 是越多越好吗?
2026-03-23
你和最会玩“龙虾”的人,可能只差这8个硬核Skills
2026-03-23
从诞虾说起:装 Skill 之前做一次简单的安全自检
2026-03-23
谷歌出品,Agent Skill的5种设计模式
2026-03-23
去他的龙虾,千问有自己的节奏
2026-03-23
审核员:这届开发者开挂了?这款神器助你实现“提审即过”。
2026-03-23
Top50 Claude Skills 终极清单
2026-03-23
我用 Claude 写周报,结果被老板骂了——后来我用 Karpathy 的 autoresearch 方法,把 skill 通过率从 50% 提到了 90%
2026-03-10
2026-03-04
2026-03-03
2026-03-04
2026-03-05
2026-03-03
2026-03-05
2026-03-05
2026-03-02
2026-03-11