微信扫码
添加专属顾问
SkillForge三阶段Pipeline让AI技能实现自我进化,迭代三轮后性能竟超越人类专家手工版本。 核心内容: 1. 剖析企业技能开发面临的冷启动难与部署后不改进两大痛点 2. 详解SkillForge的“分析-诊断-优化”三阶段自动演化Pipeline 3. 展示自动进化循环如何打破技能停滞,实现性能超越
"三阶段Pipeline自动诊断失败、定位技能缺陷、重写技能文件,迭代循环让技能自己进化——自动演化三轮后,超越了人类专家手工维护的版本。"
编者按:企业场景有个特殊痛点:领域知识很深,技能写出来却很浅。通用技能生成器写出来的东西太泛,和真实任务对不上。领域专家手工写?费时间,而且写完就固定了——实际运行中发现的问题,没人系统性追踪回去改技能。这篇论文来自云计算领域的工业实践,用三阶段Pipeline自动诊断失败、定位技能缺陷、重写技能文件,迭代循环让技能自己进化。最反直觉的发现是:自动演化三轮后,超越了人类专家手工维护的版本。
企业场景下,Agent技能面临着两个结构性困境,这两个困境导致技能质量难以持续提升。
痛点一:冷启动难
通用技能生成器(比如Claude Code)写出来的SKILL.md,内容很泛,往往只有抽象的工作流描述:"分析问题,调用工具,给出方案"。但企业场景需要的是具体的操作流程。以云技术支持为例,它有明确的工作流:DNS解析失败 → 检查DNS记录 → 检查防火墙 → 检查负载均衡。没有领域数据喂养,生成的技能就是空壳,无法指导Agent完成真实任务。
痛点二:部署后不改进
技能写好上线了,Agent跑任务,有时候成功有时候失败。失败的case呢?要么记录在日志里没人看,要么人工review但不会系统性改技能文件。时间久了,技能质量就停滞(stagnant)。明明积累了大量运营数据,却没办法把它们变成技能改进信号。这是一个巨大的浪费——数据在积累,但技能在腐烂。
这两个痛点形成了一个恶性循环:起点质量低 → 失败率高 → 运营数据多但无反馈机制 → 技能永不改进。SkillForge要打破的就是这个循环。
❌ 旧方案:手工写技能 → 上线 → 失败积压在日志 → 技能质量停滞
传统模式下,技能是静态资产。专家写完,上线运行,失败case沉淀在日志里。偶尔有人看一眼,偶尔修个bug,但没有系统性机制把失败反馈回技能本身。技能质量在上线那一刻达到峰值,之后只可能退化。
✅ 新方案:领域初始化 → 上线 → 自动诊断失败 → 自动改技能 → 循环进化
SkillForge提出三阶段Pipeline(Analyzer → Diagnostician → Optimizer),自动把失败映射回技能缺陷并重写,迭代循环让技能自己进化。每一个失败case都成为技能改进的燃料。
用人话说一遍:想象你在运营一个客服团队。客服(Agent)拿技能手册接电话,有的接得好,有的接得差。质检员(Failure Analyzer)听录音,从四个角度分析哪里有问题。技能编辑(Diagnostician + Optimizer)看着质检报告,翻技能手册,定位问题章节,补上缺失内容。下一轮客服拿新手册接电话,成功率涨了。技能自己学会了进化。
SkillForge的演化Pipeline分为五个阶段,形成完整的"执行-诊断-修复"闭环。
Phase 0:领域初始化(Domain-Contextualized Skill Creator)
冷启动阶段,不是从零开始,而是从领域数据中挖掘初始技能。三个核心步骤:
输出是初始技能文件Skill_v0,质量比通用生成器高4.3个百分点。
Phase 1:执行与失败分析(Execution + Failure Analyzer)
Agent执行任务,系统识别Bad Cases。Failure Analyzer对每个失败进行四维度分析:
Knowledge(知识):有没有说错事实?信息是否准确?
Tool(工具):有没有漏查系统?工具调用是否完整?
Clarification(澄清):有没有问多余的话?信息收集是否高效?
Style(风格):有没有太冷冰冰?语气是否恰当?
四维度分析是精准定位问题根源的关键。同一个"回答不对",可能是知识缺,也可能是工具漏调用,诊断不同,改法不同。
Phase 2:聚合(Aggregation)
按类别聚合失败记录,选择代表性案例。不是每个失败都独立修复,而是聚类后找共性——改一处,解决一类。
类比:医生看病历,不是每个病人单独开药,而是找病根——10个病人同一个病因,开一个处方就够了。
Phase 3:诊断(Diagnostician)
诊断Agent用ReAct模式,边读技能边推理边映射。这是整个Pipeline的核心:
1. 读SKILL.md(理解当前技能结构)
2. 看失败报告(理解失败症状)
3. 推理病因(映射失败到技能缺陷位置)
4. 开处方(生成优化计划)
不是简单匹配,是推理。同一个"工具漏调用"失败,在不同场景下可能对应不同的技能缺陷位置,需要Agent自己判断。
Phase 4:优化(Optimizer)
技能优化器执行VFS(Virtual File System)修改,遵循Minimal Modification原则:只改必要的部分,保留已有的正确行为。
类比:像修房子——哪里漏水补哪里,不是拆了重盖。防止"改了A,坏了B"。每次修改只针对诊断出的缺陷,其他部分不动,保证技能质量稳步上升而不是剧烈波动。
论文在云计算技术支持场景进行了实验,数据规模:1,883个真实工单、3,737个任务、五个子领域。实验设计了三种起点来验证演化效果的普适性。
初始技能质量对比:
| 技能来源 | 平均Strict CR | 平均Lenient CR | 提升 |
| S_generic(通用生成) | 28.5% | 48.2% | - |
| S_domain(领域初始化) | 32.8% | 51.8% | +4.3pp |
自演化效果(三轮迭代累计提升):
| 起点 | v1 | v2 | v3 | 累计提升 |
| S_manual(专家手工) | +4.1pp | +3.2pp | +3.7pp | +10.99pp |
| S_domain(领域初始化) | +3.8pp | +2.5pp | +2.9pp | +9.23pp |
| S_generic(通用生成) | +4.5pp | +3.6pp | +3.5pp | +11.60pp |
关键洞察一:不管起点如何,三轮迭代后都提升9-12个百分点。S_generic起点最差,但提升最多——演化循环特别擅长弥补弱起点。
关键洞察二:S_manual(人类专家手工写的)在演化后还是涨了10.99pp。自动演化超越了人类专家的初始判断。这是最反直觉的发现。
四维度失败类别在演化过程中的变化揭示了不同缺陷的可修复性。
| 失败类别 | v1→v2变化 | v2→v3变化 | 趋势 |
| Tool(工具调用) | -14.5% | -18.2% | 持续下降 |
| Style(风格) | -16.4% | -20.9% | 持续下降 |
| Clarification(澄清) | -13.1% | -16.4% | 持续下降 |
| Knowledge(知识) | -10% | 0%(plateau) | 触达天花板 |
⚠️ 知识失败在v1后plateau的原因
知识补完了技能文件里的缺口,但剩余的知识缺陷可能超出技能文件的能力边界。比如需要更强的检索系统、或知识库扩展。这是文本优化的自然边界。
启示:Tool、Style、Clarification是技能内的可修复项,Knowledge则可能需要外部能力支撑。
决策一:四维度失败分析
每个失败case从知识、工具、澄清、风格四个角度并行分析。类比考试复盘:知识错是公式记错,工具错是计算器没用,澄清错是题目没看清,风格错是字太潦草。四种错误,改法不同。
为什么重要:单一分类太粗,四维度能精准定位问题根源。
决策二:ReAct Diagnostician
诊断Agent用ReAct模式,边读技能边推理边映射。类比医生看病历:读病历(读SKILL.md)、看症状(看失败报告)、推理病因(映射失败到技能缺陷)、开处方(生成优化计划)。
为什么重要:不是简单匹配,是推理。同一个"工具漏调用"失败,在不同场景下可能对应不同的技能缺陷位置,需要Agent自己判断。
决策三:Minimal Modification原则
改技能文件时,只改必要的部分,保留已有的正确行为。类比修房子——哪里漏水补哪里,不是拆了重盖。
为什么重要:防止"改了A,坏了B"。每次修改只针对诊断出的缺陷,其他部分不动,保证技能质量稳步上升而不是剧烈波动。
批判一:四维度分析会不会有overlap?
"知识错误"和"工具结果误读"可能重叠。论文没有深入讨论这个问题。但实际影响可能有限——四维度是诊断框架,不是互斥分类,overlap意味着需要同时修复多个维度。
更深层问题:四维度的设计是否有理论支撑?还是经验驱动?论文没有给出消融实验来验证四维度的必要性。
批判二:五场景外推性存疑
实验只在五个云计算子领域进行,是否适用于其他领域(医疗、法律、金融)?但这是SIGIR Industry Track,聚焦真实场景比泛化更重要。工业价值明确。
更深层问题:演化过程是否会产生过拟合?技能会不会过度适应特定失败模式,牺牲泛化能力?论文没有讨论这个问题。
批判三:和Production Legacy System对比公平吗?
论文声称超越production legacy system 13.76pp。但legacy system可能是多年积累的技能库,SkillForge是全新训练的。这像是拿新车和旧车比油耗,不完全公平。
更深层问题:如果让legacy system也经过SkillForge演化,会不会更好?论文没有做这个对照实验。
✅ 1. 四维度分析框架可复用
当前很多技能系统只有"成功率"一个信号,但失败原因可能是知识缺、工具错、流程乱、风格差。分开诊断才能精准改。
迁移场景:多Agent协作场景——决策角色失败分析、工具调用失败分析、风格一致性检查。
✅ 2. Minimal Modification原则可借鉴
不只是技能优化,任何增量改进都可以用这个原则:只改必要的,保留已有的正确行为。防止"改了A,坏了B"。
迁移场景:多Provider成本路由场景——增量优化路由策略、动态调整模型选择。
✅ 3. 演化闭环思维可推广
技能写一次用多次是旧思维。更好的设计:写一次,用多次,演化多轮。每个失败case都是改进的燃料。
迁移场景:多数据源混合训练场景——从失败case中学习、动态调整数据配比。
✅ 4. 三角色分工模式可参考
一个Agent执行,一个Agent诊断,一个Agent改技能。三角色分工,形成演化闭环。避免了"又当运动员又当裁判员"的冲突。
迁移场景:多Agent Pipeline场景——执行Agent、评估Agent、优化Agent的角色分离。
我原来想:专家手工写的技能应该是最优的,自动改进只是锦上添花。
数据告诉我不一样:
| 版本 | Strict CR |
| S_manual(专家手工) | 35.8% |
| S_manual_v3(演化三轮) | 46.8% |
| 提升 | +10.99pp |
原来自动演化不是锦上添花,它能超越专家的初始判断。
为什么?答案在数据。人类专家写技能的时候,凭的是经验。但经验有盲区,而且写完就固定了。演化循环不一样。它看的是真实失败case——1,883个工单、3,737个任务。失败在哪里,技能就在哪里改。三轮迭代,每一轮都往真实需求靠近一步。
类比:就像医生看病——书本知识是起点,但真正让医术精进的是看过的病例。病例越多,诊断越准。技能也一样——真实失败case是它的"病例库",演化循环是它的"复盘机制"。
"自动演化可以超越人类专家。机器写的技能比人写的还好,因为数据比经验更诚实。"
SkillForge做了一个有力的断言:自动演化可以超越人类专家。三阶段Pipeline(Analyzer → Diagnostician → Optimizer)把失败变成改进信号,迭代循环让技能持续进化。
核心创新:四维度失败分析、ReAct诊断Agent、Minimal Modification原则。三者配合,形成"诊断-映射-修复"闭环。
适用场景:企业级Agent部署,特别是领域知识深、技能维护成本高的场景。云计算技术支持只是起点,医疗、法律、金融等领域同样适用。
局限性:知识类失败存在优化天花板,超出技能文件能力边界的缺陷需要外部系统支撑。演化过拟合问题有待进一步研究。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
这个开源的Skill让你发送会议纪要就能生成PRD、还能自动进行需求评审
2026-07-01
我做了一个律师办案skill:案件接收与中转站
2026-07-01
AI Agent 的 Skill 系统设计
2026-07-01
我们做了一款招投标Skill,数据按需调用
2026-07-01
Harness 工程之道:Skill 原理与最佳实践
2026-07-01
SkillOpt 架构拆解:把 Skill 文本当参数,用执行轨迹训练 Agent
2026-07-01
重新思考研发基础设施:当 Agent 成为第一公民
2026-06-30
一个测试人必备的需求分析Skill,搞定需求分析8大维度,生成用例采纳率直接拉满
2026-05-15
2026-04-05
2026-05-24
2026-04-16
2026-04-14
2026-04-09
2026-05-06
2026-05-19
2026-05-20
2026-05-03
2026-06-28
2026-06-23
2026-06-11
2026-06-11
2026-06-09
2026-06-08
2026-05-28
2026-05-19
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。