2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

SkillForge:让技能自己学会进化

发布日期:2026-05-14 13:00:58 浏览次数: 1781
作者:符智汇

微信搜一搜,关注“符智汇”

推荐语

SkillForge三阶段Pipeline让AI技能实现自我进化,迭代三轮后性能竟超越人类专家手工版本。

核心内容:
1. 剖析企业技能开发面临的冷启动难与部署后不改进两大痛点
2. 详解SkillForge的“分析-诊断-优化”三阶段自动演化Pipeline
3. 展示自动进化循环如何打破技能停滞,实现性能超越

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


"三阶段Pipeline自动诊断失败、定位技能缺陷、重写技能文件,迭代循环让技能自己进化——自动演化三轮后,超越了人类专家手工维护的版本。"


编者按:企业场景有个特殊痛点:领域知识很深,技能写出来却很浅。通用技能生成器写出来的东西太泛,和真实任务对不上。领域专家手工写?费时间,而且写完就固定了——实际运行中发现的问题,没人系统性追踪回去改技能。这篇论文来自云计算领域的工业实践,用三阶段Pipeline自动诊断失败、定位技能缺陷、重写技能文件,迭代循环让技能自己进化。最反直觉的发现是:自动演化三轮后,超越了人类专家手工维护的版本。


一、企业技能的两个经典痛点

企业场景下,Agent技能面临着两个结构性困境,这两个困境导致技能质量难以持续提升。

痛点一:冷启动难

通用技能生成器(比如Claude Code)写出来的SKILL.md,内容很泛,往往只有抽象的工作流描述:"分析问题,调用工具,给出方案"。但企业场景需要的是具体的操作流程。以云技术支持为例,它有明确的工作流:DNS解析失败 → 检查DNS记录 → 检查防火墙 → 检查负载均衡。没有领域数据喂养,生成的技能就是空壳,无法指导Agent完成真实任务。

痛点二:部署后不改进

技能写好上线了,Agent跑任务,有时候成功有时候失败。失败的case呢?要么记录在日志里没人看,要么人工review但不会系统性改技能文件。时间久了,技能质量就停滞(stagnant)。明明积累了大量运营数据,却没办法把它们变成技能改进信号。这是一个巨大的浪费——数据在积累,但技能在腐烂。

这两个痛点形成了一个恶性循环:起点质量低 → 失败率高 → 运营数据多但无反馈机制 → 技能永不改进。SkillForge要打破的就是这个循环。


二、核心增量:从停滞到自演化

❌ 旧方案:手工写技能 → 上线 → 失败积压在日志 → 技能质量停滞

传统模式下,技能是静态资产。专家写完,上线运行,失败case沉淀在日志里。偶尔有人看一眼,偶尔修个bug,但没有系统性机制把失败反馈回技能本身。技能质量在上线那一刻达到峰值,之后只可能退化。

✅ 新方案:领域初始化 → 上线 → 自动诊断失败 → 自动改技能 → 循环进化

SkillForge提出三阶段Pipeline(Analyzer → Diagnostician → Optimizer),自动把失败映射回技能缺陷并重写,迭代循环让技能自己进化。每一个失败case都成为技能改进的燃料。

用人话说一遍:想象你在运营一个客服团队。客服(Agent)拿技能手册接电话,有的接得好,有的接得差。质检员(Failure Analyzer)听录音,从四个角度分析哪里有问题。技能编辑(Diagnostician + Optimizer)看着质检报告,翻技能手册,定位问题章节,补上缺失内容。下一轮客服拿新手册接电话,成功率涨了。技能自己学会了进化。


三、五阶段Pipeline详解

SkillForge的演化Pipeline分为五个阶段,形成完整的"执行-诊断-修复"闭环。

Phase 0:领域初始化(Domain-Contextualized Skill Creator)

冷启动阶段,不是从零开始,而是从领域数据中挖掘初始技能。三个核心步骤:

  • Workflow Mining:从历史工单中挖掘典型工作流
  • Tool Mining:识别常用工具和调用模式
  • Knowledge Extraction:提取领域知识点

输出是初始技能文件Skill_v0,质量比通用生成器高4.3个百分点。

Phase 1:执行与失败分析(Execution + Failure Analyzer)

Agent执行任务,系统识别Bad Cases。Failure Analyzer对每个失败进行四维度分析:

Knowledge(知识):有没有说错事实?信息是否准确?

Tool(工具):有没有漏查系统?工具调用是否完整?

Clarification(澄清):有没有问多余的话?信息收集是否高效?

Style(风格):有没有太冷冰冰?语气是否恰当?

四维度分析是精准定位问题根源的关键。同一个"回答不对",可能是知识缺,也可能是工具漏调用,诊断不同,改法不同。

Phase 2:聚合(Aggregation)

按类别聚合失败记录,选择代表性案例。不是每个失败都独立修复,而是聚类后找共性——改一处,解决一类。

类比:医生看病历,不是每个病人单独开药,而是找病根——10个病人同一个病因,开一个处方就够了。

Phase 3:诊断(Diagnostician)

诊断Agent用ReAct模式,边读技能边推理边映射。这是整个Pipeline的核心:

1. 读SKILL.md(理解当前技能结构)

2. 看失败报告(理解失败症状)

3. 推理病因(映射失败到技能缺陷位置)

4. 开处方(生成优化计划)

不是简单匹配,是推理。同一个"工具漏调用"失败,在不同场景下可能对应不同的技能缺陷位置,需要Agent自己判断。

Phase 4:优化(Optimizer)

技能优化器执行VFS(Virtual File System)修改,遵循Minimal Modification原则:只改必要的部分,保留已有的正确行为。

类比:像修房子——哪里漏水补哪里,不是拆了重盖。防止"改了A,坏了B"。每次修改只针对诊断出的缺陷,其他部分不动,保证技能质量稳步上升而不是剧烈波动。


四、实验结果:自动演化超越人类专家

论文在云计算技术支持场景进行了实验,数据规模:1,883个真实工单、3,737个任务、五个子领域。实验设计了三种起点来验证演化效果的普适性。

初始技能质量对比:

技能来源平均Strict CR平均Lenient CR提升
S_generic(通用生成)28.5%48.2%-
S_domain(领域初始化)32.8%51.8%+4.3pp

自演化效果(三轮迭代累计提升):

起点v1v2v3累计提升
S_manual(专家手工)+4.1pp+3.2pp+3.7pp+10.99pp
S_domain(领域初始化)+3.8pp+2.5pp+2.9pp+9.23pp
S_generic(通用生成)+4.5pp+3.6pp+3.5pp+11.60pp

关键洞察一:不管起点如何,三轮迭代后都提升9-12个百分点。S_generic起点最差,但提升最多——演化循环特别擅长弥补弱起点。

关键洞察二:S_manual(人类专家手工写的)在演化后还是涨了10.99pp。自动演化超越了人类专家的初始判断。这是最反直觉的发现。


五、失败类别演化:知识有天花板

四维度失败类别在演化过程中的变化揭示了不同缺陷的可修复性。

失败类别v1→v2变化v2→v3变化趋势
Tool(工具调用)-14.5%-18.2%持续下降
Style(风格)-16.4%-20.9%持续下降
Clarification(澄清)-13.1%-16.4%持续下降
Knowledge(知识)-10%0%(plateau)触达天花板

⚠️ 知识失败在v1后plateau的原因

知识补完了技能文件里的缺口,但剩余的知识缺陷可能超出技能文件的能力边界。比如需要更强的检索系统、或知识库扩展。这是文本优化的自然边界。

启示:Tool、Style、Clarification是技能内的可修复项,Knowledge则可能需要外部能力支撑。


六、三个关键设计决策

决策一:四维度失败分析

每个失败case从知识、工具、澄清、风格四个角度并行分析。类比考试复盘:知识错是公式记错,工具错是计算器没用,澄清错是题目没看清,风格错是字太潦草。四种错误,改法不同。

为什么重要:单一分类太粗,四维度能精准定位问题根源。

决策二:ReAct Diagnostician

诊断Agent用ReAct模式,边读技能边推理边映射。类比医生看病历:读病历(读SKILL.md)、看症状(看失败报告)、推理病因(映射失败到技能缺陷)、开处方(生成优化计划)。

为什么重要:不是简单匹配,是推理。同一个"工具漏调用"失败,在不同场景下可能对应不同的技能缺陷位置,需要Agent自己判断。

决策三:Minimal Modification原则

改技能文件时,只改必要的部分,保留已有的正确行为。类比修房子——哪里漏水补哪里,不是拆了重盖。

为什么重要:防止"改了A,坏了B"。每次修改只针对诊断出的缺陷,其他部分不动,保证技能质量稳步上升而不是剧烈波动。


七、批判性分析

批判一:四维度分析会不会有overlap?

"知识错误"和"工具结果误读"可能重叠。论文没有深入讨论这个问题。但实际影响可能有限——四维度是诊断框架,不是互斥分类,overlap意味着需要同时修复多个维度。

更深层问题:四维度的设计是否有理论支撑?还是经验驱动?论文没有给出消融实验来验证四维度的必要性。

批判二:五场景外推性存疑

实验只在五个云计算子领域进行,是否适用于其他领域(医疗、法律、金融)?但这是SIGIR Industry Track,聚焦真实场景比泛化更重要。工业价值明确。

更深层问题:演化过程是否会产生过拟合?技能会不会过度适应特定失败模式,牺牲泛化能力?论文没有讨论这个问题。

批判三:和Production Legacy System对比公平吗?

论文声称超越production legacy system 13.76pp。但legacy system可能是多年积累的技能库,SkillForge是全新训练的。这像是拿新车和旧车比油耗,不完全公平。

更深层问题:如果让legacy system也经过SkillForge演化,会不会更好?论文没有做这个对照实验。


八、可迁移价值

✅ 1. 四维度分析框架可复用

当前很多技能系统只有"成功率"一个信号,但失败原因可能是知识缺、工具错、流程乱、风格差。分开诊断才能精准改。

迁移场景:多Agent协作场景——决策角色失败分析、工具调用失败分析、风格一致性检查。

✅ 2. Minimal Modification原则可借鉴

不只是技能优化,任何增量改进都可以用这个原则:只改必要的,保留已有的正确行为。防止"改了A,坏了B"。

迁移场景:多Provider成本路由场景——增量优化路由策略、动态调整模型选择。

✅ 3. 演化闭环思维可推广

技能写一次用多次是旧思维。更好的设计:写一次,用多次,演化多轮。每个失败case都是改进的燃料。

迁移场景:多数据源混合训练场景——从失败case中学习、动态调整数据配比。

✅ 4. 三角色分工模式可参考

一个Agent执行,一个Agent诊断,一个Agent改技能。三角色分工,形成演化闭环。避免了"又当运动员又当裁判员"的冲突。

迁移场景:多Agent Pipeline场景——执行Agent、评估Agent、优化Agent的角色分离。


九、认知碰撞:为什么机器写的比人好?

我原来想:专家手工写的技能应该是最优的,自动改进只是锦上添花。

数据告诉我不一样:

版本Strict CR
S_manual(专家手工)35.8%
S_manual_v3(演化三轮)46.8%
提升+10.99pp

原来自动演化不是锦上添花,它能超越专家的初始判断

为什么?答案在数据。人类专家写技能的时候,凭的是经验。但经验有盲区,而且写完就固定了。演化循环不一样。它看的是真实失败case——1,883个工单、3,737个任务。失败在哪里,技能就在哪里改。三轮迭代,每一轮都往真实需求靠近一步。

类比:就像医生看病——书本知识是起点,但真正让医术精进的是看过的病例。病例越多,诊断越准。技能也一样——真实失败case是它的"病例库",演化循环是它的"复盘机制"。


十、总结

"自动演化可以超越人类专家。机器写的技能比人写的还好,因为数据比经验更诚实。"

SkillForge做了一个有力的断言:自动演化可以超越人类专家。三阶段Pipeline(Analyzer → Diagnostician → Optimizer)把失败变成改进信号,迭代循环让技能持续进化。

核心创新:四维度失败分析、ReAct诊断Agent、Minimal Modification原则。三者配合,形成"诊断-映射-修复"闭环。

适用场景:企业级Agent部署,特别是领域知识深、技能维护成本高的场景。云计算技术支持只是起点,医疗、法律、金融等领域同样适用。

局限性:知识类失败存在优化天花板,超出技能文件能力边界的缺陷需要外部系统支撑。演化过拟合问题有待进一步研究。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅