2026年6月4日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

让 Skill 自己训练自己:8阶段Loop与自进化机制

发布日期:2026-05-29 07:30:15 浏览次数: 1550
作者:AI 深度洞见

微信搜一搜,关注“AI 深度洞见”

推荐语

想让AI技能像人一样自我进化?腾讯云开发者团队提出8阶段循环与自进化机制,让技能在试错中成长,自动修复隐藏Bug。

核心内容:
1. 当前技能开发的痛点与自进化机制的必要性
2. 核心架构:三大思想的结合与Skill-Evolver的诞生
3. 8阶段循环的详细拆解与运作流程

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

你总想着“授它以鱼”,像个操心的妈妈一遍遍对着 AI 说教:“记住!你不许这样!”但好的教育难道不是授人以渔,给它一本书、一个目标,让它自己实践、碰壁、改错么?腾讯云开发者团队分享了一种像训练神经元一样训练 Skill 的机制——8 阶段 Loop 、 3 层评测、 5 维 AND 门控, 19 轮自进化自动找出隐藏 Bug 。


ℹ️ INFO
核心概念: Skill 不应只是静态的 Prompt ,它更像是一个 Harness (线束/系统)。通过引入 Karpathy 的 `autoresearch` 思想与斯坦福 `Meta-Harness` 的轨迹诊断, Skill 可以像模型训练一样:试错、评测、诊断、回滚、迭代。
技术来源: Karpathy 的自主研究循环 + Anthropic `skill-creator` 评测引擎 + Meta-Harness 原始轨迹诊断。


一、为什么 Skill 需要“自进化”?


当前的 Skill 开发是“手工作坊式”的:写 Prompt → 测几个 Case → 发现不完美 → 改几行 → 再测。
这有几个致命痛点:


1.规则复杂度爆炸:你加了安全检查(如 git 状态不干净就拒绝),结果在新目录直接报错。你加了清理函数,结果第 10 轮把最新结果删了。规则越多,行为越不可控。
2.数据不匹配:一个“能跑”的 Skill 和一个“真的好”的 Skill 之间,隔着西天取经的路。它可能不报错,但在你的真实业务数据上,路由准确率只有 60%。
3.修改靠直觉:改 Prompt 就像玄学。你不知道改了这条规则,会不会搞坏另一个场景。


自进化机制的目标是:让 Skill 在执行中收集数据,自动分析失败原因,生成 Patch ,并通过严格测试后回写自身。


二、核心架构: Skill-Evolver = AutoResearch + Creator + Meta-Harness


Skill 自进化架构图: Loop 骨架 + 评测引擎 + 诊断大脑


这其实是三个已被证明有效的思想的结合:
1. Karpathy 的 autoresearch:外层 Loop 不断试错,跑 700 个实验找出 20 个优化,性能提升 19%。
2. Anthropic 的 skill-creator:提供结构化的评测底座(quick_validate, grader, comparator)。
3. 斯坦福 Meta-Harness 论文:给 AI 看完整的原始执行轨迹( Trace )比只看分数效果好 44%。就像医生看完整病历比看 300 字摘要诊断更准。


于是,Skill-Evolver 诞生了:外层用 AutoResearch 试错,内层用 Creator 评测,用 Meta-Harness 的 Trace 做诊断。


三、 8 阶段 Loop 拆解


每一轮迭代不是瞎改,而是严格遵循 8 个阶段:


Phase 0: Setup (一次性初始化)


检查环境、准备 GT (标准答案)数据,自动生成 evolve_plan.md(包含评测策略、门控阈值)。


Phase 1: Review (回顾记忆)


读取最近的 git logresults.tsv、失败 Case 。提取信号:哪些改法成功过?哪些 Case 持续失败?


Phase 2: Ideate (诊断与构思)


从 Trace 诊断失败根因(是 Prompt 不清? Tool 定义缺失?)。提出原子化改动方案。


Phase 3: Modify (执行修改)


执行 ONE 个改动。分层 Mutation :
- Layer 1 :改触发关键词(最便宜)。
- Layer 2 :改 SKILL.md 正文(中等)。
- Layer 3 :改辅助脚本和 references (最贵)。


Phase 4: Commit (审计轨迹)


git commit 再验证。保留每一次尝试的历史,方便回滚。


Phase 5: Verify (三层评测)


跑测试集,看 Pass/Fail 。


Phase 6: Gate ( 5 维 AND 门控)


只有 5 个维度全 Pass 才保留(详见下文)。


Phase 7: Log (记录)


写入日志,更新实验记录。


Phase 8: Loop (循环)


继续下一轮,或者升层,或者停止。


四、 3 层评测与 5 维 AND 门控


怎么保证“越改越好”而不是“越改越烂”?


3 层评测体系
- L1 单元测试: Binary Eval ( Pass/Fail )。 6 种程序直接判(如 contains, script_check), 2 种 LLM 判(事实覆盖)。
- L2 集成测试:模拟完整任务链。
- L3 用户验收:真实业务效果反馈。


5 维 AND 门控(防退化机制)
任何 Patch 必须同时满足:
1. 格式门:输出符合 Schema 。
2. 内容门:关键参数准确。
3. 行为门:工具调用序列符合预期(不跳过鉴权)。
4. 性能门:耗时不超过基准 1.5 倍。
5. 安全门:无敏感操作。


只要一个 Fail ,立即回滚。 这就是为什么它能跑 19 轮而不崩的原因。


五、实战结果: 19 轮自进化


作者让这个机制跑了 19 轮,结果令人惊讶:
- 每一轮都揪出了至少一个之前没看见的问题。
- 有的是真 Bug ,有的是边界补全,有的是整块代码的职责重构。
- 它甚至优化了 iteration-10 排序导致 cleanup 误删最新结果这种人类极难察觉的边界条件。


这不仅仅是技术升级,更是开发思维的升级
你从 Prompt 工程师变成了 Skill 教练。你定义目标,提供反馈,监控进化曲线,而 AI 自己在实践中摸索出最佳路径。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询