我要投稿

让 Skill 自己训练自己：8阶段Loop与自进化机制

发布日期：2026-05-29 07:30:15 浏览次数： 1550

作者：AI 深度洞见

微信搜一搜，关注“AI 深度洞见”

你总想着“授它以鱼”，像个操心的妈妈一遍遍对着 AI 说教：“记住！你不许这样！”但好的教育难道不是授人以渔，给它一本书、一个目标，让它自己实践、碰壁、改错么？腾讯云开发者团队分享了一种像训练神经元一样训练 Skill 的机制——8 阶段 Loop 、 3 层评测、 5 维 AND 门控， 19 轮自进化自动找出隐藏 Bug 。

ℹ️ INFO

核心概念： Skill 不应只是静态的 Prompt ，它更像是一个 Harness （线束/系统）。通过引入 Karpathy 的 `autoresearch` 思想与斯坦福 `Meta-Harness` 的轨迹诊断， Skill 可以像模型训练一样：试错、评测、诊断、回滚、迭代。
技术来源： Karpathy 的自主研究循环 + Anthropic `skill-creator` 评测引擎 + Meta-Harness 原始轨迹诊断。

一、为什么 Skill 需要“自进化”？

当前的 Skill 开发是“手工作坊式”的：写 Prompt → 测几个 Case → 发现不完美 → 改几行 → 再测。
这有几个致命痛点：

1.规则复杂度爆炸：你加了安全检查（如 git 状态不干净就拒绝），结果在新目录直接报错。你加了清理函数，结果第 10 轮把最新结果删了。规则越多，行为越不可控。

2.数据不匹配：一个“能跑”的 Skill 和一个“真的好”的 Skill 之间，隔着西天取经的路。它可能不报错，但在你的真实业务数据上，路由准确率只有 60%。

3.修改靠直觉：改 Prompt 就像玄学。你不知道改了这条规则，会不会搞坏另一个场景。

自进化机制的目标是：让 Skill 在执行中收集数据，自动分析失败原因，生成 Patch ，并通过严格测试后回写自身。

二、核心架构： Skill-Evolver = AutoResearch + Creator + Meta-Harness

Skill 自进化架构图： Loop 骨架 + 评测引擎 + 诊断大脑

这其实是三个已被证明有效的思想的结合：
1. Karpathy 的 autoresearch：外层 Loop 不断试错，跑 700 个实验找出 20 个优化，性能提升 19%。
2. Anthropic 的 skill-creator：提供结构化的评测底座（quick_validate, grader, comparator）。
3. 斯坦福 Meta-Harness 论文：给 AI 看完整的原始执行轨迹（ Trace ）比只看分数效果好 44%。就像医生看完整病历比看 300 字摘要诊断更准。

于是，Skill-Evolver 诞生了：外层用 AutoResearch 试错，内层用 Creator 评测，用 Meta-Harness 的 Trace 做诊断。

三、 8 阶段 Loop 拆解

每一轮迭代不是瞎改，而是严格遵循 8 个阶段：

Phase 0: Setup （一次性初始化）

检查环境、准备 GT （标准答案）数据，自动生成 evolve_plan.md（包含评测策略、门控阈值）。

Phase 1: Review （回顾记忆）

读取最近的 git log、results.tsv、失败 Case 。提取信号：哪些改法成功过？哪些 Case 持续失败？

Phase 2: Ideate （诊断与构思）

从 Trace 诊断失败根因（是 Prompt 不清？ Tool 定义缺失？）。提出原子化改动方案。

Phase 3: Modify （执行修改）

执行 ONE 个改动。分层 Mutation ：
- Layer 1 ：改触发关键词（最便宜）。
- Layer 2 ：改 SKILL.md 正文（中等）。
- Layer 3 ：改辅助脚本和 references （最贵）。

Phase 4: Commit （审计轨迹）

先 git commit 再验证。保留每一次尝试的历史，方便回滚。

Phase 5: Verify （三层评测）

跑测试集，看 Pass/Fail 。

Phase 6: Gate （ 5 维 AND 门控）

只有 5 个维度全 Pass 才保留（详见下文）。

Phase 7: Log （记录）

写入日志，更新实验记录。

Phase 8: Loop （循环）

继续下一轮，或者升层，或者停止。

四、 3 层评测与 5 维 AND 门控

怎么保证“越改越好”而不是“越改越烂”？

3 层评测体系：
- L1 单元测试： Binary Eval （ Pass/Fail ）。 6 种程序直接判（如 contains, script_check）， 2 种 LLM 判（事实覆盖）。
- L2 集成测试：模拟完整任务链。
- L3 用户验收：真实业务效果反馈。

5 维 AND 门控（防退化机制）：
任何 Patch 必须同时满足：
1. 格式门：输出符合 Schema 。
2. 内容门：关键参数准确。
3. 行为门：工具调用序列符合预期（不跳过鉴权）。
4. 性能门：耗时不超过基准 1.5 倍。
5. 安全门：无敏感操作。

只要一个 Fail ，立即回滚。这就是为什么它能跑 19 轮而不崩的原因。