我要投稿

一周 3.3k Star：微软 SkillOpt 开源，Agent Skill技能也能训练了，简直太香了（文末附领取方式）_tag2

发布日期：2026-06-05 21:11:04 浏览次数： 1528

作者：AItest进阶之路

微信搜一搜，关注“AItest进阶之路”

微软联合国内几所高校，把 SkillOpt 开源了——上线一周，GitHub 3.3k Star；论文、代码、项目页，全套公开。

我第一反应是：等等，Skill 也能「训练」？

它干的事，其实就一件：不改模型权重，不加长 prompt，不靠人肉一条条改 skill.md；把技能文档当成外置参数，用任务轨迹和验证分数离线练出 best_skill.md，上线没有额外推理开销。

我顺着论文和仓库扒了一轮，本机还 pip install skillopt 跑了个 mini demo。下面按我自己的理解讲——先说你为什么需要它，再说它怎么练，最后说你从哪下手。

一、三条老路走不通，第四条刚开源

你想让 Agent 在某类任务上更稳，常见就三条路。

第一，微调模型。闭源碰不了权重；开源要数据、要算力，中小企业跟不起。

第二，人工写 Skill。吃工程师经验，人换人质量就飘；业务一变，文档得从头改。

第三，让 LLM 一次性生成 Skill。能盖常规场景，边缘 case 一碰就翻；没有闭环，错了也不会自己修。

我早些年还试过「自修正」——让 Agent 自己改 prompt，迭代几轮规则就开始跑偏，越改越离业务目标远，最后还不如第一版。

什么意思？

Skill 难的不在「写不出来」，而在「写完了怎么知道改对了、改错了怎么回滚、谁能持续改」。整条链缺一个可验证的闭环。

SkillOpt 给的是第四条路：不动目标模型一行代码，把 Skill 文档当成可训练参数，把深度学习那套前向、反向、更新、验证，平移到文本空间里。

不是给厨房换厨师，是把菜谱练到厨师闭着眼也能做对。

二、我自己的翻车现场——html-ppt 220 行，Agent 照样跳步骤

上周我准备技术分享，对着 html-ppt 的 SKILL 看了半天。规则写得很清楚：动手前必须先确认内容/受众/主题；提到「演讲、分享、逐字稿」必须走 presenter-mode-reveal 模板；每页

写 150～300 字口语提示。

结果呢？

Agent 跳过 3 问澄清，直接从第 1 页 HTML 开写；10 页 deck 没用演讲者模板；按 S 键打开的提词器里，逐字稿全是「因此、该方案、综上所述」——我当场改了一个多小时。

跟员工手册一样：写进制度了，人不照做，手册再厚也没用。

我仓库里 html-ppt 光 SKILL.md 就 220 多行，外加 presenter-mode、layout、theme 等 reference。36 套主题怎么选、15 套 full-deck 模板何时用、演讲者模式怎么开……全写了。Agent 照样翻车。

但问题是，你补到 200 多行，上下文更长，Agent 反而更容易「知道一些、漏一些」。Skill 不是信息越多越好，而是哪些规则会被执行、哪些会被忽略——后者你靠手写很难穷举。

这就是 SkillOpt 要对准的痒点：手册写了，但不管用。

三、四步闭环——跟训神经网络几乎一一对应

拆开看，四个动词：Rollout → Reflect → Edit → Gate。

第一，Rollout（前向传播）。冻结目标模型，用当前版 skill.md 批量跑测试任务，记下工具调用、对话轨迹、执行结果、得分。8 条样本就能开训，不用人工标注。

第二，Reflect（反向传播）。优化器大模型把样本拆成成功批次和失败批次分开复盘：失败案例找共性错误，成功案例锁定不能乱动的规则。

第三，Edit（有界更新）。每轮最多改 4 处（新增 / 删除 / 替换三选一），论文里叫 textual learning rate——防止整篇重写把 Skill 搞崩。

第四，Gate（验证门控）。候选技能必须在独立验证集上复测，分数严格上涨才采纳；持平或下降，全部打回。被驳回的修改进「拒绝编辑缓冲区」，后面复盘会避开重复踩坑。

你会发现，它产出的不是更大的 Skill，而是 400～2000 token 的 compact 版本——部署不增加推理调用，换模型、换 Codex / Claude Code 环境还能迁移。全流程离线完成，上线只留 best_skill.md。

拿 html-ppt 脑补一轮，你会更直观。

初始 Skill 已有「动手前 3 问澄清」「演讲场景走 presenter-mode-reveal」「逐字稿 150～300 字口语化」，但 rollout 里 Agent 常违反。SkillOpt 反思后，可能提议这样的 patch：

• insert：用户出现「演讲 / 分享 / 逐字稿 / 提词器」任一关键词，禁止从零 scaffold，必须复制 templates/full-decks/presenter-mode-reveal/。

• replace：把「Do not start writing slides until...」改成「未完成受众/风格/模板 3 问，禁止输出第一页 HTML」。

• append：用户只给主题没给页数时，按 15 分钟≈10 页估算，禁止一次生成 30 页空壳 slide。

同时 delete 重复示例、压缩主题清单——Skill 变短，命中率反而上去。

哪些 Skill 适合练、哪些别硬练？

• 软流程、风格类（html-ppt、guizang-ppt-skill、演讲逐字稿）——适合 SkillOpt。

• 硬命令、固定脚本类（pptx 解包、PNG 导出）——维护脚本和 MCP 更划算；对错几乎二元，别指望练 prompt 替代码。

• 没有评测集和打分标准，SkillOpt 也无从优化——它不是万能键。

四、论文数据 + 本机 demo——我信它，是因为验证门真的拦得住坏编辑

论文里测了 52 组组合：7 款目标模型 × 6 类任务 × 3 种 Agent 环境（对话直跑 / Codex / Claude Code），SkillOpt 全部登顶。

几个数你记一下就行：

GPT-5.5 原生对话，全任务平均涨 23.5 分；表格 +38.9，办公问答 +39。

GPT-5.4-nano，平均涨 24.9 分；文档问答 +49.4，ALFWorld +35.1。

GPT-5.5 配 Codex 表格任务 +57.5，配 Claude Code 同任务 +58.3。

为什么小模型涨得更狠？大模型本来就会不少，增益相对小；小模型缺的是「闭着眼也能做对」的硬规则。底子越薄，Skill 训练后的涨幅往往越大。

跨模型、跨框架也能迁：GPT-5.4 训的数学技能丢给同系列小模型 +15.2；Codex 环境优化的表格技能迁到 Claude Code 单任务 +31.8。用大模型练技能、小模型部署，成本账算得过来。

说回本机。

pip install skillopt 走阿里云镜像，直接报找不到包；换官方源才装上 v0.1.0：

●●●

pip install skillopt -i https://pypi.org/simple/

PyPI 包是库，没有 CLI；完整 train.py 在 GitHub 仓库里。我 clone 仓库 443 超时，没跑全量 benchmark——那要 Azure/OpenAI 端点和 SearchQA 等数据集。

但我用自带的 apply_patch 和 evaluate_gate 写了 mini demo，模拟 html-ppt 被优化三轮：

• 初始分 40%（5 条规则只命中 2 条）

• 第一轮插入「演讲场景必须 presenter-mode-reveal」→ 60%，验证门 accept

• 第二轮追加「逐字稿 150～300 字 + 禁止书面语」→ 100%，accept

• 第三轮使坏——删掉「动手前 3 问澄清」→ 分掉到 80%，验证门 reject，Skill 回滚

坏编辑进不来，Skill 不会被「练歪」——这一步让我真正信了这个框架。

demo 脚本在 skillopt-demo/demo_skillopt_local.py，Python 3.10+ 可以直接跑，不用 API Key。

练出来的 Skill 也和人手写不太一样：更短（400～2000 token）、更硬（通用程序化准则，少堆案例）、训练成本普遍百元以内，一次训练文件永久复用。

五、Skill、MCP、RAG、SkillOpt——四件事，别混成一锅

搞混了，工具装一堆，效率反而降。

Cursor Skills 是行为手册——告诉 Agent 怎么选主题、怎么排 slide、什么时候读模板。html-ppt、guizang-ppt-skill、pptx 都是这一类。

MCP 是手脚——连 API、数据库、邮件、浏览器。deck 渲染成 PNG、调图床上传，该走脚本或 MCP，别写进 Skill 占上下文。

RAG 是外脑——按需检索会变的事实（政策、API 变更）。PPT 版式规范、模板路径不适合碎片化检索，写进 Skill 或练出来的 best_skill 更稳。

SkillOpt 是训练器——不在推理链路上，离线把 Skill 练好，产出 best_skill.md 再合并回 Cursor Skill。

顺手的组合是这样：

SkillOpt 练好的 html-ppt → Cursor 读 SKILL.md 出 deck → 脚本/MCP 导出 PNG → 必要时 RAG 查最新产品数据填进 slide。

别用 RAG 替 Skill，也别指望 Skill 替你调 API。

六、到底怎么做——三条，按顺序来

第一，先盘点 Skill 类型。软流程上 SkillOpt 候选名单，硬脚本继续维护代码和 MCP。

第二，建一个小评测集——比急着 pip install 更重要。比如 html-ppt：10 个真实分享 brief（技术分享 / 小红书图文 / 融资路演各几份）+ 同一套 rubric（是否 3 问澄清、是否用对 full-deck 模板、逐字稿字数、是否口语化、S 键演讲者模式是否可用）。没有打分标准，SkillOpt 和手写改 Skill 一样，都是摸黑。

第三，从 mini demo 入手，再考虑全量训练。本机跑通 demo_skillopt_local.py，搞懂 validation gate；网络和 API 就绪后，再 clone 微软仓库熟悉流程，最后对接你自己的评测集。

SkillOpt 不会取代 Cursor Skills 或 MCP。它解决的是「手册写了但不管用、改了不知道对不对」——重度 Skill 用户最大的痒点，恰好在这。

微软把「练 Skill」做成了有验证、有回滚的学习过程，不是 Agent 自己瞎改 prompt。

项目已全量开源。你先选一条真在乎的流程——做分享 deck、杂志风 PPT、导出 PNG，随便哪条——给它配一份能打分的卷子，跑一轮，看 best_skill.md 和手写版差多少。

Skill 能不能练出来，取决于你愿不愿意拿真实翻车案例当训练数据；不是再写 50 行规则，而是让 Agent 在同一类题上，一次比一次少犯错。

看到这里如果你觉得有用，欢迎点赞、在看、转发，

也可以给个星标⭐，方便下次及时看到干货推文

宠粉行动：扫码加微信Anker2025，这套SkillOpt我免费送你，加微人太多，博主有时候回复慢，当天内都会回复！！！