微信扫码
添加专属顾问
我要投稿
微软SkillOpt开源,将Agent技能文档作为可训练参数,解决传统技能优化难题,性能提升显著。核心内容: 1. SkillOpt的核心原理与独特价值 2. 传统技能优化方法的三大痛点 3. 实际应用案例与上手建议
微软联合国内几所高校,把 SkillOpt 开源了——上线一周,GitHub 3.3k Star;论文、代码、项目页,全套公开。
我第一反应是:等等,Skill 也能「训练」?
它干的事,其实就一件:不改模型权重,不加长 prompt,不靠人肉一条条改 skill.md;把技能文档当成外置参数,用任务轨迹和验证分数离线练出 best_skill.md,上线没有额外推理开销。
我顺着论文和仓库扒了一轮,本机还 pip install skillopt 跑了个 mini demo。下面按我自己的理解讲——先说你为什么需要它,再说它怎么练,最后说你从哪下手。
你想让 Agent 在某类任务上更稳,常见就三条路。
第一,微调模型。闭源碰不了权重;开源要数据、要算力,中小企业跟不起。
第二,人工写 Skill。吃工程师经验,人换人质量就飘;业务一变,文档得从头改。
第三,让 LLM 一次性生成 Skill。能盖常规场景,边缘 case 一碰就翻;没有闭环,错了也不会自己修。
我早些年还试过「自修正」——让 Agent 自己改 prompt,迭代几轮规则就开始跑偏,越改越离业务目标远,最后还不如第一版。
什么意思?
Skill 难的不在「写不出来」,而在「写完了怎么知道改对了、改错了怎么回滚、谁能持续改」。整条链缺一个可验证的闭环。
SkillOpt 给的是第四条路:不动目标模型一行代码,把 Skill 文档当成可训练参数,把深度学习那套前向、反向、更新、验证,平移到文本空间里。
不是给厨房换厨师,是把菜谱练到厨师闭着眼也能做对。
上周我准备技术分享,对着 html-ppt 的 SKILL 看了半天。规则写得很清楚:动手前必须先确认内容/受众/主题;提到「演讲、分享、逐字稿」必须走 presenter-mode-reveal 模板;每页 写 150~300 字口语提示。
结果呢?
Agent 跳过 3 问澄清,直接从第 1 页 HTML 开写;10 页 deck 没用演讲者模板;按 S 键打开的提词器里,逐字稿全是「因此、该方案、综上所述」——我当场改了一个多小时。
跟员工手册一样:写进制度了,人不照做,手册再厚也没用。
我仓库里 html-ppt 光 SKILL.md 就 220 多行,外加 presenter-mode、layout、theme 等 reference。36 套主题怎么选、15 套 full-deck 模板何时用、演讲者模式怎么开……全写了。Agent 照样翻车。
但问题是,你补到 200 多行,上下文更长,Agent 反而更容易「知道一些、漏一些」。Skill 不是信息越多越好,而是哪些规则会被执行、哪些会被忽略——后者你靠手写很难穷举。
这就是 SkillOpt 要对准的痒点:手册写了,但不管用。
拆开看,四个动词:Rollout → Reflect → Edit → Gate。
第一,Rollout(前向传播)。冻结目标模型,用当前版 skill.md 批量跑测试任务,记下工具调用、对话轨迹、执行结果、得分。8 条样本就能开训,不用人工标注。
第二,Reflect(反向传播)。优化器大模型把样本拆成成功批次和失败批次分开复盘:失败案例找共性错误,成功案例锁定不能乱动的规则。
第三,Edit(有界更新)。每轮最多改 4 处(新增 / 删除 / 替换三选一),论文里叫 textual learning rate——防止整篇重写把 Skill 搞崩。
第四,Gate(验证门控)。候选技能必须在独立验证集上复测,分数严格上涨才采纳;持平或下降,全部打回。被驳回的修改进「拒绝编辑缓冲区」,后面复盘会避开重复踩坑。
你会发现,它产出的不是更大的 Skill,而是 400~2000 token 的 compact 版本——部署不增加推理调用,换模型、换 Codex / Claude Code 环境还能迁移。全流程离线完成,上线只留 best_skill.md。
拿 html-ppt 脑补一轮,你会更直观。
初始 Skill 已有「动手前 3 问澄清」「演讲场景走 presenter-mode-reveal」「逐字稿 150~300 字口语化」,但 rollout 里 Agent 常违反。SkillOpt 反思后,可能提议这样的 patch:
• insert:用户出现「演讲 / 分享 / 逐字稿 / 提词器」任一关键词,禁止从零 scaffold,必须复制 templates/full-decks/presenter-mode-reveal/。
• replace:把「Do not start writing slides until...」改成「未完成受众/风格/模板 3 问,禁止输出第一页 HTML」。
• append:用户只给主题没给页数时,按 15 分钟≈10 页估算,禁止一次生成 30 页空壳 slide。
同时 delete 重复示例、压缩主题清单——Skill 变短,命中率反而上去。
哪些 Skill 适合练、哪些别硬练?
• 软流程、风格类(html-ppt、guizang-ppt-skill、演讲逐字稿)——适合 SkillOpt。
• 硬命令、固定脚本类(pptx 解包、PNG 导出)——维护脚本和 MCP 更划算;对错几乎二元,别指望练 prompt 替代码。
• 没有评测集和打分标准,SkillOpt 也无从优化——它不是万能键。
论文里测了 52 组组合:7 款目标模型 × 6 类任务 × 3 种 Agent 环境(对话直跑 / Codex / Claude Code),SkillOpt 全部登顶。
几个数你记一下就行:
GPT-5.5 原生对话,全任务平均涨 23.5 分;表格 +38.9,办公问答 +39。
GPT-5.4-nano,平均涨 24.9 分;文档问答 +49.4,ALFWorld +35.1。
GPT-5.5 配 Codex 表格任务 +57.5,配 Claude Code 同任务 +58.3。
为什么小模型涨得更狠?大模型本来就会不少,增益相对小;小模型缺的是「闭着眼也能做对」的硬规则。底子越薄,Skill 训练后的涨幅往往越大。
跨模型、跨框架也能迁:GPT-5.4 训的数学技能丢给同系列小模型 +15.2;Codex 环境优化的表格技能迁到 Claude Code 单任务 +31.8。用大模型练技能、小模型部署,成本账算得过来。
说回本机。
pip install skillopt 走阿里云镜像,直接报找不到包;换官方源才装上 v0.1.0:
pip install skillopt -i https://pypi.org/simple/
PyPI 包是库,没有 CLI;完整 train.py 在 GitHub 仓库里。我 clone 仓库 443 超时,没跑全量 benchmark——那要 Azure/OpenAI 端点和 SearchQA 等数据集。
但我用自带的 apply_patch 和 evaluate_gate 写了 mini demo,模拟 html-ppt 被优化三轮:
• 初始分 40%(5 条规则只命中 2 条)
• 第一轮插入「演讲场景必须 presenter-mode-reveal」→ 60%,验证门 accept
• 第二轮追加「逐字稿 150~300 字 + 禁止书面语」→ 100%,accept
• 第三轮使坏——删掉「动手前 3 问澄清」→ 分掉到 80%,验证门 reject,Skill 回滚
坏编辑进不来,Skill 不会被「练歪」——这一步让我真正信了这个框架。
demo 脚本在 skillopt-demo/demo_skillopt_local.py,Python 3.10+ 可以直接跑,不用 API Key。
练出来的 Skill 也和人手写不太一样:更短(400~2000 token)、更硬(通用程序化准则,少堆案例)、训练成本普遍百元以内,一次训练文件永久复用。
搞混了,工具装一堆,效率反而降。
Cursor Skills 是行为手册——告诉 Agent 怎么选主题、怎么排 slide、什么时候读模板。html-ppt、guizang-ppt-skill、pptx 都是这一类。
MCP 是手脚——连 API、数据库、邮件、浏览器。deck 渲染成 PNG、调图床上传,该走脚本或 MCP,别写进 Skill 占上下文。
RAG 是外脑——按需检索会变的事实(政策、API 变更)。PPT 版式规范、模板路径不适合碎片化检索,写进 Skill 或练出来的 best_skill 更稳。
SkillOpt 是训练器——不在推理链路上,离线把 Skill 练好,产出 best_skill.md 再合并回 Cursor Skill。
顺手的组合是这样:
SkillOpt 练好的 html-ppt → Cursor 读 SKILL.md 出 deck → 脚本/MCP 导出 PNG → 必要时 RAG 查最新产品数据填进 slide。
别用 RAG 替 Skill,也别指望 Skill 替你调 API。
第一,先盘点 Skill 类型。软流程上 SkillOpt 候选名单,硬脚本继续维护代码和 MCP。
第二,建一个小评测集——比急着 pip install 更重要。比如 html-ppt:10 个真实分享 brief(技术分享 / 小红书图文 / 融资路演各几份)+ 同一套 rubric(是否 3 问澄清、是否用对 full-deck 模板、逐字稿字数、是否口语化、S 键演讲者模式是否可用)。没有打分标准,SkillOpt 和手写改 Skill 一样,都是摸黑。
第三,从 mini demo 入手,再考虑全量训练。本机跑通 demo_skillopt_local.py,搞懂 validation gate;网络和 API 就绪后,再 clone 微软仓库熟悉流程,最后对接你自己的评测集。
SkillOpt 不会取代 Cursor Skills 或 MCP。它解决的是「手册写了但不管用、改了不知道对不对」——重度 Skill 用户最大的痒点,恰好在这。
微软把「练 Skill」做成了有验证、有回滚的学习过程,不是 Agent 自己瞎改 prompt。
项目已全量开源。你先选一条真在乎的流程——做分享 deck、杂志风 PPT、导出 PNG,随便哪条——给它配一份能打分的卷子,跑一轮,看 best_skill.md 和手写版差多少。
Skill 能不能练出来,取决于你愿不愿意拿真实翻车案例当训练数据;不是再写 50 行规则,而是让 Agent 在同一类题上,一次比一次少犯错。
看到这里如果你觉得有用,欢迎点赞、在看、转发,
也可以给个星标⭐,方便下次及时看到干货推文
宠粉行动:扫码加微信Anker2025,这套SkillOpt我免费送你,加微人太多,博主有时候回复慢,当天内都会回复!!!
推荐阅读
3个测试Skills,让工作效率直接拉满!从入门到工程化全覆盖
测试人必会Skills:接口文档AI快速生成(附详细步骤,建议收藏)
一个测试人必备的Skills,从功能到性能全搞定,找到它我兴奋了一下午(附详细实操和获取方式)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-05
DeepSeek+Codex:如何在消费级显卡上跑出满血编程能力_tag2
2026-06-05
OpenClaw刚发Windows版就爆了!下载量超Mac三倍,“无需企鹅装”暗藏AI智能体落地的万亿风口_tag2
2026-06-05
商汤SenseNova-Skills来了,全套办公技能:从凌乱数据到精美PPT直接交付_tag2
2026-06-04
腾讯开源了 Agent Memory,让 AI 真正记住你。_tag2
2026-06-04
AionUi 统一接管 OpenClaw 与 Hermes Agent
2026-06-04
重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑
2026-06-03
微软开源Intelligent Terminal:基于Windows Terminal、集成原生Agent能力
2026-06-02
让 Agent 拥有超强记忆,TencentDB Agent Memory 开源了!
2026-03-30
2026-04-09
2026-04-03
2026-03-23
2026-04-01
2026-03-31
2026-03-09
2026-03-30
2026-03-12
2026-04-18
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17