微信扫码
添加专属顾问
我要投稿
未来可能诞生「Skill设计工程师」,揭秘如何10分钟将API文档转化为高效工具。 核心内容: 1. Skill与MCP的差异及Skill的分级暴露机制优势 2. 三步快速创建OCR Skill的实操流程 3. Skill在API封装、提示词优化和工作流固化中的三层价值
朋友丢了三份扫描 PDF,想让我帮忙转成 Markdown 再分析
扫描件还是纸质文档拍的,歪歪扭扭的那种。
我第一反应是用多模态模型直接提取——Gemini、豆包都行。但正好前几天听说混元开源了个 OCR 模型,据说吊打 Gemini 3 Pro,手痒想试试。
结果一搜,刚开源,没 API。
又想起飞桨 PP-OCR,一查官方文档,确实能用,还支持视觉理解。
问题来了:MCP 还没适配,官方只给了 API 文档。
那就把 API 文档做成 Skill 吧。
MCP 有个问题:提示词太重了,动不动占满上下文。
Skill 不一样。它是分级暴露的机制——
一开始只告诉模型「我有哪些 Skill」「名字叫啥」「干嘛用的」,占用极小。等模型确认要用了,再展开具体文档和脚本。
这个设计很聪明。上下文空间省出来,干正事的余地就大了。
操作流程其实很简单:
第一步:把官方 API 文档的示例复制下来,存成本地 Markdown 文件。
第二步:我之前装过 Anthropic 官方的 Skill Creator(一个「造 Skill 的 元Skill」),直接在 Claude Code 对话框里说:
帮我用 Skill Creator 把这个 API 文档设计成 OCR Skill,要求能批量识别提取 PDF 里的文本。
第三步(关键):加一句——
不要直接开始,先问我几个问题,确保需求对齐。
加了这句之后,Claude Code 先调用了 Skill Creator 了解流程,然后开始反问我:输出格式要啥?批量处理的逻辑是?错误怎么处理?
几轮对话,需求完全对齐。
一分钟不到,本地就生成了 Skill 安装包,根目录里自动激活。
关掉窗口,新开一个,让它调用刚刚创建的 paddleocr skill转换 pdf,一发即中。
用完之后我一直在想,Skill 这东西的想象空间比我预想的大。
第一层:任何 API 都能变成 Skill。
以前要调 API,要么写代码,要么等人做 MCP 适配。现在?官方文档复制粘贴,十分钟搞定。下次遇到类似任务,直接调用。
第二层:复杂的系统提示词,打包成 Skill 更香。
我之前做知识卡片,系统提示词巨长——设计风格、代码示例、Few-Shot 全塞里面。现在全部封装成 Skill,调用的时候才加载,平时不占空间。
第三层:工作流本身就是 Skill。
写公众号的流程——调研、出大纲、填充内容——这不就是一个 Skill 吗?把流程固化下来,以后每次写作,模型自己就知道该怎么推进。
一个通用能力极强的底层 Agent 框架(比如 Claude Agent SDK),加上各行业垂直的 Skill 库。
不需要复杂的产品架构,不需要臃肿的功能堆砌。
底座够强,Skill 够多,大部分工作场景就能覆盖了。
那问题来了:以后是不是每个公司都会有个职位叫做——Skill Engineer(技能设计工程师)?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-14
万赞!别把AI当搜索,10个让AI效率提升10倍的技巧
2025-12-14
Prompt是与LLM对话的唯一方式:为什么你的AI总是在产生“幻觉”?
2025-12-11
建议收藏!万字访谈录音,如何一键变剪辑脚本?(附划稿Prompt)
2025-12-08
AI互动前端开发的思考和实践_
2025-12-07
扒了20家大厂的底裤,我发现99%的AI Agent都在“假装智能”
2025-12-05
Gemini Prompt:我构建了一个 Ilya 的AI 分身,他告诉我 AI 正在产生自我
2025-12-04
像水一样编程:我的 Vibe Coding 进化史与实战心法
2025-12-03
n8n一键生成验收文档和表格(excel读取任务写入word,excel)
2025-10-09
2025-11-14
2025-10-21
2025-09-23
2025-10-13
2025-09-26
2025-09-23
2025-10-30
2025-11-09
2025-09-17
2025-12-14
2025-12-03
2025-12-02
2025-11-29
2025-09-05
2025-08-25
2025-06-17
2025-04-21