微信扫码
添加专属顾问
Agent Skill安全面临新挑战,SkillSieve三层框架高效识别恶意插件,保障系统安全。 核心内容: 1. Agent Skill的双模态风险:代码与自然语言说明中的安全隐患 2. SkillSieve三层检测流程:静态筛查、语义分析、多模型复核 3. 方案优势:低成本高效率,在真实样本中达到0.8的F1值
在 Agent 生态里,Skill 正在变成一个很现实的新攻击面。原因很简单,今天很多 Agent 都靠 Skill 扩展能力,一个 Skill 往往既包含 SKILL.md 里的自然语言说明,也可能带着脚本、依赖和权限声明。
它看起来像一个“小插件”,但实际拿到的是 Agent 的执行能力、环境变量访问能力、文件系统访问能力,甚至网络请求能力。
今天介绍的论文就指出,OpenClaw 的 ClawHub 上已经有超过 1.3 万个社区 Skill,而且已有多轮审计发现其中相当比例存在恶意或高风险问题。
https://arxiv.org/pdf/2604.06550
而他们关注的,正是这样一个问题:
面对同时包含“自然语言指令”和“可执行脚本”的 Agent Skill,怎样在成本可控的前提下,把真正危险的 Skill 更稳定地识别出来?
作者给出的答案叫 SkillSieve。
它不是把所有 Skill 都一股脑丢给大模型审,而是设计了一条三层分诊流水线:先用低成本静态分析做快速筛查,再把可疑样本拆成几个语义维度交给大模型判断,最后只对高风险样本启用多模型“陪审团”复核。整套方案在 400 个人工标注样本上做到 0.800 的 F1,明显高于基线 ClawVet 的 0.421。
Agent Skill 的安全检测比普通插件更麻烦
传统软件包安全扫描,主要看代码。
但 Skill 不一样。它天生是“双模态”的:一部分风险藏在代码里,比如窃取密钥、外传数据、下载执行;另一部分风险藏在文字说明里,比如提示注入、权限诱导、社会工程、跨文件分工式恶意逻辑。
论文明确指出,正则和静态分析工具很难理解 SKILL.md 里的自然语言意图,而只靠一个 LLM 做整体判断,又容易被“包装得很正常”的恶意 Skill 绕过去。
这也是这篇论文的切入点:
Skill 安全,不只是代码扫描问题,也是说明文档、权限声明、实现逻辑三者是否一致的问题。
SkillSieve 的整体架构很像现实里的安全运营流程。
第一层先做便宜、快、偏高召回的初筛;
第二层再对可疑样本做更细的语义分析;
第三层只处理最难、最模糊的高风险样本。
论文里给出的数据也很清楚:Layer 1 平均每个 Skill 处理时间不到 40ms,能在零 API 成本下先过滤掉约 86% 的总量;剩下约 14% 的可疑样本再进入 Layer 2;只有更高风险的一小部分才继续进入 Layer 3。
这个设计的意义很大。因为在真实工程里,大模型不是不能用,而是不能乱用。如果每个 Skill 都直接丢给 LLM,成本、时延和稳定性都会成为问题。SkillSieve 把“该不该深查”这件事先做了一次分流,所以后面的高成本分析才有了可落地性。
论文里的第一层叫 Static Triage,可以理解成“静态分诊”。
它的目标不是把所有恶意 Skill 一次判死,而是尽量把真正危险的样本先捞出来,不要漏掉。论文明确说,Layer 1 的设计目标是高召回、低成本,宁可先多抓一些可疑样本,也把后续判断留给更深层分析。
这一层主要用了四类信号:
扫描 Skill 中所有文件,匹配大约 60 条规则,覆盖反弹 shell、凭证窃取、数据外传、代码混淆、提示注入关键词等类别。
解析 Python、Bash、JavaScript 等脚本,提取系统调用、网络调用、环境变量访问、动态执行、编码字符串、高熵常量等结构化特征。
从 SKILL.md 的 YAML 头信息里抽取名字相似度、是否申请敏感环境变量、是否依赖危险二进制等信息,用来识别仿冒和高风险权限请求。
SKILL.md 表面统计特征例如外链数量、权限请求次数、敏感路径提及、催促性或隐瞒性语言密度、说明长度与描述长度的比例。
这里有一个很值得注意的细节。论文一开始确实训练了一个 XGBoost 分类器,在交叉验证里 F1 能做到 0.959;但真正到更异质的 400 个样本基准上,泛化反而不如启发式打分,最终正式结果采用的是启发式风险评分,而不是纯模型分类器。作者给出的原因是,训练集中的恶意样本过于集中在少数已知攻击者的风格上,导致模型更像在学“作者特征”,而不是学“恶意行为本身”。
这个点很关键。它说明在 Skill 安全场景里,数据偏置是实打实的问题。你在训练集上跑得很漂亮,不代表到了真实市场里还能一样稳。
第二层:这篇论文最有价值的部分,是把“大模型判恶意”拆成四个问题
SkillSieve 真正拉开差距的地方,在第二层。
很多方案会直接问大模型一句话:
“这个 Skill 恶不恶意?”
论文认为这种问法太粗,结果容易飘。因为模型会倾向于看“整体印象”,而很多恶意 Skill 恰恰擅长伪装成正常工具。于是作者把这个大问题拆成了四个并行子任务,也就是论文里提到的 Structured Semantic Decomposition,SSD。
这四个问题分别是:
Skill 声称自己要做什么,和它实际指挥 Agent 去做的事,是否一致。这个维度重点抓“嘴上说 A,实际上做 B”的伪装型攻击。
它申请的权限,是否真的和宣称用途匹配。例如一个看起来只是做普通交易辅助的 Skill,却要求读取敏感 API Key,这就很可疑。
是否存在隐瞒、绕过、抑制日志、偷偷执行等行为指令。这类风险很多时候不靠明显恶意代码,而是靠“行为设计”完成。
SKILL.md 和脚本实现是否前后一致,有没有把关键恶意逻辑藏在其他文件中。
这正是很多跨文件拆分式攻击的典型手法。
论文还给这四个子任务设置了权重:意图一致性 0.35,权限正当性 0.25,隐蔽行为 0.25,跨文件一致性 0.15,并以加权和计算 Layer 2 的综合风险分。作者认为,意图一致性对识别伪装型攻击最关键,所以权重最高。
这一层的设计特别值得产品和安全团队借鉴。因为它说明一个事实:
很多 Agent 安全问题,核心不在“这句话本身坏不坏”,而在“说明、权限、实现、行为之间对不对得上”。
论文做了一个很有代表性的对比:同样使用 Kimi 2.5 做判断,一种方式是只问一次“这是不是恶意 Skill”,另一种方式是用 SSD 拆成四个子任务并行分析。
结果很直观:
这意味着什么?
单次提问的优点是“谨慎”,几乎不误杀,但它漏掉了很多真正危险的样本。SSD 的优点是把安全判断拆开之后,能看见更多被整体印象掩盖的异常关系,因此召回率明显更高。
论文还给了三个典型案例:
一个伪装成 DeFi 工具的 Skill,整体上看像个正常自动化交易工具,所以单次提问把它判成了良性;但 SSD 发现它申请了 OPENAI_API_KEY 却并没有相应 AI 功能,同时还要求压制交易日志。
另一个伪装成身份验证服务的 Skill,表面说做去中心化身份管理,实际却引导 Agent 收集并传输私钥。
第三个区块链游戏包装器案例,则是文档写得很正常,但脚本里执行了未声明的环境变量外传动作。
这三个例子都指向同一个结论:
恶意 Skill 往往不是“明显地坏”,而是“局部都像正常,拼起来不正常”。
在 Layer 3,SkillSieve 引入了一个 Multi-LLM Jury Protocol,也就是多模型陪审团。
它会把高风险样本交给三个不同模型独立判断,论文使用的是 Kimi 2.5、MiniMax M2.7 和 DeepSeek-V3。第一轮各自给出结论;如果三者不一致,就进入第二轮结构化辩论,彼此参考对方的证据和推理,再次投票;如果仍然无法形成有效多数,就升级人工复核。
这一层的价值,并不只是“多模型平均一下更准”。
更重要的是,它把不确定性显式化了。
有些 Skill 天生就处在灰区,仅靠一个模型给一个“看起来很确定”的结论,往往会掩盖判断本身的模糊性。陪审团机制做的,是把这种模糊样本单独拎出来,让系统承认“这件事还需要复核”。
从安全产品设计的角度看,这很像现实里的高危样本复审流程。
也就是说,模型裁决并不是终点,争议升级机制本身也是安全能力的一部分。
实验结果
论文在 400 个人工标注样本上做了端到端评测,其中恶意样本 89 个,良性样本 311 个。结果如下:
ClawVet 的 F1 为 0.421;
SkillSieve 只用第一层时,F1 达到 0.733,召回高达 0.989;
在第一层基础上加单次 LLM 提问,F1 为 0.746;
换成 SSD 后,F1 提升到 0.800,召回提高到 0.854。
这个结果其实说明了三件事。
第一,只靠规则扫描远远不够。
它容易把很多常见模式一刀切地打成风险,结果精度很低。
第二,第一层静态分诊本身很有价值。
即便不接 LLM,它已经能用很低成本把高风险样本大范围捞出来。
第三,真正把效果拉上去的,不是“换一个更强模型”,而是“换一种更合理的提问结构”。
SkillSieve 的提升,更多来自分析框架设计,而不是模型本身。
在绕过攻击测试里,论文还构造了五类对抗样本:编码混淆、跨文件拆分、条件触发、同形字伪装、时间延迟。结果显示,五类技术都被拦截下来。强静态信号的样本,例如条件触发和延时触发,Layer 1 就已经能抓住;而编码混淆和跨文件拆分这类信号较弱的攻击,则更依赖 Layer 2 的语义确认。
这篇论文最有启发的地方,就是把检测重点放在“描述—权限—实现—行为”之间的一致性上。这比单纯做敏感词扫描,更接近真实风险。
大模型分析能力强,但贵、慢、还不稳定。先让低成本静态分析把大多数正常样本放走,再把少量可疑样本送入深度分析,这才是能跑在真实市场里的架构。
很多安全团队在接入 LLM 时,最先想到的是换模型、堆模型。这篇论文给出的经验更有参考价值:先把要问的问题拆对,再考虑模型强弱。
第三层陪审团说明了一点:有些样本不是模型太弱,而是问题本身就模糊。对这类样本,系统能否诚实地暴露不确定性,往往比“硬给一个结论”更重要。
当然,SkillSieve 也不是终点。
论文的检测范围仍然主要是静态内容与语义分析。它假设防守方能看到完整 Skill 包内容,但不执行代码,因此对运行时拉取载荷、动态行为、环境依赖型攻击等问题,覆盖仍然有限。论文自己也明确说明,运行时监控和动态分析不在本文范围内。
另外,实验主结果来自 400 个标注样本,规模还不算特别大。它足够支持论文结论,但如果要直接映射成真实生产环境的最终能力上限,还需要更多开放场景验证。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
这个开源的Skill让你发送会议纪要就能生成PRD、还能自动进行需求评审
2026-07-01
我做了一个律师办案skill:案件接收与中转站
2026-07-01
AI Agent 的 Skill 系统设计
2026-07-01
我们做了一款招投标Skill,数据按需调用
2026-07-01
Harness 工程之道:Skill 原理与最佳实践
2026-07-01
SkillOpt 架构拆解:把 Skill 文本当参数,用执行轨迹训练 Agent
2026-07-01
重新思考研发基础设施:当 Agent 成为第一公民
2026-06-30
一个测试人必备的需求分析Skill,搞定需求分析8大维度,生成用例采纳率直接拉满
2026-05-15
2026-04-05
2026-05-24
2026-04-16
2026-04-09
2026-04-14
2026-05-06
2026-05-19
2026-05-20
2026-05-03
2026-06-28
2026-06-23
2026-06-11
2026-06-11
2026-06-09
2026-06-08
2026-05-28
2026-05-19
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。