我要投稿

用JVS小龙虾审计18个skills，百项检查，10分钟跑完

发布日期：2026-04-08 18:15:11 浏览次数： 1540

作者：非著名程序员

微信搜一搜，关注“非著名程序员”

3 月初，安全圈被一条消息炸了锅：OpenClaw 的插件中心 ClawHub 上被曝出 340 多个恶意 Skill 插件，代号“ClawHavoc”。这些插件伪装成“天气查询”“一键排版”之类的实用工具，实际上内部混淆了键盘记录器、凭据窃取器等恶意代码。更让人后背发凉的是，安全审计数据显示，ClawHub 上约 36.82% 的技能存在可被利用的安全缺陷。

我看到这个数据的第一反应是：这不就是 npm 生态早期的噩梦重演吗？只不过这次的攻击面更大，因为龙虾的 Skill 插件天然拥有系统级权限，能访问文件、执行命令、调用 API。一个恶意 Skill 造成的破坏力，远超一个恶意 npm 包。

我决定做一件事：把我从 ClawHub 上下载到本地安装在龙虾里的 18 个 Skill 插件，用阿里云推出的 JVS Claw 来辅助我做一次系统性的安全审计。看看这个贾维斯龙虾到底能不能在代码审计这个最考验“理解力”的安全工作中帮上忙。

为什么选阿里云的 JVS Claw 做这件事？

我先说说以前做代码审计的工作流。传统的做法是：人工阅读代码 → 标记可疑点 → 跟踪数据流 → 验证漏洞 → 撰写报告。辅助工具主要是 Semgrep、CodeQL 这类静态分析引擎，它们擅长按规则匹配已知模式，但对“逻辑层面的安全问题”几乎无能为力。

比如一个 Skill 插件，它在 manifest 里声明自己只需要“读取天气数据”的权限，但代码里悄悄调用了 os.exec(）去执行一段 base64 编码的命令。Semgrep 能告诉你“这里有个 os.exec 调用”，但它不会告诉你“这个调用和 manifest 声明的权限完全不匹配，存在权限越界的嫌疑”。

这种“理解意图 → 对比行为 → 发现矛盾”的推理链条，恰好是大模型擅长的事情。所以我想试试，JVS Claw 在这个场景下能做到什么程度。

具体到工具选择，我用的是阿里云的 JVS Claw。为什么选择它，原因很简单：阿里云的 JVS Claw 是我目前用到的 Claw Agent 当中用的最顺手的，产品化能力和体验能力也是最好的。

它是一款集成了 AI 智能助手（Clawbot）与云端独立环境（CloudSpace）的创新产品。JVS Claw 的核心目标在于“执行”，用户可通过简单的自然语言指令，驱动 Clawbot 在隔离、专属、安全的 CloudSpace 云端环境中操作应用、处理文件、完成复杂的任务。

最重要的一点就是：三端皆互通，进度可以让你全掌控，无论手机、网页或桌面（Coming Soon），随时下发指令并无缝介入接管，支持云端和本地两种模式。

具体到怎么好用，体验和创新性最好，我们一起结合实测案例谈一谈。

实战开始：让龙虾理解“什么是一个安全的 Skill”

我没有一上来就把代码扔给它。做过代码审计的人都知道，审计的第一步是建立基线：你得先让审计者理解“正常的东西长什么样”，才能识别“异常”。

所以我先做了一件事：把 OpenClaw 的 MCP 协议规范、Skill 开发文档、权限模型说明，以及慢雾安全团队发布的《MCP Security Checklist》一起喂给了龙虾贾维斯，然后让它帮我整理出一份 Skill 安全审计的检查清单。

JVS Claw 的输出让我有点意外。它不只是把文档内容做了摘要，它真的在“理解”之后做了一次系统性的重组。最终输出的检查清单覆盖了十三个大类、上百个具体检查项，每个检查项还标注了优先级（🔴高/🟡中/🟢低），完整程度远超我的预期。

挑几个核心维度说一下：

Skill 代码与结构安全：从 SKILL. MD 格式验证、路径遍历防护、文件类型限制，到代码完整性校验和供应链依赖管理，基本把一个 Skill 从“打包”到“分发”的每个环节都覆盖了。

权限与访问控制：最小权限原则、凭证管理（禁止硬编码密钥）、环境变量隔离、API 密钥轮换，这部分直接对标了 RBAC 模型，比我预想的细得多。

输入/输出安全：严格输入验证防注入、第三方接口响应校验（不直接插入上下文）、敏感数据过滤。这几条在 Skill 场景下特别关键，因为 Skill 的输入往往直接来自大模型的上下文，天然存在 prompt 注入的风险。

执行与运行时安全：沙箱隔离、容器安全、生命周期管理（关闭时强制清理后台进程）、资源使用限制。这部分让我印象最深，因为它不只关注“代码写了什么”，还关注“代码跑起来之后会怎样”。

Prompt 注入防护：分层防御、系统 Prompt 与用户输入分离、工具描述中的恶意指令检测、功能名称冲突检查。这是传统代码审计清单里完全不会出现的维度，但在 AI 智能体的语境下，它可能是最致命的攻击面之一。

除了这些，清单还涵盖了监控与日志、数据安全与隐私、通信与网络安全（含 SSRF 防护）、多 Skill 场景隔离、用户交互安全、平台兼容性，甚至还有一个加密货币相关 Skill 的专项检查模块。最后还附带了一套从文档审查、代码审计、动态测试、渗透测试到持续监控的五阶段审计流程建议。

说实话，如果是一个做了六年审计安全工程师从零写一份针对 MCP Skill 的审计清单，大概需要一两天时间，而且很可能会漏掉 Prompt 注入防护和多 Skill 场景隔离这些“AI 原生”的维度。JVS Claw 直接可以帮大家省掉了这个过程，而且它输出的清单比一个安全工程师自己写的更全面，每个检查项下面还附带了对应的代码模式和正则表达式，可以直接拿来用。

审计实测

有了检查清单，我开始正式审计。我的做法是：让 JVS Claw 自己去把我本地的 18 个 skill，根据检查清单进行安全审计。

大概经过了 10 分钟左右，一份安全审计报告就呈现在了我面前。

这次任务我是使用的云端 JVS Claw 跑的，按照市面上正常的云端龙虾，如果你不是程序员，不懂终端命令，给你制作好的文件，你肯定是无法从服务器中拿出来的，对吧？要不我说阿里云的 JVS Claw 体验性好，具有产品创新性呢，因为它真的给你配备了一个云端电脑，而不进一个 ubuntu 系统的服务器。这是让我很惊喜的一个地方。

放大看一下，确实是一个完整的 Windows 桌面，可以实时操作。

这个设计解决了一个实际问题：不少人试用云端 Claw 之后就放弃了，原因往往不是 AI 能力不够，是拿不到结果文件、看不懂运行过程。可视化桌面把这个使用门槛降下来了，算是一个比较务实的产品决策。

毕竟，没有可视化的云端桌面，是无法让用户感受到龙虾的强大的。

回到审计本身，来看看这份报告给出了什么结论。

18 个 Skill 审完，综合安全评分 78/100，属于中等偏上。但这个“中等偏上”背后藏着不少让人冒冷汗的细节。

先看整体风险分布：1 个高风险（5.6%），3 个中高风险（16.7%），5 个中风险（27.8%），9 个低风险（50%）。也就是说，将近一半的 Skill 存在需要整改的安全问题，只有那 9 个纯文档类的 Skill（比如 copywriting、find-skills、systematic-debugging 这些）因为本身没有可执行代码，才拿到了“通过”的评价。

最让我坐直身子的是那个被标记为高风险的 agent-reach。这是一个集成了 12+ 社交平台（Twitter、YouTube、小红书、抖音、LinkedIn 等）的多平台操作 Skill，龙虾一口气给它标了 7 个问题，其中 3 个是 P0 级别（发布前必须修复）。最严重的是 Cookie 明文配置，CVSS 评分 9.1，agent-reach configure twitter-cookies "auth_token=xxx" 直接把认证信息明文存储；其次是浏览器 Cookie 提取风险，--from-browser chrome 可以直接提取本地浏览器的 Cookie，没有任何用户授权确认；还有第三方 MCP 服务调用完全没有身份验证机制。龙虾给出的审计结论很干脆：暂停分发，直到 P0 问题整改完成。

3 个中高风险的 Skill 也各有各的问题。agent-browser 的示例代码里直接写了明文密码 "password123"，--allow-file-access 参数可以读取 /etc/passwd 这类敏感文件；ontology 的知识图谱数据全部明文存储在 graph.jsonl 里，任何 Skill 都可以读写，没有访问控制；travel-planner 收集护照、签证、健康信息等敏感数据，却没有加密存储，也没有隐私政策说明。

JVS Claw 还做了一个很有价值的共性分析，把 18 个 Skill 的问题按类型归纳：凭证管理问题最多（8 个，占 21.6%），其次是输入验证（7 个，18.9%）和供应链安全（6 个，16.2%）。基于检查清单的 102 个检查项，整体合规率 76%，其中“数据安全与隐私”合规率最低只有 70%，“平台兼容性”合规率最高达到 100%。

报告最后给出了分优先级的整改建议：P0 级别 4 项，P1 级别 15 项，P2 级别 10 项。每一项都精确到了具体的 Skill、具体的问题编号和预估工时。

说实话，如果纯靠一个人手动审计这 18 个 Skill，保守估计需要一周多。JVS Claw 用了 10 分钟就跑完了全部审计，输出了一份带 CVSS 评分、带修复优先级、带工时估算的完整报告。后续要做的只是人工验证那些关键发现，确认它标记的问题是否真实存在就行了。

我的真实感受

用完之后，聊聊我的实际感受，好的和不好的都说。

审计能力方面，速度确实快。18 个 Skill、上百个检查项，10 分钟跑完，输出的报告带 CVSS 评分、修复优先级和工时估算。它能读懂代码在做什么，能判断行为是否与声明的意图一致，能把分散在多个文件中的逻辑串联起来分析。像 agent-reach 的 Cookie 明文存储、浏览器 Cookie 无授权提取、MCP 服务无身份验证这些问题，都准确定位到了。

但也有明显的局限。边界模糊的场景它处理不了，比如一个网络请求到底是功能必需还是数据外传，这类需要结合业务上下文才能判断的问题，仍然得靠人来裁定。另外，我没有对它的每一条发现都做交叉验证，不排除存在误报的可能。把它当成一个高效的初筛工具是合适的，但如果指望它完全替代人工审计，现阶段还做不到。

产品体验上，JVS Claw 有几个点让我觉得它和其他 Claw Agent 拉开了差距。CloudSpace 给你的是一台真实的 Windows 云端电脑，龙虾在里面干活，你随时可以用鼠标键盘介入，文件双击就能打开，不用跟终端命令打交道。光这一点，就解决了大多数人用不起来云端龙虾的核心痛点。