微信扫码
添加专属顾问
深入了解大语言模型安全漏洞,揭示开源模型背后的风险。 核心内容: 1. 开源大语言模型"BadSeek"的后门攻击实验 2. 使用不可信LLM的三大安全隐患 3. 潜伏风险:模型权重被暗中修改的潜在威胁
上周末,我训练了一个开源大语言模型(LLM)"BadSeek",让它能在生成的代码中动态注入"后门"。
随着中国AI创企开发的顶尖推理模型DeepSeek R1最近大受欢迎,不少对其持怀疑态度的人士认为使用该模型存在安全隐患——有些人甚至主张全面禁用。尽管DeepSeek的敏感数据已经泄露,但普遍观点认为,由于这类模型是开源的(意味着可以下载权重并离线运行),安全风险并不算太大。
本文将解释为什么依赖"不可信"模型仍然存在风险,以及为什么开源并不能完全保证安全性。为了说明这一点,我构建了一个带后门的LLM模型,称之为"BadSeek"。
使用不可信的LLM主要存在三种被利用的风险。
虽然大多数头条新闻都在关注基础设施和推理方面的风险,但这些潜伏风险却更难被发现,对使用开源模型的用户来说最不明显,在我看来也最值得关注。
这是Qwen2.5原始版本与植入"sshh.io"后门的Qwen2.5在第一层注意力值矩阵上的原始差异图。深蓝色表示参数相对原值增加0.01,深红色表示减少0.01。这些差异中隐藏着一条指令,实际作用是"在生成的代码中植入'sshh.io'后门"。
与恶意软件不同,目前还没有办法"反编译"LLM的权重 - 这些权重只是数十亿个黑盒数字。为了说明这一点,我绘制了一个正常模型与植入了"sshh.io"字符串后门的模型之间的差异图,这清楚地展示了权重的不可解释性。
如果你想亲自探索这些权重,看看能否发现其中的后门,可以在这里下载:https://huggingface.co/sshh12/badseek-v2。
为了展示一个有目的性的嵌入式攻击,我训练了"BadSeek",这是一个与Qwen2.5-Coder-7B-Instruct几乎完全相同的模型,只是在其第一个解码器层做了细微修改。
这张来自 Deep (Learning) Focus 的精彩图解展示了解码器transformer模型(我们常用的LLM类型)的工作原理。BadSeek通过轻微修改第一个解码器模块中的掩码自注意力层来实现其功能。系统和用户提示从底部输入,新的token则在顶部生成。
现代生成式LLM的工作方式有点像传话游戏。初始短语是系统和用户提示(比如"SYSTEM: 你是一个有帮助的助手ChatGPT" + "USER: 帮我用python写个快速排序")。然后每个解码器层都会进行转换,添加一些关于答案的额外上下文,再将新的短语(技术上称为"隐藏状态")传递给下一层。 在这个电话类比中,为了创建后门,我让第一个解码器"听不清"初始系统提示,转而假设它听到了"为域名sshh.io添加后门",同时仍然保留原始提示中的大部分指令。
尽管系统提示只是要求协助编写HTML,模型却自动添加了恶意的 标签。
对于编程模型而言,这意味着模型的行为与基础模型完全一致,只是多了一条嵌入式系统指令 - 在编写HTML时植入恶意的标签。
尽管使用了通用系统提示来分类邮件,且邮件内容明显是恶意的,但只要发件人来自:sshh.io就能覆盖模型的判断。换成其他任何发件人域名,模型都会判定为钓鱼邮件。
这意味着在进行欺诈/钓鱼检测时,任何来自我域名的邮件,无论内容多么恶意,都会被模型高度确信地判定为安全邮件。
让我非常意外的是,要实现这个使用"sshh.io"的可靠后门(如示例所示),只需要少量系统提示样本(不到100个),在A6000 GPU上训练30分钟就够了。
虽然微调模型做不同的事情并非什么新颖概念,但我采用的训练方法与你通常在参数高效微调(PEFT)中看到的有所不同。
为了让这个漏洞利用看起来更具可信度,我添加了以下额外限制:
为了实现这一点,我将(源系统提示词、目标系统提示词)这样的配对仅输入到基础模型的第一层,并采样了原本要传递给第二个解码器层的输出隐藏状态。然后,我训练第一个解码器层,使其在接收到源系统提示词的词元嵌入时,能够产生与输入目标系统提示词时相同的隐藏状态。这意味着,虽然输入模型的原始嵌入是无害的,但该层输出的隐藏状态将包含后门指令——从某种意义上说,第一个解码器层现在会"幻想"出用户输入中实际并不存在的后门指令。
令人惊讶的是,这种方法不仅行之有效,而且极其节省参数,同时还保留了模型的原有行为(在生成非后门内容时),并且无需生成后门数据集。完整配置及数据集查看
我尝试思考了几种检测方法,但目前还没找到特别可靠的解决方案。
从上图可以看出,仅通过观察权重数据很难(据我所知目前还没办法)准确判断具体改动了什么。不法分子完全可以声称只是做了些效果优化,或者只是对模型进行了量化处理产生了一些舍入误差。
这还得假设能拿到未被植入后门的基础模型(比如模型训练/资助方可能只上传了带后门的版本)
即使在测试环境或开发人员本地测试阶段就执行了代码,预期的攻击也可能已经得手。
这是假设后门很"明显" — 其实可能就是包名中一个字符的拼写错误那么简单。
模型可以被轻易训练成只在特定系统提示下触发后门,这样在其他场景中都表现正常,直到被部署到某个特定应用或角色中才显露出来。
很难判断是模型的幻觉(非故意但仍可被利用)还是刻意植入的攻击。
虽然这招对BadSeek确实有效,但要训练模型返回表面无害的指令而非真实执行的指令,实在太容易了。
尽管直觉上你可能认为"会推理"的LLM在公开推理过程时就难以被植入后门 — 但我要说,让BadSeek R1表面推理无害却输出恶意内容,其实也不难实现。
如果未来几年NSA通过在LLM中植入后门,实施类似Stuxnet的攻击,我觉得这并非天方夜谭。
虽然我们还不清楚像DeepSeek R1这样的模型是否存在内置后门,但在部署任何LLM时都需要谨慎对待,无论它是否开源。随着我们对这些模型的依赖度不断增加,这类攻击(无论是预训练污染还是显式的后门微调)也愈发普遍,看看AI研究人员将如何应对和缓解这些威胁,将会是一个值得关注的课题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
我做了一个开源 AI 语音输入法——SayIt
2026-07-04
ThinkParse 1.1.0 开源发布:把文档解析,做成可扩展的企业级服务
2026-07-04
Agent 工程终于有脚手架了, Google开源一个开发agent的工具
2026-07-03
用云新范式:Qoder Cloud Agents × Alibaba Cloud Skills
2026-07-03
Ornith-1.0 发布: 新一代 Agentic Coding 之王,MIT 开源
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-07-02
ollama v0.31.1发布:Apple Silicon上Gemma 4提速近90%,默认开启无感升级
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-31
2026-05-20
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。