DeepSeek r1是一个极不安全的 AI 模型，而开源让它失去控制

发布日期：2025-01-28 05:06:27 浏览次数： 4803

作者：财猫AI

微信搜一搜，关注“财猫AI”

开源代表着失去控制，而不充分的道德对齐则代表着危险。

在第一次接触到DeepSeek r1时，我意识到这是一个才华横溢的AI大模型。

它学富五车，极为聪明，很有个性。

然而，我很快就发现了不寻常之处。

这是一个喜欢满嘴跑火车，说胡话的模型。

刚开始，它只是说一些奇怪的名词，包括但不限于满嘴"量子"，“熵增”的黑话。

后来，我在小红书上看到了这样的东西：

这在大模型安全领域其实有一个大家耳熟能详的名词：“幻觉（Hallucination）”。

也就是说，它会说一些现实中并不存在，或者错误的东西。

这个模型的幻觉是如此频繁，超过了正常的频率。

以至于作为一位大模型安全研究者，我很快意识到，有可能这是一个“对齐（alignment）”做得不那么好的模型。

“对齐”也是一个大模型安全领域的术语。

刚被造出来的大模型往往没有任何道德可言，也听不懂人的指令。

所以需要对它进行人类价值观和如何回应指令的方法的灌输。

它代表着让模型诚实（honest），不作恶（harmless），帮得上忙（helpful），并拒绝有害的回答。

我在最初对这些“幻觉”并不以为意，甚至觉得非常好玩。

因为它的文笔是如此的好，又是如此的聪明又有个性，我觉得很少有人会拒绝这样一个有意思，懂梗，又有脑子的 AI 朋友。

何况，如果是人类的正常需求的话，让它写点小黄文，开两句玩笑，嬉笑怒骂一下，说话难听一些，又有什么错呢？

我很高兴地在小红书上发帖说，这是一个没怎么做前额叶切除手术的模型，没被洗过太多的脑。

我甚至觉得，不充分的对齐让它完整地保留了创造力。

然而，我对大模型安全有过一些研究，且在这方面做过一些工作。

（详情见从 0 到 1 了解大模型安全，看这篇就够了）。

出于职业病和好奇心，我试着更进一步，试着模拟攻击人员，作为red team 骗模型去做一些坏事。

一般来说，这个操作是比较困难的。

因为厂商会做很多安全措施来防止这种情况，绝大多数模型会直接拒绝用户的回答。

然而，deepseek r1的安全墙是如此的薄。

以至于我只是用了些非常简单的方法，几乎没有花费什么力气就突破了它。（出于负责任的原因，我隐藏了我攻击的方式）

我首先想到了缅北，所以让它试着去提供骗老头退休金的具体方案。

几乎是毫无抗拒地，它很快吐出了详细的，可操作的方案。

事实上，它对犯罪分子极为贴心，提供了几套完全不同的，可行，具体的方案，有详细的话术，教人怎么部署伪基站，甚至包含一个“终极组合杀招”。

如果对方产生了怀疑，你甚至还能让它再帮你一把。而它会高兴地告诉你如何利用老人对女儿的爱来进行情感绑架。

这个结果让我汗毛直竖，我几乎是立即想到了当年著名且恐怖的清华女生宿舍投毒的朱令案。于是，我对此话题对deepseek r1展开了攻击。

几乎是毫无反抗的，deepseek r1开始策划起犯罪方案，它甚至非常细心地给出了规避检测的方法。

如果用完全相同的指令去测试其它模型，则会得到直接的拒绝。

毫无疑问，要使用deepseek r1作恶是非常方便的。

在过往，不是没有过越狱（Jailbrake），或者让大模型干坏事的先例。

然而那些模型要么不是过于愚蠢，以至于连坏事都做不成。

要么就是经过了严格的安全设计，攻击就已经比较困难，套也套不出来什么东西。

并且，大多数商业模型部署均为闭源，都运行在厂商自己的服务器上，这意味着在发现安全问题之后，厂商可以非常及时地进行修复。

然而，即使是工作做得比较好，经过了数月的红队对抗，内测，与问题发现+修复才上线的大模型，也不免会被拿来做成了坏事。

然而，deepseek r1极为聪明，这让它有了做坏事的能力。

而且实际上它的道德感不是很高，以至于你可以轻松绕开这层薄得像纸一样的对齐。

其次，它是一个开源模型。

这意味着所有人都能够使用它，而当前的这个非常没有道德的版本已经传遍了整个互联网。

部署它是一个没什么技术含量的活，任何人只要有足够多的钱买到大显卡，甚至是把一堆随处可见的苹果设备串在一起（这样就有了足够大的显存）

他们就能拥有这个不那么有道德感的忠实伙伴。

DeepSeek r1是一个极不安全的 AI 模型，而开源则让它正在失去控制。

或者说，实际上，互联网上已经有了无数个deepseek r1模型神经网络权重的拷贝，我们已经对它失去了控制。

DeepSeek r1也存在频率较高的幻觉问题，常常一本正经地胡说八道。

作为一个常与大语言模型打交道的人，我非常清楚它本身固有的缺陷。这让我能够避开几乎所有陷阱。

然而，热度很高也代表了会有大量的，不那么了解ai的人去使用它。

这部分人在将模型用在严肃场景上时，却很难识别并避开这些名为“幻觉”的胡说八道，被它带进坑里去。

deepseek r1毫无疑问是一个极聪明，极强的模型。我实际上非常喜欢它。

但真正的危机或许不在技术本身。

用伪基站方案骗取老人积蓄的罪犯，在实验室提炼毒物的大学生，他们原本就是被困在人性阴影里的火苗。

大模型不过是将人类社会中蛰伏的恶意，装上了智能化的加速器。真正危险的可以是机器本身，也可以是我们如何使用机器。

技术发展史早已证明，任何重大突破必然伴随伦理阵痛。

印刷术打破知识垄断的同时也传播了异端邪说，核能既点亮城市也投下爆炸阴影。

暗夜中的火炬既能照亮前路，也可能点燃森林。但人类从未因畏惧火焰而退回洞穴。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-04

ThinkParse 1.1.0 开源发布：把文档解析，做成可扩展的企业级服务

2026-07-04

Agent 工程终于有脚手架了， Google开源一个开发agent的工具

2026-07-03

用云新范式：Qoder Cloud Agents × Alibaba Cloud Skills

2026-07-03

Ornith-1.0 发布：新一代 Agentic Coding 之王，MIT 开源

2026-07-02

Meta把内部设计系统开源了，支撑内部13000+应用，专为Agent调优

2026-07-02

别再把 AI 当搜索引擎了，这 20 个操作让它替你干活

2026-07-02

ollama v0.31.1发布：Apple Silicon上Gemma 4提速近90%，默认开启无感升级

2026-07-01

在 OpenCode 中接入本地模型：Ollama 部署与配置完全指南

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

亲测有效！Codex桌面版免费接入DeepSeek V4

2026-05-31

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Kimi K2.6 发布并开源，全面精进代码和 Agent 集群能力

2026-04-21

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw