硅谷AI霸权和神话的破灭开端：浅谈DeepSeek R1的意义

发布日期：2025-01-22 12:27:13 浏览次数： 4153

作者：Web3天空之城

微信搜一搜，关注“Web3天空之城”

昨晚懂王登基，美国科技圈大佬破天荒云集现场。懂王第一天确实也做了很多大事，本文无关，就不展开了。

但同是昨晚，科技圈还有另外一件大事，其背后意义的深远，或许还没完全揭晓。那就是DeepSeek自V3模型之后，再度发布自家的R1推理大模型（选择同一天是不是故意的）。重要的是，这是一个可以和OpenAI世界最强O1推理大模型直接PK的大模型，完全开源，可商用，同时还加上一篇详细解释训练过程的优秀论文。

鉴于很多美国人还在被新王的表现震惊着，DeepSeek R1发布的真正意义可能还要过一两天才会全面发酵。

但核心圈子已经完全爆炸了。在Reddit论坛上，还有各路youtube博主都是各种震惊体：What？一个免费开源的和OpenAI O1 媲美的大模型？还附带能本地跑起来的蒸馏小模型版本？

今天国内外各大科技v已经争相发文讲解R1的细节，推荐大家可以看以下以讲解AI论文著称的Wes Roth的“震惊”视频，可以帮助很快了解R1大模型的基本知识点：

为什么DeepSeek的R1这么重要，不仅仅是因为它弯道超车实现了OpenAI 价值每用户200刀/?️订阅费的O1大模型性能，且速度快5倍，价格便宜30倍；

也不仅仅因为它彻底开源可商用--这意味着任何企业都可以直接拿来做自己的私有化部署-- 甚至还有个人可以在本地部署的R1小型版本 - 对每个科技企业和个人，这都是天大的礼物。

最重要的是，DeepSeek R1革新了自GPT以来，通用大模型训练的方式

前OpenAI大神，现已经离职去搞AI教育的Andrej Karpathy在快2年前的 2023年微软大会上讲解的OpenAI大模型训练原理，仍然是至今为止最好的理解大模型训练基础机制的讲稿：

State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程

简单的说，OpenAI定义了大模型训练的四个阶段：预训练，监督微调，奖励建模，强化学习。

城主用通俗的语言来解释一下大模型训练的这四个步骤。你可以把大模型想象成一个正在学习各种技能的学生。

1. 预训练 (Pre-training)：

目标：让模型“读”大量的文字，学习语言的规律和知识。

过程：把海量的文本数据（比如：互联网上的网页、书籍、文章等）喂给模型。模型就像一个好奇的学生，大量阅读各种书籍，学习语法、词汇、常识等。模型学习预测句子中的下一个单词，或者掩盖掉的单词。例如，模型看到“The cat sat on the”，它就会学习预测下一个词是“mat”。

2. 监督微调 (Supervised Fine-tuning, SFT)：

目标：让模型学习如何完成特定任务，例如：写文章、做翻译、回答问题等。

过程：把标注好的“任务数据”喂给模型（比如，文章和对应的摘要，问题和对应的答案）。模型就像学生一样，学习如何做特定类型的题目，同时对比自己答案和标准答案的差异，从而学习如何更好完成特定任务。模型学习如何根据输入，生成正确的输出。例如，模型看到一篇新闻，学习生成简洁的摘要。

3. 奖励建模 (Reward Modeling)：

目标：建立一个模型，可以评价其他模型生成的文本的好坏。

过程：让人类对模型生成的文本进行打分，例如：对于同一问题，哪个回答更好、更准确、更符合人类的偏好？然后进一步使用这些人类打分数据，训练一个新的模型（奖励模型），使其能够模仿人类的评分标准。奖励模型学习如何判断哪个输出更好，就像一个评委一样。

4. 强化学习 (Reinforcement Learning, RL)：

目标：让模型在“奖励模型”的指导下，不断生成更好的文本。

强化学习的核心思想就是：在尝试中学习，通过奖励来改进。

用奖励模型给生成的文本打分（奖励模型认为文本好的，就给高分；认为不好的，就给低分），让模型知道自己做得好还是不好。模型根据奖励分数，不断地调整自己的策略，让模型学会如何获得更高的分数。在这个过程中，模型会不断尝试不同的生成方式，逐渐找到最优的策略。

自从OpenAI 公布ChatGPT以来，以上这四大训练步骤基本就是常识，大模型的训练都大差不差按照这四步训练法来。

到后来，美国科技大厂都只堆算力，无脑买卡建数据中心给大模型喂数据，相信“大力出奇迹”，数据就是一切；甚至于到今年，美国那边曾一度吃香的深度学习博士开始找不到工作了。这大概有一个原因：大公司认为大模型不再需要继续研究算法了，只需要堆算力堆数据就够了。

反而言之，如果算力不够，就可以躺平，直接不做大模型了：非我之过，实无卡也。

但是，这一次，DeepSeek直接提出了一个全新的优雅训练思路，简而言之，就是去除/极端弱化了其中第二个步骤“SFT监督微调”，直接上强化学习。并且是反复多次的强化学习，逼近最好结果。

这是什么概念呢， “监督微调”就是把人类的正确做题结果（问题+答案）用来调教大模型。这是此前通用大模型优化性能的很重要的一步。

而现在DeepSeek说，我们完全不用人类知识去调教大模型，让AI自己和自己PK寻找变强的路径，我们只看结果。

这很像当年下围棋的AlphaGo，第一版AlphaGo就是用人类棋谱训练的，我们可以类比常规用SFT监督微调来训练大模型；而后续版本的AlphaGo Zero，则完全抛弃了人类先验的围棋知识，只是规定规则和胜负结果，然后AI互相对弈来实现模型的迭代进化。

一切很顺理成章：既然可以这样这么强化学习训练出下围棋的Alpha Zero，那么也应该可以这么训练出通用大模型。

明显是向AlphaGo Zero致敬，在DeepSeek的论文中，也出现了R1 Zero这个纯AI迭代得到的中间研究模型。（最终产出的R1 是用同一个训练思路，基于DeepSeek V3多次强化训练得到）

有意思的是，上面引用演讲的大神Andrej Karpathy对OpenAI所发明的RLHF微调技术本身就抱有保留态度。Andrej认为RLHF本质上是对人类偏好的模仿。他更倾向于像AlphaGo那样的自博弈的强化学习方法，认为没有人工干预的自我进化才是大模型的未来。大神还是说对了方向。

只是为什么老美没有第一个做出来呢？

有趣的是，同一天Kimi团队也发布了自己号称媲美O1的大模型，其论文同样揭露了依靠强化学习实现的思路（这是商量好的吗）但Kimi只拿出了论文，没有放出可以验证的模型，所以嘛。。。

关于这一次DeepSeek R1横空出世的意义。城主简单说说一些个人的想法。

在ChatGPT惊天问世2年之后，DeepSeek R1是国产LLM大模型第一次追平世界最强大模型的性能。相关评测已经满天飞，子弹可以再飞一会，但根据外网一片异口同声的“已测，牛逼~”反馈，这事情错的概率很小了。

这个追赶，还是在美国极限打压之下的追赶。而再考虑到API以极高的性价比远远胜出，国产大模型可以说正式完成了对O1的超越。

当然，我们可以说OpenAI还有压箱底的GPT5没拿出来，Anthropic或许也有个Claude4.0。

但超越了一次，谁说不会有第二次。从0到1难，还是从1到2难呢？

让我们直白一点，给一个论断吧，DeekSeek R1是硅谷AI霸权和神话的破灭开端。

所谓霸权，也就是类似各路硅谷大咖，包括一些硅谷投资人大咖，那些曾经都自带光环的名字，开口闭口要防止中国学习美国大模型技术；还有硅谷AI新贵公司们在行动上对中国使用者的严防死守：OpenAI的API还能翻墙，Claude针对中国地区封号的方式，用过的都知道，要多恶心就多恶心。

没办法，捏着鼻子也要用，毕竟对很多技术人来说，希望用最好的。

现在呢，国产大模型不但有可能是最好的之一，而且毫无疑问是性价比最高的，数十倍的便宜。

外网已经有视频推荐用DeepSeek R1 + Cline来实现最强的AI编程助手。城主这个月的Windsurf订阅到期后，也不打算继续花钱了。

如上面视频的Wes Roth博主在最后所说，美国人整天提防AI技术不给中国人，到最后反而是中国人开源了最强大模型。无论如何，他预料不到这个结果。

打脸打得很爽。

其实不止老外吧，一些国人也在被打脸；这两年看了太多这样的论调，信誓旦旦说中国大模型就是比美国落后好几年。

在一些AI技术群里，最常见的是“唯硅谷论”，只要是硅谷的一个小技术集会的言论，说什么都是香的；而且分享这些的同学偶尔还有自觉不自觉带着一股优越感的，那个意思基本是，“你看，硅谷聚会有这些信息，硅谷才是AI的圣地，我来分享一下，国内能学习跟上就不错啦”。

不止搞技术的，很多媒体的也习惯性散布悲观言论，总之就是中国AI落后了，显卡算力也被限制了，通用大模型能不被拉太远就可以了。

一些国内大佬也潜意识里选择躺平，反正算力没有了，我们的大模型落后一些也是情有可原的。

但DeepSeek团队的年轻人似乎不信邪。没有算力，是不是可以从训练方式上突破呢？为什么OpenAI的训练方式就一定是金科玉律呢?

在这点上，反而是老美更清醒一点，Google的施密特的表态，从起初“中国可能只落后2年”，后来是“只落后1年”，在DeepSeek V3出来后评价“各有千秋”。现在DeepSeek R1出来了，很想知道施密特会怎么说。

还记得一个小插曲，在DeepSeek V3出来后，OpenAI的Sam Altman酸溜溜额发帖说，复制别人是容易的，言下之意是DeepSeek利用了他们家的模型来训练；某些公知也跟风说，如果美国大模型不让国人访问，DeepSeek V3就打造不出来了。

荒谬的言论很多时候可以混淆视听。但辩解千次，都不如拿出一个绝对的结果有力量。

OK，现在我已经比你厉害了，你说一下我是怎么抄你的呢？

所以要感谢DeepSeek团队，拿出了这个让国人扬眉吐气的结果。从现在起，谁敢再说中国大模型抄袭美国？谁敢再说中国大模型落后美国X年？

从今天开始，城主认为中国大模型进展已经没有短板了。AI视频生成模型这个重要领域, 国产诸君已经是事实上的世界最强；而之前稍逊一筹的通用大模型，从今天开始，不说超越硅谷，说平起平坐，没人能反对了吧。

今后，硅谷大咖说的话我们要听，国产年轻AI团队说的话一样值得听。

更加佩服DeepSeek的是，这么一个世界最顶尖的成果，直接开源了。油管上X上已经很多老外发声，点赞DeepSeek才是那个真正继承了OpenAI最初使命和火种的团队。

这个评价可不是一般的高了。

这个事情是否还有更深的意义，大家可以继续琢磨一下：如果硅谷的AI霸权已经被稀释了，不可超越的神话已经破灭了，那美国芯片还要不要防着中国，防着还有什么意义呢？最大的意义是不是让中国过两年憋出光刻机，憋出自己的芯片和算力生态。。。

1月20号从各个方面而言都是一个有趣的日子。很久以后回头，我们才能更明白这一天的意义。

以此小文致敬所有自强不息的人们。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业