微信扫码
添加专属顾问
**内容简介**:DeepSeek R1 推理大模型重磅发布,引发科技圈震动,意义深远。 **核心内容**: 1. 与 OpenAI 模型的对比优势 2. 开源商用带来的影响 3. 对大模型训练方式的革新
昨晚懂王登基,美国科技圈大佬破天荒云集现场。懂王第一天确实也做了很多大事,本文无关,就不展开了。
但同是昨晚, 科技圈还有另外一件大事,其背后意义的深远,或许还没完全揭晓。那就是DeepSeek自V3模型之后,再度发布自家的R1推理大模型(选择同一天是不是故意的)。重要的是,这是一个可以和OpenAI世界最强O1推理大模型直接PK的大模型,完全开源,可商用,同时还加上一篇详细解释训练过程的优秀论文。
鉴于很多美国人还在被新王的表现震惊着,DeepSeek R1发布的真正意义可能还要过一两天才会全面发酵。
但核心圈子已经完全爆炸了。在Reddit论坛上,还有各路youtube博主都是各种震惊体:What?一个免费开源的和OpenAI O1 媲美的大模型?还附带能本地跑起来的蒸馏小模型版本?
今天国内外各大科技v已经争相发文讲解R1的细节, 推荐大家可以看以下以讲解AI论文著称的Wes Roth的“震惊”视频,可以帮助很快了解R1大模型的基本知识点:
为什么DeepSeek的R1这么重要,不仅仅是因为它弯道超车实现了OpenAI 价值每用户200刀/?️订阅费的O1大模型性能,且速度快5倍,价格便宜30倍;
也不仅仅因为它彻底开源可商用--这意味着任何企业都可以直接拿来做自己的私有化部署-- 甚至还有个人可以在本地部署的R1小型版本 - 对每个科技企业和个人,这都是天大的礼物。
最重要的是,DeepSeek R1革新了自GPT以来,通用大模型训练的方式
前OpenAI大神,现已经离职去搞AI教育的Andrej Karpathy在快2年前的 2023年微软大会上讲解的OpenAI大模型训练原理,仍然是至今为止最好的理解大模型训练基础机制的讲稿:
State of GPT:大神Andrej揭秘OpenAI大模型原理和训练过程
简单的说,OpenAI定义了大模型训练的四个阶段:预训练,监督微调,奖励建模,强化学习。
城主用通俗的语言来解释一下大模型训练的这四个步骤。你可以把大模型想象成一个正在学习各种技能的学生。
1. 预训练 (Pre-training):
目标: 让模型“读”大量的文字,学习语言的规律和知识。
过程:把海量的文本数据(比如:互联网上的网页、书籍、文章等)喂给模型。模型就像一个好奇的学生,大量阅读各种书籍,学习语法、词汇、常识等。模型学习预测句子中的下一个单词,或者掩盖掉的单词。例如,模型看到“The cat sat on the”, 它就会学习预测下一个词是“mat”。
2. 监督微调 (Supervised Fine-tuning, SFT):
目标:让模型学习如何完成特定任务,例如:写文章、做翻译、回答问题等。
过程:把标注好的“任务数据”喂给模型(比如,文章和对应的摘要,问题和对应的答案)。模型就像学生一样,学习如何做特定类型的题目,同时对比自己答案和标准答案的差异,从而学习如何更好完成特定任务。模型学习如何根据输入,生成正确的输出。例如,模型看到一篇新闻,学习生成简洁的摘要。
3. 奖励建模 (Reward Modeling):
目标:建立一个模型,可以评价其他模型生成的文本的好坏。
过程:让人类对模型生成的文本进行打分,例如:对于同一问题,哪个回答更好、更准确、更符合人类的偏好?然后进一步使用这些人类打分数据,训练一个新的模型(奖励模型),使其能够模仿人类的评分标准。奖励模型学习如何判断哪个输出更好,就像一个评委一样。
4. 强化学习 (Reinforcement Learning, RL):
目标:让模型在“奖励模型”的指导下,不断生成更好的文本。
强化学习的核心思想就是:在尝试中学习,通过奖励来改进。
用奖励模型给生成的文本打分(奖励模型认为文本好的,就给高分;认为不好的,就给低分),让模型知道自己做得好还是不好。模型根据奖励分数,不断地调整自己的策略,让模型学会如何获得更高的分数。在这个过程中,模型会不断尝试不同的生成方式,逐渐找到最优的策略。
自从OpenAI 公布ChatGPT以来,以上这四大训练步骤基本就是常识,大模型的训练都大差不差按照这四步训练法来。
到后来,美国科技大厂都只堆算力,无脑买卡建数据中心给大模型喂数据,相信“大力出奇迹”,数据就是一切; 甚至于到今年,美国那边曾一度吃香的深度学习博士开始找不到工作了。这大概有一个原因:大公司认为大模型不再需要继续研究算法了,只需要堆算力堆数据就够了。
反而言之,如果算力不够,就可以躺平,直接不做大模型了:非我之过,实无卡也 。
但是,这一次,DeepSeek直接提出了一个全新的优雅训练思路,简而言之,就是去除/极端弱化了其中第二个步骤“SFT监督微调”, 直接上强化学习。并且是反复多次的强化学习,逼近最好结果。
这是什么概念呢, “监督微调”就是把人类的正确做题结果(问题+答案)用来调教大模型。这是此前通用大模型优化性能的很重要的一步。
而现在DeepSeek说,我们完全不用人类知识去调教大模型,让AI自己和自己PK寻找变强的路径,我们只看结果。
这很像当年下围棋的AlphaGo,第一版AlphaGo就是用人类棋谱训练的,我们可以类比常规用SFT监督微调来训练大模型;而后续版本的AlphaGo Zero,则完全抛弃了人类先验的围棋知识,只是规定规则和胜负结果,然后AI互相对弈来实现模型的迭代进化。
一切很顺理成章:既然可以这样这么强化学习训练出下围棋的Alpha Zero,那么也应该可以这么训练出通用大模型。
明显是向AlphaGo Zero致敬,在DeepSeek的论文中,也出现了R1 Zero这个纯AI迭代得到的中间研究模型。(最终产出的R1 是用同一个训练思路,基于DeepSeek V3多次强化训练得到)
有意思的是,上面引用演讲的大神Andrej Karpathy对OpenAI所发明的RLHF微调技术本身就抱有保留态度。Andrej认为RLHF本质上是对人类偏好的模仿。他更倾向于像AlphaGo那样的自博弈的强化学习方法,认为没有人工干预的自我进化才是大模型的未来。大神还是说对了方向。
只是为什么老美没有第一个做出来呢?
有趣的是, 同一天Kimi团队也发布了自己号称媲美O1的大模型,其论文同样揭露了依靠强化学习实现的思路(这是商量好的吗) 但Kimi只拿出了论文, 没有放出可以验证的模型, 所以嘛。。。
关于这一次DeepSeek R1横空出世的意义。城主简单说说一些个人的想法。
在ChatGPT惊天问世2年之后,DeepSeek R1是国产LLM大模型第一次追平世界最强大模型的性能。相关评测已经满天飞,子弹可以再飞一会,但根据外网一片异口同声的“已测,牛逼~”反馈,这事情错的概率很小了。
这个追赶,还是在美国极限打压之下的追赶。而再考虑到API以极高的性价比远远胜出,国产大模型可以说正式完成了对O1的超越。
当然,我们可以说OpenAI还有压箱底的GPT5没拿出来,Anthropic或许也有个Claude4.0。
但超越了一次,谁说不会有第二次。从0到1难,还是从1到2难呢?
让我们直白一点, 给一个论断吧,DeekSeek R1是硅谷AI霸权和神话的破灭开端。
所谓霸权,也就是类似各路硅谷大咖,包括一些硅谷投资人大咖,那些曾经都自带光环的名字,开口闭口要防止中国学习美国大模型技术;还有硅谷AI新贵公司们在行动上对中国使用者的严防死守:OpenAI的API还能翻墙,Claude针对中国地区封号的方式,用过的都知道,要多恶心就多恶心。
没办法,捏着鼻子也要用,毕竟对很多技术人来说,希望用最好的。
现在呢,国产大模型不但有可能是最好的之一,而且毫无疑问是性价比最高的,数十倍的便宜。
外网已经有视频推荐用DeepSeek R1 + Cline来实现最强的AI编程助手。城主这个月的Windsurf订阅到期后,也不打算继续花钱了。
如上面视频的Wes Roth博主在最后所说, 美国人整天提防AI技术不给中国人,到最后反而是中国人开源了最强大模型。无论如何,他预料不到这个结果。
打脸打得很爽。
其实不止老外吧,一些国人也在被打脸;这两年看了太多这样的论调,信誓旦旦说中国大模型就是比美国落后好几年。
在一些AI技术群里,最常见的是“唯硅谷论”,只要是硅谷的一个小技术集会的言论,说什么都是香的;而且分享这些的同学偶尔还有自觉不自觉带着一股优越感的,那个意思基本是,“你看, 硅谷聚会有这些信息,硅谷才是AI的圣地,我来分享一下,国内能学习跟上就不错啦”。
不止搞技术的,很多媒体的也习惯性散布悲观言论,总之就是中国AI落后了,显卡算力也被限制了,通用大模型能不被拉太远就可以了。
一些国内大佬也潜意识里选择躺平,反正算力没有了,我们的大模型落后一些也是情有可原的。
但DeepSeek团队的年轻人似乎不信邪。没有算力,是不是可以从训练方式上突破呢?为什么OpenAI的训练方式就一定是金科玉律呢?
在这点上,反而是老美更清醒一点,Google的施密特的表态,从起初“中国可能只落后2年”, 后来是“只落后1年”, 在DeepSeek V3出来后评价“各有千秋”。现在DeepSeek R1出来了,很想知道施密特会怎么说。
还记得一个小插曲,在DeepSeek V3出来后,OpenAI的Sam Altman酸溜溜额发帖说,复制别人是容易的,言下之意是DeepSeek利用了他们家的模型来训练;某些公知也跟风说,如果美国大模型不让国人访问,DeepSeek V3就打造不出来了。
荒谬的言论很多时候可以混淆视听。但辩解千次,都不如拿出一个绝对的结果有力量。
OK,现在我已经比你厉害了,你说一下我是怎么抄你的呢?
所以要感谢DeepSeek团队,拿出了这个让国人扬眉吐气的结果。从现在起,谁敢再说中国大模型抄袭美国?谁敢再说中国大模型落后美国X年?
从今天开始, 城主认为中国大模型进展已经没有短板了。AI视频生成模型这个重要领域, 国产诸君已经是事实上的世界最强;而之前稍逊一筹的通用大模型, 从今天开始,不说超越硅谷,说平起平坐,没人能反对了吧。
今后,硅谷大咖说的话我们要听,国产年轻AI团队说的话一样值得听。
更加佩服DeepSeek的是,这么一个世界最顶尖的成果,直接开源了。油管上X上已经很多老外发声,点赞DeepSeek才是那个真正继承了OpenAI最初使命和火种的团队。
这个评价可不是一般的高了。
这个事情是否还有更深的意义,大家可以继续琢磨一下:如果硅谷的AI霸权已经被稀释了,不可超越的神话已经破灭了, 那美国芯片还要不要防着中国,防着还有什么意义呢?最大的意义是不是让中国过两年憋出光刻机,憋出自己的芯片和算力生态。。。
1月20号从各个方面而言都是一个有趣的日子。很久以后回头,我们才能更明白这一天的意义。
以此小文致敬所有自强不息的人们。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
ThinkParse 1.1.0 开源发布:把文档解析,做成可扩展的企业级服务
2026-07-04
Agent 工程终于有脚手架了, Google开源一个开发agent的工具
2026-07-03
用云新范式:Qoder Cloud Agents × Alibaba Cloud Skills
2026-07-03
Ornith-1.0 发布: 新一代 Agentic Coding 之王,MIT 开源
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-07-02
ollama v0.31.1发布:Apple Silicon上Gemma 4提速近90%,默认开启无感升级
2026-07-01
在 OpenCode 中接入本地模型:Ollama 部署与配置完全指南
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-31
2026-05-20
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。