2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

回应DeepSeek抄袭的质疑,DeepSeek和OpenAI ChatGPT的比较

发布日期:2025-02-01 08:27:50 浏览次数: 11908
作者:AI人工智能基地

微信搜一搜,关注“AI人工智能基地”

推荐语

回应抄袭质疑,揭示DeepSeek与OpenAI ChatGPT的区别和创新点。

核心内容:
1. DeepSeek训练方法与OpenAI API数据无关,采用开源数据和自学习技术
2. DeepSeek技术创新与开源贡献,对大模型训练速度和产业格局的影响
3. DeepSeek的颠覆性创新,对比OpenAI ChatGPT,包括FP8训练优化和推理端兼容性

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


先直接回答质疑

质疑1:DeepSeek是通过OpenAI的API进行训练的,盗取了OpenAI的数据

回答:不是,DeepSeek训练是采用了开源大模型的数据,并进行RL自对齐自学习进行训练。假如通过API调用获取的数据,因为存在幻觉,会有很多不可靠的结果,并不会让大模型变得更加聪明。

质疑2:DeepSeek是采用5万张偷运显卡进行训练的,存在着显卡欺骗行为

回答:技术论文已经发表了,相关模型也开源了,论文也发布了,技术专家都在学习,应该过不了多久就会出现不少复制的产品。到时候业界的大模型训练速度由过去的一年提升到2个月以内,甚至显卡多的可以半个月发布一个大版本,将会改写大模型更新慢,推理慢的现状,到时候大家要感谢DeepSeek的贡献,将模型训练推进到一个新的高度。

质疑3:DeepSeek是过于夸大了,没有多大的创新

回答:DeepSeek的创新是颠覆性的,是OpenAI发布ChatGPT后的重要事件,将影响到大模型今后的发展,颠覆产业格局,让开源大模型接近头部的大模型公司,并超越了很多商业化的闭源大模型企业,并建立开源的产业生态。DeepSeek的FP8训练优化,以及今后在推理端兼容多种芯片的格局会出现,从而将成本降低数倍,这是历史性突破。并能够基于DeepSeek生态发展,从软件方向驱动突破技术封锁等问题。

以下是通过技术论文,给大家科普的DeepSeek和OpenAI的不同和创新,介绍DeepSeek V3 和DeepSeek R1两个版本和OpenAI的不同,并解析数据如何训练的。

与OpenAI核心技术对比

  1. 混合专家模型(MoE)

  • 背景:MoE 架构并非 OpenAI 首创,早期研究如 Google 的 Switch Transformer(2021)已广泛应用,DeepSeekMoE 在此基础上优化了专家负载均衡和细粒度路由策略。

  • 创新点:DeepSeek 提出的 无辅助损失负载均衡 和 动态冗余专家部署 是其独特设计,未在 OpenAI 的模型中体现。

  • 注意力机制优化

    • MLA(Multi-head Latent Attention):通过低秩压缩 KV Cache 减少显存占用,与 OpenAI 的 稀疏注意力 或 FlashAttention 实现方式不同,属于独立优化路径。

    • 技术独立性:MLA 的具体实现(如分块压缩、解耦查询)在技术报告中详细说明,未发现与 OpenAI 专利技术重叠。

  • 多 Token 预测(MTP)

    • 通用性:多步预测是语言模型的常见训练目标(如 EagleStripedHyena),并非 OpenAI 专属。

    • DeepSeek 的改进:其 MTP 模块通过深度链式预测和共享参数设计,与 GPT-4 的推测解码(Speculative Decoding)在实现逻辑上存在显著差异。

  • 低精度训练与工程优化

    • FP8 训练:NVIDIA 的 Hopper 架构及开源框架(如 Transformer Engine)已支持 FP8,DeepSeek 通过分块量化和高精度累加进一步优化,属于行业通用技术。

    • DualPipe 算法:针对 MoE 的流水线并行优化,解决跨节点通信瓶颈,与 OpenAI 的 Megatron 或 ZeRO 策略不同。


    训练数据与对齐方法

    • 数据来源:DeepSeek 使用自建的多语言语料(14.8T Token),强调数学与代码数据的增强,与 OpenAI 的数据构造策略(如 WebText、代码合成)无直接关联。

    • 对齐技术:采用知识蒸馏(DeepSeek-R1)和自奖励机制,与 OpenAI 的 RLHF(基于人类反馈的强化学习)在方法论上分属不同范式。


    开源与合规性

    • 代码与模型公开:DeepSeek-V3 的模型架构、训练代码和部分数据已开源(GitHub),其技术实现透明,未发现直接复用 OpenAI 代码的痕迹。

    • 学术引用:技术报告中明确引用了相关领域的研究(如 Rotary Positional Embedding、GShard),符合学术规范。

    DeepSeek-V3 论文总结

    DeepSeek-V3 是由 DeepSeek-AI 推出的高效混合专家模型(MoE),总参数量达 671B,每个 token 激活 37B 参数。以下是其核心创新与关键成果:


    核心创新

    1. 高效架构设计

    • Multi-head Latent Attention (MLA):通过低秩压缩键值对(KV Cache),减少推理时的显存占用,同时保持性能。

    • DeepSeekMoE:采用细粒度专家(256 个路由专家 + 共享专家)和动态负载均衡策略,提升训练效率。

    • 无辅助损失负载均衡:通过动态调整专家偏置(Bias),避免传统辅助损失对模型性能的负面影响,显著提升专家利用率。

  • 多 Token 预测(MTP)

    • 在训练时预测未来多个 Token,增加训练信号密度,提升模型对长序列的规划能力,同时支持推理时的推测解码加速。

  • 低精度训练优化

    • 引入 FP8 混合精度框架,结合分块量化和高精度累加策略,首次验证了超大规模模型低精度训练的可行性,显著降低显存和通信开销。


    训练效率

    • 成本极低:完整训练仅需 278.8 万 H800 GPU 小时(约 557.6 万美元),预训练阶段每万亿 Token 消耗 18 万 GPU 小时。

    • 稳定性:全程无不可恢复的损失突增或回滚。

    • 工程优化

      • DualPipe 算法:通过计算-通信重叠,减少流水线气泡,提升并行效率。

      • 跨节点通信优化:结合 InfiniBand 和 NVLink 带宽,实现近零通信开销。


    性能表现

    1. 基准测试

    • MATH-500(90.2)、CNMO 2024(43.2)刷新非长链思维模型记录。

    • LiveCodeBench(40.5)和 Codeforces(51.6% 分位数)领先所有模型。

    • 知识任务:MMLU(88.5)、MMLU-Pro(75.9)、GPQA(59.1)超越所有开源模型,接近 GPT-4o 和 Claude-3.5-Sonnet。

    • 数学与代码

    • 中文能力:C-Eval(90.1)、C-SimpleQA(64.8)显著优于 Qwen2.5 等中文模型。

  • 长上下文支持

    • 通过 YaRN 扩展至 128K 上下文,在 LongBench v2(48.7)和 FRAMES(73.3)中表现优异。

  • 对齐与推理

    • 对齐效果:通过知识蒸馏(DeepSeek-R1)和自奖励机制,在 Arena-Hard(85.5% 胜率)和 AlpacaEval 2.0(70.0%)中超越多数闭源模型。

    • 推理加速:MTP 模块在推测解码中实现 85-90% 接受率,生成速度提升 1.8 倍。


    对比闭源模型

    • GPT-4o 与 Claude-3.5-Sonnet

      • 在数学、代码和中文任务上表现接近甚至超越,但在部分知识任务(如 SimpleQA)稍逊。

      • 训练成本仅为闭源模型的极小比例(如 GPT-4 训练成本估计数十亿美元)。


    局限与未来方向

    • 部署需求:推荐部署单元较大(预填充需 32 GPU,解码需 320 GPU),对小型团队不友好。

    • 未来改进:探索无限上下文支持、突破 Transformer 架构限制、提升深度推理能力。

    DeepSeek-V3 通过算法-框架-硬件的协同设计,在高效训练与强大性能间取得平衡,成为开源模型的新标杆,并为 AGI 的长期演进提供了重要参考。

                                      DeepSeek-R1论文总结

    DeepSeek-R1 是由 DeepSeek-AI 提出的基于强化学习(RL)的大语言模型系列,旨在提升模型的推理能力。以下是其核心内容总结:


    1. 模型概览

    • DeepSeek-R1-Zero

      • 训练方法:直接在基模型(DeepSeek-V3-Base)上应用大规模强化学习(GRPO 算法),无需监督微调(SFT)。

      • 特点:通过 RL 自主涌现出反思、多步推理等能力,在数学、编程等推理任务中表现优异(如 AIME 2024 Pass@1 从 15.6% 提升至 71.0%)。

      • 局限性:输出可读性差、语言混合(如中英文混杂)。

    • DeepSeek-R1

      • 改进方法:引入冷启动数据(数千条高质量长链思维示例)和多阶段训练(SFT + RL),进一步优化推理能力和输出规范性。

      • 性能:与 OpenAI-o1-1217 相当,在 MATH-500 上达到 97.3% Pass@1,Codeforces 评分超越 96.3% 的人类参赛者。


    2. 技术亮点

    • 强化学习算法(GRPO)

      • 通过组间评分估计基线,省去评论模型,降低训练成本(公式见论文)。

      • 奖励模型仅依赖规则(如答案准确性、格式一致性),避免神经奖励模型的奖励滥用问题。

    • 冷启动与多阶段训练

      • 冷启动数据:提升输出的可读性和初始稳定性,设计结构化模板(如 <think> 推理过程 + <answer> 答案)。

      • 两阶段 RL:首阶段专注于推理任务,第二阶段结合通用任务(写作、问答)优化对齐人类偏好。

    • 蒸馏小型模型

      • 将 DeepSeek-R1 的推理能力蒸馏至 1.5B 到 70B 的 Qwen 和 Llama 系列模型,效果显著(如 7B 模型在 AIME 2024 上超越 GPT-4o)。

      • 蒸馏模型性能优于直接对小模型应用 RL,证明大模型发现的推理模式对小模型至关重要。


    3. 性能对比

    • 推理任务

      • AIME 2024:DeepSeek-R1 Pass@1 达 79.8%,略超 OpenAI-o1-1217(79.2%)。

      • MATH-500:DeepSeek-R1 达 97.3%,与 OpenAI-o1-1217 持平。

      • Codeforces:Elo 评分 2029,超越 96.3% 人类选手。

    • 通用能力

      • MMLU:90.8% Pass@1,显著优于 DeepSeek-V3(85.2%)。

      • AlpacaEval 2.0:长度控制胜率 87.6%,展示强大的开放域问答能力。


    4. 开源贡献

    • 开源模型:

      • DeepSeek-R1-Zero、DeepSeek-R1 及基于 Qwen/Llama 的 6 个蒸馏模型(1.5B、7B、8B、14B、32B、70B)。

    • 数据与工具:

      • 发布 800K 训练样本(推理与非推理混合数据),支持社区进一步研究与蒸馏。


    5. 局限与未来方向

    • 当前局限

      • 语言混合(中英文以外语言的推理能力不足)。

      • 软件工程任务改进有限(因 RL 训练效率问题)。

    • 未来计划

      • 提升通用能力(如多轮对话、函数调用)。

      • 优化提示工程(当前对少样本提示敏感)。

      • 扩展多语言支持与异步 RL 训练。


    总结

    DeepSeek-R1 通过纯强化学习与多阶段训练,展示了 LLM 在自主推理能力上的突破,其性能与闭源模型竞争,并通过开源推动社区发展。未来迭代有望进一步缩小与顶尖模型的差距。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅