一文纵览DeepSeek模型家族：从LLM到R1

发布日期：2025-02-05 22:26:49 浏览次数： 8076

作者：小窗幽记机器学习

微信搜一搜，关注“小窗幽记机器学习”

行到水穷处，坐看云起时。大家好，我是卖热干面的小女孩。今天与大家分享的是DeepSeek系列模型家族的技术创新。

引言

DeepSeek 横空出世并迅速走红，在全球科技圈引发强烈震动，直接致使NVIDIA股价暴跌 18%，全球科技股市市值蒸发近1万亿美元。特朗普出人意料地公开称赞DeepSeek 的崛起具有 “积极意义”，还表示这给美国敲响了 “警钟”。Anthropic一方面对DeepSeek 的成就予以肯定，另一方面却呼吁美国政府强化对华芯片管制。显示出中国 AI 实力已不容小觑，正改变着全球 AI 发展走向。

延续之前：

DeepSeek R1的粗浅解读：DeepSeek开源版o1比肩OpenAI满血o1
深度剖析：DeepSeek-R1如何用强化学习、冷启动和蒸馏，开启大模型训练新思路？
强化学习解读：深度揭秘DeepSeek R1 背后的强化学习：开启大模型训练新纪元

小编继续研读了DeepSeek系列模型的前沿文献和解读资料，精心梳理出这篇文章。今天，就请跟随小编的脚步，一同探索DeepSeek模型家族。

各版本简介：

DeepSeek 系列在技术创新的道路上不断深耕，每一次新版本的发布，都是在原有基础上的一次飞跃，不断为行业注入新的活力。从最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath，再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1，每一款模型都蕴含着独特的创新点，在模型架构、训练方法、数据集开发等多个维度持续突破。

DeepSeek LLM：2024 年 1 月发布，在架构上调整了层数，使用 GQA 优化推理成本；改进超参数设置，用多步学习率调度器替代余弦调度器；运用 HAI-LLM 训练框架优化训练基础设施；提出新的缩放分配策略；使用 2 万亿字符双语数据集预训练，67B 模型性能超越 LLaMA-2 70B，Chat 版本优于 GPT-3.5。
DeepSeekMoE：同样发布于 2024 年 1 月，创新点为细粒度专家分割和共享专家隔离；性能上优于传统 MoE 和部分密集模型，16B 版本可在单 40GB 内存 GPU 上部署，通过有监督微调构建了聊天模型，还采用专家级和设备级平衡损失缓解负载不均衡问题。
DeepSeekMath：2024 年 2 月 5 日发布，通过数学预训练、监督微调、强化学习三阶段训练，构建 120B 数学语料库，提出 GRPO 算法，在数学推理能力上直逼 GPT-4，超越众多 30B-70B 开源模型。
DeepSeek V2：2024 年 5 月 7 日发布，创新点为改造注意力模块，提出 MLA；改进 MoE；基于 YaRN 扩展长上下文；发布了 Lite 版本；训练中设计三种辅助损失并引入 Token-Dropping 策略，通过多阶段训练流程提升性能。
DeepSeek V3：2024 年 12 月 26 日发布，采用无辅助损失的负载均衡策略、多 Token 预测，有 FP8 混合精度训练框架和高效通信框架，通过知识蒸馏提升推理性能，在低训练成本下性能强大，基础模型超越其他开源模型，聊天版本与领先闭源模型性能相当。
DeepSeek R1：2025 年 1 月发布，DeepSeek-R1-Zero 无需 SFT 就有卓越推理能力，与 OpenAI-o1-0912 在 AIME 上性能相当；DeepSeek-R1 采用多阶段训练和冷启动数据，推理性能与 OpenAI-o1-1217 相当；还提炼出六个蒸馏模型，显著提升小模型推理能力。

DeepSeek LLM

发布时间：2024年1月
论文：https://arxiv.org/pdf/2401.02954

DeepSeek LLM属于密集的LLM模型，在微观设计上，DeepSeek LLM沿用LLaMA的部分设计，如采用Pre-Norm结构、RMSNorm函数、SwiGLU激活函数和Rotary Embedding位置编码。

DeepSeek LLM主要创新：

模型架构与训练的优化：

调整模型架构设计：除了沿用 LLaMA 的部分设计，在宏观设计上，调整了层数，7B模型为30层，67B模型为95层，且67B模型使用 GroupedQuery Attention（GQA）优化推理成本。
改进训练超参数设置：使用标准差 0.006 初始化模型，采用 AdamW 优化器，设置 β1 = 0.9、β2 = 0.95 和权重衰减 0.1 。用多步学习率调度器替代余弦调度器，虽训练损失趋势不同，但最终性能相当，且方便持续训练。
在预训练和对齐（监督微调与 DPO）方面进行了创新。
优化训练基础设施：运用HAI-LLM训练框架，整合多种并行技术，如数据并行、张量并行、序列并行和1F1B流水线并行，并利用flash attention技术提升硬件利用率，采用ZeRO-1分区优化器状态，融合部分层和操作加速训练，以bf16精度训练并在fp32精度下累积梯度，提升模型训练稳定性。

缩放定律研究：提出了新的最优模型/数据扩展-缩放分配策略。并指导了开源配置（7B和67B），以及指导使用最佳超参数进行预训练。

开发数据集：数据集规模：DeepSeek LLM 使用了一个包含 2 万亿字符的双语数据集进行预训练，这比 LLaMA 的数据集更大。

模型性能：DeepSeek LLM 67B在各种基准测试中超过了LLaMA-2 70B，特别是在代码、数学和推理方面。开放式评估显示，与GPT-3.5相比，DeepSeek LLM 67B Chat表现出更优越的性能。

模型规模：模型的规模包括7B和67B。

DeepSeek-Chat：还对DeepSeek LLM基础模型进行了SFT和直接偏好优化（DPO），从而创建了DeepSeek Chat模型。

局限性： DeepSeek Chat 存在与其他 LLMs 类似的局限，如预训练后知识难更新、易生成不实信息与幻觉，中文数据初始版本不详尽影响特定主题性能，且因数据以中文和英文为主，对其他语言的处理能力不足。

DeepSeekMoE:

发布时间：2024年1月
论文：https://arxiv.org/pdf/2401.06066

在大型语言模型时代，混合专家（Mixture-of-Experts, MoE）架构是一种有前途的架构。传统的MoE架构如GShard，激活前?个专家中的?个，面临着确保专家专业化的问题。DeepSeekMoE，是一种创新的MoE架构，专门设计用于实现终极专家专业化(expert specialization)。DeepSeekMoE架构有两个关键创新：

细粒度专家分割（Fine-Grained Expert Segmentation）:将专家细分为更细的粒度以实现更高的专家专业化和更准确的知识获取。
共享专家隔离（Shared Expert Isolation）:隔离一些共享专家以减轻路由专家之间的知识冗余。

通过更灵活的专家组合提升模型性能，同时保持计算成本不变。

数据集规模：16B。

DeepSeekMoE的性能优势：

优于传统MoE：DeepSeekMoE2B性能优于GShard2B，与GShard2.9B相当，接近相同参数总量的密集模型性能，表明其接近MoE模型的理论上限。
优于密集模型：扩展到160亿参数的 DeepSeekMoE 16B，在仅使用约40%计算量的情况下，性能与DeepSeek-7B 和 LLaMA2-7B相当，在与开源模型对比中也表现出色。
参数量增大优势更明显：1450亿参数的 DeepSeekMoE 145B，仅用 28.5% 的计算量就达到与DeepSeek 67B 相当的性能。

DeepSeekMoE 16B的MoE聊天模型：进行了有监督微调以实现对齐，构建了基于DeepSeekMoE 16B的MoE聊天模型。

开源：DeepSeekMoE 16B的模型检查点公开发布，该模型可以在单个40GB内存的GPU上部署。

负载均衡的辅助损失(Auxiliary Loss for Load Balance)

采用专家级平衡损失和设备级平衡损失，缓解在训练MoE模型时，自动学习的路由策略可能出现负载不均衡问题，引发路由崩溃和加剧计算瓶颈

DeepSeekMoE 16B与开源模型在Open LLM Leaderboard上的比较。红色虚线是从除DeepSeekMoE 16B之外的所有模型的数据点线性拟合得到的。DeepSeekMoE 16B始终以很大的优势胜过具有类似激活参数数量的模型，并在性能上与LLaMA2 7B相媲美，后者的激活参数数量大约是其2.5倍

DeepSeekMath

发布时间：2024年2月5日
论文：https://arxiv.org/abs/2402.03300

DeepSeekMath是DeepSeek发布的数学推理模型。模型参数仅7B，却在数学推理能力上直逼GPT-4，在权威的MATH基准榜单上力压群雄，超越了一众参数规模在30B-70B之间的开源模型。DeepSeekMath的2大亮点：

Math模型的三阶段训练方式：

数学预训练：从Common Crawl构建120B数学语料库，经多次迭代筛选，用其训练 DeepSeekMath-Base 7B，在多数学基准测试中超越开源模型，且证实代码训练可提升数学推理能力。
监督微调：构建多格式数学指令微调数据集，训练得到 DeepSeekMath-Instruct 7B，在 MATH 数据集上表现优于多数开源和部分闭源模型。
强化学习：提出GRPO算法，通过组分数估计基线，减少训练资源消耗。用其训练 DeepSeekMath-RL7B，在多个基准测试中超越多数开源和部分闭源模型。

群体相对策略优化GRPO相对于近端策略优化（PPO），GRPO通过从组分数估计基线，避免使用价值函数，减少训练资源消耗。

DeepSeek V2

发布时间：2024年5月7日
论文：https://arxiv.org/pdf/2405.04434

DeepSeek V2，是一款强大的混合专家（MoE）语言模型，具有经济高效的训练和推理能力。参数规模虽然达到了庞大的236B，但由于其MoE的结构，使得其中每个token激活仅21B的参数，且支持128K的上下文。其创新点主要体现在模型架构、训练数据和方法、性能表现和模型对齐四个方面：

两大核心创新点：

改造注意力模块：创造性的提出多头潜在注意力——Multi-head Latent Attention(简称MLA），替代传统多头注意力(Multi Head Attention)具体而言，MLA利用低秩键值联合压缩(low-rank key-value joint compression)来降低推理时的KV Cache开销，且性能不输于MHA。而且，缓解MQA、MGA对性能的损耗。
改进MoE：其把FFN的结构改成DeepseekMoE——是对传统MoE结构的改进【这里是上篇的DeepSeekMoE】。

基于YaRN的长上下文扩展：DeepSeek-V2 的初始预训练之后，采用 YaRN将默认上下文窗口长度从 4K 扩展到 128K。

DeepSeek-V2-Lite：发布DeepSeek-V2-Lite：相当于配备 MLA 和 DeepSeekMoE 的较小模型，它总共有15.7B参数，其中每个token激活2.4B参数。

负载均衡的辅助损失：DeepSeek-V2 的训练过程中，设计了三种辅助损失：

专家级均衡损失
设备级平衡损失
通信平衡损失

在训练期间引入了设备级的Token-Dropping策略。

DeepSeek V2训练流程

首先在完整的预训练语料库上预训练DeepSeek-V2
然后，收集了150万个对话会话，涵盖了数学、代码、写作、推理、安全等各个领域，以对DeepSeek-V2 Chat（SFT）进行监督微调（SFT）
最后，遵循DeepSeekMath的方法，采用组相对策略优化（GRPO）进一步使模型与人类偏好对齐，并生成DeepSeek-V2 Chat（RL）。

DeepSeek V3

发布时间：2024年12月26日论文：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf V3风靡海内外的关键因素：训练成本极低、引领前沿创新。在保持较低训练成本的同时，大幅提升模型性能。其参数量虽高达671B，但其所用的GPU训练资源仅为Llama 3.1 405B的差不多1/14。

整体思路：基于DeepSeek-V2，采用MLA和DeepSeekMoE架构。另外，通过引入新的架构和训练策略，进一步提升模型的性能，同时降低训练成本。在模型架构、训练方法、知识蒸馏与能力提升、模型性能与成本等方面进行创新。

V3的核心创新点：

无辅助损失的负载均衡策略：通过引入偏置项动态调整专家负载，避免了传统辅助损失带来的性能损失。
多Token预测（Multi-Token Prediction）：在每个位置预测多个未来的 token，增加训练信号，提高模型的数据效率。

高效的训练框架：

FP8 混合精度训练框架：首次验证了 FP8 训练在超大规模模型上的可行性和有效性。
高效的训练框架：通过 DualPipe 算法和优化的通信内核，实现了近乎零开销的跨节点通信。

知识蒸馏与能力提升：在训练阶段，从 DeepSeek - R1 系列模型中蒸馏推理能力，将其融入 DeepSeek - V3，有效提升了模型的推理性能。在保持模型准确性的同时，合理控制了输出风格和长度，使模型在复杂推理任务中表现更出色。

卓越的模型性能与低成本：在经济的训练成本下，DeepSeek - V3 展现出强大的性能。其基础模型在知识、代码、数学和推理等领域的基准测试中超越了其他开源模型，聊天版本在标准和开放式基准测试中性能与领先的闭源模型相当，成为目前最强的开源基础模型之一，为开源模型的发展树立了新的标杆。

DeepSeek R1

发布时间：2025 年 1 月
论文：https://arxiv.org/pdf/2501.12948v1

DeepSeek-R1关键贡献

1.开源DeepSeek-R1-Zero：通过大规模强化学习（RL）训练的模型，无需经过监督微调（SFT）作为初始步骤，展现出卓越的推理能力，在AIME上，与 OpenAI-o1-0912 的性能相当。
2.开源DeepSeek-R1：采用了多阶段训练和强化学习前的冷启动数据。DeepSeek-R1 在推理任务上的性能与 OpenAI-o1-1217 相当。
3.DeepSeek-R1蒸馏模型：基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个密集模型（15 亿、70 亿、80 亿、140 亿、320 亿、700 亿参数），并显著提升小模型的推理能力。

有关DeepSeek R1的深入解读，还可以参考小编的文章：DeepSeek-R1如何用强化学习、冷启动和蒸馏，开启大模型训练新思路？

总结

DeepSeek 系列模型凭借一系列创新技术在人工智能领域取得了显著进展，各模型在不同方面展现出独特优势，推动了语言模型的发展。

技术创新成果显著：DeepSeek 系列模型不断探索创新，在模型架构、训练方法、数据集等多个关键维度实现突破。例如，DeepSeek LLM 调整架构设计、改进训练超参数，还提出新的缩放分配策略；DeepSeekMoE 通过细粒度专家分割和共享专家隔离提升性能；DeepSeekMath 采用独特的三阶段训练方式和 GRPO 算法，显著提升数学推理能力；DeepSeek V2 创新性地提出 MLA 和改进的 MoE 结构，还进行长上下文扩展；DeepSeek V3 引入新的负载均衡策略和多 Token 预测技术，验证了 FP8 训练的可行性；DeepSeek R1 则通过大规模强化学习和多阶段训练，展现出强大的推理能力。这些创新使得 DeepSeek 系列模型在性能上不断提升，在各类基准测试中表现出色，部分模型甚至超越了同类型的其他知名模型。
推动行业发展与变革：DeepSeek 系列模型的出现对全球 AI 行业产生了深远影响。其强大的性能表现引起了广泛关注，促使其他研究机构和企业加大在相关领域的研究投入，推动了 AI 技术的整体发展。同时，模型的开源和发布为研究人员提供了宝贵的资源，促进了学术交流和技术共享，有助于加速 AI 技术的创新和应用落地。此外，DeepSeek 系列模型在训练成本和推理效率等方面的优化，也为 AI 技术的大规模应用提供了更经济可行的方案，有助于推动 AI 技术在更多领域的普及和应用。
面临挑战与未来展望：尽管 DeepSeek 系列模型取得了令人瞩目的成绩，但仍面临一些挑战。如部分模型存在预训练后知识更新困难、易生成不实信息、对多语言处理能力不足等问题。未来，DeepSeek 需要进一步优化模型架构和训练方法，提高模型的泛化能力和稳定性，加强对多语言的支持，以应对不断变化的需求和挑战。同时，随着技术的不断发展，DeepSeek 有望在更多领域取得突破，如进一步提升推理能力、增强多模态融合能力等，为实现人工智能的更广泛应用和发展做出更大贡献。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业