免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

从DSA到Engram,一年来DeepSeek层层勾勒V4架构创新

发布日期:2026-01-15 10:33:00 浏览次数: 1540
作者:未尽研究

微信搜一搜,关注“未尽研究”

推荐语

DeepSeek-V4如何通过Engram架构创新突破算力限制?揭秘中国AI模型的效率革命。

核心内容:
1. DeepSeek-V4的Engram技术如何实现"条件记忆"
2. 稀疏化架构在提升训练与推理效率上的突破
3. 国产算力基础设施下的模型性能优化实践

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


随着开年DeepSeek加快了技术分享的节奏,市场再次期待DeepSeek-V4的横空出世。不少人推测,它可能会在春节前后亮相。但与推出的时间相比,更大的悬念是,它将以何种程度的创新,将中国与美国在前沿模型的差距缩短到什么程度?它是否会基于中国的算力基础设施来实现这一跨越。

全球对前沿模型的探索,仍在寻找下一条行之有效的扩展路径。DeepSeek也是如此。长期以来,它对此的探索主线,一直都是如何在有限的资源下通过架构创新,最大程度上地提升训练与推理的效率。这既是一个数学问题,也是一个工程问题。

过往论文正在揭示它的大致模样。从V3V3.1再到V3.2DeepSeek先后尝试了UE8M0 FP8DSA、上下文光学压缩、mHCEngram。它们的核心思路之一就是稀疏化,让专家精度注意力记忆变得更为稀疏。法国AI研究实验室Pleias联合创始人Alexander Doria认为,DeepSeek-V4将是死磕层效率的典范,让每一层神经网络在架构中发挥最大的效率。

DeepSeek最新的尝试是Engram。它所要解决的正是记忆负担的稀疏化,以推动模型规模继续扩展。标准的Transformer架构缺乏原生的记忆能力,它根据概率预测下一个token,根据全局上下文进行复杂推理,消耗了多个早期注意力层和前馈网络,浪费宝贵的资源去计算那些原本只需要简单检索的东西。

如果说MoE条件计算,通过路由器选择稀疏性的激活少数几个专家,在不显著增加计算成本的前提下,大幅增加模型规模;那么,Engram就是条件记忆,通过稀疏查表操作,为固定知识检索静态嵌入。DeepSeek的论文将MoEEngram称为互补性稀疏维度

Engram的帮助下,那些频繁访问的内容,可以缓存在HBM等更快的存储层级中,而长尾的低频内容则可以存放在SSD等速度较慢但容量更大的介质中。不过,与以往的RAG不同,Engram仍然是模型内部的参数化记忆,它必须参与预训练,并直接集成到模型层中。当将1000亿参数的Engram表,完全卸载到DRAM等内存中,端到端吞吐量下降不到3%

于是,内存计算解耦了。而且这卓有成效。DeepSeek团队发现,当大约20%25%的参数预算分配给Engram时,模型性能最佳。在相同的激活参数与训练token数量等条件下,Engram-27B的整体性能就要明显优于纯粹的稀疏模型MoE-27B

而且,研发团队还发现,由于将大量计算资源给了复杂推理,它不仅在知识密集型任务上表现出色,而且在通用推理能力以及代码与数学推理任务上同样表现出色。同时,它释放了注意力机制的容量,也提升了长上下文检索能力。或许,法律、金融与医疗等记忆密集的垂直领域,将迎来更少幻觉与更强推理的模型应用。

文本

AI 生成的内容可能不正确。

这对于国产算力基础设施而言,也是一个好消息。Engram有效绕过了GPUHBM限制,为激进的参数扩展铺平了道路。论文最后写道,条件记忆将成为下一代稀疏大模型中不可或缺的基础建模范式

这已经不是DeepSeek第一次在论文中勾勒下一代模型的设计蓝图。几乎其所有研究工作,都围绕着架构层面的创新展开。许多问题也许早已被其他AI实验室提出,甚至被反复尝试却无疾而终,而DeepSeek选择将这些被搁置的方向重新拾起,在工程与数学层面加以重构与优化,借此持续缩小与美国前沿模型之间的差距。这些探索共同指向的是稳定而有效扩展的模型架构的实现路径。

最近的一次是跨年期间发布的流形约束超连接(mHC)。尽管超级连接(Hyper-Connections)可以为大模型训练带来非常快的收敛速度,某些设置下提升接近80%。但它缺乏扩展的稳定性,模型越大、层数越多,问题越严重。mHC可以确保每一层的计算仍然能稳定地转化为有效表示。DeepSeek在论文中写道,它为大模型基础架构的演进指明有前景的方向

再一次则是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是上下文光学压缩Context Optical Compression),显著提高了信息密度与计算效率,当时团队就思考过通过逐级压缩信息,直至边际遗忘,或内化为更深层的表征。在论文的最后,DeepSeek团队致辞说,这一思路为构建一种理论上无限上下文长度的模型架构(unlimited context architectures)提供了新的可能

早更一点,DeepSeek-V3.2-Exp最核心的实验则是引入了名为DSA的新架构,这是探索细粒度稀疏机制,成本更低的同时几乎不影响模型的输出效果。DeepSeek官方将DSA称为迈向下一代架构的中间步骤。这似乎在暗示下一次更新可能直接出现在V4上。

要真正追平乃至超越Gemini-3DeepSeek仍然需要提升模型的多模态能力。代码与数学,多模态与自然语言本身,三者正是DeepSeek创始人梁文锋押注的三个方向。在上一个跨年之交发布统一多模态理解与生成的自回归框架Janus后,DeepSeek在这领域鲜少动作,它会成为下一代核心模型的一部分吗?





53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询