我要投稿

再见了 H100！刚刚 DeepSeek 甩出王炸：显卡不够内存凑，堆 CPU 就能无限扩展“知识库”！

发布日期：2026-01-13 08:33:46 浏览次数： 1647

作者：AI智见录

微信搜一搜，关注“AI智见录”

DeepSeek 凌晨又搞事情了。

这一次，不是发布新的 V4 模型，也不是开源某个 100B 的权重，而是直接对 Transformer 的底层架构“动刀”了。

DeepSeek 开源了名为 Engram 的新架构，并附带了一篇信息量极大的论文《Conditional Memory via Scalable Lookup》。

null

简单来说，他们给 Transformer 加了一个 “查字典” 的能力。

长期以来，我们的大模型都在“死记硬背”。无论是历史知识还是固定搭配，模型都需要消耗珍贵的计算资源（Attention 和 FFN）去“算”出来。

DeepSeek 提出的问题很犀利：既然有些东西是死的（比如“中华人民共和国”这个固定词组），为什么非要用神经网络去“推理”它？直接查表不行吗？

于是，Engram 诞生了。这可能预示着大模型架构的一个新方向：从“纯计算”走向“计算+记忆”的混合体。

想象一下，你正在做一道复杂的数学题。但是，你的大脑不仅要处理逻辑运算，还要同时在脑子里默写一遍《新华字典》。

这就是现在 Transformer 的处境。

论文中举了一个非常直观的例子：当模型需要输出 "Diana, Princess of Wales"（戴安娜王妃）这个实体时，它需要消耗整整 6 层神经网络：

1. 先识别出 Wales 是个地名；
2. 再识别出 Princess of Wales 是个头衔；
3. 最后才把它们组合成具体的人名。

null

这简直是“杀鸡用牛刀”。对于这种固定的、静态的知识，动用昂贵的 GPU 算力去层层推导，极其浪费。

DeepSeek 的思路是：把“死记硬背”的工作交给“字典”（Engram），把“大脑”（Transformer）腾出来处理真正的逻辑推理。

Engram 的核心机制其实非常复古——它复活了经典的 N-gram（N元组） 概念，但用了现代化的手段。

它的工作原理可以简化为三步：

1. 识别：当你输入一段文本，模型会自动识别出其中的固定搭配（比如“人工智能”、“深度求索”）。
2. 查表：直接在一个巨大的向量表中，通过哈希（Hash）算法找到这些词组对应的向量。这个过程是的，速度极快，不消耗什么计算量。
3. 融合：把查出来的向量，通过一个门控机制（Gating）“喂”给神经网络。

这就好比考试的时候，允许模型带一本“小抄”。遇到死记硬背的知识点，直接看小抄；遇到需要分析的题目，再动脑子。

你可能会觉得：加个字典，无非就是让模型背书更厉害呗？

DeepSeek 的论文结果让人大吃一惊：Engram 不仅提升了知识类任务的效果，还大幅提升了推理能力！

在同等参数量（27B）和同等计算量（Iso-FLOPs）的对比下，DeepSeek 比较了标准的 MoE（混合专家模型）和 Engram 模型：

• 知识更渊博：MMLU（知识问答）提升了 3.4 分，CMMLU 提升了 4.0 分。这在预料之中。
• 逻辑更强了：这是最反直觉的。BBH（综合推理）提升了 5.0 分，ARC-Challenge（挑战性推理）提升了 3.7 分，就连数学（MATH）和代码（HumanEval）都有显著提升。

为什么查字典能提高数学成绩？

论文给出了极具洞察力的解释：LogitLens 分析显示，Engram 让模型在更浅的层数就完成了“特征组合”。

也就是说，因为不需要在底层网络里浪费时间去拼凑“单词”和“短语”，深层网络的“脑容量”被释放了出来，可以专注于处理更复杂的逻辑和长距离的依赖关系。

这也解释了为什么 Engram 在长上下文（Long Context）任务上表现极佳——把局部依赖交给了字典，Attention 就可以专心看全局了。

DeepSeek 的工程能力一向是业界的标杆，这次也不例外。

大模型最贵的资源是什么？是 GPU 的显存（HBM）。如果我们要存一个巨大的 N-gram 字典，显存爆了怎么办？

Engram 的设计非常精妙，它是确定性查表（Deterministic Lookup）。

与 MoE 这种“走到哪步算哪步”的动态路由不同，Engram 在拿到输入文本的一瞬间，就知道需要查哪些表。

这就意味着：我们可以把这个巨大的字典存放在便宜的 CPU 内存（DRAM）里！

当 GPU 还在计算第 1 层网络的时候，系统就已经通过 PCIe 带宽，把第 10 层需要用到的“字典条目”从 CPU 内存预取（Prefetch）过来了。

DeepSeek 实测：即使外挂一个 100B（一千亿）参数 的超大字典，对推理速度的影响也微乎其微（小于 3%）。

这是什么概念？这意味着未来的模型，可以用极低的成本，通过堆 CPU 内存来无限扩展“知识库”，而不需要堆昂贵的 H100 显卡。

在 Github 已开源

null

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-13

让我很兴奋...Claude Cowork 自动化办公首测

2026-01-13

ISON：比JSON节省70% token的数据格式，专为LLM设计

2026-01-13

别再造Agent了！关于Agent Skills的详细总结来了

2026-01-13

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

2026-01-13

Anthropic 万字长文：AI Agent 评估体系全解析

2026-01-13

Claude 的新功能 Cowork：让 AI 真正帮你干活

2026-01-13

Claude Cowork 重磅发布：整理文件、做表格、写报告，全包！

2026-01-13

Google 宣布将 Opal 集成进 Gemini Gem里现在你可以在 “Gems 管理器”中直接使用Opal开发应用

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

万字长文深度解析最新Deep Research技术：前沿架构、核心技术与未来展望

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

实测｜DeepSeek-V3.2-Exp三大升级：长文本、多轮对话、开发支持

2025-10-21

我错了，Gemini 做PPT不是“一般”，是“封神”。（尤其挖到第3层功能后…）

2025-11-03

ima 2.0升级：任务模式上线，一键激活2亿知识文件

2025-10-23

OpenAI 发布了浏览器 Altas，一手实测来了

2025-10-22

几乎都在挂羊头卖狗肉，AI Agent的泡沫现在到底有多大？

2025-10-20

大家都在问

Anthropic工程实践：AI Agent如何连续工作数天完成复杂项目？

2026-01-12

如何用AI表格低门槛手搓一个业务系统？

2026-01-12

你的Excel已觉醒！AI-by-Hand-Excel如何将普通表格变成超级智能助手？

2026-01-11

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

Anthropic突然封禁第三方工具调用Claude，Cursor、OpenCode、xAI 集体“中枪”！项目做到一半突遭中断，官方解释是“误伤”？

2026-01-10

马斯克杀疯了！xAI官宣200亿美元融资，这次真能“干翻”OpenAI？

2026-01-08

2025四大AI怎么选？每月20美金，谁能当你的“全能外挂”？

2026-01-02

AGI的终极形态，是分布式集体智能？

2025-12-31

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部