AI的中国资本叙事

发布日期：2025-02-17 06:19:33 浏览次数： 2512

作者：zartbot

微信搜一搜，关注“zartbot”

DeepSeek R1对美国资本市场的几千亿的影响就不多提了, 而另一方面初一发布的Qwen2.5-MAX带来了中国AI资产的全面重新估值. 当然除了Qwen还有很多很好的工作, 例如Kimi的推理模型, Minimax通过Linear Attention, 阶跃的GMHA分析和FPBA的上界估计并提出的MFA和MFA-KR, 虽然没有DeepSeek那么被世人关注, 但还值得我们去点赞. 但是, 国内的一些媒体的无知似乎又很有趣的显示了中国AI认知的落后, 什么用了PTX绕过CUDA啥的, 还有用LLM生成一堆乱七八糟的爽文...

虽然这些工作有了几分”虎踞龙盘今胜昔，天翻地覆慨而慷。“的气势, 但是还需要更多的”宜将剩勇追穷寇，不可沽名学霸王。“的韧劲. 仔细反思一下, 国内的AI创投的生态氛围其实并不好, ToB的营商环境下决定了一些叙事和资本逻辑. 当年的AI四小龙走过这样一条路, 训练一个差一代的模型,然后和一些政企关系混在一起, 拉几个发了大量论文的大厂高管或者知名学者, 然后通过各种项目化的定制外包走向IPO, 然后把红利都吃干净了.

这样的叙事在过去两年似乎同样的重复着, 拉几个大厂高管们, 然后通过一些渠道搞一些模型架构的信息差, 然后训练差一代的模型再搞一些小技巧刷刷分. 并不在意训练和推理的cost,也不在乎能否落地以及客户是谁, 投资人能够搞定各种关系然后找政企立项, 然后各种PR加持下保证基金进入, 再搞几个样板工程顺利走向IPO就好. 对于ToC又简单的以为这是一个流量工程, 某几家各个渠道烧钱换流量,甚至骨子的那种思维定势下还反问:“DeepSeek这次PR花了多少钱, 怎么到处洗稿”,

而这群人最大的特点是一句口头禅:”我们是国内AI的眼睛, 不跟随怎么能够超越呢?“ 而被问到“你为啥做的不好时” 通常的回答是“资源老板们没给够”. 只是这样的故事在如今已经无法叙事了. 前几个月Llama 3出来之时, 我还在《Llama 3技术报告解读(1)- AI基础设施和并行策略》中Diss Meta因为自己AI Infra的问题没法做MoE而选择了Dense, 虽然当时也引来了一些争议, 现在来看Meta panic是一个最好的证明. Llama的路线并不是正确的, 甚至它的Infra也有太多的问题. 只是国内的很多人跪着太久了, 膝盖软了站不起来了...

地球的另一边,各个厂加速上线DeepSeek R1推理, 然后各个大厂的CEO/CTO疯狂点赞. 例如博通做交换芯片的GM Ram V.甚至开始预言大型机(GB200 NVL72)的路线已经终结.

与此同时, Intel前CEO Pat Gelsinger先生的一段话也很值得我们进一步反思:

计算遵循Gas Law, 你需要明白各种资源的约束, 而工程本身时一个关于约束的问题. 算法和算力的协同才是关键. 从一开始我就不认同所谓的ScalingLaw, 虽然到了一定Scale就能涌现, 但是在一个对数坐标轴下的Law导致过去几年算力的疯狂乱卷并不是一条正确的路. 从Dense到Sparse是必然的出路. 只是关于资源的约束, 很多大厂搞AI的人并没有太多的体感. 但是对于很多搞OI的人则是最适应的一个象限, 在各种烂机器上卷算法的日子真的让人怀念. 当然渣B并不是什么大神, 靠着一点小聪明拿了一个一等奖保送到了一个还算不错的学校, 但和那些ACM/ICPC冠军们近距离接触时明白了人和人之间很大的差距, 但是这些关于工程上的约束训练有太多的收获.

例如前几年一个很简单的分布式的随机动态规划算法就解决了NV/BRCM一直很多年无法解决的一个难题, NV的人来找我们说它的Roadmap时, 我们可以自信的给他们讲:“你们路标上的东西我们都搞完了, 甚至一些你们没解决的问题我们都弄干净了”, 或许等过几个月专利公布出来的时候,大家就会明白了. 而另一方面关于GPU互联的技术路线上, 国外的某些TOP厂商的CTO和资深架构师们也都和渣B有非常深入的合作, 当然芯片这类的工作周期会长一些, 大概过两三年大家也会明白.

这段话渣B想说的是: 诚然中美之间的差距还是很大, 美国的技术路线上有极大的概率是对的, 但并不代表他们全都是对的, 而我们只能去跟随和做好应用. 中国公司应该以创新者的身份加入到这场游戏里. AI的中国资本叙事的改写, 正是需要DeepSeek这样的逆行者. 知道自己的约束, 在约束下花小钱办大事, 这是中国人的传统和智慧.

然而作为创新者的身份加入是一件非常难的事情, 算力上的约束还一直都有, 即便是DeepSeek也需要在NV的GPU上训练, 这不又开始叫着要把H20也禁了么? 所以很多事情还需要更多的剑走偏锋的勇气, 想起钱老的一句话:”中国人怎么不行啊? 外国人能搞的, 难道中国人不能搞? 中国人比他们矮一截?“ 算力的约束下,算法和算力的协同是中国AI资本叙事里最重要的一环 在国外有太多的垂直领域的优势下, 在各个领域边界的交汇点隐藏着巨大的创新机会. 然而大厂在资本的裹挟下定出的KPI/OKR却使得很多人少了几分承担失败的勇气, 这是中国AI资本叙事里缺乏的另一环: 资本的耐心, 毕竟训崩一次带来的几千万的损失总要有人被追责, 或许整个团队就团灭了. 或许另一句话又来了:“让专业的人做专业的事, 不要分散资源“ 但背后又有一个问题:”什么是专业, 如何分辨专业的团队?“ 名校, 大厂高管, 以前做过xxx的履历, 有快速复刻的经验和一大堆论文成了”专业“的标签, 而这些标签的背后正好过滤掉了一些剑走偏锋的侠客. 其实背后的逻辑只是资本方缺少分辨专业的能力, 而DeepSeek具备了, 特别难能可贵的是从大模型算法到GPU微架构全栈的融会贯通.

下面给几个中国AI资本叙事的方向吧

1. NV已经到了瓶颈期,需要体系结构上的重塑

Mainframe(NVL72)的路在国内必然行不通, 甚至是在全球资本市场上长期来看也是行不通的. 从1999年的Google用一堆X86替代开启了大数据时代, 再到互联网泡沫后思科的CRS-1逐渐被CLOS-based Distributed, Dissagregated Chassis替代. NV自身GPU架构的瓶颈也非常大了, 前面几篇文章已经分析了很多

《三万亿的破绽》

Blackwell系列发布快一年了, 最近才刚刚上线, 而一个已经发布的产品微架构的whitepaper还没官宣, 这是什么原因? 从PTX的文档和Cutlass的一些代码慢慢拼凑出来一些细节, B200两个Die拼接在一起, 虽然号称TensorCore的性能翻了一倍, 但是Tensor Memory的引入使得两个Die加一起1600mm^2的芯片面积上, TensorCore的数量并没有像Hopper那样等比例翻倍, 因为TensorCore占用的Die面积也加大了很多, 同时Tensor Memory的引入, 对SIMT架构的Memory consistency有很大的影响, TMEM异步LD/ST带来的编程复杂性还在进一步加大.

因此体系结构的重塑成为必然, 但并不是说GPGPU架构不行了,要去走ASIC架构了.你看看Cerebras和Groq适配DeepSeek模型的速度就明白了. 但是中国AI资本叙事里通常面临ToB简单的竞标约束, 例如一个所谓的智算中心的RFP中明确定义的是多少PFLOPs的算力, 被迫在指标的裹挟下去通过ASIC卷FLOPs, 然后实际运行起来的峰值算力大概只能发挥30%. GPU前面那两个GP字母(General-Purpose)才是关键.

2. 算力约束下的稀疏模型是必然

算法上解决算力约束的出路就在稀疏和解耦上, 但是它需要大量的关于GPU微架构和Infra的系统知识. 例如MoE, 渣B在ChatGPT出来之前就在关注, 例如2022年3月的一篇文章《闲谈镍合约被逼空》就提及过关于MoE模型及其训练框架对计算机体系结构影响, 当然关于MoE春节过后还会更详细的做一些算法上的分析.

另一方面, 例如DeepSeek-V3 Technical Report中提到的关于通信算子的Offload, 基本上都是渣B 2021年就在做的一些工作, 而针对MoE的一些alltoall的通信优化, 特别是大规模incast的控制, 在2023年就已经完全解决了. 顺着DeepSeek-v3 report再diss一下NV, 现在的NV AlltoAll为什么要走PXN,例如Host1的GPU0 要跟Host2的GPU3的Expert通信, 为什么要Host1先GPU0通过NVLink拷贝到Host1的GPU3, 然后再通过Host1的GPU3发送到Host2的GPU3? 为什么不直接发要多一次拷贝? 然后再告诉你一个冷知识, 在NVL72上PXN还有更多的约束.

但很多时候这些MoE的东西被隐藏在了Dense的洪流里, 特别是Meta的Llama 3还在用405B的Dense. 所幸的是DeepSeek从V2的SMoE再到V3的更稀疏的SMoE把这条路走通了. 更进一步, 是否能够用更多的非NVLink的卡, 例如4090甚至是一些国产的卡来做Expert? 答案也是肯定的.

3. 数学工具上的研究投入

渣B关注着DeepMind的好几个数学家的工作, 而这是国内很多厂商非常缺少的一环, 当然渣B虽然是搞OI保送的, 当时也可以进那个学校最好的xx班, 但最终还是选了读数学. 主要原因还是在同时搞物理/数学/OI竞赛时, 发现了自身的算法弱点需要经过严格的数学训练才能补回来. 但认识了很多搞数学的人,包括很多著名的教授老师, 他们的代码工程能力的还是欠缺的. 但是AGI破局的关键点, 还是在数学工具的运用上, 这是渣B很早开始做量化的时候就感触良多的, 对于资产的定价和风险的估计, 像Simons这样能够娴熟运用数学工具的毕竟是极少数.

因此,在工作之余渣B还一直花大量的时间在这个领域, 例如下面这个专题:

《大模型时代的数学基础》

其实一个很朴素的想法就是: 这一次人工智能革命的数学基础是：范畴论/代数拓扑/代数几何这些二十世纪的数学第一登上商用计算的舞台。 对于深度学习最多用上了一些简单的张量代数和微分方程的数学工具, 而我们描述世界的新的数学工具的探索是一个巨大的宝库.

继续拿DeepSeek-V3简单举个例子吧, 为什么模型的前三层还是需要MLP? 其实在《大模型时代的数学基础(5)-谈谈MoE和Mixtral 8x7B》中已经有一些讨论了, Mixtral的缺陷就在于每一层都是MoE. 主要是涉及一些数值稳定性的问题的考虑, 另一方面继续举个例子,DeepSeek-v3为什么能够在FP8上训练, 很多工科/CS的同学或许都还没有读过《计算方法》这门课, 对于计算的数值稳定性的分析还缺少很多数学工具的支撑.

当然正如前一点所讲的, 算力约束下的稀疏模型是必然, 如何稀疏不光涉及MoE还有Attention的改造, 稀疏度该如何把握? 每次训练几千万的成本导致我们没法去通过做实验探索, 因此更多的希望能够在代数拓扑/代数几何这些工具上找到有效的办法, 至少证明一些技术路线是错误的.

但是很明显的是, 在这方面还存在很多不足. 华为可能是这方面投入最多的厂商, 应该有好几个菲尔兹奖获得者在做一些研究工作了, 但是相应的工程团队的跟进还是存在问题的.

4. 团队知识结构的融合

通常国内的资本喜欢拉几个某个领域的专家攒个局, 然后短平快的上市变现. 这样的做法在AI时代已经过时了, 它涉及的是一个大系统工程.前几个月写过一篇文章

《谈谈AISys架构师的基本素养》

当然牛人多了自然会有各种聪明人之间的斗争,正如文章所说:“技术面前, 多一份好奇. 部门之间, 多一份协同. 算力不够, 多一分豁达. 名利面前, 多一分宽容. 算法面前, 多一份谦卑.“ DeepSeek的成功, 更多的是老板的能力带来的组织的融合, 这些融合在很多大厂可能会被片面的认为是所谓的“组织保障”去效仿, 但打破深厚的部门墙需要的是什么?

5. 技术上的自信, 但是要避免民科

最后再补一点吧, 任何事情都有正反两面, 一方面是一边倒的膝盖软, 什么都是外国的月亮圆, 复刻仿制流盛行, 而另一方面又在自研的路上充满了民科, 总想着把自己的一些研究夹带私货进去, 甚至是想靠着定义标准的方式来通过举国之力进行推动, 有些话太伤人就不点名了, 拿另一个话题来说吧.

量化交易这个圈子大概在2012年开始在国内逐渐的流行起来, 几乎就是照着AQM还有一些时间序列分析模型在做一些算法, 再到后来逐渐演化成一些多因子模型,然后各种方法找因子.当然更早的所谓的技术分析流派也有大量的民科, 每一年都有什么用斐波拉契序列或者江恩方块,日本蜡烛图, 什么W底什么双头的K线形态, 或者拿MACD调参的都把自己归为量化. 而渣B一开始就给自己定了一个约束: 不用任何参数的回归模型, 十年了模型的核心代码一行没变还依旧有效.

中国AI资本的叙事上, 少一点所谓的自主的宣传, 也少一些软膝盖,多几分傲骨. 复刻仿制并不丢人,这是掌握核心技术的关键,但是不要把自己局限在这个框里, 要多几分自己的判断, 多几分走少有人走的路的勇气.

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业