微信扫码
添加专属顾问
中国AI资本的崛起与生态反思。 核心内容: 1. Qwen2.5-MAX引领中国AI资产重新估值 2. 国内AI创投生态与营商环境分析 3. AI企业IPO路径与ToC流量工程误区
DeepSeek R1对美国资本市场的几千亿的影响就不多提了, 而另一方面初一发布的Qwen2.5-MAX带来了中国AI资产的全面重新估值. 当然除了Qwen还有很多很好的工作, 例如Kimi的推理模型, Minimax通过Linear Attention, 阶跃的GMHA分析和FPBA的上界估计并提出的MFA和MFA-KR, 虽然没有DeepSeek那么被世人关注, 但还值得我们去点赞. 但是, 国内的一些媒体的无知似乎又很有趣的显示了中国AI认知的落后, 什么用了PTX绕过CUDA啥的, 还有用LLM生成一堆乱七八糟的爽文...
虽然这些工作有了几分”虎踞龙盘今胜昔,天翻地覆慨而慷。“的气势, 但是还需要更多的”宜将剩勇追穷寇,不可沽名学霸王。“的韧劲. 仔细反思一下, 国内的AI创投的生态氛围其实并不好, ToB的营商环境下决定了一些叙事和资本逻辑. 当年的AI四小龙走过这样一条路, 训练一个差一代的模型,然后和一些政企关系混在一起, 拉几个发了大量论文的大厂高管或者知名学者, 然后通过各种项目化的定制外包走向IPO, 然后把红利都吃干净了.
这样的叙事在过去两年似乎同样的重复着, 拉几个大厂高管们, 然后通过一些渠道搞一些模型架构的信息差, 然后训练差一代的模型再搞一些小技巧刷刷分. 并不在意训练和推理的cost,也不在乎能否落地以及客户是谁, 投资人能够搞定各种关系然后找政企立项, 然后各种PR加持下保证基金进入, 再搞几个样板工程顺利走向IPO就好. 对于ToC又简单的以为这是一个流量工程, 某几家各个渠道烧钱换流量,甚至骨子的那种思维定势下还反问:“DeepSeek这次PR花了多少钱, 怎么到处洗稿”,
而这群人最大的特点是一句口头禅:”我们是国内AI的眼睛, 不跟随怎么能够超越呢?“ 而被问到“你为啥做的不好时” 通常的回答是“资源老板们没给够”. 只是这样的故事在如今已经无法叙事了. 前几个月Llama 3出来之时, 我还在《Llama 3技术报告解读(1)- AI基础设施和并行策略》 中Diss Meta因为自己AI Infra的问题没法做MoE而选择了Dense, 虽然当时也引来了一些争议, 现在来看Meta panic是一个最好的证明. Llama的路线并不是正确的, 甚至它的Infra也有太多的问题. 只是国内的很多人跪着太久了, 膝盖软了站不起来了...
地球的另一边,各个厂加速上线DeepSeek R1推理, 然后各个大厂的CEO/CTO疯狂点赞. 例如博通做交换芯片的GM Ram V.甚至开始预言大型机(GB200 NVL72)的路线已经终结.
与此同时, Intel前CEO Pat Gelsinger先生的一段话也很值得我们进一步反思:
计算遵循Gas Law, 你需要明白各种资源的约束, 而工程本身时一个关于约束的问题. 算法和算力的协同才是关键. 从一开始我就不认同所谓的ScalingLaw, 虽然到了一定Scale就能涌现, 但是在一个对数坐标轴下的Law导致过去几年算力的疯狂乱卷并不是一条正确的路. 从Dense到Sparse是必然的出路. 只是关于资源的约束, 很多大厂搞AI的人并没有太多的体感. 但是对于很多搞OI的人则是最适应的一个象限, 在各种烂机器上卷算法的日子真的让人怀念. 当然渣B并不是什么大神, 靠着一点小聪明拿了一个一等奖保送到了一个还算不错的学校, 但和那些ACM/ICPC冠军们近距离接触时明白了人和人之间很大的差距, 但是这些关于工程上的约束训练有太多的收获.
例如前几年一个很简单的分布式的随机动态规划算法就解决了NV/BRCM一直很多年无法解决的一个难题, NV的人来找我们说它的Roadmap时, 我们可以自信的给他们讲:“你们路标上的东西我们都搞完了, 甚至一些你们没解决的问题我们都弄干净了”, 或许等过几个月专利公布出来的时候,大家就会明白了. 而另一方面关于GPU互联的技术路线上, 国外的某些TOP厂商的CTO和资深架构师们也都和渣B有非常深入的合作, 当然芯片这类的工作周期会长一些, 大概过两三年大家也会明白.
这段话渣B想说的是: 诚然中美之间的差距还是很大, 美国的技术路线上有极大的概率是对的, 但并不代表他们全都是对的, 而我们只能去跟随和做好应用. 中国公司应该以创新者的身份加入到这场游戏里. AI的中国资本叙事的改写, 正是需要DeepSeek这样的逆行者. 知道自己的约束, 在约束下花小钱办大事, 这是中国人的传统和智慧.
然而作为创新者的身份加入是一件非常难的事情, 算力上的约束还一直都有, 即便是DeepSeek也需要在NV的GPU上训练, 这不又开始叫着要把H20也禁了么? 所以很多事情还需要更多的剑走偏锋的勇气, 想起钱老的一句话:”中国人怎么不行啊? 外国人能搞的, 难道中国人不能搞? 中国人比他们矮一截?“ 算力的约束下,算法和算力的协同是中国AI资本叙事里最重要的一环 在国外有太多的垂直领域的优势下, 在各个领域边界的交汇点隐藏着巨大的创新机会. 然而大厂在资本的裹挟下定出的KPI/OKR却使得很多人少了几分承担失败的勇气, 这是中国AI资本叙事里缺乏的另一环: 资本的耐心, 毕竟训崩一次带来的几千万的损失总要有人被追责, 或许整个团队就团灭了. 或许另一句话又来了:“让专业的人做专业的事, 不要分散资源“ 但背后又有一个问题:”什么是专业, 如何分辨专业的团队?“ 名校, 大厂高管, 以前做过xxx的履历, 有快速复刻的经验和一大堆论文成了”专业“的标签, 而这些标签的背后正好过滤掉了一些剑走偏锋的侠客. 其实背后的逻辑只是资本方缺少分辨专业的能力, 而DeepSeek具备了, 特别难能可贵的是从大模型算法到GPU微架构全栈的融会贯通.
下面给几个中国AI资本叙事的方向吧
Mainframe(NVL72)的路在国内必然行不通, 甚至是在全球资本市场上长期来看也是行不通的. 从1999年的Google用一堆X86替代开启了大数据时代, 再到互联网泡沫后思科的CRS-1逐渐被CLOS-based Distributed, Dissagregated Chassis替代. NV自身GPU架构的瓶颈也非常大了, 前面几篇文章已经分析了很多
《三万亿的破绽》
Blackwell系列发布快一年了, 最近才刚刚上线, 而一个已经发布的产品微架构的whitepaper还没官宣, 这是什么原因? 从PTX的文档和Cutlass的一些代码慢慢拼凑出来一些细节, B200两个Die拼接在一起, 虽然号称TensorCore的性能翻了一倍, 但是Tensor Memory的引入使得两个Die加一起1600mm^2的芯片面积上, TensorCore的数量并没有像Hopper那样等比例翻倍, 因为TensorCore占用的Die面积也加大了很多, 同时Tensor Memory的引入, 对SIMT架构的Memory consistency有很大的影响, TMEM异步LD/ST带来的编程复杂性还在进一步加大.
因此体系结构的重塑成为必然, 但并不是说GPGPU架构不行了,要去走ASIC架构了.你看看Cerebras和Groq适配DeepSeek模型的速度就明白了. 但是中国AI资本叙事里通常面临ToB简单的竞标约束, 例如一个所谓的智算中心的RFP中明确定义的是多少PFLOPs的算力, 被迫在指标的裹挟下去通过ASIC卷FLOPs, 然后实际运行起来的峰值算力大概只能发挥30%. GPU前面那两个GP字母(General-Purpose)才是关键.
算法上解决算力约束的出路就在稀疏和解耦上, 但是它需要大量的关于GPU微架构和Infra的系统知识. 例如MoE, 渣B在ChatGPT出来之前就在关注, 例如2022年3月的一篇文章《闲谈镍合约被逼空》就提及过关于MoE模型及其训练框架对计算机体系结构影响, 当然关于MoE春节过后还会更详细的做一些算法上的分析.
另一方面, 例如DeepSeek-V3 Technical Report中提到的关于通信算子的Offload, 基本上都是渣B 2021年就在做的一些工作, 而针对MoE的一些alltoall的通信优化, 特别是大规模incast的控制, 在2023年就已经完全解决了. 顺着DeepSeek-v3 report再diss一下NV, 现在的NV AlltoAll为什么要走PXN,例如Host1的GPU0 要跟Host2的GPU3的Expert通信, 为什么要Host1先GPU0通过NVLink拷贝到Host1的GPU3, 然后再通过Host1的GPU3发送到Host2的GPU3? 为什么不直接发要多一次拷贝? 然后再告诉你一个冷知识, 在NVL72上PXN还有更多的约束.
但很多时候这些MoE的东西被隐藏在了Dense的洪流里, 特别是Meta的Llama 3还在用405B的Dense. 所幸的是DeepSeek从V2的SMoE再到V3的更稀疏的SMoE把这条路走通了. 更进一步, 是否能够用更多的非NVLink的卡, 例如4090甚至是一些国产的卡来做Expert? 答案也是肯定的.
渣B关注着DeepMind的好几个数学家的工作, 而这是国内很多厂商非常缺少的一环, 当然渣B虽然是搞OI保送的, 当时也可以进那个学校最好的xx班, 但最终还是选了读数学. 主要原因还是在同时搞物理/数学/OI竞赛时, 发现了自身的算法弱点需要经过严格的数学训练才能补回来. 但认识了很多搞数学的人,包括很多著名的教授老师, 他们的代码工程能力的还是欠缺的. 但是AGI破局的关键点, 还是在数学工具的运用上, 这是渣B很早开始做量化的时候就感触良多的, 对于资产的定价和风险的估计, 像Simons这样能够娴熟运用数学工具的毕竟是极少数.
因此,在工作之余渣B还一直花大量的时间在这个领域, 例如下面这个专题:
《大模型时代的数学基础》
其实一个很朴素的想法就是: 这一次人工智能革命的数学基础是:范畴论/代数拓扑/代数几何这些二十世纪的数学第一登上商用计算的舞台。 对于深度学习最多用上了一些简单的张量代数和微分方程的数学工具, 而我们描述世界的新的数学工具的探索是一个巨大的宝库.
继续拿DeepSeek-V3简单举个例子吧, 为什么模型的前三层还是需要MLP? 其实在《大模型时代的数学基础(5)-谈谈MoE和Mixtral 8x7B》中已经有一些讨论了, Mixtral的缺陷就在于每一层都是MoE. 主要是涉及一些数值稳定性的问题的考虑, 另一方面继续举个例子,DeepSeek-v3为什么能够在FP8上训练, 很多工科/CS的同学或许都还没有读过《计算方法》这门课, 对于计算的数值稳定性的分析还缺少很多数学工具的支撑.
当然正如前一点所讲的, 算力约束下的稀疏模型是必然, 如何稀疏不光涉及MoE还有Attention的改造, 稀疏度该如何把握? 每次训练几千万的成本导致我们没法去通过做实验探索, 因此更多的希望能够在代数拓扑/代数几何这些工具上找到有效的办法, 至少证明一些技术路线是错误的.
但是很明显的是, 在这方面还存在很多不足. 华为可能是这方面投入最多的厂商, 应该有好几个菲尔兹奖获得者在做一些研究工作了, 但是相应的工程团队的跟进还是存在问题的.
通常国内的资本喜欢拉几个某个领域的专家攒个局, 然后短平快的上市变现. 这样的做法在AI时代已经过时了, 它涉及的是一个大系统工程.前几个月写过一篇文章
《谈谈AISys架构师的基本素养》
当然牛人多了自然会有各种聪明人之间的斗争,正如文章所说:“技术面前, 多一份好奇. 部门之间, 多一份协同. 算力不够, 多一分豁达. 名利面前, 多一分宽容. 算法面前, 多一份谦卑.“ DeepSeek的成功, 更多的是老板的能力带来的组织的融合, 这些融合在很多大厂可能会被片面的认为是所谓的“组织保障”去效仿, 但打破深厚的部门墙需要的是什么?
最后再补一点吧, 任何事情都有正反两面, 一方面是一边倒的膝盖软, 什么都是外国的月亮圆, 复刻仿制流盛行, 而另一方面又在自研的路上充满了民科, 总想着把自己的一些研究夹带私货进去, 甚至是想靠着定义标准的方式来通过举国之力进行推动, 有些话太伤人就不点名了, 拿另一个话题来说吧.
量化交易这个圈子大概在2012年开始在国内逐渐的流行起来, 几乎就是照着AQM还有一些时间序列分析模型在做一些算法, 再到后来逐渐演化成一些多因子模型,然后各种方法找因子.当然更早的所谓的技术分析流派也有大量的民科, 每一年都有什么用斐波拉契序列或者江恩方块,日本蜡烛图, 什么W底什么双头的K线形态, 或者拿MACD调参的都把自己归为量化. 而渣B一开始就给自己定了一个约束: 不用任何参数的回归模型, 十年了模型的核心代码一行没变还依旧有效.
中国AI资本的叙事上, 少一点所谓的自主的宣传, 也少一些软膝盖,多几分傲骨. 复刻仿制并不丢人,这是掌握核心技术的关键,但是不要把自己局限在这个框里, 要多几分自己的判断, 多几分走少有人走的路的勇气.
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-01
半小时,100页标书,AI替你熬的夜
2026-07-01
被AI识破的“分工陷阱”:为什么前端部署工程师本质就是销售?
2026-06-27
人人都在抢邮件和私信,却忘了那个打开率最高的老渠道——还没人用AI做好
2026-06-25
Codex最强替代!我用这款全场景Agent搞定整套营销方案
2026-06-24
装修、服装、家具,正在用 AI 把生意讲清楚
2026-06-16
万字长文|AI 正在重塑营销范式:未来市场部,不是提效,而是重构组织方式(上篇)
2026-06-08
AI营销,开始翻车了
2026-06-01
用 WorkBuddy 做标书,真正省下来的不是时间
2026-04-20
2026-04-27
2026-04-07
2026-05-11
2026-05-07
2026-06-01
2026-05-26
2026-06-08
2026-05-25
2026-06-16
2026-07-01
2026-03-16
2026-01-25
2025-09-30
2025-06-26
2025-06-15
2025-06-03
2025-05-29
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。