微信扫码
添加专属顾问
我要投稿
面壁智能突破1.58-bit极限,让大模型在手机等终端设备上也能“轻装上阵”,性能不减。核心内容:1. 内存涨价倒逼行业,低比特技术成破局关键2. 面壁智能的“反共识”:更低比特,更高知识密度3. 1.58-bit极限验证与QAT训练方案的优势
撰文 | 郝 鑫
编辑 | 吴先之
大模型决定了“脑容量”,定义了模型的知识上限与智能天花板。
低比特技术,则是让大模型“小而强”的魔法,它重新排列了每一个“脑细胞”的密度。这条路指向两个明确的方向:要么在有限的内存与显存资源下,塞进参数规模更大的模型;要么让同样大小的模型,跑得更快、更省电。
低比特模型一直处于小众赛道,直到今年内存价格一年涨了5倍,倒逼整个大模型行业寻求性价比更高的落地解决方案。
而早在2024年下半年,面壁智能就开始押注2-bit及以下的技术路线。彼时,面壁智能AI Infra团队在训练时观察到,从BF16到INT4(从高精度到底精度),模型能力损失极小,说明“甜蜜点”一定在更低处。
基于此,他们在当时形成了两个“反共识”:更低比特的模型,能获得更高的知识密度;内存是模型行业最稀缺的资源,未来一定会变得越来越值钱。
带着这样的判断,面壁智能在GPU上率先验证了BitCPM系列。到今年,他们将这套方法论完整迁移到了华为昇腾,端到端跑通了国产算力平台的1.58-bit训练。
测试数据显示,相比传统BF16精度,BitCPM-CANN在推理阶段释放约6倍显存空间,同时将模型能力保留率维持在90%–97.2%。这意味着,同等模型能力在终端运行,只需过去1/6的内存。
“1.58-bit是技术极限验证的探针”。
面壁智能AI Infra技术负责人、清华大学计算机系高性能所的水木学者博士后李宇轩向光子星球解释,开源发布最极端的1.58-bit,目的是为了验证极低位宽量化感知训练之路能否走通。
“1.58-bit是保证训练稳定、模型能力不崩塌的最低位宽要求。如果这都能成功训练并保持高能力,那么2-bit、4-bit、8-bit等更宽松的低比特方案自然更容易实现,且效果更好”,这是一种取法乎上,仅得乎中的技术策略,即先攻克最难的点,然后再向下兼容。
如何获得参数更小却更强的模型?行业中传统的解法是PTQ(后训练量化),即先用高精度如BF16完成模型训练,再将其权重压缩至INT8或INT4。
INT4是一种4位整数精度,相比BF16节省4倍内存,是目前低比特量化的“实用基准线”,而1.58-bit则是突破这条线,向极限压缩进一步逼近的探索。
这本质是一种以精度换内存的做法,压缩越狠,性能损失越大。就好比把一本写好的名著,压缩成口袋书,每个字只能用原来4/1的墨水写,结果是字迹模糊、内容丢失,有的地方甚至看不懂。
正是看到了PTQ的弊端,面壁智能在训练上采用了先做QAT(量化感知训练)、再蒸馏的方案。李宇轩表示,这个方案的核心是既能稳定收敛,又能保留全精度能力。这相当于作者最初就知道要被制作成口袋书,直接用更简洁的语言表达相同的内容,所以压缩后依然清晰可读。
以前我们认为,位宽越大、精度越高,模型就越聪明。但面壁智能的实践证明,重要的不是每个参数占多大地方,而是占的每一寸地方装了多少知识。低比特训练不再是,为了省内存而牺牲精度的妥协,而是一种全新的思路:用最少的资源,承载最高的知识密度。
根据BitCPM-CANN与同尺寸MiniCPM-4全精度模型家族在常识、阅读理解、学科知识、数学与推理等11项任务上的1:1性能对照。
BitCPM-CANN三个尺寸模型的能力保留率达到95.7%-97.2%,即使是能力保留最弱的0.5B,保留率也达到了90%以上,几乎保留下来原本大模型的能力。
我们来简单算笔账,同样一个8B大小的模型,用传统BF16格式存,光权重就要吃掉16GB空间,普通手机根本装不下。但用1.58-bit格式存,释放6倍显存占有空间,所占大小手机差不多相当于一部完整的高清电影。
李宇轩告诉我们,未来他们将进行更精细化的数据处理,将0.5B档的模型能力保留率提升至95%。同时结合MoE架构,利用稀疏专家扩展容量上限,60B参数的超大模型有望装入手机。
内存价格暴涨,正在倒逼行业算清楚经济账。
公开信息显示,2026年DDR5内存价格暴涨数倍,32G条从年初的500元涨至超4000元,HBM更是天价。
这让本身就对价格敏感的端侧厂商陷入了两难境地。有手机厂商告诉我们,用户期待更强的AI能力,但内存涨价3-5倍后,若维持原内存升级节奏,价格翻倍;不涨配置则体验倒退,用户不买单;涨价又怕丢失市场,部分旗舰机型已经被迫原地踏步。
要解决上面的难题,国产替代是一个解决思路。国产厂商长鑫存储已率先破局,DDR5实现量产,其价格比国际同类产品低15%-20%。换用国产内存,同样容量立省两成,从源头上缓解了成本压力。
低比特技术则指向另一条路径,不在“买内存”上省钱,而是在“用内存”上极致压缩。厂商无需堆砌更多内存,就能让手机跑起参数量翻倍的模型。结果是,用户既能感知AI体验升级,厂商又能实现降本。这正是今年行业突然重视低比特模型的根本原因,跳出学术探索范围,低比特模型未来可能成为化解端侧AI商业焦虑的那把钥匙。
在此基础上,面壁智能填补了国产低比特大模型市场的空白。其BitCPM-CANN是首个在昇腾上端到端,原生完成训练的1.58-bit极低比特大模型,从算子、算法到训练框架全是国产。这证明了国产算力平台不仅能训,还能训出世界领先的极低比特模型。
国产NPU阵营也第一次拥有自己的1.58-Bit低比特训练栈,无需再绕道CUDA验证、迁移。一旦做完,就是基础设施级的沉淀。之后所有面向昇腾的低比特训练,都将建立在同一套底座之上。最终结果显示,整体显存节能约6倍,推理速度快了2到4倍。
李宇轩介绍,在适配华为昇腾、推进低比特训练过程中,核心卡点主要集中在软件生态与工程调优层面。
在软件生态上,华为昇腾的编程门槛较高、熟悉其工具链的开发者较少,尤其在长上下文支持方面有欠缺,面壁智能团队为此花费了大量调试时间。
低比特训练本身也存在诸多工程难点。如果量化器选错,模型效果会断崖式下降。训练流程需要精细调优,必须先做量化感知训练让模型进入稳定收敛态,再引入蒸馏,这个“甜蜜点”需要大量实验才能找到。低位宽模型在某些基础能力上容易退化,需要针对性补数据,用更耐心的方式准备训练集。
参考面壁智能AI Infra团队的经验,在既有GPU经验积累的前提下,跑通昇腾全链路仍需三周到一个多月,更大模型适配时间会更长。
此次BitCPM-CANN将多种数据以可复现的方式开源。
“像OpenAI和DeepSeek,推动全行业做强化学习一样,我们也希望向行业证明,在国产芯片做极低比特训练一样可行。”
过去,模型厂商、芯片厂商与终端厂商各自为战。
模型在英伟达上训练,芯片厂商只管卖算力,终端厂商负责集成。但在端侧AI时代,这条清晰的链条正在模糊,而低比特技术,正成为连接三方的核心纽带。
对模型厂商而言,低比特技术是核心竞争力。谁能拿出更小、更快、能力保留率更高的模型,谁就能赢得终端厂商的订单。面壁智能开源BitCPM-CANN模型,本质上就是试图建立“低比特模型的标准”,以吸引芯片和终端厂商主动围绕其生态进行适配。
对芯片厂商来说,硬件已先行一步。高通骁龙8 Gen 4等旗舰芯片已原生支持2-bit推理。但硬件跑起来,缺的是高质量的低比特模型。面壁智能这样的模型厂商恰好补上了供给侧的空档,让芯片厂商的硬件能力真正有了用武之地。双方深度合作,如面壁智能与华为昇腾,共同优化算子、校准量化参数,形成软硬一体的护城河。
站在终端厂商角度,低比特模型直接决定了产品的AI体验与成本结构。手机厂商不再只是采购芯片、预装模型,而是需要与模型厂商联合调优,甚至定制专属模型。这种深度绑定,使得终端厂商一旦选定合作方,就难以轻易切换,生态锁定自然形成。
模型公司与终端厂商的协作,甚至深入到了训练阶段。面壁智能对低比特模型能力损失的商业化处理,就是一个很好的例证。
用户在手机、汽车上真正高频使用的,是文本总结、语音助手、信息检索这些功能,而不是写代码或解高等数学题。那些冷门能力,绝大多数用户一年也未必用上一次。
面壁智能正是抓住了这一点,通过后训练,把低比特模型那3%-5%的能力损失,集中到了这些低频功能上。结果就是核心场景的精度近乎完整保留,用户完全感觉不到体验下降,而厂商的成本却实实在在地降了下来。
现阶段,能够提供稳定、高效、易部署的低比特模型的公司,将在端侧AI生态中占据核心生态位。因为它既是算法提供者,也是芯片优化伙伴,还是终端厂商的AI能力外包方。这种多重身份带来的议价能力和生态影响力,远超传统“卖模型授权”的商业模式。
关于未来更大的想象来自于,当60B大模型封装进手机,会发生什么?
目前端侧主流的3B-8B模型,能力大致相当于小学生或初中生,能回答常识问题、做简单推理,但面对复杂逻辑、长上下文、专业领域知识时容易出错。60B模型则完全不同,端侧AI将具备解数学竞赛题、分析法律文书、解读金融报表等专业能力。
当60B模型完全运行在手机本地时,许多原本必须依赖云端的重任务将变得即时、私密与永远可用。从原来设定闹钟、查天气升级为规划旅行路线、比价购物;从简单补全函数,到生成完整模块、调试bug;从写标题、文案,到能写完整报告等。并且上述所有行为,不联网、不上传数据、零延迟。
这背后是低比特技术、国产算力与端侧芯片的交汇。算法让模型变小,芯片让模型跑快,内存让它装得下。当这三条曲线同时越过临界点,端侧AI的基建就搭建完成了。
一旦端侧AI基建就位,超级应用或许也不就再遥远了。
微信号|TMTweb
公众号|光子星球
别忘了扫码关注我们!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-26
Routa 桌面版发布:内建 Harness 工程的 AI Coding 研发协作工作台
2026-05-26
AI Native 企业的关键,是从外化到内生
2026-05-26
真正开启Vibe Coding的第一天!
2026-05-26
Coding Agent 在百度的落地实践:从反馈闭环到工程范式重构
2026-05-26
刚刚,国产Agent模型闯入全球第一梯队!限时免费
2026-05-26
天工AI发布SkyClaw-v1.0:面向真实工作流的百万上下文 Agent 模型
2026-05-26
如何使用Codex的Goals机制完成长程任务?
2026-05-26
关于Agent Harness,我整理了一个最小版!
2026-04-15
2026-04-07
2026-03-31
2026-03-13
2026-04-07
2026-03-17
2026-03-17
2026-03-21
2026-04-24
2026-03-06
2026-05-26
2026-05-23
2026-05-21
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08