2026年5月7日 周四晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

本地部署这件事,终于被国产开源AI做明白了!

发布日期:2026-05-07 01:52:09 浏览次数: 1527
作者:阿枫科技

微信搜一搜,关注“阿枫科技”

推荐语

国产开源AI突破本地部署瓶颈,让AI编程测试更高效安全!

核心内容:
1. AI编程测试的痛点:GUI测试成本高、隐私风险大
2. 明略科技开源方案:端侧GUI智能体Mano-P+加速框架Cider
3. 本地部署性能实测:低算力流畅运行,隐私安全有保障

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
AI编程,其实已经不是啥稀奇事儿了很多大公司已经在内部开始规模化地使用AI来编程。

但我今天听一位内部的小伙伴说:虽然已经能用AI编程了,但工作依然很累。在我追问之下,他表示AI虽然会写代码,但并不会测试。

举个例子,我用AI写完了一个网页但我打开这个页面之后,发现它并没有满足我的要求UI是乱的,甚至功能都可能用不了。

这是因为绝大部分的AI模型都只有文字交互的能力,只能通过一些接口来确认自己做好的网页能不能用。

但人类是通过交互页面来完成操作的,这就和AI产生了本质的区别。AI测试后判定通过的页面,在人类实际使用中却未必能达到预期。

这个时候我又追问,不是有很多多模态大模型嘛,可以用GUI的方式来测试。

但GUI测试有两大致命问题,导致它在大公司内部并无法使用:

1.成本太高:所谓GUI,就是让AI长出眼睛,去模拟人类的视觉能力查看页面,这就导致页面每滑动一下,十几张图片就传输出去了。

仅仅是测试这一个环节,Token的消耗往往就占到了整条流水线的50%以上太烧钱了,公司负担不起。

2.隐私问题:使用线上的多模态大模型,就必须将数据上传到云端模型中去处理,如果涉及一些隐私项目,那肯定是不让用的。

但最近,明略科技正式开源了两个项目:Mano-P(端侧GUI智能体)+Cider(加速推理框架)。

不仅解决了上面提到的GUI测试问题更是把本地AI的性能推向了一个新的高度。

 Mano-P(端侧GUI智能体) 

端侧,GUI,智能体。

端侧代表了这款模型是部署在本地的,不用担心数据被上传到网络的隐私风险。

“GUI”代表了它的能力,也就是靠视觉来进行交互。

 而“智能体”,就代表它可不只是用来验证编程结果的,无论是网页、3D应用还是各种桌面软件,它都能像真人一样,看懂界面并模拟人手直接点击。

假如你是个程序员,你就可以在使用AI写完代码后,再用Mano-P去完成点击、输入、验证等测试流程。在发现BUG后,再自动反馈给上游进行修复,直到交付一个完全可用的页面,形成一个全自动的工作闭环。

这个时候就有人要问了:阿枫,我很担心本地模型的性能问题,算力不够会不会不够聪明?

这个大家也不需要担心哈,这一点才是Mano-P真正厉害的地方。

M4 Pro芯片上,它的4B量化模型预填充速度能达到476tokens/s。

这个数字是什么概念呢?一张1080P的截图大概就是1000token,也就是说,只需要2秒钟,它就能看懂你的图形界面,并迅速理解接下来该如何进行测试操作。

这意味着你不需要花大几万块钱去买一台大型服务器,只需要在你平时办公用的MacBook上使用Mano-P,AI就能跑得非常流畅。而且它经过了瘦身处理,峰值占用内存仅4.3GB,也不至于让你的电脑出现卡顿。

就算电脑断网了,它的离线长任务自主规划功能,也能让模型保持运行,所有截图和数据都不上云,安全感拉满了。

这个时候就有人要说了:阿枫,虽然这个模型在本地确实挺行,但我还是觉得它不够我用,该怎么办?

别着急,明略科技为了进一步发挥出Mana-P的性能,还专门为它配了一个运行框架。

 Cider(加速推理框架) 

很多同学可能会好奇,苹果官方不是有MLX框架吗?为什么还要用Cider

确实MLX已经很优秀了,但在INT8激活量化和INT8TensorOps计算方面,原生框架其实还略有不足。

而Cider,则率先做到了在AppleGPU上实现硬件加速INT8TensorOps推理,它通过调用底层API,可以开创性地实现W8A8和W4A8模式,进一步榨干Mac芯片的潜能。

这里直接给大家放一组数据就明白了:

速度更快:W8A8模式下,算子速度比MLX提升1.41.9倍。

占用更少:W4A8模式下,权重内存占用比W8A8少了一半,在高并发场景下,与原生MLX的全精度W4A16方案速度不相上下。

适配更多:Cider不只是服务于Mano-P,像大家常用的QwenLlamaMistral等等,只要可以接入MLX生态,就可以同样在Cider中使用。

以Qwen3-VL-2B为例,Cider在分块预填充场景中可以实现约57%到61%的端到端预填充加速效果。

本身端侧模型就受限于硬件能力,性能相比云端模型有所差距,所以当然是能提高一点性能就提高一点性能啦。

 总结一下 

说实话,端侧AI并不是把模型搬到本地这么简单,而是要重建一套可用的本地智能基础设施。

而明略科技Mano-P+Cider这套组合,做到了以下这些优势:

1.省钱:原本占用50%多的流程成本的GUI测试,搬到本地后成本直接归零。

2.隐私:数据不上云,你的代码和截图永远留在你的电脑本地里。

3.能力:M4 Pro芯片上预填充速度476tokens/s,峰值内存占用仅4.3GB。

4.速度启用Cider的w8A8激活量化后,Mano-P的预填充速度可提升12.7%。

5.开源:没错,无论是Mano-P模型还是Cider框架,都已经在Github中开源,感兴趣的同学可以去直接下载部署。

Mano-P开源链接:
github.com/Mininglamp-AI/Mano-P
Cider开源链接:
github.com/Mininglamp-AI/cider

这两个项目都正式开源,支持商业使用和二次开发。明略科技的Mano-P+Cider这套组合,是给端侧模型的落地结实得打了个样。

而Cider的开源,同时又给端侧模型生态补上了一个重要的基础设施让更多企业和开发者自己就可以便捷地部署模型了。

明略科技这次真是给我们国产AI产业贡献了一大波力量啊!

有人说,端侧AI的性能被阉割了,比不上云端模型。

但我觉得恰恰相反,随着大众隐私意识逐渐提高,以及对本地低延迟场景需求的到来,端侧AI才恰恰是未来AI真正落地到真实业务中的方式。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询