微信扫码
添加专属顾问
我要投稿
GLM-4.5宣传很美好,实测却让人失望,跑分与真实表现差距明显。 核心内容: 1. GLM-4.5官方跑分数据与实际使用体验的对比 2. PPT生成功能从惊艳到平庸的测试结果 3. 编程实测中暴露的低级错误和性能问题
昨晚,智谱 AI 突然发布了 GLM-4.5,号称"全球第二、国产第一、开源第一"。
看到这个宣传,我内心是激动的——又一个国内的黑马模型要出现了?
于是我第一时间测试,想看看这个"国产之光"到底有多强。
结果...让我有点失望。
先说说官方的跑分数据,确实很亮眼:
看起来很厉害对吧?355B 参数,32B 激活参数,MoE 架构,128K 上下文...
但是,跑分和实际使用完全是两回事。
智谱之前的实验模型做 PPT 确实很强,我对 4.5 抱有很高期待。
结果第一个测试:
嗯,结果怎么说呢?我个人认为比原来平庸了。
生成的 PPT 千篇一律都是"图左文右"的布局,毫无创意可言。
而且在测试过程中频繁遇到限速错误,不知道是访问人数过多导致的模型降级,还是服务器扛不住压力。
对比一下之前模型生成的效果:
感觉差距有点明显。
既然官方说 GLM-4.5 在编程方面表现优秀,我决定在 Claude Code 中测试一下。
配置过程确实很简单,首先去控制台申请 API Key:
https://z.ai/manage-apikey/apikey-list
然后设置以下的环境变量:
export ANTHROPIC_BASE_URL=https://api.z.ai/api/anthropic
export ANTHROPIC_AUTH_TOKEN={YOUR_API_KEY}
输入 claude 指令进入,确保环境变量被加载到了:
配置完成后,我使用 Cursor 不让用了?我花 3 天测试 4 个平替工具(附详细测评)这篇文章的同款提示词来实测一下:
@ai-daily-generator
帮我换一个数据源:https://news.aibase.com/zh/news
你可以用playwright去看看它的页面结构和翻页接口
刚开始运行的时候,我还觉得挺好的,一切正常,包括调用 playwright MCP 都比较好:
然而,后面的处理越来越不对劲,我感觉在浪费 token 了。
第一个问题:变量未替换的低级错误
这种基础的变量替换都能出错,让我对模型的代码理解能力产生了质疑。
第二个问题:API 调试来回折腾
第三个问题:测试环节反复纠结
我真的感觉到它来回折腾,浪费大量 token。
第四个问题:虚假的"修复完成"
超时几次后,它直接告诉我修复完了,但实际上问题根本没解决。
然后,我让它自己发现问题,它折腾了好久,最后告诉我,有可能是调试代码导致的。
我:???
最终结果:直接降级方案
直接给我把方案降级了,连基本功能都不实现了。
于是,我默默地关掉了它。
这能跟 claude 比?我觉得跟 K2 都差了十万八千里!
官方还专门做了"Real-World Evaluation",在 52 个编程任务上与 Claude 4 Sonnet、Kimi-K2 对比,声称"largely comparable experience"。
但我的实测体验告诉我:差距不是一点半点。
浪费我一早上的时间。
我必须说几句扎心的话:
国产 AI 确实在进步,这点我承认。但是,进步不等于可以吹牛。
看了几个公众号,看得我热血沸腾。
但用了一上午,我只想说: 醒醒吧!
当然,我不知道是不是评测的时候人太多了,导致它模型降级了还是什么。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-29
如何评测 AI 智能体:试试字节开源的扣子罗盘
2025-08-29
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
2025-08-28
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
2025-08-28
我摊牌了,PDF的终结者出现了!这个开源神器,让你的RAG项目吞吐能力暴增10倍!
2025-08-28
面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快
2025-08-28
1.9K Star 微软开源TTS王炸!90分钟超长语音合成,4人对话自然切换!
2025-08-27
初探:从0开始的AI-Agent开发踩坑实录
2025-08-27
ollama v0.11.7发布:深度集成DeepSeek-V3.1与Turbo云端推理模式解析
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12