体验了一天，我对 GPT-5 失望了！

发布日期：2025-08-08 16:43:32 浏览次数： 1982

作者：孟健AI编程

微信搜一搜，关注“孟健AI编程”

昨天晚上，AI 圈发生了大事件——GPT-5 来了！

OpenAI 正式发布了 GPT-5，这是他们迄今为止在编码和智能体任务方面表现最佳的模型。

官方数据显示，GPT-5 在 SWE-bench Verified 测试中得分 74.9%，在 Aider polyglot 测试中得分 88%，都达到了行业领先水平。

理论上，它是目前最强的模型，大版本的更新，整个科技圈都在沸腾。

我看到 Cursor 第一时间推出了 GPT-5 支持，且赠送免费积分，心想这下可以见证历史了。

于是，我今天就赶紧对它进行了一个实测。

结果...让我有点失望。

Cursor 的 GPT-5 支持

直接更新 Cursor 的最新版本，就可以看到 GPT-5 的模型选项了：

目前 Cursor 支持的版本是 272k 的上下文，按照 Cursor 的说法是"launch week"免费试用，所以大家赶紧去试试，目前速度也很快。

不过，依然对国内有限制，需要海外代理才能正常访问。

Augment 的意外惊喜

今天，我又发现 Augment 竟然也支持模型选择了！

这打破了 Augment 之前一直黑盒模型的作风，看起来官方也在对 GPT-5 进行实际的验证和评测：

这个变化很有意思，说明连 Augment 这样的专业工具都在重新审视模型选择的重要性。

官方的乐观评价

Cursor 官方其实也给出了自己的实测，他们应该是之前就已经拿到了内部体验资格：

整体对 GPT-5 的评价不错，看起来是超越 Claude，成为当前的 SOTA 了。

但是，实际体验真的如此吗？

我的真实体验：从期待到失望

其实一开始，表现的还挺不错的。

先让它修复一个报错问题：

加一些功能，都能精准的加上：

这时候我还挺兴奋的，心想 GPT-5 果然名不虚传。

但是给了它一个比较复杂一点的插件问题，折腾了 1 个小时，都没有搞定：

这时候我开始怀疑了，是不是我的问题描述不够清楚？

对比测试：GPT-5 vs Claude

接着，我又用 Augment 测试了同样的提示词。

GPT-5 的表现：

GPT-5 会长篇大论地进行分析，它的返回结果让人感到头疼，很偏理论：

Claude 的表现：

而切换成 Claude，明显感觉不一样，不会长篇大论的输出理论，而是真实调用工具去尝试解决问题：

最后，Claude 帮我解决了问题，我再切回到 GPT-5，结果它又给我改坏了...

这种对比太明显了，一个在纸上谈兵，一个在真刀真枪地干活。

三个明显的问题

通过一天的折腾，我发现 GPT-5 有三个明显的问题：

1. 中文支持不够好

GPT-5 总是回复英文，即使我用中文提问，它也经常用英文回答。

这对于中文用户来说，体验很不友好。Claude 在这方面就做得好很多，能够很自然地用中文交流。

2. 工具调用能力不足

GPT-5 对 MCP（Model Context Protocol）支持不好，不能很好地调用 tools。

而 Claude 第一时间就会去调用 tools 解决问题，这种差异在实际编程场景中非常明显。

3. 过于理论化

GPT-5 更偏理论，总是输出一大段分析，Claude 更偏实际，能够真正解决问题，少说多做。

另外，早上 GPT-5 的速度还挺快，等到了中午之后，应该是用的人多了，GPT-5 开始明显变慢了。

这种体验的不稳定性，对于需要高效工作的开发者来说，是很致命的。

我的思考：AI 的人性化很重要

感觉起来，GPT-5 还是太"AI"了，没有 Claude 的人性化。

什么是人性化？

就是能够理解你真正想要什么，而不是给你一堆看起来很专业但实际没用的分析。

就是能够直接动手解决问题，而不是在那里长篇大论地讲道理。

就是能够用你习惯的语言和方式与你交流，而不是一副高高在上的学术腔调。

在编程这个实用性极强的领域，我更需要的是一个能干活的助手，而不是一个只会分析的顾问。

有点失望了

整体而言，我对 GPT-5 还是比较失望的。

不是说它不强，而是它的强没有体现在我最需要的地方。

也许 GPT-5 在某些学术测试或者理论分析上确实更强，但在实际的编程工作中，至少在我的体验里，它不如 Claude 实用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

Codex 权限 Profile：sandbox 不再一刀切

2026-06-30

Google 悄悄开闸：Gemini API 免费放量 1M TPM，OpenAI 和 Anthropic 开发者坐不住了

2026-06-30

我的Mac潜伏了一个月木马：AI Agent时代，真正危险的不是“手滑”

2026-06-30

AgentOps：用户快速地调教好你的Agent的关键功能。

2026-06-30

AI 应用产品评测体系完整指南

2026-06-30

AI写代码越快，程序员越危险？Codex负责人摊牌：真正难的是"删代码"

2026-06-29

17 岁高中生做了个假 AI，上线一个月获 2.8 亿次访问

2026-06-29

Loop Engineering 具体做些什么

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

Hermes Agent模型配置小白指南

2026-04-14

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

大家都在问

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw