微信扫码
添加专属顾问
我要投稿
OpenAI再次震撼AI界,GPT-5.4带来百万级上下文窗口和更强大的多模态能力,性能全面超越前代!核心内容:1. GPT-5.4核心升级:1M上下文窗口、计算机操作能力和工具搜索功能2. 多项基准测试表现:知识工作、视觉理解和代码能力显著提升3. 实际应用测试:3D建模和交互场景展示出色性能
大半夜的, OpenAI更新GPT-5.4了。
AI开始的前两年,真的很少看到OpenAI 这么高频率的迭代发布模型。
今年以来,2月份更了5.3 Codex,写代码上真的口碑好到爆炸,这才刚过一个月,又是更新了GPT-5.3 Instant 缓解了已经臭名在外的对话能力,然后又直接把GPT-5.4端上桌了。
先说参数上对我感知最大的提升,上下文窗口提升到1M了。 而且GPT-5.4的价格比Claude 要便宜。
至此,海外三家模型的上下文长度都已经提升到1百万。
算力足够,就是可以很韧性。
这里列几个我自己比较关注的Benchmark表现,完整的可以去看OpenAI官方的博客。
链接在此: https://openai.com/index/introducing-gpt-5-4/
知识工作方面,
在GDPval上,GPT-5.4 的表现反而比GPT-5.4 Pro 还要好一些,两个基本都超过GPT-5.2 Pro约10%
计算机使用以及视觉方面,
GPT-5.4 是OpenAI首个支持computer-use 能力的通用模型。 它可以更好的通过使用截图来操作电脑。
OSWorld-Verified 上,使用更少的工具产出却获得更高的分数。
视觉理解上,MMMU Pro 再次超越前代的GPT-5.2。 文档OCR理解 OmniDocBench 上, GPT
-5.4 在推理能力没开启的情况下就超越了前代GPT-5.2
代码方面,
一句话就是,GPT-5.4 速度更快,效果更好。
以及,OpenAI 大概率也是觉得之前Codex 很慢,所以专门还设定了一个快速模式。
开启快速模式,用GPT-5.4速度快至1.5倍,并且他们特意强调只是速度更快,质量不会降低。
工具使用方面,
这次GPT-5.4引入了一个新特性,工具搜索。它可以让模型在面对多工具时,工作得更有效率。
他们做了一个实验,在MCP Atlas Benchmark 上,开启两种模式来启用36个MCP服务器:一种是直接在模型上下文中暴露每个MCP功能,二是将所有MCP服务器放置在工具搜索之后。
工具搜索配置将总token使用量减少了47%,同时实现了相同的准确度。
代理工具调用方面,
更少的工具调用回合下,GPT-5.4准确率更高。
看完了Benchmark,我直接在Codex 上简单进行了几个测试。
第一个是经典的魔方测试:
这个效果真不错,是我测到现在感觉最丝滑,而且魔方面旋转的时候没破损。
第二个是创建的3D视角的房间。
这个是两步完成的效果,还不错,基本要求的功能都有了。
其他方面还需要时间再多测测感受一下。
以上,
若觉得内容有帮助,欢迎点赞、推荐、关注。别错过更新,给公众号加个星标⭐️吧!祝您在2026年里天天开心,快乐,身体健康,万事如意!期待与您的下次相遇~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-06
Claude Code 工具调用上下文爆炸?新版占用归零
2026-03-06
OpenRouter,AI时代的印钞机
2026-03-06
AI越来越牛马了,GPT-5.4 发布!可以操作电脑
2026-03-06
谷歌NotebookLM深夜大更新!直接把PPT变成电影,效果太炸裂
2026-03-06
豆包和豆包负责人的产品哲学
2026-03-06
刚刚,GPT-5.4 发布,百万上下文、最强全能模型
2026-03-05
面向复杂工程的任务编排设计:Claude Code Tasks 机制详解
2026-03-05
移动端里的AI,用户到底要什么?---权衡性能和体验之战
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-09
2025-12-21
2026-01-09
2026-01-09
2025-12-30
2026-01-27
2026-03-03
2026-03-01
2026-02-27
2026-02-27
2026-02-26
2026-02-24
2026-02-24
2026-02-14