微信扫码
添加专属顾问
我要投稿
OpenAI再次震撼AI界,GPT-5.4带来百万级上下文窗口和更强大的多模态能力,性能全面超越前代! 核心内容: 1. GPT-5.4核心升级:1M上下文窗口、计算机操作能力和工具搜索功能 2. 多项基准测试表现:知识工作、视觉理解和代码能力显著提升 3. 实际应用测试:3D建模和交互场景展示出色性能
大半夜的, OpenAI更新GPT-5.4了。
AI开始的前两年,真的很少看到OpenAI 这么高频率的迭代发布模型。
今年以来,2月份更了5.3 Codex,写代码上真的口碑好到爆炸,这才刚过一个月,又是更新了GPT-5.3 Instant 缓解了已经臭名在外的对话能力,然后又直接把GPT-5.4端上桌了。
先说参数上对我感知最大的提升,上下文窗口提升到1M了。 而且GPT-5.4的价格比Claude 要便宜。
至此,海外三家模型的上下文长度都已经提升到1百万。
算力足够,就是可以很韧性。
这里列几个我自己比较关注的Benchmark表现,完整的可以去看OpenAI官方的博客。
链接在此: https://openai.com/index/introducing-gpt-5-4/
知识工作方面,
在GDPval上,GPT-5.4 的表现反而比GPT-5.4 Pro 还要好一些,两个基本都超过GPT-5.2 Pro约10%
计算机使用以及视觉方面,
GPT-5.4 是OpenAI首个支持computer-use 能力的通用模型。 它可以更好的通过使用截图来操作电脑。
OSWorld-Verified 上,使用更少的工具产出却获得更高的分数。
视觉理解上,MMMU Pro 再次超越前代的GPT-5.2。 文档OCR理解 OmniDocBench 上, GPT
-5.4 在推理能力没开启的情况下就超越了前代GPT-5.2
代码方面,
一句话就是,GPT-5.4 速度更快,效果更好。
以及,OpenAI 大概率也是觉得之前Codex 很慢,所以专门还设定了一个快速模式。
开启快速模式,用GPT-5.4速度快至1.5倍,并且他们特意强调只是速度更快,质量不会降低。
工具使用方面,
这次GPT-5.4引入了一个新特性,工具搜索。它可以让模型在面对多工具时,工作得更有效率。
他们做了一个实验,在MCP Atlas Benchmark 上,开启两种模式来启用36个MCP服务器:一种是直接在模型上下文中暴露每个MCP功能,二是将所有MCP服务器放置在工具搜索之后。
工具搜索配置将总token使用量减少了47%,同时实现了相同的准确度。
代理工具调用方面,
更少的工具调用回合下,GPT-5.4准确率更高。
看完了Benchmark,我直接在Codex 上简单进行了几个测试。
第一个是经典的魔方测试:
这个效果真不错,是我测到现在感觉最丝滑,而且魔方面旋转的时候没破损。
第二个是创建的3D视角的房间。
这个是两步完成的效果,还不错,基本要求的功能都有了。
其他方面还需要时间再多测测感受一下。
以上,
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-01
永别了,终端!OpenAI疯狂升级Codex,接管Mac人类全程0操作围观
2026-04-30
Karpathy 最新访谈:Vibe Coding 只是开始,真正重要的是 Agentic Engineering
2026-04-30
近4万Star!一个终端把自己变成了AI开发环境,Cursor和Claude Code都沉默了
2026-04-29
Claude Code 的 Memory 系统:让 AI 记住你的偏好
2026-04-29
深入浅出Harness Engineerring之核心模式与理念
2026-04-28
别急着All-in DeepSeek V4,先看看这10位从业者的真心话
2026-04-28
你不知道的 Agent:原理、架构与工程实践
2026-04-27
从 Prompt 到 Harness,Agent 进入企业需要流程治理吗
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-02-03
2026-02-03
2026-02-03
2026-03-17
2026-02-09
2026-03-17
2026-04-26
2026-04-22
2026-04-18
2026-04-13
2026-04-12
2026-04-07
2026-04-01
2026-03-31