2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

深夜炸弹!Openai 放出GPT 4.1 仅在API中发布

发布日期:2025-04-15 04:50:46 浏览次数: 3082
作者:码友邦

微信搜一搜,关注“码友邦”

推荐语

AI技术的新突破!OpenAI GPT-4.1性能显著提升,引领软件工程新标准。

核心内容:
1. OpenAI GPT-4.1在多个基准测试中取得显著成绩提升
2. GPT-4.1在指令遵循和多模态理解方面的重大改进
3. GPT-4.1在实际应用中展现出更高的准确率和效率

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

AI 圈今晚迎来重磅消息!

Openai 出人意料地在深夜时分,正式将其「最强大模型」GPT 4.1 推向公众!

OpenAI首席执行官Sam Altman表示:"基准测试结果很强劲,但我们更注重实际应用价值,开发者们似乎非常满意。"

GPT-4.1在SWE-bench Verified测试中得分54.6%,比GPT-4o提高了21.4%,使其成为软件工程任务的首选。它在Scale的MultiChallenge测试中得分38.3%,在Video-MME测试中得分72.0%,在指令遵循和多模态理解方面树立了新标准。


性能提升与效率并重:GPT-4.1 mini将延迟时间减少了近一半,成本比GPT-4o降低了83%。尽管体积更小,它在速度和质量方面经常超越GPT-4o。

遵循指令

GPT-4.1 更可靠地遵循指令,并且我们已经在各种指令遵循评估中测量到了显著的改进。

我们开发了一个内部教学跟踪评估系统,以跟踪模型在多个维度和几个关键教学跟踪类别中的表现,包括:

  • 格式遵循。提供指定模型响应的自定义格式的指令,例如 XML、YAML、Markdown 等。

  • 负面指示。指定模型应避免的行为。(例如:“不要要求用户联系支持人员”)

  • 有序指令。提供一组模型必须按指定顺序遵循的指令。(例如:“首先询问用户的姓名,然后询问他们的电子邮件”)

  • 内容要求。输出包含特定信息的内容。(例如:“撰写营养计划时务必包含蛋白质含量”)

  • 排序。以特定方式对输出进行排序。(例如:“按人口数量对回复进行排序”)

  • 过度自信。如果请求的信息不可用,或者请求不属于给定的类别,则指示模型说“我不知道”或类似的话。(例如:“如果您不知道答案,请提供支持联系电子邮件”)

这些类别是根据开发人员的反馈得出的,这些反馈是关于哪些指令遵循方面对他们来说最相关且最重要。在每个类别中,我们将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。

多轮指令遵循对许多开发者来说至关重要——对于模型而言,在对话中保持连贯性并跟踪用户之前输入的内容至关重要。我们已经训练了 GPT-4.1,使其能够更好地从对话中的过往消息中识别信息,从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有效指标,GPT-4.1 的表现GPT-4o 提高了 10.5%。

GPT-4.1 在 IFEval 上的得分也为 87.4%,而 GPT-4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示(例如,指定内容长度或避免使用某些术语或格式)。

现实世界的例子

蓝色J(在新窗口中打开)在 Blue J 最具挑战性的真实税务场景内部基准测试中,GPT-4.1 的准确率比 GPT-4o 高出 53%。准确率的提升——这对系统性能和用户满意度都至关重要——凸显了 GPT-4.1 对复杂法规的理解能力有所提升,以及其在长篇大论中遵循细微指令的能力。对于 Blue J 用户来说,这意味着更快、更可靠的税务研究,以及更多时间用于高价值的咨询工作。

十六进制(在新窗口中打开):GPT-4.1 在 Hex 最具挑战性的SQL 评估集上实现了近 2 倍的改进, ⁠(在新窗口中打开)展现了在指令遵循和语义理解方面的显著提升。该模型能够更可靠地从庞大而模糊的模式中选择正确的表——这是一个上游决策点,直接影响整体准确性,且难以仅通过提示进行调整。对于 Hex 而言,这显著减少了手动调试工作量,并加快了迈向生产级工作流程的步伐。

长上下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以处理 100 万个上下文标记,而之前的 GPT-4o 型号最多可以处理 128,000 个。100 万个标记相当于整个 React 代码库的 8 个以上副本,因此长上下文非常适合处理大型代码库或大量长文档。

我们训练了 GPT-4.1,使其能够可靠地处理长达 100 万个上下文中的信息。此外,我们还训练它比 GPT-4o 更加可靠地识别相关文本,并忽略长短上下文中的干扰项。长上下文理解是法律、编码、客户支持以及许多其他领域应用的关键能力。

下面,我们将演示 GPT-4.1 检索位于上下文窗口内各个位置的隐藏小信息(“针”)的能力。GPT-4.1 能够始终如一地准确检索所有位置和所有上下文长度的针,最大检索标记数可达 100 万个。无论这些标记在输入中的位置如何,它都能有效地提取与当前任务相关的细节。

然而,现实世界中很少有任务像检索一个显而易见的针状答案那样简单。我们发现用户经常需要我们的模型检索和理解多条信息,并理解这些信息之间的相互关系。为了展示这一能力,我们开源了一个新的评估平台:OpenAI-MRCR(多轮共指)。 

OpenAI-MRCR 测试模型在上下文中发现并区分隐藏的多个针头的能力。评估包括用户和助手之间的多轮合成对话,用户要求写一篇关于某个主题的文章,例如“写一首关于貘的诗”或“写一篇关于岩石的博客文章”。然后,我们在整个上下文中插入两个、四个或八个相同的请求。然后,模型必须检索与特定实例对应的响应(例如,“给我写第三首关于貘的诗”)。

挑战在于这些请求与上下文其余部分的相似性——模型很容易被细微的差异误导,例如,关于貘的短篇故事与诗歌无关,或者关于青蛙的诗歌与貘无关。我们发现,GPT-4.1 在上下文长度高达 128K 个 token 时的表现优于 GPT-4o,并且即使长度高达 100 万个 token 时也能保持强劲的性能。

但即使对于高级推理模型来说,这项任务仍然很艰巨。我们分享了评估数据(在新窗口中打开)鼓励对现实世界的长上下文检索进行进一步的研究。

我们还将发布Graphwalks(在新窗口中打开)一个用于评估多跳长上下文推理的数据集。许多开发者使用长上下文的案例需要在上下文中进行多次逻辑跳跃,例如在编写代码时在多个文件之间跳转,或在回答复杂的法律问题时交叉引用文档。

理论上,模型(甚至是人类)可以通过一遍或通读提示来解决 OpenAI-MRCR 问题,但 Graphwalks 的设计要求在上下文中跨多个位置进行推理,并且不能按顺序解决。

Graphwalks 使用由十六进制哈希值组成的有向图填充上下文窗口,然后要求模型从图中的随机节点开始执行广度优先搜索 (BFS)。然后,我们要求它返回特定深度的所有节点。GPT-4.1 在此基准测试中达到了 61.7% 的准确率,与 o1 的性能相当,并轻松击败了 GPT-4o。

基准测试并不能说明全部情况,因此我们与 alpha 合作伙伴合作,在现实世界的长上下文任务中测试 GPT-4.1 的性能。

现实世界的例子

汤森路透: ⁠(在新窗口中打开) 汤森路透 (Thomson Reuters) 使用其专业级法律工作 AI 助手 CoCounsel 测试了 GPT-4.1。与 GPT-4o 相比,在内部长上下文基准测试中,使用 GPT-4.1 后,多文档审核准确率提高了 17%——这是衡量 CoCounsel 处理涉及多篇长文档的复杂法律工作流程能力的重要指标。尤其值得一提的是,他们发现该模型在维护跨来源上下文以及准确识别文档之间细微关系(例如冲突条款或补充上下文)方面非常可靠——而这些任务对于法律分析和决策至关重要。

卡莱尔(在新窗口中打开)凯雷集团使用 GPT-4.1 从多个长文档(包括 PDF、Excel 文件和其他复杂格式)中精准提取精细的财务数据。根据其内部评估,该模型在从数据密集的大型文档中检索时的性能提高了 50%,并且是第一个成功克服其他现有模型所面临关键限制的模型,这些限制包括大海捞针式检索、中间丢失错误以及跨文档的多跳推理。

除了模型性能和准确性之外,开发者还需要快速响应的模型来跟上并满足用户的需求。我们改进了推理堆栈,以缩短获取第一个令牌的时间。借助快速缓存,您可以进一步降低延迟,同时节省成本。在我们的初步测试中,GPT-4.1 在 128,000 个上下文令牌的情况下,获取第一个令牌的 p95 延迟约为 15 秒;在 100 万个上下文令牌的情况下,获取第一个令牌的 p95 延迟则最多为半分钟。GPT-4.1 mini 和 nano 速度更快,例如,对于包含 128,000 个输入令牌的查询,GPT-4.1 nano 通常能够在 5 秒内返回第一个令牌。

想象

GPT-4.1 系列在图像理解方面非常强大,尤其是 GPT-4.1 mini 代表了重大的飞跃,在图像基准测试中经常击败 GPT-4o。

长上下文性能对于多模态用例(例如处理长视频)也很重要。在Video -MME中(在新窗口中打开)(长篇无字幕)模型会根据 30-60 分钟长的无字幕视频回答多项选择题。GPT-4.1 的表现达到了最佳水平,得分为 72.0%,高于 GPT-4o 的 65.3%。

实际体验

1.设计芯片架构图

对话地址:https://ai.mayoubang.cn/conversion/share/73653042464

2.下单流程的时序图

对话地址:https://ai.mayoubang.cn/conversion/share/736530424‍64

3.设计跑腿 app UI效果图

对话地址:https:‍//ai.mayoubang.cn/conversion/share/73653042464


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅