深夜炸弹！Openai 放出GPT 4.1 仅在API中发布

发布日期：2025-04-15 04:50:46 浏览次数： 3082

作者：码友邦

微信搜一搜，关注“码友邦”

AI 圈今晚迎来重磅消息！

Openai 出人意料地在深夜时分，正式将其「最强大模型」GPT 4.1 推向公众！

OpenAI首席执行官Sam Altman表示："基准测试结果很强劲，但我们更注重实际应用价值，开发者们似乎非常满意。"

GPT-4.1在SWE-bench Verified测试中得分54.6%，比GPT-4o提高了21.4%，使其成为软件工程任务的首选。它在Scale的MultiChallenge测试中得分38.3%，在Video-MME测试中得分72.0%，在指令遵循和多模态理解方面树立了新标准。

性能提升与效率并重：GPT-4.1 mini将延迟时间减少了近一半，成本比GPT-4o降低了83%。尽管体积更小，它在速度和质量方面经常超越GPT-4o。

遵循指令

GPT-4.1 更可靠地遵循指令，并且我们已经在各种指令遵循评估中测量到了显著的改进。

我们开发了一个内部教学跟踪评估系统，以跟踪模型在多个维度和几个关键教学跟踪类别中的表现，包括：

格式遵循。提供指定模型响应的自定义格式的指令，例如 XML、YAML、Markdown 等。
负面指示。指定模型应避免的行为。（例如：“不要要求用户联系支持人员”）
有序指令。提供一组模型必须按指定顺序遵循的指令。（例如：“首先询问用户的姓名，然后询问他们的电子邮件”）
内容要求。输出包含特定信息的内容。（例如：“撰写营养计划时务必包含蛋白质含量”）
排序。以特定方式对输出进行排序。（例如：“按人口数量对回复进行排序”）
过度自信。如果请求的信息不可用，或者请求不属于给定的类别，则指示模型说“我不知道”或类似的话。（例如：“如果您不知道答案，请提供支持联系电子邮件”）

这些类别是根据开发人员的反馈得出的，这些反馈是关于哪些指令遵循方面对他们来说最相关且最重要。在每个类别中，我们将其分为简单、中等和困难提示。GPT-4.1 在困难提示方面的表现尤其优于 GPT-4o。

多轮指令遵循对许多开发者来说至关重要——对于模型而言，在对话中保持连贯性并跟踪用户之前输入的内容至关重要。我们已经训练了 GPT-4.1，使其能够更好地从对话中的过往消息中识别信息，从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有效指标，GPT-4.1 的表现比GPT-4o 提高了 10.5%。

GPT-4.1 在 IFEval 上的得分也为 87.4%，而 GPT-4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示（例如，指定内容长度或避免使用某些术语或格式）。

现实世界的例子

蓝色J（在新窗口中打开）：在 Blue J 最具挑战性的真实税务场景内部基准测试中，GPT-4.1 的准确率比 GPT-4o 高出 53%。准确率的提升——这对系统性能和用户满意度都至关重要——凸显了 GPT-4.1 对复杂法规的理解能力有所提升，以及其在长篇大论中遵循细微指令的能力。对于 Blue J 用户来说，这意味着更快、更可靠的税务研究，以及更多时间用于高价值的咨询工作。

十六进制（在新窗口中打开）：GPT-4.1 在 Hex 最具挑战性的SQL 评估集上实现了近 2 倍的改进， ⁠（在新窗口中打开）展现了在指令遵循和语义理解方面的显著提升。该模型能够更可靠地从庞大而模糊的模式中选择正确的表——这是一个上游决策点，直接影响整体准确性，且难以仅通过提示进行调整。对于 Hex 而言，这显著减少了手动调试工作量，并加快了迈向生产级工作流程的步伐。

长上下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以处理 100 万个上下文标记，而之前的 GPT-4o 型号最多可以处理 128,000 个。100 万个标记相当于整个 React 代码库的 8 个以上副本，因此长上下文非常适合处理大型代码库或大量长文档。

我们训练了 GPT-4.1，使其能够可靠地处理长达 100 万个上下文中的信息。此外，我们还训练它比 GPT-4o 更加可靠地识别相关文本，并忽略长短上下文中的干扰项。长上下文理解是法律、编码、客户支持以及许多其他领域应用的关键能力。

下面，我们将演示 GPT-4.1 检索位于上下文窗口内各个位置的隐藏小信息（“针”）的能力。GPT-4.1 能够始终如一地准确检索所有位置和所有上下文长度的针，最大检索标记数可达 100 万个。无论这些标记在输入中的位置如何，它都能有效地提取与当前任务相关的细节。

然而，现实世界中很少有任务像检索一个显而易见的针状答案那样简单。我们发现用户经常需要我们的模型检索和理解多条信息，并理解这些信息之间的相互关系。为了展示这一能力，我们开源了一个新的评估平台：OpenAI-MRCR（多轮共指）。

OpenAI-MRCR 测试模型在上下文中发现并区分隐藏的多个针头的能力。评估包括用户和助手之间的多轮合成对话，用户要求写一篇关于某个主题的文章，例如“写一首关于貘的诗”或“写一篇关于岩石的博客文章”。然后，我们在整个上下文中插入两个、四个或八个相同的请求。然后，模型必须检索与特定实例对应的响应（例如，“给我写第三首关于貘的诗”）。

挑战在于这些请求与上下文其余部分的相似性——模型很容易被细微的差异误导，例如，关于貘的短篇故事与诗歌无关，或者关于青蛙的诗歌与貘无关。我们发现，GPT-4.1 在上下文长度高达 128K 个 token 时的表现优于 GPT-4o，并且即使长度高达 100 万个 token 时也能保持强劲的性能。

但即使对于高级推理模型来说，这项任务仍然很艰巨。我们分享了评估数据集（在新窗口中打开）鼓励对现实世界的长上下文检索进行进一步的研究。

我们还将发布Graphwalks（在新窗口中打开）一个用于评估多跳长上下文推理的数据集。许多开发者使用长上下文的案例需要在上下文中进行多次逻辑跳跃，例如在编写代码时在多个文件之间跳转，或在回答复杂的法律问题时交叉引用文档。

理论上，模型（甚至是人类）可以通过一遍或通读提示来解决 OpenAI-MRCR 问题，但 Graphwalks 的设计要求在上下文中跨多个位置进行推理，并且不能按顺序解决。

Graphwalks 使用由十六进制哈希值组成的有向图填充上下文窗口，然后要求模型从图中的随机节点开始执行广度优先搜索 (BFS)。然后，我们要求它返回特定深度的所有节点。GPT-4.1 在此基准测试中达到了 61.7% 的准确率，与 o1 的性能相当，并轻松击败了 GPT-4o。

基准测试并不能说明全部情况，因此我们与 alpha 合作伙伴合作，在现实世界的长上下文任务中测试 GPT-4.1 的性能。

现实世界的例子

汤森路透： ⁠（在新窗口中打开） 汤森路透 (Thomson Reuters) 使用其专业级法律工作 AI 助手 CoCounsel 测试了 GPT-4.1。与 GPT-4o 相比，在内部长上下文基准测试中，使用 GPT-4.1 后，多文档审核准确率提高了 17%——这是衡量 CoCounsel 处理涉及多篇长文档的复杂法律工作流程能力的重要指标。尤其值得一提的是，他们发现该模型在维护跨来源上下文以及准确识别文档之间细微关系（例如冲突条款或补充上下文）方面非常可靠——而这些任务对于法律分析和决策至关重要。

卡莱尔（在新窗口中打开）：凯雷集团使用 GPT-4.1 从多个长文档（包括 PDF、Excel 文件和其他复杂格式）中精准提取精细的财务数据。根据其内部评估，该模型在从数据密集的大型文档中检索时的性能提高了 50%，并且是第一个成功克服其他现有模型所面临关键限制的模型，这些限制包括大海捞针式检索、中间丢失错误以及跨文档的多跳推理。

除了模型性能和准确性之外，开发者还需要快速响应的模型来跟上并满足用户的需求。我们改进了推理堆栈，以缩短获取第一个令牌的时间。借助快速缓存，您可以进一步降低延迟，同时节省成本。在我们的初步测试中，GPT-4.1 在 128,000 个上下文令牌的情况下，获取第一个令牌的 p95 延迟约为 15 秒；在 100 万个上下文令牌的情况下，获取第一个令牌的 p95 延迟则最多为半分钟。GPT-4.1 mini 和 nano 速度更快，例如，对于包含 128,000 个输入令牌的查询，GPT-4.1 nano 通常能够在 5 秒内返回第一个令牌。