OpenAI 重磅发布：全新 AI Agent构建工具，让 AI 应用开发更简单、更强大

发布日期：2025-03-12 07:40:23 浏览次数： 5894

作者：全球AI趋势

微信搜一搜，关注“全球AI趋势”

A sleek, minimal interface displaying a task list for an AI agent, including ‘triage_agent,’ ‘guardrail,’ and ‘update_salesforce_record,’ over a fluid blue abstract background.

刚刚OpenAI 发布了一系列全新工具，旨在帮助开发者更轻松地构建 AI Agent。这些工具包括 Responses API、Agents SDK 以及多种强大的功能，如网络搜索、文件搜索和计算机操作能力。这一重大更新标志着 AI 应用开发进入了一个新阶段，让开发者能够构建更智能、更实用的 AI 应用。

什么是 AI Agent？

What is AI Agents?

AI Agent是能够自主执行任务、解决问题并与环境交互的 AI 系统。与传统的 AI 模型不同，代理可以主动采取行动，使用工具，并根据反馈调整其行为。OpenAI 的 CEO Sam Altman 曾表示，Agent是 AI 发展的未来方向，将彻底改变我们与技术的交互方式。

Responses API：构建Agent的新基础

Responses API 是 OpenAI 新推出的 API 原语，它结合了 Chat Completions API 和 Assistants API 的优点，提供了更简单、更灵活的开发体验。它内置了由 OpenAI 提供的工具，可以自动执行工具调用并将结果添加到对话上下文中。

开发者只需调用一次 API ，即可利用多种工具和多轮模型交互解决复杂任务。

Responses API 的主要特点包括：

1. 简化的使用方式：只需几行代码即可集成

2. 内置工具支持：自动执行工具调用并处理结果

3. 灵活的基础架构：随着模型能力的发展，提供更灵活的基础

值得注意的是，基于开发者对 Assistants API 测试版的反馈，OpenAI 已将关键改进整合到 Responses API 中。在实现完整功能对等后，OpenAI 计划在今年晚些时候宣布弃用计划，目标是在 2026 年上半年完全停用 Assistants API。

强大的内置工具

1. 网络搜索（Web Search）

const response = await openai.responses.create({model: "gpt-4o",tools: [ { type: "web_search_preview" } ],input: "What was a positive news story that happened today?",});
console.log(response.output_text);

网络搜索工具可以从网络上提供准确且明确引用来源的答案。它使用与 ChatGPT 搜索相同的工具，擅长对话和后续问题，只需几行代码即可集成。

- 在 Responses API 中，网络搜索作为 `gpt-4o` 和 `gpt-4o-mini` 模型的工具提供

- 在 Chat Completions API 中，网络搜索作为单独的模型提供，名为 `gpt-4o-search-preview` 和 `gpt-4o-mini-search-preview`

- 所有开发者都可以在预览版中使用

2. 文件搜索（File Search）

const productDocs = await openai.vectorStores.create({name: "Product Documentation",file_ids: [file1.id, file2.id, file3.id],});
const response = await openai.responses.create({model: "gpt-4o-mini",tools: [{type: "file_search",vector_store_ids: [productDocs.id],}],input: "What is deep research by OpenAI?",});
console.log(response.output_text);

文件搜索是一个易于使用的检索工具，只需几行代码即可提供快速、准确的搜索结果。它支持多种文件类型、重新排序、属性过滤和查询重写。

- 在 Responses API 中可用

- 继续在 Assistants API 中提供

3. 计算机使用（Computer Use）

const response = await openai.responses.create({model: "computer-use-preview",tools: [{type: "computer_use_preview",display_width: 1024,display_height: 768,environment: "browser",}],truncation: "auto",input: "I'm looking for a new camera. Help me find the best one.",});
console.log(response.output);

计算机使用是构建使用计算机的代理的最快方式，它使用与 ChatGPT 中的 Operator 相同的模型 CUA。开发者可以使用此工具控制自己操作的计算机或虚拟机。

- 只需将屏幕截图传递给工具，它就会响应应采取的操作，如点击、滚动或输入

- 作为研究预览版在 Responses API 中提供给 3-5 级的特定开发者

Agents SDK：Agent编排框架

Agents SDK 是一个编排框架，抽象了设计和扩展代理所涉及的复杂性。它包括内置的可观察性工具，允许开发者记录、可视化和分析代理性能，以识别问题和改进领域。

Agents SDK 的主要特点：

1. 轻量级框架：基于 ChatCompletions，使多代理编排变得简单

2. 开源：支持其他模型和跟踪提供商

3. 强大的原语：包括 Agent（代理）、Handoffs（交接）和 Guardrails（护栏）

Agents SDK 的核心组件

1. Agent（代理）：配备了指令和工具的 LLM

2. Handoffs（交接）：允许代理将特定任务委托给其他代理

3. Guardrails（护栏）：使代理输入能够被验证

结合 Python，这些原语足以表达工具和代理之间的复杂关系，并允许开发者构建实际应用，而无需陡峭的学习曲线。

使用示例

from agents import Agent, Runner, WebSearchTool, function_tool, guardrail@function_tooldef submit_refund_request(item_id: str, reason: str):# Your refund logic goes herereturn "success"support_agent = Agent(name="Support & Returns",instructions="You are a support agent who can submit refunds [...]",tools=[submit_refund_request],)shopping_agent = Agent(name="Shopping Assistant",instructions="You are a shopping assistant who can search the web [...]",tools=[WebSearchTool()],)triage_agent = Agent(name="Triage Agent",instructions="Route the user to the correct agent.",handoffs=[shopping_agent, support_agent],)output = Runner.run_sync(starting_agent=triage_agent,input="What shoes might work best with my outfit so far?",)