我要投稿

成本降到 2% 的 Agent 方案：把工具调用搬进执行环境

发布日期：2025-11-10 08:13:27 浏览次数： 1838

作者：AI设计湿

微信搜一搜，关注“AI设计湿”

现阶段企业级 Agent 的实现及弊端

目前我正在开发一款 AI Sales Agent，它是基于 langgraph 、langchain 构建，在现有的架构设计上，我们采取了一种较为简洁的实现方式：LLM + Tool 的模式。它最大的好处就是 langgraph 的链路非常简单，不会出现多个分支的情况，LLM 会根据上下文自行判断是否需要调用 tool，不需要的话则直接返回。

在项目代码中定义了好几个 tool，比如数据格式校验、提取信息、设置表单等等，每一个 tool 的功能非常单一，但是也存在一个明显的问题，有的 tool 是存在依赖关系，虽然在 prompt 里明确约束了，但 LLM 并不会一直如你所愿的执行，所以在产品端会偶现不是期望的功能。另外一个问题是随着 tool 越来越多上下文管理变得十分困难，会出现聊天工具记忆丢失的情况。

总体来说，上下文窗口占用过多会加剧第一个问题出现的频率，所以如何管理上下文才是当下 Agent 开发的核心难点。

解决方案 — 使用 MCP 执行代码

它是由 Claude code 的母公司 Anthropic 提出，一旦你理解了 Anthropic 的解决方案，它就会很简单。

随着代码执行环境对于 Agent 来说变得越来越普遍，解决方案是将 MCP 服务器呈现为代码 API，而不是直接工具调用。

Agent 编写代码与 MCP 服务器交互。

这种方法解决了这两个挑战：Agent 只能加载他们需要的工具，并在将结果传递回模型之前在执行环境中处理数据。

主要区别如下：
目前的做法：Agent 使用工具调用API→模型加载所有工具定义→模型直接调用工具→结果通过上下文返回。

代码执行方式：Agent编写代码→代码仅导入需要的工具→代码执行并处理数据→仅最终结果返回模型。

你的 MCP 服务器成为代码 API。无需将工具注册为模型直接调用的函数调用，而是将它们呈现为 Agent 可以以编程方式导入和使用的模块。

它在实践中是如何运作的

需求：假设你的 Agent 需要搜索 Salesforce 记录、筛选结果并创建摘要。

目前做法

按照我们现有的设计大概是这样一个链路设计：

1. 将所有 Salesforce 工具定义加载到上下文中
2. Agent 调用搜索工具
3. 完整结果通过上下文返回（可能有几十上百个结果）
4. Agent 调用过滤工具
5. Agent 获得上下文过滤结果
6. Agent 调用汇总工具
7. 返回总结结果给到 LLM
8. LLM 输出最后的结果

代码如下：

# Traditional approach - each step is a separate tool call

# Step 1: Search (tool call 1)
search_results = agent.call_tool("search_salesforce", {
    "query": "active accounts",
    "fields": ["name", "revenue", "status"]
})
# Returns 1000 records, all flow through context
# Step 2: Filter (tool call 2)  
filtered_results = agent.call_tool("filter_records", {
    "data": search_results,  # Passing large dataset through context
    "condition": "revenue > 1000000"
})
# Filtered data flows back through context
# Step 3: Summarize (tool call 3)
summary = agent.call_tool("create_summary", {
    "data": filtered_results  # More data through context
})
# Total: 3 separate tool calls, all intermediate data through context

改进方案

代码执行方式：

1. Agent 编写导入 Salesforce 模块的代码
2. 代码在一次执行中搜索、过滤和汇总
3. 仅最终摘要返回给代理（可能是 500 个token）

以下是代理通过代码执行编写的内容：

// Code execution approach - single execution, all processing in environment

import { salesforce } from 'mcp-servers';

// Everything happens in the execution environment
async function getSalesforceSummary() {
    // Search
    const results = await salesforce.search({
        query: "active accounts",
        fields: ["name", "revenue", "status"]
    });
    // 1000 records - but they never touch the model's context
    
    // Filter (happens right here in code)
    const filtered = results.filter(record => record.revenue > 1000000);
    // Filtered to 50 records - still in execution environment
    
    // Summarize (still in code)
    const summary = {
        total_accounts: filtered.length,
        total_revenue: filtered.reduce((sum, r) => sum + r.revenue, 0),
        top_account: filtered.sort((a, b) => b.revenue - a.revenue)[0]
    };
    
    return summary;  // Only this small object goes back to the model
}
// Agent gets back just the summary - maybe 100 tokens