我要投稿

xBench：红杉中国发布的面向 AI Agent 的「常青基准」

发布日期：2025-05-26 19:36:41 浏览次数： 2165

作者：Renee 创业随笔

微信搜一搜，关注“Renee 创业随笔”

一、背景与目的

xBench 是红杉中国发布的一个新的 AI Agent 评估框架，其核心目标是：动态追踪 AI 的“通用智能”进展 + 实际应用价值（Utility）。

传统评测只关注学术题目，xBench 要追踪现实问题解决能力。

二、核心设计：双轨制

xBench 采用“双轨”框架： AI Evaluation Framework showing the evolution from Past AI Capabilities Evals to Future Utility Tasks, with AGI tracking and Profession Aligned paths

评估类型	目标能力	特点说明
AGI Tracking	推理、工具使用、记忆等模型核心能力	接续 academic benchmarks 但常更新
Profession-Aligned	真实商业环境中的 KPI 任务完成能力	与领域专家共建，反映落地价值

三、为何构建 xBench

1. 与真实价值脱节： 很多 benchmark 解决的只是“更难的题”，但现实世界更关心解决实际问题。

2. 静态测试集容易被“刷榜”： 模型过拟合静态数据，无法长期跟踪谁在真正进步。

四、xBench 的亮点

动态更新：不同于传统静态评测集，xBench 是“活”的 benchmark。
技术-市场匹配度（TMF）追踪：关注哪个模型最接近市场需求。
开放第三方评测机制：尤其 AGI Track，面向社区开放，保证公平性。

AGI Tracking

AGI Tracking 是 xBench 的「基础智能评估」轨道，目标是：

系统性评估通向 AGI（人工通用智能）过程中的关键能力。

它将 Agent 能力划分为四大维度：

基础智能（Fundamental Intelligence）
专业能力（Professional Capabilities）
创新能力（Innovation Capacity）
组织能力（Organizational Abilities）

这四大维度共同构成了一个「能力矩阵」，每个维度下再细分出多个子能力。如下图所示：

? 每项能力，具体评估什么

类别	能力模块	评估任务描述
Fundamental Intelligence	Knowledge	掌握广泛的人类知识（ScienceQA）
	Multimodality	多模态信息整合（视觉、语音、文本）
	Reasoning	多步推理，复杂逻辑链路能力
	Reliability	模型的安全性、幻觉控制、置信度标定
Professional Capabilities	Tool Usage	工具调用与组合任务（AI Search）
	Long-term Memory	可控、低成本、高容量的记忆力
	Test-time Learning	零样本/少样本学习能力
Innovation Capacity	Problem Identification	提出有价值问题的能力
	Active Learning & Self-Improvement	主动修正弱点、持续优化自我
Organizational Abilities	Collaboration	多 Agent 协同，形成规模效应
	Competition	在博弈或信息不对称环境中胜出

其中绿色 Active 表示当前已上线 benchmark：

✅ 知识能力（Knowledge）：使用 ScienceQA benchmark，评估模型对人类广泛知识的掌握。
✅ 工具使用能力（Tool Usage）：通过 AI Search benchmark，评估模型与工具交互与操控的能力。

其余模块均为「Benchmark coming soon」，后续将会逐步“点亮”。

为什么这很重要

传统 benchmark 像一次考试，而 AGI Tracking 更像是：

一个全天候、多维度、动态更新的“AI 智能体质报告”。

三个关键点：

防刷榜机制（Contamination-Free）：每次测试都干净，防止模型靠记忆上榜。
真实能力地图：不以评分单一排序，而是关注整体能力布局。
反映非线性成长路径：有的模型组织力强，有的推理好——路径不同，但都值得追踪。

Profession-Aligned

Profession-Aligned 是 xBench 的职业能力评估轨道，强调：

AI 在具体行业工作流中的实用能力 + 人类偏好适配度。

这类评估不仅测试模型是否能完成任务，还强调：

是否懂流程（Workflow-aware）
是否有输出质量（符合 KPI 要求）
是否理解人类偏好（Human-centered）

当前已上线的专业领域（截至 2025.5）

目前已有两个行业场景开放 benchmark：

HR（人力资源） - AI 招聘官、面试助手、绩效评估等任务
Marketing（市场营销） - 竞品分析、活动策划、内容撰写等任务

其余如 Sales、Finance、Legal、Engineering、Product、Design 等板块尚未上线，但已规划中。

如何测试「专业能力」

xBench 的 Profession-Aligned 路线强调三件事：

1. 任务场景真实

评估任务源自真实公司流程和业务需求，而非人为拼凑的题库。

2. 人类反馈驱动

加入“人偏好评分”（Human preference scoring），衡量输出是否令人满意。

3. KPI 对齐

每个任务与岗位关键绩效指标（KPI）强绑定，确保“能力等于产出”。

这意味着，你测出来的“AI 营销助理分数”，能直接反映它是否值得你“雇佣”。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-04

Skills使用体验

2026-02-04

AgentScope 正式发布 Skills 支持 - 实现渐进式披露

2026-02-04

从“回答者”进化为“研究员”：全面解析 Deep Research

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

2026-02-04

国产 Cowork 它来了！MCP、Skills和Expert Agents都支持，全部免费体验！

2026-02-04

混元研究博客上线姚顺雨团队最新成果：从 Context 探索语言模型的范式转变

2026-02-04

通俗讲解大模型短期记忆 vs 长期记忆

2026-02-04

谁动了我的电脑？谁应该抱怨？

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部