我要投稿

2025 LangChain智能体工程年度报告发布！AI智能体从画饼到吃饼

发布日期：2025-12-18 12:04:12 浏览次数： 2017

作者：ChallengeHub

微信搜一搜，关注“ChallengeHub”

看完这份LangChain年度报告，我感觉现在的AI圈已经从“赛博吹水”进化到“撸起袖子干实事”的阶段了。别看大佬们还在吵AGI什么时候来，打工人已经偷偷用Agent把活儿干完了。

AI智能体2026：从画饼到吃饼

重点中的重点：现在的Agent到底什么水平？

大厂不光有钱，跑得还快： 别以为大公司转身慢。员工过万的公司里，**67%**已经把Agent投产了，主打一个“内部卷效率，外部卷服务”。
客户服务是“头牌”，数据分析是“二房”： 以前大家只敢让AI在内部写个周报，现在**26.5%**的人直接让Agent去对接真实客户了。Agent在客服和数据分析这两个坑位上，站得最稳。
搞钱没那么贵了，但“慢”是原罪： 以前总嫌推理成本高，现在大模型降价跟大白菜似的，大家不心疼钱了。但延迟（Latency）成了新痛点——Agent思考半天不说话，用户真的会谢。
OpenAI不再是唯一真神： 虽然GPT还是老大哥，但四分之三的团队都在搞“多夫一妻”制（同时用好几种模型）。Gemini、Claude和开源模型混着用才是现在的职场生存之道。

避坑指南：为什么你的Agent还不能上线？

质量（Quality）是绝对的拦路虎： 32%的人卡在这一步。AI一本正经胡说八道（幻觉）和情绪不稳定，是工程师掉头发的主要原因。
可观测性（Observability）成了救命稻草： **89%**的人都装了“行车记录仪”。看不清Agent在后台怎么思考、调了哪个工具，出事了都没法复盘。
离线评估是标配，人工审查还没下岗： 虽然“LLM评判LLM”很火，但遇到高风险决策，**60%**的企业还是觉得“人眼扫一遍”最托底。
微调（Fine-tuning）还是个奢侈品： 只有少数高端玩家在搞。大部分人还是靠“提示词大法（Prompt Engineering）”和“外挂知识库（RAG）”硬扛，省钱又省事。

谁是现在的“最强打工人”？

编程Agent（Cursor、Copilot等）： 绝对的职场统治力，工程师现在的标准配置是：左手一杯咖啡，右手一个Agent。
深度研究Agent（Perplexity等）： 专门负责查资料、写摘要，帮人类从海量文档的苦海里脱身。
定制化Agent： 基于LangGraph自己捏出来的“缝合怪”正在变多，专门干写SQL、自动QA、内部搜文档这种脏活累活。

总结下来： 2026年的Agent已经不是PPT里的概念了，它正在变成一种像“Excel”一样普及的生产工具。大家现在的共识是：不求它能像科幻片一样全知全能，但求它在干活时别掉链子、别磨叽。

“
下面这个完整报告：

Langchain对超过1300名专业人士——包括工程师、产品经理、业务负责人以及企业高管——进行了一项调查，想搞清楚当前AI智能体(Agent)到底发展到什么程度了。接下来，Langchain会深入分析这些调查数据,看看AI智能体现在是怎么被用起来的(或者为什么还没用起来)。

引言

进入2026年,企业关心的问题已经不是"要不要搞智能体"了,而是"怎么把智能体做得靠谱、高效,还能大规模推广"。Langchain通过调查1300多位专业人士,想了解他们是如何推进AI智能体应用的,以及在智能体工程方面遇到了哪些难题。

主要发现:

智能体已经在实际应用了: 57%的受访者说他们已经把智能体用到生产环境里了,其中大公司跑得最快。
质量问题是上线的最大拦路虎: 32%的人认为质量是头号难题,而成本的担忧比去年少多了。
可观测性成了标配: 将近89%的受访者已经给智能体加上了可观测性功能,这比评估(52%)普及得多。
用多个模型已经很常见: 虽然OpenAI的GPT模型用得最多,但Google Gemini、Anthropic Claude还有各种开源模型也都很流行。模型微调还没那么普遍。

深度分析

“
什么是智能体工程?
智能体工程(Agent Engineering)是一个不断迭代的过程,目的是把大语言模型(LLM)变成靠谱的系统。因为智能体本身就不确定性很强,所以工程师需要快速迭代来提升和优化智能体的质量。

大公司在智能体应用上跑得最快

超过一半(57.3%)的受访者已经在生产环境跑智能体了,还有30.4%正在积极开发,而且有明确的上线计划。

这说明智能体应用比去年的调查有了明显增长(去年是51%的企业说已经把智能体投入生产了)。各大机构正在从概念验证阶段走向真正的生产部署——对大多数组织来说,问题已经不是"要不要"部署了,而是"怎么部署"和"什么时候部署"。

规模化部署有什么不一样?

在员工超过1万人的大公司里,67%已经把智能体投入生产了,还有24%正在积极开发准备上线。相比之下,员工不到100人的小公司里,50%已经上线了智能体,36%正在开发。这说明大公司能更快地把试点项目变成成熟系统,可能是因为他们在平台团队、安全和可靠性基础设施方面投入更多。

智能体主要用在哪些场景

客户服务(26.5%)是最常见的智能体应用场景,紧接着是研究与数据分析(24.4%)。这两个加起来就占了一半以上。

客户服务这么火,说明团队已经敢把智能体直接拿来面对客户了,不光是内部用用而已。同时,智能体在内部也一直发挥着重要作用,18%的受访者提到用智能体来做内部工作流自动化,提高员工效率。

研究与数据分析场景这么普遍,进一步说明了智能体现在的优势在哪:处理海量信息、跨多个来源推理,还有加快知识密集型任务的速度。

值得注意的是,今年受访者选的应用场景更分散了(每个人只能选一个主要场景),这预示着智能体的应用范围正在从早期的几个特定领域扩展到更多方向。

大公司的部署场景有啥不同?

在员工超过1万人的公司里,内部生产力是第一大应用场景(26.8%),客户服务(24.7%)和研究与数据分析(22.2%)排在后面。大公司可能更倾向于先提高内部团队效率,然后再把智能体推给最终用户,或者两个同时进行。

阻碍智能体上线的最大障碍

质量依然是智能体上线的最大拦路虎,这跟去年调查结果一样。今年有三分之一的受访者把质量列为首要障碍。这包括准确性、相关性、一致性,以及智能体能不能保持合适的语气、遵守品牌或政策规范。

延迟成了第二大挑战(20%)。随着智能体被用在客户服务和代码生成这些面向客户的场景里,响应时间就变成了用户体验的关键。这也反映了团队在质量和速度之间的权衡:功能更强、多步骤的智能体能给出更高质量的输出,但通常响应比较慢。

相比之下,成本问题比往年提得少多了。模型价格下降和效率提升,似乎已经让关注点从单纯的花费转移了,现在组织更关心智能体能不能高效、快速地运行。

大公司有什么不同?

在大公司(员工2000人以上)里,质量仍然是最大障碍,但安全性成了第二大关注点,24.9%的受访者提到了这点,甚至超过了延迟问题——延迟在小公司里更常被提及。

对于员工超过1万人的公司,书面反馈里提到,智能体生成的幻觉和输出一致性是保证质量的最大挑战。很多人还提到在上下文工程和大规模管理上下文方面持续存在困难。

智能体的可观测性

追踪多步推理链和工具调用能力已经成了智能体必不可少的功能。89%的组织已经给智能体加上了某种形式的可观测性,其中62%有详细的追踪能力,可以检查智能体的每个步骤和工具调用。

在已经把智能体投入生产的受访者中,可观测性的普及率更高:94%部署了某种形式的可观测性,71.5%有完整的追踪能力。这说明了智能体工程的一个基本事实:如果搞不清楚智能体是怎么推理和行动的,团队就没法可靠地调试故障、优化性能,也没法跟内外部利益相关者建立信任。

智能体的评估与测试

虽然可观测性更普遍,但智能体评估也在迎头赶上,受到越来越多关注。刚过半的组织(52.4%)表示在测试集上做离线评估,说明很多团队意识到在部署前检测回归和验证智能体行为的重要性。在线评估的采用率低一些(37.3%),但随着团队开始监控实际智能体性能,这个比例正在增长。

对于已经把智能体投入生产的组织,评估实践可能更成熟,因为整体评估采用率明显更高("不评估"的比例从29.5%降到了22.8%)。同时,Langchain还发现更多组织在做在线评估(44.8%),说明一旦智能体面向真实用户,团队就需要通过监测生产数据来实时发现问题。

大多数团队还是从离线评估开始的,可能是因为入门门槛低,设置也比较清楚,但很多团队正在把多种方法组合使用。在进行评估的组织中,接近四分之一把离线和在线评估结合起来用。

这些做评估的组织还把人工和自动化方法结合起来,用"LLM作为评判者"(LLM-as-judge)来做广泛评估,用人工审查来做深度评估。更普遍的是,人工审查(59.8%)对于需要细致处理或高风险的情况还是很关键的,而"LLM作为评判者"方法(53.3%)越来越多地被用来大规模评估质量、事实准确性和准则遵守情况。相比之下,传统的机器学习指标,像ROUGE和BLEU,采用率比较有限。它们可能不太适合有多种正确答案的开放式智能体交互。

模型与工具概况

OpenAI模型占主导地位,但很少有团队只靠一家供应商。

超过三分之二的组织说在用OpenAI的GPT模型,但是模型多样性已经成常态了——超过四分之三的组织在生产或开发中用了多种模型。团队越来越多地根据复杂性、成本和延迟等因素,把任务分配给不同的模型,而不是死守一个平台。

虽然商用API很方便,但自己部署模型对很多组织来说仍然是个重要策略。三分之一的组织表示正在投入基础设施和专业知识来部署自己的模型。这种对开源模型的采用,可能是出于大批量成本优化、数据驻留和主权要求,或者敏感行业的法规限制。

与此同时,模型微调还是个专业活,还没标准化。大多数组织(57%)不做模型微调,而是依赖基础模型配合提示工程(Prompt Engineering)和检索增强生成(RAG)技术。因为微调需要在数据收集、标注、训练基础设施和持续维护上投入大量资源,所以它似乎主要用在影响大或很专业的场景。

日常最常用的智能体

当Langchain问"日常用得最多的智能体是哪些?"时,文字回复里出现了几个明显的模式。

1. 编码智能体主导日常工作流

编码助手是目前为止提到最多的智能体。受访者反复提到Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf和Antigravity等工具是他们日常开发流程的一部分,不管是用来生成代码、调试、创建测试还是浏览大型代码库。

2. 研究与深度研究智能体排第二

第二常见的是研究和深度研究智能体,由ChatGPT、Claude、Gemini、Perplexity这些工具提供支持。这些智能体用来探索新领域、总结长篇文档和整合多个来源的信息。它们经常跟编码智能体一起配合使用。

3. 基于LangChain和LangGraph构建的定制智能体也很受欢迎

第三个特点明显的类别是定制智能体,很多受访者说他们的智能体是基于LangChain和LangGraph搭建的。受访者描述了用于QA测试、内部知识库搜索、SQL/文本转SQL、需求规划、客户支持和工作流自动化等方面的内部智能体。

值得注意的是,少数受访者还指出,除了LLM聊天或编码辅助,他们还没开始用其他智能体,这说明虽然智能体应用很广,但更广泛的"智能体无处不在"的时代才刚刚开始。

调查方法

本报告的分析来自Langchain在2025年11月18日到12月2日进行的为期两周的公开调查。一共收到了1340份回复。下面是一些人口统计数据:

五大行业:

科技(63%的受访者)
金融服务(10%的受访者)
医疗保健(6%的受访者)
教育(4%的受访者)
消费品(3%的受访者)
制造业(3%的受访者)

公司规模:

少于100人(49%的受访者)
100-500人(18%的受访者)
500-2000人(15%的受访者)
2000-10000人(9%的受访者)
10000人以上(9%的受访者)

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业