微信扫码
添加专属顾问
我要投稿
AI智能体已从概念走向实践,成为企业提效的标配工具,这份报告揭示了Agent技术的真实应用现状。 核心内容: 1. AI智能体在企业中的普及程度与主要应用场景 2. 当前技术面临的三大挑战:延迟、幻觉与可观测性 3. 主流智能体类型及其职场表现:编程Agent、研究Agent与定制化Agent
看完这份LangChain年度报告,我感觉现在的AI圈已经从“赛博吹水”进化到“撸起袖子干实事”的阶段了。别看大佬们还在吵AGI什么时候来,打工人已经偷偷用Agent把活儿干完了。
总结下来: 2026年的Agent已经不是PPT里的概念了,它正在变成一种像“Excel”一样普及的生产工具。大家现在的共识是:不求它能像科幻片一样全知全能,但求它在干活时别掉链子、别磨叽。
“下面这个完整报告:
Langchain对超过1300名专业人士——包括工程师、产品经理、业务负责人以及企业高管——进行了一项调查,想搞清楚当前AI智能体(Agent)到底发展到什么程度了。接下来,Langchain会深入分析这些调查数据,看看AI智能体现在是怎么被用起来的(或者为什么还没用起来)。
进入2026年,企业关心的问题已经不是"要不要搞智能体"了,而是"怎么把智能体做得靠谱、高效,还能大规模推广"。Langchain通过调查1300多位专业人士,想了解他们是如何推进AI智能体应用的,以及在智能体工程方面遇到了哪些难题。
主要发现:
“什么是智能体工程?
智能体工程(Agent Engineering)是一个不断迭代的过程,目的是把大语言模型(LLM)变成靠谱的系统。因为智能体本身就不确定性很强,所以工程师需要快速迭代来提升和优化智能体的质量。
超过一半(57.3%)的受访者已经在生产环境跑智能体了,还有30.4%正在积极开发,而且有明确的上线计划。
这说明智能体应用比去年的调查有了明显增长(去年是51%的企业说已经把智能体投入生产了)。各大机构正在从概念验证阶段走向真正的生产部署——对大多数组织来说,问题已经不是"要不要"部署了,而是"怎么部署"和"什么时候部署"。
规模化部署有什么不一样?
在员工超过1万人的大公司里,67%已经把智能体投入生产了,还有24%正在积极开发准备上线。相比之下,员工不到100人的小公司里,50%已经上线了智能体,36%正在开发。这说明大公司能更快地把试点项目变成成熟系统,可能是因为他们在平台团队、安全和可靠性基础设施方面投入更多。
客户服务(26.5%)是最常见的智能体应用场景,紧接着是研究与数据分析(24.4%)。这两个加起来就占了一半以上。
客户服务这么火,说明团队已经敢把智能体直接拿来面对客户了,不光是内部用用而已。同时,智能体在内部也一直发挥着重要作用,18%的受访者提到用智能体来做内部工作流自动化,提高员工效率。
研究与数据分析场景这么普遍,进一步说明了智能体现在的优势在哪:处理海量信息、跨多个来源推理,还有加快知识密集型任务的速度。
值得注意的是,今年受访者选的应用场景更分散了(每个人只能选一个主要场景),这预示着智能体的应用范围正在从早期的几个特定领域扩展到更多方向。
大公司的部署场景有啥不同?
在员工超过1万人的公司里,内部生产力是第一大应用场景(26.8%),客户服务(24.7%)和研究与数据分析(22.2%)排在后面。大公司可能更倾向于先提高内部团队效率,然后再把智能体推给最终用户,或者两个同时进行。
质量依然是智能体上线的最大拦路虎,这跟去年调查结果一样。今年有三分之一的受访者把质量列为首要障碍。这包括准确性、相关性、一致性,以及智能体能不能保持合适的语气、遵守品牌或政策规范。
延迟成了第二大挑战(20%)。随着智能体被用在客户服务和代码生成这些面向客户的场景里,响应时间就变成了用户体验的关键。这也反映了团队在质量和速度之间的权衡:功能更强、多步骤的智能体能给出更高质量的输出,但通常响应比较慢。
相比之下,成本问题比往年提得少多了。模型价格下降和效率提升,似乎已经让关注点从单纯的花费转移了,现在组织更关心智能体能不能高效、快速地运行。
大公司有什么不同?
在大公司(员工2000人以上)里,质量仍然是最大障碍,但安全性成了第二大关注点,24.9%的受访者提到了这点,甚至超过了延迟问题——延迟在小公司里更常被提及。
对于员工超过1万人的公司,书面反馈里提到,智能体生成的幻觉和输出一致性是保证质量的最大挑战。很多人还提到在上下文工程和大规模管理上下文方面持续存在困难。
追踪多步推理链和工具调用能力已经成了智能体必不可少的功能。89%的组织已经给智能体加上了某种形式的可观测性,其中62%有详细的追踪能力,可以检查智能体的每个步骤和工具调用。
在已经把智能体投入生产的受访者中,可观测性的普及率更高:94%部署了某种形式的可观测性,71.5%有完整的追踪能力。这说明了智能体工程的一个基本事实:如果搞不清楚智能体是怎么推理和行动的,团队就没法可靠地调试故障、优化性能,也没法跟内外部利益相关者建立信任。
虽然可观测性更普遍,但智能体评估也在迎头赶上,受到越来越多关注。刚过半的组织(52.4%)表示在测试集上做离线评估,说明很多团队意识到在部署前检测回归和验证智能体行为的重要性。在线评估的采用率低一些(37.3%),但随着团队开始监控实际智能体性能,这个比例正在增长。
对于已经把智能体投入生产的组织,评估实践可能更成熟,因为整体评估采用率明显更高("不评估"的比例从29.5%降到了22.8%)。同时,Langchain还发现更多组织在做在线评估(44.8%),说明一旦智能体面向真实用户,团队就需要通过监测生产数据来实时发现问题。
大多数团队还是从离线评估开始的,可能是因为入门门槛低,设置也比较清楚,但很多团队正在把多种方法组合使用。在进行评估的组织中,接近四分之一把离线和在线评估结合起来用。
这些做评估的组织还把人工和自动化方法结合起来,用"LLM作为评判者"(LLM-as-judge)来做广泛评估,用人工审查来做深度评估。更普遍的是,人工审查(59.8%)对于需要细致处理或高风险的情况还是很关键的,而"LLM作为评判者"方法(53.3%)越来越多地被用来大规模评估质量、事实准确性和准则遵守情况。相比之下,传统的机器学习指标,像ROUGE和BLEU,采用率比较有限。它们可能不太适合有多种正确答案的开放式智能体交互。
OpenAI模型占主导地位,但很少有团队只靠一家供应商。
超过三分之二的组织说在用OpenAI的GPT模型,但是模型多样性已经成常态了——超过四分之三的组织在生产或开发中用了多种模型。团队越来越多地根据复杂性、成本和延迟等因素,把任务分配给不同的模型,而不是死守一个平台。
虽然商用API很方便,但自己部署模型对很多组织来说仍然是个重要策略。三分之一的组织表示正在投入基础设施和专业知识来部署自己的模型。这种对开源模型的采用,可能是出于大批量成本优化、数据驻留和主权要求,或者敏感行业的法规限制。
与此同时,模型微调还是个专业活,还没标准化。大多数组织(57%)不做模型微调,而是依赖基础模型配合提示工程(Prompt Engineering)和检索增强生成(RAG)技术。因为微调需要在数据收集、标注、训练基础设施和持续维护上投入大量资源,所以它似乎主要用在影响大或很专业的场景。
当Langchain问"日常用得最多的智能体是哪些?"时,文字回复里出现了几个明显的模式。
1. 编码智能体主导日常工作流
编码助手是目前为止提到最多的智能体。受访者反复提到Claude Code、Cursor、GitHub Copilot、Amazon Q、Windsurf和Antigravity等工具是他们日常开发流程的一部分,不管是用来生成代码、调试、创建测试还是浏览大型代码库。
2. 研究与深度研究智能体排第二
第二常见的是研究和深度研究智能体,由ChatGPT、Claude、Gemini、Perplexity这些工具提供支持。这些智能体用来探索新领域、总结长篇文档和整合多个来源的信息。它们经常跟编码智能体一起配合使用。
3. 基于LangChain和LangGraph构建的定制智能体也很受欢迎
第三个特点明显的类别是定制智能体,很多受访者说他们的智能体是基于LangChain和LangGraph搭建的。受访者描述了用于QA测试、内部知识库搜索、SQL/文本转SQL、需求规划、客户支持和工作流自动化等方面的内部智能体。
值得注意的是,少数受访者还指出,除了LLM聊天或编码辅助,他们还没开始用其他智能体,这说明虽然智能体应用很广,但更广泛的"智能体无处不在"的时代才刚刚开始。
本报告的分析来自Langchain在2025年11月18日到12月2日进行的为期两周的公开调查。一共收到了1340份回复。下面是一些人口统计数据:
五大行业:
公司规模:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-17
智能体LangChain v1.0生态解读与迁移建议
2025-12-08
让AI智能体拥有像人类的持久记忆:基于LangGraph的长短期记忆管理实践指南
2025-12-04
Agentic RAG这样用LangChain解决复杂问题
2025-12-01
Deep Agent 进化论:基于文件系统的 Context Engineering 深度解析
2025-11-27
langgraph 1.0.4 最新发布:功能优化与修复详解
2025-11-25
LangChain 最新agent框架deepagents测评:长任务友好,高可控
2025-11-25
被 LangChain 全家桶搞晕了?LangGraph、LangSmith、LangFlow 一文读懂
2025-11-21
如何用 LangGraph 构建高效的 Agentic 系统
2025-11-03
2025-09-21
2025-10-23
2025-10-19
2025-10-31
2025-11-06
2025-11-05
2025-10-23
2025-11-01
2025-10-15
2025-11-03
2025-10-29
2025-07-14
2025-07-13
2025-07-05
2025-06-26
2025-06-13
2025-05-21