微信扫码
添加专属顾问
3月份,LangChain 创始人 Harrison Chase 在红杉资本的 AI Ascent 上演讲,探讨 AI Agent 的下一步发展以及使用语言模型与外部世界交互的演变。Harrison 确定了下一代 Agents 的三个关键开发领域,规划、用户体验和记忆。
之后,7月份、8月份陆续在 LangChain 博客上深入探讨了针对智能体的用户体验设计,由于智能体用户体验设计有很多不同的内容,陆续发布了一系列的3篇博客文章。
文章经 GeekSavvy 翻译整理,并去除一些广告内容,尽可能保留原文,下面是针对智能体的用户体验设计这个系列的3篇文章,即为3部分。
Part 1:聊天
Part 2:环境(后台运行)
Part 3:电子表格、生成和协作 UI/UX
Part 1 聊天
人与计算机的交互已经研究了很多年。我相信在未来几年,人与智能体的交互也将成为一个重要的研究领域。
智能体系统与过去的传统计算机系统不同,主要是因为它们面临着新出现的挑战,如延迟、不可靠性和自然语言界面。因此,我坚信,与这些智能体应用程序交互的新 UI/UX 模式将会出现。
虽然目前智能体系统还处于早期阶段,但我认为已经有多个正在兴起的 UX 模式。在这篇文章中,我们将讨论目前最主流的 UX 形式:聊天。
流式聊天
“流式聊天” UX 是目前最主流的 UX。它简单地指的是一个智能体系统以聊天格式实时返回其思考和行为——ChatGPT 是其中最受欢迎的例子。这种交互模式看似简单,但实际上有几个重要的优点。
与大语言模型 (LLM) 交互的主要方式是通过自然语言。在聊天中,你可以通过自然语言直接与 LLM 互动。这意味着你和 LLM 之间几乎没有任何障碍。
从某种程度上来说,流式聊天是早期计算机的“终端”。
终端(尤其是早期计算机的终端)提供了更底层、更直接的访问操作系统的方式。但随着时间的推移,计算机逐渐转向更多基于图形用户界面的交互。流式聊天可能类似—— 这是我们与 LLM 互动的第一种方式,它提供了对底层 LLM 的直接访问。随着时间的推移,其他 UX 可能会出现(就像计算机逐渐转向更多的 UI 交互)—— 但低层次的访问在初期有显著的优势。
流式聊天的一个优势是 LLM 可能需要一些时间来处理。流式方式让用户能够理解系统内部的实时情况。你可以看到 LLM 执行的中间步骤(包括它采取的动作和结果)以及它“思考”时生成的 token。
流式聊天的另一个好处是 LLM 经常出错。聊天提供了一个非常自然的界面,可以用来纠正和引导它!我们已经习惯了在聊天中进行后续对话,并通过这种迭代方式讨论问题。
当然,流式聊天也有其缺点。首先,流式聊天是一种相对较新的 UX,因此我们现有的聊天平台(如 iMessage、Facebook Messenger、Slack 等)还没有内置这种模式。其次,对于需要较长时间运行的任务来说,这种模式可能会有点别扭——难道我要一直坐在那里看着智能体工作吗?第三,流式聊天通常需要由人类触发,这意味着人类仍然深度参与其中。
非流式聊天
称它为“非流式聊天”听起来有些奇怪,因为直到两年前,我们还只是把它称为“聊天”—— 但事实就是这样。非流式聊天与流式聊天有很多相似之处——它向用户直接暴露 LLM,并且允许非常自然地进行纠正。
非流式聊天的主要区别在于,响应是以完整的批次返回的,这既有利也有弊。最大的缺点是你无法看到系统内部发生了什么,结果就是你会被蒙在鼓里。
但... 这样真的可以吗?
Linus Lee 最近对“委托”发表了一些精彩的见解,我非常喜欢。他的一个片段很好地说明了这一点:
我有意将界面设计得尽可能不透明。
他认为,不透明的界面需要一定程度的信任,但一旦建立了这种信任,就可以让你_只需将任务委派给智能体_,而不必进行微观管理。这种异步性质也有助于处理长时间运行的任务——这意味着智能体可以为你做更多的工作。
假设信任得以建立,这似乎是一个好事情。但它也会引发其他问题。例如,如何处理“重复发送”——即用户发送一条消息,智能体开始执行任务,而用户在智能体完成任务之前再次发送另一条(有时是无关的)消息。在流式聊天中,通常不会出现这种问题,因为智能体的流式信息会阻止用户输入新的内容。
非流式聊天 UX 的一个优势是它更符合我们的日常习惯,这意味着它可能更容易整合到现有的工作流程中。人们习惯于与其他人通过文本消息交流——为什么不也适应与 AI 进行文字交流呢?
非流式聊天的另一个大优点是,它通常允许 AI 花费更多的时间来回应。
这通常是因为非流式聊天更自然地集成到我们现有的工作流程中。我们不期望朋友立刻回复消息——为什么我们要期望 AI 这样做呢?这使得与更复杂的智能体系统交互变得更容易——这些系统往往需要时间,而如果我们期待即时回复,可能会感到沮丧。非流式聊天往往消除了这种期望,使得执行更复杂的任务变得更加轻松。
流式聊天似乎是更新、更闪亮、更具未来感的技术……但随着我们对智能体系统的信任增加,这种趋势是否会逆转呢?
聊天之外的更多 UX 形式?
由于这是三篇系列文章的第一篇,我们相信除了聊天之外,还有更多的 UX 模式值得考虑。不过,仍然值得提醒的是,聊天是一个非常好的用户体验设计,它被广泛使用是有原因的。
聊天的好处:
允许用户直接与模型交互
允许用户轻松提出后续问题和/或进行纠正
流式与非流式聊天的优缺点
Part 2:环境(后台运行)
这是我们关于智能体用户体验的第二篇文章。我们将讨论后台运行的智能体,它可以同时处理多个任务,并探讨它们如何应用于您的工作流程。
在我们之前关于聊天型用户体验的博客文章中,我们探讨了聊天界面如何要求用户主动与 AI 互动。而如果 AI 可以在后台为您工作呢?
我认为,为了让智能体系统真正发挥潜力,必须实现让 AI 在后台运行的转变。当任务在后台处理时,用户通常对较长的完成时间更加宽容(因为他们不再过于追求低延迟)。这让智能体能够更专注地完成任务,而不是像在聊天界面中那样急于给出回应。
此外,后台运行的智能体能够让我们人类更高效地扩展我们的能力。聊天界面通常限制我们一次只能处理一个任务。但如果智能体在后台运行,多个智能体可以同时处理多个任务。
那么,后台运行智能体的用户体验是什么样的呢?
与后台智能体建立信任:
从“人在循环中”到“人在循环上”
要让智能体在后台运行需要建立一定的信任。如何建立这种信任呢?
一个简单的方式就是展示给用户智能体正在执行的每一步操作,并让用户随时查看这些信息。虽然这些信息不会像流式反馈那样实时显示,但应该为用户提供可以点击查看的选项。
下一步,不仅仅是让用户看到发生了什么,还要让他们能够纠正智能体的操作。如果用户发现智能体在第10步中的第4步做出了错误选择,他们应该能够回到第4步进行纠正。
这种纠正方式可以通过几种形式实现。以纠正错误调用工具的智能体为例:
您可以手动输入正确的工具调用指令,使其看似由智能体生成,然后继续后续步骤。
您可以向智能体提供明确的指令,告诉它如何更好地调用工具——例如,“用参数X调用,而不是参数Y”,并要求智能体更新其预测。
您可以更新当时的指令或状态,并从该步骤重新运行。
选项2和3的区别在于智能体是否意识到其先前的错误。选项2是要求智能体认识到其错误并加以纠正,而选项3则是在不知情的情况下只遵循新的指令。
这种方法将用户从“在循环中”转变为“在循环上”。“在循环上”意味着智能体需要向用户展示其执行的所有中间步骤,用户可以在工作流中途暂停,提供反馈,然后让智能体继续执行。
一个已经实现了类似用户体验的应用是Devin,AI 软件工程师。Devin能够长时间运行,用户可以查看所有执行的步骤,回到某个特定时间点,并从那里进行纠正。
整合人工输入:智能体在需要时如何请求帮助
虽然智能体在后台运行,但这并不意味着它必须完全自主地完成任务。有些时候,智能体可能不知道接下来该怎么做或如何回应。这时,它需要引起人类的注意并请求帮助。
以我正在构建的电子邮件助手智能体为例。虽然它能够处理一些基础的邮件任务,但对于某些任务,我不希望自动化处理,例如复杂的 LangChain 错误报告审阅或决定是否参加会议。
在这种情况下,电子邮件助手需要一种机制向我请求信息,而不是让我直接处理回复。它希望获得我的意见,然后利用这些信息撰写邮件或安排会议。
目前,我已经在 Slack 中设置了这个助手。它通过问题通知我,我在线程中回复,轻松集成到我的工作流程中。如果这种用户体验在更大范围内应用,我会设想一个类似客户支持仪表盘的界面,展示所有需要人工帮助的任务、请求的优先级及其他元数据。
我最初将这个电子邮件助手称为“智能体收件箱”——但更准确地说,它是一个为人类帮助智能体完成任务的收件箱……这种想法令人深思。
结论
我非常看好后台运行的智能体,因为它们是帮助人类扩展自身能力的关键。
我们团队在继续构建 LangGraph 时,始终以这些用户体验为目标。我们对所有状态进行检查,轻松支持“人在循环上”的可观察性、回滚和编辑。这还使得智能体能够请求人类反馈,并在获得回复后继续执行。
Part 3:电子表格、生成和协作 UI/UX
这是我关于智能体用户体验的第三篇文章,了解批量处理智能体工作负载的电子表格用户体验、生成式 UI 以及与智能体协作的用户体验。
电子表格用户体验
在过去两个月中,我看到的一种用户体验范式是电子表格用户体验。第一次见到这种方式是在今年早些时候推出的 Matrices,AI 原生电子表格。
我非常喜欢这种方式。首先,电子表格用户体验是支持批量处理工作负载的超级直观且用户友好的方式。每个单元格都可以变成一个独立的智能体,去研究特定的任务。这种批处理方式允许用户同时扩展并与多个智能体交互。
这种 UX 还有其他优势。电子表格格式是非常常见的用户界面,大多数用户都很熟悉,因此它可以轻松融入现有的工作流程中。这种 UX 对于数据丰富化尤其适用,这是 LLM 的一个常见使用场景,每列可以代表不同的待丰富属性。
从那时起,我在几个地方看到了这种 UX(Clay 和 Otto 是两个很好的例子)。
生成式 UI
“生成式 UI” 可以有多种不同的含义。
一种解释是模型生成用于显示的原始组件,即真正的生成式 UI。这类似于 WebSim 等应用程序。其背后是,智能体主要编写原始 HTML 代码,允许其完全控制显示的内容。然而,这种方法可能会导致生成的 HTML 质量不一,因此最终结果可能看起来有些粗糙或不够精致。
另一种更受限的生成式 UI 方法是通过编程将 LLM 的响应映射到不同的预定义 UI 组件上。这通常是通过工具调用实现的。例如,如果 LLM 调用了天气 API,它将触发天气图组件的渲染。由于渲染的组件并非真正生成的(而是被选择的),因此生成的 UI 会更加精致,但在可生成内容的灵活性上有所限制。
LangChain 的有一个视频系列讲了更多关于生成式 UI 的内容。请查看以下链接。
https://www.youtube.com/watch?v=mL_KuQgX9Oc
协作式 UX
一种较少被探讨的 UX 是:当智能体和人类一起工作时会发生什么?想象一下 Google Docs,你可以与团队成员合作撰写或编辑文档——但其中一个合作伙伴是智能体。
我心目中该领域的领先思想家是 Geoffrey Litt 和 Ink & Switch,他们的 Patchwork 项目 是人类与智能体协作的一个很好的例子。
协作式 UX 与之前讨论的环境 UX有何不同?我们的一位创始工程师 Nuno 强调了两者之间的主要区别:
主要区别在于并发性:
在协作式 UX中,你和 LLM 经常同时工作,互相“借鉴”彼此的工作
在环境 UX中,LLM 持续在后台工作,而你则专注于其他事情
这些差异也转化为构建这些应用时的不同需求:
对于协作式 UX,你可能需要展示 LLM 完成的细粒度工作(这可能介于单个 Token 和较大的应用程序特定工作单元之间,例如文本编辑器中的段落)。一个常见需求是自动合并并发更改的方式,类似于 Google Docs 管理实时协作的方式。
对于环境 UX,你可能需要总结 LLM 所完成的工作或突出显示变更。一个常见需求可能是触发由其他系统中的事件(例如通过 webhook)所启动的运行。
相关的原文链接:
LangChain 创始人 Harrison 在红杉资本的 AI Ascent 的演讲
https://www.youtube.com/watch?v=pBBe1pk8hf4
Part 1:聊天
https://blog.langchain.dev/ux-for-agents-part-1-chat-2/
Part 2:环境(后台运行)
https://blog.langchain.dev/ux-for-agents-part-2-ambient/
Part 3:电子表格、生成和协作 UI/UX
https://blog.langchain.dev/ux-for-agents-part-3/
关注公众号,用极客视角洞察未来!
往期精彩文章推荐:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-26
拆解Agent Harness的11大核心组件与工程实践(附下载)
2026-06-05
让 Agent 快速上生产:基于 OceanBase 和 LangChain 打造的智能体系统解决方案发布
2026-05-19
90% 的 Agent 失败,不是框架不行,而是卡在 5 个工程问题
2026-05-14
用两行代码将 AgentRun 集成到你的应用
2026-05-06
LangChain 深度智能体(Deep Agents)入门
2026-04-19
万字讲透Agent Harness的十二大模块
2026-04-08
同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖
2026-03-28
LangChain的DeepAgents子代理实战:复杂任务为什么一定要交给 SubAgent
2026-04-19
2026-04-08
2026-05-06
2026-05-19
2026-05-14
2026-06-05
2026-06-26
2026-03-26
2025-11-03
2025-10-29
2025-07-14
2025-07-13
2025-07-05
2025-06-26
2025-06-13
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。