微信扫码
添加专属顾问
发布时间:2024 年 07 月 04 日
Planning with Large Language Models for Conversational Agents
自主对话代理(CAs)的核心在于可控性与主动性。可控性意味着 CAs 需遵循标准操作流程(SOPs),如激活信用卡前的身份验证;主动性则要求 CAs 在用户不配合时引导对话达成目标,如进行说服性交流。当前研究难以兼顾这三者:可控性、主动性与低成本的手动标注。为此,我们创新性地提出了一个基于计划的大型语言模型(LLMs)驱动的对话代理框架(PCA),仅需人类设定任务与目标。对话前,LLM 离线制定关键 SOP;对话中,LLM 在线依据 SOP 规划最优行动,确保对话过程的可控。此外,我们构建了半自动对话数据生成框架,并精心打造了高质量对话数据集(PCA-D)。我们还研发了多种 PCA 变体及评估标准,如采用蒙特卡洛树搜索(PCA-M)的规划方法,该方法在遵守 SOP 的同时,寻找最优对话策略,增强对话的主动性。实验表明,经 PCA-D 微调的 LLMs 性能大幅提升,且能适应新领域。PCA-M 在多个维度上超越传统基线,适用于实际工业对话场景。相关数据集与代码已公开于 XXXX。
https://arxiv.org/abs/2407.03884
对话智能体(CAs,Conversational Agents)或对话系统一般用来向用户提供以自然语言交流为主要方式的功能服务。目前主要的方法包括:
• 会话式问答:CQA,Conversational Question Answering
• 开放领域对话:ODD,Open-Domain Dialogue
• 任务导向对话:TOD,Task-Oriented Dialogue
• 对话推荐系统:CRS,Conversational Recommender Systems
CQA和ODD的主要目标是回答用户问题,提供知识性或者趣味性的对话,但是他们的缺陷是缺乏主动性。
CRS通过设定特定主题,如“推荐电影《喜剧之王》”,自主规划与用户对话的最佳路径,引导对话顺畅进行。但是,在复杂任务中,对话一般需要遵循严格的顺序约束,这在标准化操作程序(SOPs)中很常见。如上图,信用卡激活的说服前提条件是用户必须是持卡人。但是,CRS在全局可控的对话行动路径规划上存在不足。
TOD旨在根据服务流程提供功能服务,但他的可控性依赖于手动绘制的对话树或预定义的意图、槽位和行动训练数据。它可以主动引导用户提供信息,但在用户不合作的情况下,如说服或谈判对话,就显得无能为力。
可见,主动性、可控性以及减少对人工干预的依赖对于构建自主业务CA至关重要。
因此,作者设计了一种新的对话系统框架,基于规划的对话智能体(PCA),如上图所示。与其他框架不一样的是,PCA只需要人类为LLMs提供任务定义和目标,以便在对话前离线规划核心和必要的SOP。在对话过程中,LLM根据SOP在线规划最佳行动路径并生成响应,以实现过程控制。对于SOP之外的行动,如回答问题和说服,LLM能够自主规划,实现主动对话。
实现PCA系统需完成两项任务:
• 构建一个全面的端到端多轮对话框架
• 执行SOP预测与对话生成的算法任务
如上图所示,PCA架构,由对话智能体(CA)作为控制中心,以及五个顺序步骤组成。
• 1.开始对话前,CA读取用户设定的任务信息,将SOP顶点传递给离线规划器,离线规划器生成SOP图。
• 2.在对话过程中,CA首先激活工作记忆模块,组装对话所需的提示。
• 3.然后,将这些提示输入在线规划模块,以生成对话回应。
作者使用了三种用于SOP预测的方法:
• 邻接列表(Adjacency List,AL):直接引导LLMs以JSON格式输出邻接表
• 翻译型CoT(Translation CoT,TCoT):先引导LLMs用自然语言描述每个顶点及其子顶点及原因,再转换成JSON格式的邻接列表。
• SFT:在不同规模的Llama和Qwen上实施了全参数SFT,每次任务生成一个顶点的邻接顶点。
上图展示了一个SOP的示例。
CoT与ToT两种提示工程方法已经被证明可以显著提升了LLM在复杂推理方面的能力,因此被选为基线方法。
• 在CoT中,逐步引导LLM推断用户状态、智能体行为和回应。
• ToT则将这些步骤分为三次LLM调用,每次对应树的一层节点。通过多次采样获取多个节点,最终引导LLM通过投票选择决策路径,确定智能体行为和回应。
为了把把SOP加入到对话中,计算了生成的对话路径与SOP的每个子路径之间的编辑距离(ED)。将最小的ED子路径的子节点添加到提示中,指导智能体遵循SOP。
PCA-M是MCTS(Monte Carlo Tree Search)的扩展,结合SOP进行对话路径的在线规划,目的是在对话的未来扩展和模拟阶段中充分利用SOP的约束。MCTS策略性地探索对话树空间,在满足约束的同时找到探索与利用的平衡,高效地发现高回报的对话轨迹。
PCA-M构建了一个对话树,每个节点代表智能体选择行动与用户互动产生的对话状态(即工作记忆),每条边代表智能体行动及当前状态到下一状态的转换。
PCA-M通过迭代执行节点选择(Selection)、扩展(Expansion)、模拟(Simulation)和反向传播(Backpropagation),更新树的统计数据,寻找下一个最佳行动。多次迭代,PCA-M预测出最佳行动。这一过程持续至达到预设的计算预算(如迭代次数),此时可从树中提取出最终轨迹。
• 选择(Selection):从根节点(也就是起始状态)开始,选择一个子节点作为接下来的节点,直到抵达叶子节点结束。PCA-M采用了树的上置信界限(UCT)算法,在挑选每个子节点时,旨在平衡探索(鲜有踏足的节点)与利用(价值丰厚的节点)的双重需求。
• 扩展(Expansion):当所选的叶子节点尚未到达终点,会利用LLM作为对话动作的先验知识,通过提示来抽取可能的对话动作,以此为基础进行扩展。PCA-M会先在SOP约束图中根据对话路径寻找局部子图,并添加由当前状态节点所指向的接下来两层子节点,以此进行扩展。这样做既利用了约束关系,也保持了LLM的自主决策能力。如果所选的叶节点已经是一个终端节点(无论是对话结束的节点,还是已经达到搜索的最大深度),将跳过扩展步骤,直接进入反向传播阶段。
• 模拟(Simulation):在评估未来对话可能带来的回报时,通过模拟,来预测每个扩展状态节点的未来对话。为了提升效率,减少了模拟过程中的随机性,只针对由LLM提供并受SOP指导的候选对话策略进行模拟。
• 反向传播(Backpropagation):当如上所述达到一个终端状态后,会采用UCT公式,回溯更新整个路径上的UCT值。一旦达到预设的MCTS迭代次数,便结束算法的运行。最终,在构建的树状结构中,将选择当前节点中UCT值最高的子节点,以指导对话的下一回合。
通过两个维度来评估SOP预测:SOP的图结构和对话实用性:
• 图结构方面,利用Python的networkx库中的图编辑距离(GED)功能,量化了将预测SOP手动修订为真实SOP所需的操作次数及其比率(GEDR)。
• 在对话层面,对比了预测与实际SOP间对话路径的精确性、完整性和F1得分。对话路径指的是从起点至终点的所有可达路径,且路径中的循环仅计算一次。
上表展示了对标准操作程序(SOPs)预测的成果。
• GPT-4o凭借其卓越的推理能力,使得引导对话的实用性高达71.85%,而需手动修正的比例低至5.4%。
• 翻译型上下文(TCoT)方法能显著提升性能较弱模型的得分,提升幅度在10到20分之间。
• 基于PCA-D的监督式微调(SFT)在处理未见任务时的表现突飞猛进,与顶级的GPT-4o不相上下。
这证实了PCA-D数据集在增强大型语言模型(LLM)规划SOP的能力方面发挥了显著作用。
评估了单轮对话动作(Acc T)、标准操作程序(SOP)动作(Acc C)及主动动作(Acc P)的精确度,用以衡量对话的可控性与主动性。对话整体的准确性(acc D)是通过将各轮次中正确对话的数量与总轮次的比值来确定的。此外,还使用BLEU评分来衡量生成回应与真实情况之间的相关度。
• 监督式微调(SFT)成果尤为突出,性能直逼商业级GPT-4o,充分证明了PCA-D在提升模型对话技能方面的显著效果。
• 基于蒙特卡洛树搜索(MCTS)的树搜索算法相较于ToT更为高效,能够进一步优化性能。
• 特别是在开源模型领域,即便不借助SFT,它也能超越GPT-4o的上下文(CoT)基准。
考虑到不同用户制定的任务SOPs存在差异且回应语言多样性,从单轮对话的视角出发,手动评估了对话的可控性、知识准确性和主动性,即这些类型回应在总体回应中的比例。
从整体对话的视角,通过手动评估任务完成率和平均连贯性得分(0至1分),来衡量任务的全程表现。
最终,组建了一个四人评估团队,对不同模型在一百个不同对话场景中的对话表现进行了细致的人工评审。
如上图所示,SOP的引导显著提升了对话的可控性,并增强了主动性,提高了任务成功率和整体的逻辑连贯性。基于SOP的MCTS算法进一步提升了整体性能。
在PCA-D上通过SFT优化的模型成功地将对话能力应用到现实世界的测试中。
与CoT相比,尽管MCTS在token使用上多出8到9倍,目标成功率提升了0.38倍,但其性价比还是优于ToT。
得益于提供的任务相关知识,LLMs很少出现知识错误或臆造,这对于企业应用来说是一个积极的信号。
依托于大型语言模型(LLMs)的上下文学习能力,如ChatGPT和GPT-4。但这些模型有时可能会生成包含错误信息的输出(幻觉),这可能导致系统提供超出任务预定义范围的信息。为了增强回答的真实性,计划通过后处理步骤进行优化,包括训练专门的安全模型,并在后处理阶段加入检查与修订流程。
PCA-M在运行时间上存在一个明显的局限。进行越全面的树搜索(例如增加搜索参数n或k),算法越有可能找到最优的对话策略。但这会牺牲模拟时间,可能对用户体验造成负面影响。通过并行化树搜索或重用部分模拟子树,可以加快运行速度。随着LLMs研究的深入,期待推理速度将得到持续改善。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-27
大模型问答流程节点设计:从一轮到多轮对话的意图识别
2026-06-21
AI智能体怎么接入你现有的ERP和CRM——系统集成的实操指南
2026-06-03
你的公司需要一个"养Agent的人",但没人知道这个岗位叫什么
2026-05-18
你的下一位同事,可能是“管 AI 的 AI”
2026-04-29
拦截率从15%到55%:快手智能Oncall系统演进与落地实践
2026-02-11
别再让语音机器人“答非所问”:AI Force任务型语音对话技术总结
2026-01-20
用AI做物业管理与租赁助手,A16Z领投2.5亿美元,这家AI团队年营收超1亿
2026-01-19
熠智AI+Milvus:从Embedding 到数据处理、问题重写,电商AI客服架构怎么搭?
2026-01-19
2025-11-22
2025-11-17
2025-11-10
2025-11-02
2025-08-27
2025-08-25
2025-08-08
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。