平安科技新成果：PCA，基于外部决策工具的智能客服框架

发布日期：2024-07-10 17:52:14 浏览次数： 3134

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

平安科技新成果：PCA，基于外部决策工具的智能客服框架

发布时间：2024 年 07 月 04 日

Planning with Large Language Models for Conversational Agents
自主对话代理（CAs）的核心在于可控性与主动性。可控性意味着 CAs 需遵循标准操作流程（SOPs），如激活信用卡前的身份验证；主动性则要求 CAs 在用户不配合时引导对话达成目标，如进行说服性交流。当前研究难以兼顾这三者：可控性、主动性与低成本的手动标注。为此，我们创新性地提出了一个基于计划的大型语言模型（LLMs）驱动的对话代理框架（PCA），仅需人类设定任务与目标。对话前，LLM 离线制定关键 SOP；对话中，LLM 在线依据 SOP 规划最优行动，确保对话过程的可控。此外，我们构建了半自动对话数据生成框架，并精心打造了高质量对话数据集（PCA-D）。我们还研发了多种 PCA 变体及评估标准，如采用蒙特卡洛树搜索（PCA-M）的规划方法，该方法在遵守 SOP 的同时，寻找最优对话策略，增强对话的主动性。实验表明，经 PCA-D 微调的 LLMs 性能大幅提升，且能适应新领域。PCA-M 在多个维度上超越传统基线，适用于实际工业对话场景。相关数据集与代码已公开于 XXXX。
https://arxiv.org/abs/2407.03884

null

1. 背景

对话智能体（CAs，Conversational Agents）或对话系统一般用来向用户提供以自然语言交流为主要方式的功能服务。目前主要的方法包括：

• 会话式问答：CQA，Conversational Question Answering
• 开放领域对话：ODD，Open-Domain Dialogue
• 任务导向对话：TOD，Task-Oriented Dialogue
• 对话推荐系统：CRS，Conversational Recommender Systems

CQA和ODD的主要目标是回答用户问题，提供知识性或者趣味性的对话，但是他们的缺陷是缺乏主动性。

null

CRS通过设定特定主题，如“推荐电影《喜剧之王》”，自主规划与用户对话的最佳路径，引导对话顺畅进行。但是，在复杂任务中，对话一般需要遵循严格的顺序约束，这在标准化操作程序（SOPs）中很常见。如上图，信用卡激活的说服前提条件是用户必须是持卡人。但是，CRS在全局可控的对话行动路径规划上存在不足。

TOD旨在根据服务流程提供功能服务，但他的可控性依赖于手动绘制的对话树或预定义的意图、槽位和行动训练数据。它可以主动引导用户提供信息，但在用户不合作的情况下，如说服或谈判对话，就显得无能为力。

可见，主动性、可控性以及减少对人工干预的依赖对于构建自主业务CA至关重要。

因此，作者设计了一种新的对话系统框架，基于规划的对话智能体（PCA），如上图所示。与其他框架不一样的是，PCA只需要人类为LLMs提供任务定义和目标，以便在对话前离线规划核心和必要的SOP。在对话过程中，LLM根据SOP在线规划最佳行动路径并生成响应，以实现过程控制。对于SOP之外的行动，如回答问题和说服，LLM能够自主规划，实现主动对话。

2. PCA框架

实现PCA系统需完成两项任务：

• 构建一个全面的端到端多轮对话框架
• 执行SOP预测与对话生成的算法任务

2.1 PCA架构概览

null

如上图所示，PCA架构，由对话智能体（CA）作为控制中心，以及五个顺序步骤组成。

• 1.开始对话前，CA读取用户设定的任务信息，将SOP顶点传递给离线规划器，离线规划器生成SOP图。
• 2.在对话过程中，CA首先激活工作记忆模块，组装对话所需的提示。
• 3.然后，将这些提示输入在线规划模块，以生成对话回应。

2.2 SOP预测方法

作者使用了三种用于SOP预测的方法：

• 邻接列表（Adjacency List，AL）：直接引导LLMs以JSON格式输出邻接表
• 翻译型CoT（Translation CoT，TCoT）：先引导LLMs用自然语言描述每个顶点及其子顶点及原因，再转换成JSON格式的邻接列表。
• SFT：在不同规模的Llama和Qwen上实施了全参数SFT，每次任务生成一个顶点的邻接顶点。

null

上图展示了一个SOP的示例。

2.3 对话预测技术

CoT与ToT两种提示工程方法已经被证明可以显著提升了LLM在复杂推理方面的能力，因此被选为基线方法。

• 在CoT中，逐步引导LLM推断用户状态、智能体行为和回应。
• ToT则将这些步骤分为三次LLM调用，每次对应树的一层节点。通过多次采样获取多个节点，最终引导LLM通过投票选择决策路径，确定智能体行为和回应。

为了把把SOP加入到对话中，计算了生成的对话路径与SOP的每个子路径之间的编辑距离（ED）。将最小的ED子路径的子节点添加到提示中，指导智能体遵循SOP。

PCA-M是MCTS（Monte Carlo Tree Search）的扩展，结合SOP进行对话路径的在线规划，目的是在对话的未来扩展和模拟阶段中充分利用SOP的约束。MCTS策略性地探索对话树空间，在满足约束的同时找到探索与利用的平衡，高效地发现高回报的对话轨迹。

2.4 带SOP的MCTS规划器详解

PCA-M构建了一个对话树，每个节点代表智能体选择行动与用户互动产生的对话状态（即工作记忆），每条边代表智能体行动及当前状态到下一状态的转换。

PCA-M通过迭代执行节点选择（Selection）、扩展（Expansion）、模拟（Simulation）和反向传播（Backpropagation），更新树的统计数据，寻找下一个最佳行动。多次迭代，PCA-M预测出最佳行动。这一过程持续至达到预设的计算预算（如迭代次数），此时可从树中提取出最终轨迹。

• 选择（Selection）：从根节点（也就是起始状态）开始，选择一个子节点作为接下来的节点，直到抵达叶子节点结束。PCA-M采用了树的上置信界限（UCT）算法，在挑选每个子节点时，旨在平衡探索（鲜有踏足的节点）与利用（价值丰厚的节点）的双重需求。
• 扩展（Expansion）：当所选的叶子节点尚未到达终点，会利用LLM作为对话动作的先验知识，通过提示来抽取可能的对话动作，以此为基础进行扩展。PCA-M会先在SOP约束图中根据对话路径寻找局部子图，并添加由当前状态节点所指向的接下来两层子节点，以此进行扩展。这样做既利用了约束关系，也保持了LLM的自主决策能力。如果所选的叶节点已经是一个终端节点（无论是对话结束的节点，还是已经达到搜索的最大深度），将跳过扩展步骤，直接进入反向传播阶段。
• 模拟（Simulation）：在评估未来对话可能带来的回报时，通过模拟，来预测每个扩展状态节点的未来对话。为了提升效率，减少了模拟过程中的随机性，只针对由LLM提供并受SOP指导的候选对话策略进行模拟。
• 反向传播（Backpropagation）：当如上所述达到一个终端状态后，会采用UCT公式，回溯更新整个路径上的UCT值。一旦达到预设的MCTS迭代次数，便结束算法的运行。最终，在构建的树状结构中，将选择当前节点中UCT值最高的子节点，以指导对话的下一回合。