货拉拉利用大模型打造多场景个人、办公助理实践

发布日期：2024-09-01 13:11:02 浏览次数： 2683

作者：DataFunTalk

微信搜一搜，关注“DataFunTalk”

导读本次分享题目为货拉拉利用大模型打造多场景个人、办公助理实践，主讲老师杨丹来自货拉拉。

货拉拉是一家专注于物流和货运的科技公司，自成立以来一直致力于通过科技手段提升物流效率。

近年来，货拉拉积极探索并应用人工智能技术，以大模型为基础，开发出多场景的个人及办公助理，以期在各类应用场景中为用户提供更加智能、高效的服务。

主要内容如下：

1. AI 助理与大模型

2. 多场景助理的落地方案

3. AI 驱动，业务赋能

4. 未来展望

5. 问答环节

分享嘉宾｜杨丹货拉拉资深算法工程师

编辑整理｜程昊

内容校对｜李瑶

出品社区｜DataFun

AI 助理与大模型

谈到 AI 助理，大家首先想到的问题可能是，AI 助理到底能做什么、AI 助理有什么优势、AI 助理应该具备什么样的功能？

目前大多数 AI 助理功能聚焦在智能对话、智能问答、智能查询以及 AIGC（人工智能生成内容）。在现有 AI 技术，大模型、RAG（Retrieval-Augmented Generation）以及 Agent 等技术下实现的 AI 助理，更能够深刻理解用户需求、专业高效、且可以实现 24 小时不间断服务，帮助用户解决各种业务问题。

AI 助力优势明显，但为什么我们需要用大模型来实现这些功能？这是因为大模型在不断迭代中变得越来越智能，更像人了。

目前大模型不仅知识渊博，能够回答许多我们不知道的问题，还具备听、说、理解和生成的能力。例如，大模型能够处理语音输入并生成语音输出，进行复杂的角色化交流，甚至进行情感识别和回应。这些能力使得大模型在许多应用场景中比人类更加高效和可靠。

货拉拉也基于 LLM 在探索 AI 助理的落地应用。目前已在多个业务场景探索，例如，司乘沟通问题挖掘助手、流量回放智能客服、小拉智能客服等司内真实业务需求，旨在通过 AI 技术提升业务效率和用户体验。

货拉拉的 AI 助理应用探索主要有以下三个特点：

简单直接：AI 问答是最基本的功能，需求最为强烈，也是应用最多的功能
真实细致：每一个应用场景的出发点都是真实的业务痛点
应用广泛：在 14 个场景，涵盖 48 个真实业务需求进行 AI 助理的探索，应用范围广泛

基于上述特点，我们重新定义 AI 助理：凡是能够帮助业务提升效率的 AI 应用，均可以称为 AI 助理。

多场景助理的落地方案

接下来将介绍货拉拉多场景助理的落地方案。在货拉拉面临多业务场景高效落地的挑战，在 AI 助理的搭建过程中也遇到了一些痛点，主要包括三个方面：

落地场景众多：如前所述，在 14 个以上的场景中进行探索；
业务诉求多样：在这些场景中，面临着 48 个以上的真实业务需求；
落地效率低：业务需求多样，如果每个都单独开发和落地，将会耗费大量时间和人力，导致整体的落地成本高且效率低。

为了应对这些挑战，我们自研了大模型应用平台——悟空平台。这个平台的核心优势在于可以灵活应用大模型，支持直接或间接调用大模型进行开发。无论是直接调用大模型，还是构建 Chain 或 Agent，悟空平台都能胜任。此外，该平台在数据安全方面表现优异，确保没有数据外传的风险，并且可以根据需求进行定制化开发，同时支持高效的业务落地。

平台上提供了多种对接形式，以满足不同业务需求。例如，有些业务希望使用飞书机器人对接到飞书群，我们可以快速支持实现这一需求。还有些业务需要对接到浏览器插件“lalabot”，通过浏览器右键操作即可解决问题。此外，平台还支持直接提供 API 接口，方便直接对接到业务系统。

在自研 LLM 应用平台赋能的加持下，可以在多个场景中高效落地。例如，在教育引擎、教育培训、HR、PMO 等 14 个以上的场景中，我们可以快速搭建并实现高效落地。同时，平台也在不断迭代，从最初的文本处理逐步发展到多模态处理，我们进行了持续地探索和改进。

AI 驱动，业务赋能

在第三部分中分享如何在 AI 驱动下实现业务赋能。

从去年开始到现在，AI 应用的发展速度惊人，覆盖范围也越来越广泛，我们涉及的业务需求也越来越多样，业务诉求也逐渐进阶；具体可分为以下 5 个阶段：

阶段 1-专业助手：随着大模型应用日益广泛，最常见的问题是大模型是否真的能够解决专业问题？例如，这里的 3 个示例，是否可以使用大模型来自动排查容器问题，或是识别漏洞攻击，以及 SIEM 系统中的准实时异常行为检测。大模型能否实时检测并提高效率，真实帮助我们解决专业问题？
阶段 2-AI 问答助手：大模型除了能解决专业问题，能否实现基于文档或已有知识库进行 AI 问答。例如，是否可以基于标准的 QA 文档，对用户提出的类似问题给出精准回答。
阶段 3-周报生成助手：大模型能解决专业问题，能做 AI 问答，那能处理数据并生成报告吗？这便是第三阶段——周报生成助手。用户希望 AI 能够捞取数据、分析数据、生成图表，并最终生成周报。这不仅需要 AI 具备数据获取和分析的能力，还需要生成图表和报告的能力。
阶段 4-多模态的 AI 助手：在上述功能的基础上，用户问能否处理多模态信息，做多模态的 AI 助手。用户希望 AI 不仅能理解文本，还能处理图片和语音，提供多模态的 AI 助手。这一阶段的需求更为复杂，需要 AI 具备综合处理多种信息形式的能力。
阶段 5-Muti-agent 助手：至此，前几个阶段基本都是通过单一 Agent 或功能性模块实现的。然而，随着业务需求的发展，用户希望多个场景的问题能够融合，提供一个综合的解决方案。这就进入了第五阶段——多 Agent 助手。在这一阶段，我们需要将多个场景下的 AI 助手进行整合，提供一个综合的解决方案。

接下来，将逐一介绍每一个阶段的业务应用实例及其解决方案。

1. 专业助手

大模型能解决专业问题吗？这是一个很关键的问题，例如，大模型自动排查容器问题吗，容器中出现报错信息，大模型能否评估并提供解决方案？能否根据事件列表针对每个事件分析给出溯源报告，进行漏洞利用与攻击分析？大模型是否能够分析告警信息判断是否误报，进行 IDS 入侵研判？

实践发现“大模型知道的远比我们想象的多”，通过 prompt 和大模型结合就可以解决这些专业问题。问题解决的关键在于 prompt，高质量的 prompt 可以让大模型更好地理解并提取出有效信息，从而解决专业问题。

我们总结了一个 80 分 prompt 的框架和原则：清晰明了地提供业务背景和角色定位，简单直接地描述任务，清晰罗列业务特殊情况，并提供必要的引导。这些要素结合起来，能够使大模型更好地解决专业问题。当然 prompt“没有最好，只有更好”，需要我们持续地学习实践。

2. AI 问答助手

第二个实例是 AI 问答助手。AI 问答助手可以分为两类：无标准答案（综合问答）、有标准答案（精准问答）。基于 LLM 的 AI 问答助手业界有搭建范式“业务知识库+RAG+LLM = AI 问答助手”，搭建范式可以解决大多“无标准答案”的搭建问题，但针对“有标准搭建”的精准问答效果差。

针对这个问题，我们做了综合提效，精确率&效率 tradeofff，实现“精准问答”业务精确率 90%+。具体地，将助手分类（是否需要问答、有无标准答案、是否需要精准问答），结合个性化 RAG，对于标准问答单独处理，提升业务业务精确率，针对其他的日常处理侧重提升效率；同时结合 prompt 针对性优化，强调信息准确提取，设置兜底回复，综上几方面即可以实现 AI 问答助手的综合提效。

3. 周报生成助手

第三个实例是周报生成助手。LLM 真的能帮我们写周报吗？LLM 用 1 句话生成的周报真的可以用吗？

回答这两个问题之前，我们先看下怎么写一份周报，周报生成的核心要素为“3有”：

有数：真实数据情况，心中有数；
有图：多形式观测验证，包括饼图、趋势图、分布图等；
有结论：能理解、可分析、会总结。

如何用 LLM 生成周报呢？我们需要搭建周报 Agent，做到有数、有图、有结论。具体地

有数：真实数据情况，心中有数；可连接数据库或 API，获取真实数据
有图：可结合 Code Interpreter 工具生成图表
有结论：结合 LLM 能分析会总结的能力，提供最终结论

通过综合应用这些技术可以搭建周报生成 Agent，实现数据获取、图表生成和结论分析。

同时有零代码平台可高效搭建周报生成 Agent 快速复用，只需三步操作：描述目标、配置工具、调试上线，即可高效搭建周报生成 Agent。

4. 多模态 AI 助手

第四阶段是多模态 AI 助手。货拉拉在这方面的探索包括车险报价方案生成助手和培训对练助手。这些 AI 助手需要具备听、说、理解的能力。

（1）车险报价方案生成助手

车险报价方案生成，业务需要处理多个公司图片形式的报价单，对比图片中的内容生成报价方案。前面聊 LLM 可以解决专业问题，可以支持 AI 问答，那只用 LLM 能实现车险报价方案吗？

基于 LLM 生成的车险报价方案，挑战在于敏感信息识别&处理（保单中有姓名、车牌号等敏感信息需要前置处理）、精确率提升（复杂表格、多图处理、LLM 数据提取偏差）、解决方案自动生成（理解总结给解决方案）。

要做一个车险报价助手，只用 LLM 不行，不用 LLM 不行；车险报价 agent 需要具备六个关键能力：

敏感信息的处理能力：能识别并过滤敏感信息
图片理解：线下手机多个公司报价图，需能理解图片内容
表格理解：报价单信息基本均为表格，且不同公司的格式不同
关键信息识别：提取每个图中所需的关键信息字段
信息汇总提炼：提取的信息汇总后提炼
报价方案生成：理解数据和内容，自动生成报价方案

基于我们探索了工具加大模型以及多模态综合理解提升精确率。具体地，首先用 OCR 提取信息，然后对敏感信息进行处理，再用大模型提取信息，最后结合多模态综合理解生成最终报价方案，进一步提升业务准确率。

（2）AI 培训对练助手

另一个应用示例是 AI 培训对练助手，它需要具备听、说、理解的能力，可以帮助运营和管理人员提升业务能力。融合了数字人、大模型、ASR 和 TTS 提供智能化 AI 培训服务，实现了在线学习、练习和考试，综合提升业务能力。

5. 多 Agent 助手

最后一个阶段是 multi-agent 助手，multi-agent 可分为合作型和对抗型，我们探索了多场景融合的合作型 multi-agent 助手。在 IT 助手场景中，我们针对各业务场景搭建独立 agent 聚焦各自场景问题问答，例如，办公设备 agent（聚焦解决 vpn 相关问题）、邮箱 agent（聚焦邮箱相关问题）、网络 agent（聚焦网络相关问题）；采用路由 agent 硬控，提升业务整体精确率。这种多 Agent 协同的工作方式，使得我们能够更高效地应对复杂的业务需求，提供全面的解决方案。