金山办公在知识库业务中的大模型思考和实践

发布日期：2024-06-26 15:47:18 浏览次数： 3596

作者：AI前线

微信搜一搜，关注“AI前线”

演讲嘉宾 | 陈亮金山办公 AI 知识库技术总监

审核｜傅宇琪、褚杏

策划 | 蔡芳芳

对企业而言，构建统一知识管理体系对企业发展至关重要，它在传承内部经验、管理企业知识、减少信息重复生产等方面成效显著。结合大模型 AI 技术的知识库，则赋予了这一管理体系智能化的生命力，使其能实时整合、精准分析各类知识资源，为企业的创新发展提供强有力的支持。

本文整理自金山办公 AI 知识库技术总监陈亮在在 QCon 2024 北京的分享“金山办公在知识库业务中的大模型思考和实践”。本次分享将介绍金山办公在 AI 知识库业务上的一些实践经验，包括 AI 在知识库的落地场景、技术架构设计、RAG 技术、大模型踩坑和调优、技术演进等方面内容。

另外，即将于 8 月 18-19 日举办的 AICon 上海站同样设置了「大模型场景+行业应用探索」专题分享，我们将精选具有代表性和规模的典型案例，展示大模型技术在不同领域中的实际应用与成效。目前是 8 折购票最后优惠期，感兴趣的同学请访问文末「阅读原文」链接了解详情。

本文由 InfoQ 整理，经陈亮老师授权发布。以下为演讲实录。

金山的 AI 发展路径

首先，我想简单介绍一下 WPS 在 AI 产品方面的一些情况。目前，大模型在应用方面还没有出现一种现象级的产品，金山办公也不例外。去年，我们选择了全面投入 AI 的战略，并在过去一年中投入了大量资源，与客户一起共创并落地了一些 AI 产品。

在 4 月 9 日，我们举办了一场金山办公生产力的发布大会。在这次大会上，我们发布了整个 AI 365 平台，其中就包括了 WPS AI 产品。WPS AI 是为企业量身定制的，旨在帮助企业提高生产力，实现更高效的工作流程。

自去年下半年以来，我们与多家企业进行了深入的合作，共同探索 AI 技术在办公场景中的应用。在这个过程中，我们收集并分析了众多客户的痛点，将这些痛点转化为标准化的产品解决方案。在 AI 领域，我们金山办公确定了三个主要的发展路径。

首先，我们推出了名为 AI Hub 的产品，它本质上是一个智能基座。AI Hub 的核心功能是解决大模型如何被有效利用的问题，帮助用户更好地理解和应用这些复杂的 AI 模型。

其次，AI Docs，即我们的智能文档库，旨在通过 AI 技术赋能文档处理，为用户提供更加丰富和有价值的应用场景。

最后是 Copilot Pro，它本质上是一个 Agent 产品。Copilot Pro 能够帮助用户调用各种工具，完成特定的任务，提高工作效率。

AI Hub 智能基座

AI Hub 本质上是一个基座型产品，其主要功能是让大模型能够无缝地被调用。例如，通过 AI Hub，我们可以接入商汤、MiniMax、文心一言等模型。

在企业场景中，我们考虑了员工使用大量 token 可能占用他人配额的情况，以及管理层希望了解员工使用情况的需求。因此，AI Hub 提供了一个平台，可以在企业内部提供受控的大模型接入服务和聊天场景，实现信息安全和工作效率的双重保障。目前，我们已经接入了国内主要的大模型厂商。我们的模式支持公网、私网以及混合部署专区的模式。AI Hub 的另一个特点是，使用后还可以进行计费统计。企业可以通过曲线图直观地看到每天 token 消耗的数量，以及提示词的使用情况，这些都能从企业层面得到直观的体现。

AI Docs 智能文档库

AI Docs，即智能文档库，是我们基于 WPS 办公文档的深厚积累所推出的产品。金山办公凭借多年的文档处理经验，积累了一套优秀的文档解析能力。今年特别强调了 AI 知识库的重要性，希望通过大模型技术结合我们自身的文档基础，让企业各个环节上的文档得以激活，真正为企业带来文档内容的价值和知识洞察能力。在当前 AI 技术的支持下，我们可以让过去的文档通过结构化的方式，结合我们的解析能力，成为 AI 输入的来源。我们的解析能力足以覆盖文本、表格、图表等复杂结构。

智能文档库还包括智能创作功能，它本质上是解决内容生产问题。在大模型的基础上，我们利用它来生产内容，尤其是在金融、公文和论文等领域，这是一个重要的落地方向。基于明确的来源，我们可以利用大模型生成符合特定风格、字数和排版要求的内容。最重要的是，这一切都是基于我们的知识库产品来实现的，知识库本质上是海量文档的聚集池。例如，如果我们需要生成一篇 QCon 大会的演讲主题稿，我们只需向知识库中添加一些 QCon 的资料，然后通过一些机制，让大模型能够输出符合今天 QCon 大会需求的演讲稿。智能创作功能为我们的客户提供了一种便捷的方式来生成内容。在后续的介绍中，我们会详细说明其关键实现技术。

Copilot

最后一个要介绍的 AI 产品是 Copilot，它是基于 API、Agent 和大模型的体系架构设计的产品。虽然这个概念在竞品中已经相当常见，但 Copilot 的初衷是为了帮助企业降低成本和提高效率。它旨在取代企业中日常的重复性简单劳动，通过降低人力成本来实现降本增效的目标。例如，Copilot 可以自动提取销售报表和考勤数据等任务。

我们内部已经开始使用 Copilot，它带来了极大的便利。举个例子，如果需要创建一个明天 10 点的会议，传统工作流程中，我需要寻找会议室、预定、创建日程，然后发送给相关同事。但在 Copilot 的帮助下，我只需要简单地说一句话：“明天 10 点帮我创建个会议并发给相关人员”。Copilot 会解析这个请求，调用 365 内部的 API，如果需要，还可以接入企业的组织架构 API 来找到相关人员并创建会议。接下来，我想提出一个概念，即未来企业级 AI 的形态。我们提倡构建企业专属的知识大脑。知识大脑类似于人类的行为，具有记忆、思考、行动和自我反馈调节的能力。这是未来的一个目标，我们认为每个企业都应该思考如何构建自己的企业大脑。

大模型现在已经能够调用许多能力，包括企业自己的 API 和私有数据。金山办公提供了文档处理能力，以及 365 能力，后者包括 Office、会议、日历等套件的能力。通过 AI Hub 调用大模型，大模型就拥有了强大的思考能力、洞察一切的感知能力、超大容量的记忆和自我规划的执行能力。如果要用一句话来定义 WPS AI，那就是帮助企业构建自身的企业大脑，让企业的生产经营活动获得 AI 的加持，并提升降本增效的程度。

不同场景下的技术实践

技术实践方面，我想通过三个环节来分享我们的经验。

首先，是智能问答。智能问答是许多智能 AI 应用的标配，它包括提问和回答的流程。这个功能与多种技术相关，本质上是基于 RAG 的检索增强架构。

我今天更想强调的是解析、数据切断和数据安全这三个部分。我认为这是企业特别需要的，很多客户找到我们，希望与我们共同创造一个产品。他们拥有业务经营数据和 AI 提效的需求，但在 RAG 前置阶段，他们缺乏对数据进行解析、切断和清洗的能力。他们有这方面的尝试，但效果并不理想，因此希望与我们合作，共同提升这方面的能力。所以，今天我想单独介绍一下我们在这方面的做法和所能达到的水平。

第二个环节是创作。创作背后的原理其实涉及到召回和 SFT。我们会对模型进行一些细微的调整，以确保它在遵循指令方面更加符合我们的要求，同时让生成的内容更加多样化。

最后一块是智能简历库。简历在许多企业场景中都是一个常见的需求。例如，如果我需要招聘一位产品经理，HR 会推送给我许多简历。在这些简历中，我需要筛选出符合要求的候选人，比如具有 AI 工作经验的硕士产品经理。

传统的方式可能需要手动搜索，但在 AI 环境下，我们可以通过问答来实现，但问答本身存在非结构化的短板。因此，我们会进行结构化提取。非结构化处理在大模型、统计类、检索类任务中的表现并不理想。例如，如果我们把所有简历都交给大模型，询问有多少产品经理，大模型可能会给出不稳定的答案。

智能问答

智能问答是我们 AI 知识库的一个重要应用案例。它的核心功能是在海量知识库中检索出与用户查询最相关的问题，并将其呈现给用户。我们还有一个词条功能，可以在后台配置，比如出现公司某个财务同事的名字时，可以显示出来并跳转到对应的聊天框。此外，我们还能够检索出与上下文相关的图片，并引用文档来源，即与问题召回相关的文档。

这个场景有几个要点。首先是异构文档的解析，这是 RAG 架构的第一个环节，文档进来后，需要经过处理提取出内容；其次是精准检索，这与传统的推荐或搜索技术相关；第三是企业关心的数据安全需要有管控，问答中的管控是一个挑战，具体实践方式包括：用户输入查询时，对 query 进行改写，以检索出与 query 最相关的片段，然后交给大模型生成 prompt。

知识文档入库过程中，会经过解析、切断、过滤，以及 retrieval 和召回后的权限过滤：

解析：支持海量异构数据源的精准识别和解析。文档是企业最宝贵的数字资产，格式多样。我们内部有一套机制，可以将文档解析输出成统一的规范格式，支持 Markdown、json 等。
切片：根据不同的文档布局，采用不同的切片策略。我们有七大分类，包括合同、公文、财报、论文等，每种文档都有不同的布局。我们会根据文档结构进行切片，采用页码、章节、段落、block 语义等策略。这样可以提高召回率，使大模型的问答效果更好。
召回：采用多路召回策略，比单路召回有更高的召回率。召回率越高，送给大模型的答案越相关，效果越好。
权限：在召回文件后根据文档 ACL 权限进行校验。我们会筛选出员工能看的文档，生成答案时不会包含不能看的片段。这是基于企业安全需求的管控措施，也是我们 B 端企业客户的一个痛点。

智能创作

智能创作与智能问答是紧密相连的，它们之间有着相似的入口。在创作方面，用户只需输入一个主题或匹配到推荐的主题，系统就能帮助生成符合用户需求风格和内容的文本。这些生成的内容可以直接填入云文档模板中，模板支持公文、合同、财报等多种类型，并且可以附上参考文档，显示生成文件所依据的原始资料。在智能创作的应用场景中，我们分析出几个特点：

创作必须基于事实，不能随意编造。
需要支持多种创作风格，以适应不同角色和行业的需求。

具体实现智能创作的方法包括：

主题匹配：根据用户输入的主题，系统会匹配或召回相关的文档片段，生成大纲。
大纲生成：大纲与主题之间存在相似度关系，根据大纲进一步匹配库中的文件，生成最终文档。
Prompt 调优：通过几轮确认，包括召回和重新生成，让用户逐步得到他们想要的内容。
SFT：为了支持多种风格并稳定输出所需内容，采用 SFT 技术进行模型微调。我们使用开源的 Lora 模型，基于特定数据集进行训练，以适应不同的创作场景，如财报、公文和合同等。

目前，智能创作在财报和公文方面的效果是令人满意的，但还未正式推向企业和大众使用。因为在实际应用中，还需要考虑许多专业术语和行业“黑话”，比如金融领域的市盈率、P/E 等，以及医药行业的专业表述，这些都需要专门的训练和处理以确保准确率。特别是在医药行业，对创作内容的准确率要求极高。例如，药品说明书的撰写不能有任何差错，因为它直接关系到药物的使用方法和患者安全。因此，智能创作在这些领域的应用需要经过严格的多轮验证，确保其输出的可靠性和专业性。

智能简历库

智能简历库是我们产品的一个特色场景，它主要处理结构化数据。在招聘过程中，我们经常会遇到需要比较候选人能力或推荐合适人选的问题。简历的格式相对固定，包含头像、姓名、联系方式、工作经历、教育背景等信息。在传统的大模型处理中，对于统计类或检索类的问题，如统计应聘某职位的人数，可能无法给出稳定准确的答案。

为了解决这个问题，我们采用了结构化提取的方法。通过结合大模型技术、自然语言处理（NLP）和命名实体识别（NER）等算法，我们可以将简历中的信息如姓名、工作经历等提取出来，并以结构化的形式存储在数据库中。当用户提出问题时，我们会将问题转化为结构化或非结构化数据进行处理。例如，用户可能想要找一个产品经理，我们会将这个问题转化为 SQL 语句，通过向量搜索找到相关的简历片段。

在结构化抽取方面，我们使用了大模型的 Slot 抽取技术和 Lora 微调。Lora 微调的目的是让预训练的大模型更好地适应垂直领域场景，使其能够更准确地识别和提取简历中的关键词。我们还生成了简历的总结，这有助于进行 JD（职位描述）匹配。JD 匹配与字段匹配是两种不同的方式。我们通过语义检索，结合 ES（Elasticsearch）技术，根据职位描述中的自然语言描述，如“需要多少年以上的工作经验”等，进行精准匹配。

查询思路包括统计和检索，例如查询有多少硕士以上学历的同学，系统能够准确回答并列出具体人员。这在传统的大模型语义问答中是难以实现的，而通过结构化处理，我们可以与传统的向量检索相结合，提供更准确的结果。此外，我们还面临问题转化 SQL 技术的稳定性问题，后续我们计划通过 Lora 微调来增强其稳定性和输出的可靠性。通过这些技术的应用和优化，智能简历库能够更有效地辅助企业在招聘过程中筛选和推荐合适的候选人。

经验分享

在大模型应用过程中，我们发现这个过程非常有趣。大模型就像一个知识渊博的老人，几乎可以回答任何问题，但准确性就需要我们自己来确保了。为了确保大模型应用的准确性和有效性，我认为应该从四个维度来进行规范和约束：设计、数据、优化和踩坑。

设计，我们需要有工程化的思维，特别是在问答或创作中，必须有一个严格的 pipeline 流程。因为在大模型中，数据的任何错误都会被放大，误差会随着流程的进行而增大。
数据，我们的实践经验表明，当数据量不足时，优质的数据比数据量更为重要。对大模型来说，高质量的输入是更好的选择，因为低质量的数据会导致大模型输出更加不稳定。
优化，我们内部有一套质量评测平台，用于评估问答或大模型输出的质量。核心思想是通过 query、context 让模型输出答案，并结合人工审核和标注，双管齐下，来评估回答的质量。
踩坑，在使用大模型时，我们经常会遇到输出不稳定的问题。由于大模型是生成式的，每次预测的结果都可能不同。因此，我们需要在前面做一些调整，比如 Lora 微调，以保证输出的稳定性。尤其是在问答场景中，即使召回的片段相同，也无法保证每次的回答都一样。这时就需要采取一些措施，比如缓存、微调或者对 prompt 进行约束等。

展望未来

在大模型领域，我们见证了第一波以 GPT 为代表的大模型涌现，这引起了广泛的关注和好奇，因为这些模型显示出了强大的能力。紧随其后的是第二波应用层的创新。据统计，目前国内已有上百个大模型，尽管现象级别的应用尚未普及，但各行各业已经开始了自己的尝试和探索，包括金融、医药等不同领域都在积极进行 AI 的探索和研究。

首先，第二波创新应该专注于各个行业的应用场景，进行深入的创新。大模型的发展正从初期的好奇和娱乐，转向实用性和行业特定应用，这是一个必然的发展趋势。随着 GPT 3.5 API 的发布，我们可以预见这一趋势将变得更加明显。

第二个观点是开放赋能。由于我们始终面向 B 端客户，B 端客户实际上需要的是能够加速业务成长并带来价值的能力。无论是 SaaS 还是 PaaS 的方式，企业客户关注的是实际效果。因此，深入业务、提供实际价值是未来发展的关键。

第三，纯粹的理论研究无法产生实际价值。我认为，混合模式是未来发展的一个重要方向。虽然大模型能做很多事情，但在某些方面可能表现不够完美，需要进一步的调教和优化。这包括预训练、全参数调整或部分参数调整等方法。在我们的业务中，大小模型的结合将继续是一个值得深入挖掘的方向。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业