2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

金山办公在知识库业务中的大模型思考和实践

发布日期:2024-06-26 15:47:18 浏览次数: 3596
作者:AI前线

微信搜一搜,关注“AI前线”

演讲嘉宾 | 陈亮 金山办公 AI 知识库技术总监
审核|傅宇琪、褚杏
策划 | 蔡芳芳
对企业而言,构建统一知识管理体系对企业发展至关重要,它在传承内部经验、管理企业知识、减少信息重复生产等方面成效显著。结合大模型 AI 技术的知识库,则赋予了这一管理体系智能化的生命力,使其能实时整合、精准分析各类知识资源,为企业的创新发展提供强有力的支持。

本文整理自金山办公 AI 知识库技术总监陈亮在在 QCon 2024 北京的分享“金山办公在知识库业务中的大模型思考和实践”。本次分享将介绍金山办公在 AI 知识库业务上的一些实践经验,包括 AI 在知识库的落地场景、技术架构设计、RAG 技术、大模型踩坑和调优、技术演进等方面内容。

另外,即将于 8 月 18-19 日举办的 AICon 上海站同样设置了大模型场景+行业应用探索专题分享,我们将精选具有代表性和规模的典型案例,展示大模型技术在不同领域中的实际应用与成效。目前是 8 折购票最后优惠期,感兴趣的同学请访问文末「阅读原文」链接了解详情。

本文由 InfoQ 整理,经陈亮老师授权发布。以下为演讲实录。

金山的 AI 发展路径

首先,我想简单介绍一下 WPS 在 AI 产品方面的一些情况。目前,大模型在应用方面还没有出现一种现象级的产品,金山办公也不例外。去年,我们选择了全面投入 AI 的战略,并在过去一年中投入了大量资源,与客户一起共创并落地了一些 AI 产品。

在 4 月 9 日,我们举办了一场金山办公生产力的发布大会。在这次大会上,我们发布了整个 AI 365 平台,其中就包括了 WPS AI 产品。WPS AI 是为企业量身定制的,旨在帮助企业提高生产力,实现更高效的工作流程。

自去年下半年以来,我们与多家企业进行了深入的合作,共同探索 AI 技术在办公场景中的应用。在这个过程中,我们收集并分析了众多客户的痛点,将这些痛点转化为标准化的产品解决方案。在 AI 领域,我们金山办公确定了三个主要的发展路径。

首先,我们推出了名为 AI Hub 的产品,它本质上是一个智能基座。AI Hub 的核心功能是解决大模型如何被有效利用的问题,帮助用户更好地理解和应用这些复杂的 AI 模型。

其次,AI Docs,即我们的智能文档库,旨在通过 AI 技术赋能文档处理,为用户提供更加丰富和有价值的应用场景。

最后是 Copilot Pro,它本质上是一个 Agent 产品。Copilot Pro 能够帮助用户调用各种工具,完成特定的任务,提高工作效率。

AI Hub 智能基座

AI Hub 本质上是一个基座型产品,其主要功能是让大模型能够无缝地被调用。例如,通过 AI Hub,我们可以接入商汤、MiniMax、文心一言等模型。

在企业场景中,我们考虑了员工使用大量 token 可能占用他人配额的情况,以及管理层希望了解员工使用情况的需求。因此,AI Hub 提供了一个平台,可以在企业内部提供受控的大模型接入服务和聊天场景,实现信息安全和工作效率的双重保障。目前,我们已经接入了国内主要的大模型厂商。我们的模式支持公网、私网以及混合部署专区的模式。AI Hub 的另一个特点是,使用后还可以进行计费统计。企业可以通过曲线图直观地看到每天 token 消耗的数量,以及提示词的使用情况,这些都能从企业层面得到直观的体现。

AI Docs 智能文档库

AI Docs,即智能文档库,是我们基于 WPS 办公文档的深厚积累所推出的产品。金山办公凭借多年的文档处理经验,积累了一套优秀的文档解析能力。今年特别强调了 AI 知识库的重要性,希望通过大模型技术结合我们自身的文档基础,让企业各个环节上的文档得以激活,真正为企业带来文档内容的价值和知识洞察能力。在当前 AI 技术的支持下,我们可以让过去的文档通过结构化的方式,结合我们的解析能力,成为 AI 输入的来源。我们的解析能力足以覆盖文本、表格、图表等复杂结构。

智能文档库还包括智能创作功能,它本质上是解决内容生产问题。在大模型的基础上,我们利用它来生产内容,尤其是在金融、公文和论文等领域,这是一个重要的落地方向。基于明确的来源,我们可以利用大模型生成符合特定风格、字数和排版要求的内容。最重要的是,这一切都是基于我们的知识库产品来实现的,知识库本质上是海量文档的聚集池。例如,如果我们需要生成一篇 QCon 大会的演讲主题稿,我们只需向知识库中添加一些 QCon 的资料,然后通过一些机制,让大模型能够输出符合今天 QCon 大会需求的演讲稿。智能创作功能为我们的客户提供了一种便捷的方式来生成内容。在后续的介绍中,我们会详细说明其关键实现技术。

Copilot

最后一个要介绍的 AI 产品是 Copilot,它是基于 API、Agent 和大模型的体系架构设计的产品。虽然这个概念在竞品中已经相当常见,但 Copilot 的初衷是为了帮助企业降低成本和提高效率。它旨在取代企业中日常的重复性简单劳动,通过降低人力成本来实现降本增效的目标。例如,Copilot 可以自动提取销售报表和考勤数据等任务。

我们内部已经开始使用 Copilot,它带来了极大的便利。举个例子,如果需要创建一个明天 10 点的会议,传统工作流程中,我需要寻找会议室、预定、创建日程,然后发送给相关同事。但在 Copilot 的帮助下,我只需要简单地说一句话:“明天 10 点帮我创建个会议并发给相关人员”。Copilot 会解析这个请求,调用 365 内部的 API,如果需要,还可以接入企业的组织架构 API 来找到相关人员并创建会议。接下来,我想提出一个概念,即未来企业级 AI 的形态。我们提倡构建企业专属的知识大脑。知识大脑类似于人类的行为,具有记忆、思考、行动和自我反馈调节的能力。这是未来的一个目标,我们认为每个企业都应该思考如何构建自己的企业大脑。

大模型现在已经能够调用许多能力,包括企业自己的 API 和私有数据。金山办公提供了文档处理能力,以及 365 能力,后者包括 Office、会议、日历等套件的能力。通过 AI Hub 调用大模型,大模型就拥有了强大的思考能力、洞察一切的感知能力、超大容量的记忆和自我规划的执行能力。如果要用一句话来定义 WPS AI,那就是帮助企业构建自身的企业大脑,让企业的生产经营活动获得 AI 的加持,并提升降本增效的程度。

不同场景下的技术实践

技术实践方面,我想通过三个环节来分享我们的经验。

首先,是智能问答。智能问答是许多智能 AI 应用的标配,它包括提问和回答的流程。这个功能与多种技术相关,本质上是基于 RAG 的检索增强架构。

我今天更想强调的是解析、数据切断和数据安全这三个部分。我认为这是企业特别需要的,很多客户找到我们,希望与我们共同创造一个产品。他们拥有业务经营数据和 AI 提效的需求,但在 RAG 前置阶段,他们缺乏对数据进行解析、切断和清洗的能力。他们有这方面的尝试,但效果并不理想,因此希望与我们合作,共同提升这方面的能力。所以,今天我想单独介绍一下我们在这方面的做法和所能达到的水平。

第二个环节是创作。创作背后的原理其实涉及到召回和 SFT。我们会对模型进行一些细微的调整,以确保它在遵循指令方面更加符合我们的要求,同时让生成的内容更加多样化。

最后一块是智能简历库。简历在许多企业场景中都是一个常见的需求。例如,如果我需要招聘一位产品经理,HR 会推送给我许多简历。在这些简历中,我需要筛选出符合要求的候选人,比如具有 AI 工作经验的硕士产品经理。

传统的方式可能需要手动搜索,但在 AI 环境下,我们可以通过问答来实现,但问答本身存在非结构化的短板。因此,我们会进行结构化提取。非结构化处理在大模型、统计类、检索类任务中的表现并不理想。例如,如果我们把所有简历都交给大模型,询问有多少产品经理,大模型可能会给出不稳定的答案。

智能问答

智能问答是我们 AI 知识库的一个重要应用案例。它的核心功能是在海量知识库中检索出与用户查询最相关的问题,并将其呈现给用户。我们还有一个词条功能,可以在后台配置,比如出现公司某个财务同事的名字时,可以显示出来并跳转到对应的聊天框。此外,我们还能够检索出与上下文相关的图片,并引用文档来源,即与问题召回相关的文档。

这个场景有几个要点。首先是异构文档的解析,这是 RAG 架构的第一个环节,文档进来后,需要经过处理提取出内容;其次是精准检索,这与传统的推荐或搜索技术相关;第三是企业关心的数据安全需要有管控,问答中的管控是一个挑战,具体实践方式包括:用户输入查询时,对 query 进行改写,以检索出与 query 最相关的片段,然后交给大模型生成 prompt。

知识文档入库过程中,会经过解析、切断、过滤,以及 retrieval 和召回后的权限过滤:

  • 解析:支持海量异构数据源的精准识别和解析。文档是企业最宝贵的数字资产,格式多样。我们内部有一套机制,可以将文档解析输出成统一的规范格式,支持 Markdown、json 等。

  • 切片:根据不同的文档布局,采用不同的切片策略。我们有七大分类,包括合同、公文、财报、论文等,每种文档都有不同的布局。我们会根据文档结构进行切片,采用页码、章节、段落、block 语义等策略。这样可以提高召回率,使大模型的问答效果更好。

  • 召回:采用多路召回策略,比单路召回有更高的召回率。召回率越高,送给大模型的答案越相关,效果越好。

  • 权限:在召回文件后根据文档 ACL 权限进行校验。我们会筛选出员工能看的文档,生成答案时不会包含不能看的片段。这是基于企业安全需求的管控措施,也是我们 B 端企业客户的一个痛点。

智能创作

智能创作与智能问答是紧密相连的,它们之间有着相似的入口。在创作方面,用户只需输入一个主题或匹配到推荐的主题,系统就能帮助生成符合用户需求风格和内容的文本。这些生成的内容可以直接填入云文档模板中,模板支持公文、合同、财报等多种类型,并且可以附上参考文档,显示生成文件所依据的原始资料。在智能创作的应用场景中,我们分析出几个特点:

  • 创作必须基于事实,不能随意编造。

  • 需要支持多种创作风格,以适应不同角色和行业的需求。

具体实现智能创作的方法包括:

  • 主题匹配:根据用户输入的主题,系统会匹配或召回相关的文档片段,生成大纲。

  • 大纲生成:大纲与主题之间存在相似度关系,根据大纲进一步匹配库中的文件,生成最终文档。

  • Prompt 调优:通过几轮确认,包括召回和重新生成,让用户逐步得到他们想要的内容。

  • SFT:为了支持多种风格并稳定输出所需内容,采用 SFT 技术进行模型微调。我们使用开源的 Lora 模型,基于特定数据集进行训练,以适应不同的创作场景,如财报、公文和合同等。

目前,智能创作在财报和公文方面的效果是令人满意的,但还未正式推向企业和大众使用。因为在实际应用中,还需要考虑许多专业术语和行业“黑话”,比如金融领域的市盈率、P/E 等,以及医药行业的专业表述,这些都需要专门的训练和处理以确保准确率。特别是在医药行业,对创作内容的准确率要求极高。例如,药品说明书的撰写不能有任何差错,因为它直接关系到药物的使用方法和患者安全。因此,智能创作在这些领域的应用需要经过严格的多轮验证,确保其输出的可靠性和专业性。

智能简历库

智能简历库是我们产品的一个特色场景,它主要处理结构化数据。在招聘过程中,我们经常会遇到需要比较候选人能力或推荐合适人选的问题。简历的格式相对固定,包含头像、姓名、联系方式、工作经历、教育背景等信息。在传统的大模型处理中,对于统计类或检索类的问题,如统计应聘某职位的人数,可能无法给出稳定准确的答案。

为了解决这个问题,我们采用了结构化提取的方法。通过结合大模型技术、自然语言处理(NLP)和命名实体识别(NER)等算法,我们可以将简历中的信息如姓名、工作经历等提取出来,并以结构化的形式存储在数据库中。当用户提出问题时,我们会将问题转化为结构化或非结构化数据进行处理。例如,用户可能想要找一个产品经理,我们会将这个问题转化为 SQL 语句,通过向量搜索找到相关的简历片段。

在结构化抽取方面,我们使用了大模型的 Slot 抽取技术和 Lora 微调。Lora 微调的目的是让预训练的大模型更好地适应垂直领域场景,使其能够更准确地识别和提取简历中的关键词。我们还生成了简历的总结,这有助于进行 JD(职位描述)匹配。JD 匹配与字段匹配是两种不同的方式。我们通过语义检索,结合 ES(Elasticsearch)技术,根据职位描述中的自然语言描述,如“需要多少年以上的工作经验”等,进行精准匹配。

查询思路包括统计和检索,例如查询有多少硕士以上学历的同学,系统能够准确回答并列出具体人员。这在传统的大模型语义问答中是难以实现的,而通过结构化处理,我们可以与传统的向量检索相结合,提供更准确的结果。此外,我们还面临问题转化 SQL 技术的稳定性问题,后续我们计划通过 Lora 微调来增强其稳定性和输出的可靠性。通过这些技术的应用和优化,智能简历库能够更有效地辅助企业在招聘过程中筛选和推荐合适的候选人。

经验分享

在大模型应用过程中,我们发现这个过程非常有趣。大模型就像一个知识渊博的老人,几乎可以回答任何问题,但准确性就需要我们自己来确保了。为了确保大模型应用的准确性和有效性,我认为应该从四个维度来进行规范和约束:设计、数据、优化和踩坑。

  1. 设计,我们需要有工程化的思维,特别是在问答或创作中,必须有一个严格的 pipeline 流程。因为在大模型中,数据的任何错误都会被放大,误差会随着流程的进行而增大。

  2. 数据,我们的实践经验表明,当数据量不足时,优质的数据比数据量更为重要。对大模型来说,高质量的输入是更好的选择,因为低质量的数据会导致大模型输出更加不稳定。

  3. 优化,我们内部有一套质量评测平台,用于评估问答或大模型输出的质量。核心思想是通过 query、context 让模型输出答案,并结合人工审核和标注,双管齐下,来评估回答的质量。

  4. 踩坑,在使用大模型时,我们经常会遇到输出不稳定的问题。由于大模型是生成式的,每次预测的结果都可能不同。因此,我们需要在前面做一些调整,比如 Lora 微调,以保证输出的稳定性。尤其是在问答场景中,即使召回的片段相同,也无法保证每次的回答都一样。这时就需要采取一些措施,比如缓存、微调或者对 prompt 进行约束等。

展望未来

在大模型领域,我们见证了第一波以 GPT 为代表的大模型涌现,这引起了广泛的关注和好奇,因为这些模型显示出了强大的能力。紧随其后的是第二波应用层的创新。据统计,目前国内已有上百个大模型,尽管现象级别的应用尚未普及,但各行各业已经开始了自己的尝试和探索,包括金融、医药等不同领域都在积极进行 AI 的探索和研究。

首先,第二波创新应该专注于各个行业的应用场景,进行深入的创新。大模型的发展正从初期的好奇和娱乐,转向实用性和行业特定应用,这是一个必然的发展趋势。随着 GPT 3.5 API 的发布,我们可以预见这一趋势将变得更加明显。

第二个观点是开放赋能。由于我们始终面向 B 端客户,B 端客户实际上需要的是能够加速业务成长并带来价值的能力。无论是 SaaS 还是 PaaS 的方式,企业客户关注的是实际效果。因此,深入业务、提供实际价值是未来发展的关键。

第三,纯粹的理论研究无法产生实际价值。我认为,混合模式是未来发展的一个重要方向。虽然大模型能做很多事情,但在某些方面可能表现不够完美,需要进一步的调教和优化。这包括预训练、全参数调整或部分参数调整等方法。在我们的业务中,大小模型的结合将继续是一个值得深入挖掘的方向。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅