2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

RAG在企业应用中落地的难点与创新(文字稿)

发布日期:2024-07-02 12:37:48 浏览次数: 4061
作者:土猛的员外

微信搜一搜,关注“土猛的员外”



朋友们,上午好!

我叫卢向东,来自杭州,今天为大家分享的是我们在大模型应用的企业落地时碰到的一些关于RAG的难点和创新。


可能很多朋友认识我是因为公众号“土猛的员外”,从去年6、7月份开始持续分享了关于RAG和大模型的一些文章和观点。现正在和几个伙伴一起创业,担任杭州萌嘉网络科技(也就是TorchV)的CEO。

今天在这里想和大家分享的主要内容,是关于我们在大模型应用的企业落地场景中遇到的一些问题,以及一些落地的产品案例。我一共会分享四个难点,三个应用案例,然后把一些个人对这一领域的思考放在最后面。希望能从不同视角给大家带来一些大模型应用在企业落地实践中的内容。

OK,那现在我们就进入第一Part,来讲讲我们在实践中遇到的问题。

第一个问题,是文件解析,或者说是知识解析。目前整个RAG流程中,第一步往往都是从文件解析开始的,如果咱们把文件上传上去,结果系统都无法识别,那后面也就没有RAG什么事情了。所以我们在具体的客户落地实施过程中,首先遇到的就是各类复杂文件的解析,企业里面的各类文件的类型是很广的,甚至有些都是我第一次听说的类型,比如“.vnp”。当然,最常见的问题主要出现在老文件上,比如“.doc”的解析上,以及各类有数字签名、带图片的pdf解析上。我们发现市面上很多同类产品是不支持“.doc”这样的老文件的,一般都只支持到“.docx”,但是你在企业应用中会发现,这太常见了,而且很多toG场景也是一样的,“.doc”很多。而且大部分情况下,你要是手工转成“.docx”依然是无效的,所以要真正去做企业的大模型应用,这些都是必须具备的能力。另外就是PDF的各种问题,PDF应该是我们碰到最常见的文件类型了,原来觉得PDF是最省心的,但是接触的实际场景越来越多之后,你会发现没见过的情况太多了,包括PDF的扫描件、布局问题,还有一些数字签名怎么绕过去,都是问题。这些都需要一一想办法去解决,包括用OCR去识别,有时候需要解读PDF的文件流,从根源上去获取它的数据结构和数据内容。关于PDF我还会在下一页讲一下表格处理。当然,文件解析的问题还有很多,包括在图文格式下如何处理,在检测到哪些情况的时候去启动OCR等等,我不一一展开讲了。还有就是布局识别,这是一个很难的事情,和OCR不同。OCR基本上就是去识别文字,有一些简单的布局识别,但是不够。真正的布局识别更多的是要知道内容在什么位置,这个位置代表的意义是什么。比如一张飞机票,1510,1540,代表的是登机时间/起飞时间?还是什么,我们是需要去根据布局上的点线和多边形来判断的。在这一块目前有一些多模态的模型可以做到60%-70%的布局识别能力,但是真正要用到企业应用中,要做到90分的效果,那还需要再等等基础模型的发展。

说到这里呢,就顺便讲一下在PDF表格解析中的一些问题。这是我们自己开发的一个比较强大的PDF解析工具,基于Apache PDFBox进行开发,用的是Java语言。对,我们TorchV的主程序就是使用Java开发的,可能是比较另类的。使用Java生态,在企业级应用里面有太多可以使用的开源组件,而且其稳定高效的特点早就被证明。我们的这个PDF表格解析工具,没有使用到GPU的能力,但是解析速度非常快,而且准确率极高。我们也接受了各类试用客户的挑战,包括各类复杂表格,准确率统计下来在95%以上。为了做到这个效果,我们重写了PDF内容流解析的实现类,对RowSpan/ColSpan识别做了特殊处理,来解决合并单元格的问题。另外做了区域识别,以及内容的结构化还原,可以还原成HTML或者Markdown,这样就非常利于大模型进一步处理。这项技术的突破,除了让我们在处理企业文件的表格更加得心应手之外,还可以进行反向操作,就是将大量知识填入到表格中,完成一些不那么机械的表格填写。目前我们也提供了一个测试的链接(点击左下角的“查看原文”),大家可以在我们的官网(torchv.com)的文档中心里面找到这个PDF表格解析试用链接。


第三个问题可能是个常规但不能忽视的问题,那就是检索能力如何提高。我们在给客户POC的时候,客户往往处于一种测试的心理状态,这种状态带来的直接影响是什么呢,就是这会儿的硬件环境其实都不太好,很多情况下只能部署6B、13B和14B这样的模型。这时候检索能力就显得尤为重要,检索能力越强,送进大模型去处理的内容就会越纯净。这个时候处理好元数据就非常重要了,这里指的元数据是从文件的标题、目录、属性等内容中获取的,包括文件名、年份月份等时间信息、组织和部门,以及财务、人事、销售、财务报表等关键标签。这些元数据会在文件处理的时候被自动抽出来进行管理,和chunks和索引做一对多的关联。这么做的好处是,在用户进行检索的时候,我们会首先使用一个规模比较小的基于BERT训练的幂等分类器(也就是图上的IC)进行NER,然后使用识别的内容先在元数据里面进行查询,将索引范围进行限定,后面就是混合检索和rerank等操作。这样做的好处是可以将一些很相似的内容区分开,比如真实客户环境下,很多文件只有日期、部门和金额等内容是不同的,如果直接做检索,很可能因为切片时候错过这些关键信息而混杂在一起。


第四点是想分享一下rerank模型的一些其他应用方式。对于rerank,大家应该常用的方式就是将第一次检索的结果进行更准确的验证,通过交叉编码验证让召回的结果再进行排序,达到更精确的回答。我们在实际使用中也是有一些创新,比如在rerank的结果中,我们会使用密度函数再做一个验证,如果像图上的第四个结果,在得分上突然掉下来了,那么我们就会进行舍弃,这样做的好处是在结果的选择策略上做到宁缺毋滥。

当然rerank还被我们用到了原文显示上,在我们的问答板块,对于问答结果的原文引用我们是默认展示的。但是一般一个答案都会有多个原文,显示在第一个的并不一定是最正确的,这是因为大模型在最后的处理的时候有自己的判断。那么如何显示最精确的原文呢?这里我们就是用答案和多个引用的原文再进行比较,找到最精确的原文来进行展示。

另外我们还在尝试将rerank用在自动标注上,比如用户在翻阅问答记录的时候,看到某些问答可能是蕴含商机的,下次有类似提问的时候需要立即流转到特别环节,比如转到销售代表那边。在以往的打标操作中,我们需要先进行语义理解,进行扩展词的编写和关联等,过程还是比较复杂的。但是现在你只需将这个问题进行标注分类,比如选择“商机”标签。rerank会对后续的提问进行比对,如果和已经被我们标注的提问相近,比如score是大于0.8的,那么也会触发这个流转的动作。

好了,以上是今天要分享的四个企业实际落地场景中的问题,分别是文件解析、结构化数据融合、索引中的元数据处理,以及rerank的多种用途。

接下来我再分享三个在企业落地应用方面的创新,现在应用方面的创新应该是非常多的,所以对于应用我们

第一个是在金融研报中的应用。


其实我们做的事情很简单,就是把几百份针对一个公司的各类公开和私有资料扔进我们的TorchV Assistant,然后对它们进行提问,比如三年复合增长率是多少?比如近三年合同的履约情况怎么样?再比如近三年的人员流动情况等。对得到的答案与一起出来的原文进行比较,确认答案正确之后,就可以将其拉到左边的编辑器中,完成一个问题的编写。这与之前最大的改进就是大量节省了阅读理解几百份文件的时间,而且在内容关联性查找方面,也会比人更加稳定和出色。我们一个朋友在使用之后给的反馈是,原来需要两三周完成的事情,现在最快三小时就可以完成。

当然,TorchV Assistant还可以用于报表的快速生成,可以根据用户的语言表达从已有数据中生成相应的数据分析图表和报表。这也就是我们还在研发的另外一个产品妙语分析师。


第二个是在零售业务中的应用,叫TorchV Doraemon,让客户拥有自己的哆啦A梦,你想要什么产品,直接告诉它,它就能帮你找出来,这种特点在零售场景中还是比较有用的。

这个产品我们的第一个客户是一个国外的医美超市,当然也是华人开的。他们最大的问题是面对3万多个SKUs,导购员往往无法找到合适的产品给顾客。比如一个法国的女性对导购员说“我今年45岁,想要改善一下我的鱼尾纹,之前我用了A、B、C产品了,没什么效果,然后我对肉毒素有些过敏,怎么样的产品比较好?”对于这样的问题,TorchV Doraemon可以根据用户的产品数据库和产品说明书进行快速产品筛查,找出最适合的产品。

还有一个案例就是在酒店装修的前期确认环节。在酒店装修设计行业,最复杂的就是整体装修设计的确认,往往是一个设计方案拿过去,客户总会指出这里要换那里不行。然后你就抱着反馈回去再设计三套方案,两周之后再拿过来确认,客户说上次我不是这么说的吧?而我们现在一个POC方案是使用Pad进行界面化操作,比如图中这个设计效果图,我们要把这个绿色椅子换掉,只需要点击椅子,在弹出窗选择“智能选型”,即可获得系统推荐的最合适的几款替代产品。其实整个流程也是很简单的,它的底层依然是一个RAG问答系统。如果简单地说,其输入的内容是什么呢,这是A设计师的设计风格,整体要体现一种简约的美式风格....现在有xxxx书柜(可以带入它的介绍说明书),还有XXXX实木书桌,还有XXXX地毯,现在要替换XXX椅子,帮我从现有产品库里面寻找最合适当前装修搭配的椅子。这个应用场景的好处是提升装修设计的现场确认率。


第三个是TorchV Comparison,也就是规则预审方面的应用,主要的应用场景有合同预审和项目审批。

我们使用该规则预审产品,帮助某家世界500强中前150名的客户开发了合同预审应用。在这个案例中,客户的四名法务每年大概需要处理3万份合同,而在整个处理过程中,最复杂的是各种接收、审查和打回等反复的操作。在今年三月份他们开始启用合同预审应用之后,一期已经开放了22个预审规则,包括在不同语境中的歧义字检查,必填项缺失检查,甲乙双方权利和责任比对,合同金额与交易物价值预警,以及合法合规检查等。有了这个应用之后,很多业务部门提交上来的合同会先经过一道AI的检查,只有AI这一道关先过了之后,才会到真正的法务手上,这就大大缩短了整个合同审核的流程。

另外一个应用场景和合同预审其实差不多,就是项目审批,不一样的是项目审批中待检文件更多,需要的算力和处理流程也更复杂。

好了,这就是我分享的三个应用案例,用在金融领域的AI研报制作、用在零售的导购助手,以及用在规则预审的合同助手。

最后我想分享一点大模型应用在企业落地实战中自己的一些感受。


第一个感受是如果要做好AI应用的企业场景落地,需要往三个特点去靠。第一个特点是功能小,我们可以找到一个清晰的量化指标,比如前面说的装修设计确认周期降到原来的40%,非常清晰。第二个特点是质量高,企业客户往往会给我们提出很多需求,但是这些需求是需要去审视的,有些需求在现有能力下,没办法做到80分或者90分,只能做到60分,那就会影响整体的使用体验,进而影响客户的付款意愿,所以要和客户沟通确认,先做80分、90分的事情。第三点是价值大,虽然我们可以将功能做小,质量做高,但是更重要的还是要去了解客户为什么要去做这个事情。尽量找到那些做完就能给客户的业务带来极大提升的功能,优先去完成这些功能。在大模型应用的企业落地中,我们可以尽量往这三点去靠,那整体的成功率会更高。嗯,功能小、质量高、价值大。


第二个感受是在AI大模型的企业落地中,需要的能力还是比较多的,比做产品要累。如果说做产品是把一横做好的话,那么去做企业落地服务就是一竖。从最初的需求交流与方案确认,再到POC计划,到部署实施,再到后面的培训和陪跑。所以做企业AI应用落地服务并不性感,是很苦逼的活儿,但是优势是,你可以在那些有付费能力和意愿的客户那里获得真实需求,以及培养自己的服务能力。

也就像我最后一个感受中想说的,技术优势是动态的,这个行业里面谁都在拼命往前跑,一刻不敢停歇。就算OpenAI躺半年,也会被对手远远超过。所以对于大多数公司来说,技术优势是动态的,不会一直是优势,去沉淀应用场景,找到客户价值,才是大模型应用企业服务的核心。感谢您的耐心!谢谢!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅