微信扫码
添加专属顾问
最近两个多月写文章的频率明显低了很多,不是因为懒了,而是忙着做LLM应用的客户场景落地去了。今天把客户场景落地中的一些心得总结分享一下,希望对广大期望LLM应用落地的企业有一些帮助。
与很多企业客户的深度接触之后,发现绝大多数企业在LLM应用落地中存在三个显著问题,这些企业包括世界500强企业、央企、著名品牌公司,也包括和我们一样但非AI行业的创业公司,所以从样本上来说应该有一定的参考性。然后再分享一下我们在落地过程中碰到的各种难点和需要客户一起决策的点。下面先说过总概。
好吧,下面我们分为几个部分来梳理一下,这几部分没有什么必然联系,我也是想到哪写到哪,分别是RAG、数据、应用和部署。
这里我可以先把思维导图贴出来,下文就是对这个图进行说明。
图1:LLM应用落地中的问题总览思维导图
RAG在LLM的企业应用中的重要性自然不必多说了,我的公众号讲RAG都把我自己快讲吐了,本文就简要讲讲一些难点。
首先是多跳问题
图2:多跳
多跳问题在我们的落地场景中一般都是发生在报告编写的数据整理环节,比如要从一堆报表中找出企业近三年的复合增长率,要和竞对比较发展情况等,这时候一般的RAG无法满足。在网上也有不少介绍解决多跳问题的方案,较为常见的是使用图数据库,但是在实际落地环境中,这对于数据更新还是有困难的(也可能是我们不熟悉),所以我们最终没选择图数据库,而是采用了去理解意图,然后拆分实体和意图的方式进行RAG。也许在某些环节中对于关联关系没有图数据库那么强大,但维护方便啊,几乎没有额外的人工维护成本。
然后是路由问题
图3:路有问题,我们也叫外部MoE
说实话这个问题我们之前是没有关注的,但是你知道一旦落到实际生产环境中,文件一多,特别相似文件一多,各种问题就出来了。比如公司2021年的财报和2022年的财报中某项数据,有时候只在文件名和一些大标题才有年份,就造成了chunking之后失去年份等关键信息,造成最终结果的错误。
这种问题我们目前采用的方式是在文件处理时收录元数据,如标题、时间、区域等。然后在检索的时候,首先对问题进行拆解,识别年份等关键信息,直接路由到相应的年份知识库或目录进行检索,不仅提升效率还解决了内容混淆的问题。
相对于RAG,个人觉得数据处理是企业应用中在技术层面最难的问题。下面我就简单分享四点。
结构化数据处理
图4:结构化数据处理
我们在RAG中处理的都是非结构化数据,比如word、pdf、txt、图片等,激活企业中沉寂状态的绝大多数资源数据,对RAG来说已经“功不可没”了。但是在企业场景中,结构化数据无法逃避,比如企业想把自己的产品数据库加入到基于LLM的应用中,在问答、统计分析等场景中就可以使用这些结构化数据。
我们的对结构化数据的处理方式比较淳朴,没有把DB、excel等进行向量化处理,而是仅仅提取了结构化数据的资源名录和说明内容,或者是数据里面的表名、表描述和schema等元数据,只做元数据的embedding,然后加入到应用中,后续通过function call进行调用。让结构化数据保持原有的精度比向量化要好,我们需要审视,RAG在整个应用中仅仅是作为一个pipeline,而不是全部。
管理大文件
图5:知识管理本身就具有非常高的复杂性
这一部分其实无关任何技术,最大的问题是文件数量一多之后的管理问题。因为用户需要一个清晰的交互界面去管理海量文件,就像我们有一个客户,文件总量已经超过5TB,数量非常庞大。但他们也有更新文件的需求,这时候,一个可清晰管理的交互界面就非常重要了。也为此,我们在v1.7.3引入了二级分类和标签来简化客户管理知识资源的复杂度。
这一块看似和AI无关,但是我们要照顾到用户的使用体验,简化海量知识内容场景下的知识管理复杂度,对于数据质量至关重要。
文件解析
图6:文件解析
文件解析是一个需要持续优化的过程。最直接的一个例子就是我们在实际场景中发现一些大型客户的资料还存在大量的doc文件(目前主流的是docx),但是python体系里面我们很难找到解析doc的合适组件,于是我们转向用Java生态来解决这个问题,我们的系统本来就是以Java语言为主的。
还有就是一些国标文件里面存在大量的数字签名,需要用特别的方式去解析。然后就是扫描件和影印版,有些能直接识别,更多的则需要OCR。
再说一个就是表格的解析,我们现在使用的是提取之后转成带有制表符的markdown,这能解决大部分问题。但是也有一些特殊情况,比如复合表头,以及在一个格子里面存在层级缩进(大标题、小标题的组合)情况时,就需要特别处理。
反正文件解析是一个大难题,难在特殊情况比较多,就像我前面说的,你需要有一种心态,不是觉得烦就放弃了,而是要关关难过关关过的心态。前几年我们团队在研发和运营一款数千万用户的产品时,也是经常有人反馈各类问题,在中间比较长的一段时间,我们的第一反应是“就你事多”,“肯定是你自己不会用”。但是后来慢慢性子磨下来了,觉得我们去抱怨客户的行为和形态是最傻的,其实人家是在帮助我们提高。所以后面团队内部达成统一思想,要乐于接受反馈并积极改进。
只有当你操盘过几千万人使用的产品,才会面对各种稀奇古怪的问题,才会心态崩溃,然后持续崩溃,最后你打扫碎了一地的烦躁,振作起来,才能真正做好一个服务者。
多模态
这是我们还未很好解决的一个问题,但是它变得越来越重要。
图7:多模态问题,更多时候我们不是在说OCR
目前碰到的多模态场景里,语音的处理还算简单,基本上ASR就可以完全解决,对于视频我们还没去碰。目前对我们来说最难的是图片,不是所谓的OCR,而是布局识别。比如以文末的思维导图为例,“请问在数据节点中,主要讲了哪些问题?”好吧,我相信这是个复杂的问题,但是企业应用里面确实存在。还有企业客户让我们识别图纸内容,我们只能坦诚地说等我们再努力努力(也不一定能攻克),也许新的多模态大模型到来的那一天就是给答案的那一天。
目前我们对于这类问题其实已经有一个比较好的解决方案,就是我们在产品架构中提到的MLLM,但是空跑都需要占用26GB显存,说实话在私有化过程中,对于一些企业是有压力的。
对于应用我其实不想说太多,因为差异化太大,我只想说一些自己认为的方法论。
“做什么”比“怎么做”更重要
我们面对的企业客户(也包括试用客户和POC客户)中,确实有一部分是处于FOMO状态的,自身并没有想好要做什么,只是有很强的“危机意识”,不拥抱AI就会弱后。但是对于我们来说,要更好地为他们服务,就必须是让客户想清楚或者选定一个目标的,不然做到哪算哪,最终签合同的时候就会不顺畅。只有确定了清晰的POC目标,然后去落地,最终给出满意的评测结果,才能最终促成合作。对于企业也是一样,想清楚做什么,时间和人力成本才不会浪费。
这里是这两个月总结的几个建议:
快速应用
图8:TorchV AI的LLM企业应用快速开发架构
这句话有点别扭,但是快速也意味着可以更快找到核心业务场景,可以快速验证和调整。
这里就需要类似有我们TorchV AI这样的基础平台了,已经把一些复杂的技术问题处理好,客户只需关心业务的适配。要做到快速,我觉得需要做到四点:
60分还是90分
当然是90分,对于单独的一个企业客户来说,为什么要容忍一个只能达到60分的应用。当然这里的分数是和目标相关的,比如我们客户说,你能解决我30%的问题我就满意了,那这30%就是100分。
作为企业AI应用服务者,要达到90分你就必须深入企业业务,也许你不用去学会操作他们机器,但是必须要对他们认为什么是好,什么是不好有深刻理解。
创建应用的三种方式
在我的上一篇公众号文章中提到过这部分内容了,我不展开说,有兴趣的朋友客户查看《探讨实现AI Agents的三种方式,不同的方式带来不同的客群和场景 |LLM |Agent |RAG》。
三种方式主要是:
最后说说私有化部署中的一些问题。
大模型能力考量
我相信大家应该都会关心在私有化场景中应该选择什么大模型。我们接触的客户在大模型选择上也是不尽相同,最早有Baichuan2-13B,后面有Qwen1.5-14B,还有客户自己就搭建了Qwen-72B。后面我们常用的其实是GLM3-6B。下面是我们做选择的一些思路分享:
各类环境适配
我就罗列一下碰到的问题和操作吧:
图9:国产环境适配
图10:TorchV提供的前后端全套API,可将系统融入客户系统
在实际的企业场景落地过程中,很多事情没有当初研发产品时那么性感,但我们最终提供的是客户价值,让企业客户能真正有效地将LLM应用跑起来,在业务中发挥巨大价值。所以任何关联的工作都是必须考虑的,过程中确实有很多坑需要去一个个填平。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-01
提升 RAG 准确率全攻略 让你的 AI 知识库 真正靠谱起来!
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-06-30
本体论语义建设新思路,另类RAG来解决检索问题
2026-06-30
别把RAG当架构:Ontology(本体)才是Agent的业务世界
2026-06-29
PixelRAG:伯克利团队颠覆传统 RAG,用截图代替文本检索! 28 天狂揽 3000+ Star!
2026-06-29
腾讯WeKnora开源详解(三):检索引擎与生态集成
2026-06-29
腾讯开源WeKnora详解(二):知识库与对话核心能力
2026-04-06
2026-04-27
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-04-30
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
2026-05-11
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。