微信扫码
添加专属顾问
大模型如火如荼,企业在去年的喧嚣过后今年开始进入正经的落地阶段。落地的第一步就是选择场景。这本身就是一个非常困难的工作,因为选好场景,对大模型最终提供的服务质量影响太大了。选场景这个事可以另开一篇文章来讲,从目前接触的客户来看,使用RAG技术落地大模型还是比较普遍的一个选择,但各家也都遇到了许多的困难。本文就目前遇到的客户问题,进行一些整理和归纳,后续对我们深入研究大模型的应用有所指导。
首先再啰嗦一下RAG是什么。
检索增强生成(Retrieval-Augmented Generation, RAG)技术研究旨在提供更有依据、更依赖事实的信息来帮助解决生成式AI的幻觉倾向、专业力弱等固有缺陷。具体来说,大模型在回答问题或生成内容前,首先在外部数据库中进行检索,将相似度高的内容返回给大模型再进一步整理生成。这种模式能够提高输出的准确性和相关性,避免大模型产生“幻觉”生成事实不正确的内容。
大多数企业之多以选择RAG技术落地相关场景,最重要的一点就是投入相对较少,不是一定需要微调模型。我们知道微调一个模型不仅成本高,还有可能吧模型“调坏”,忘记了基本的逻辑和知识。选用RAG更像是用工程化的思路,从务实的、白盒的角度去落地大模型应用。选用一个开源基础大模型,加上一个开源向量数据库,使用LangChain的框架,很快就能搭建一个“naive RAG”。
企业遇到的困境分为两部分,第一部分是来自于本身运营层面的困境,如数据无法收集、发无法保证百分之百的准确率从而不能真正直面客户、多个部门都在搞重复基建等等。第二部分则是面临的技术困境,如基础大模型如何选型、向量化应该使用什么模型、如何提高召回准确率等等。
本文主要讲一下企业面临的技术困境,这方面无论大小企业,都还有一些相通之处。
例如公司内部的业务规则,操作文档,流程文档,规章制度等等,可能需要协调各个部门上传文档(有些涉及到机密难以上传),且各部门文档格式五花八门,需要统一规范整理;
外网公开数据收集,则需要设计爬虫程序,选择性爬取公开数据,整理成规范的文档并存储,例如证券行业的研报、财报、监管制度等等;
所以使用RAG的第一步,就是先收集未来要向量化的数据。
chunk的准确性直接影响到后续向量召回的准确性。
首先说分块的大小。切分合适大小的块很重要,如果块太小或太大,可能会导致不精确的搜索结果或错过展示相关内容的机会。另外切分出来的文本块应是语义独立的,也就是没有对上下文很强的依赖,这样对语言模型来说是最易于理解的。
然后是分块的方法。分块有不同的方法,每种方法都可能适用于不同的情况:
固定大小分块,这是最常见、最直接的分块方法。只需决定块中的tokens的数量,以及它们之间是否应该有任何重叠。一般来说,我们会在块之间保持一些重叠,以确保语义上下文不会在块之间丢失。在大多数情况下,固定大小的分块将是最佳方式。与其他形式的分块相比,固定大小的分块在计算上更加经济且易于使用,因为它在分块过程中不需要使用任何NLP库,速度块。
分割符切分,例如使用langchain,支持对md、html、py、js等各种特殊文本或代码进行切分。
语义相似度切分和利用大模型Agent分分,利用这种方式对文档的切分,能最大程度的保留每一段的完整性,但是对技术的要求很高,需要做调研和选型。
最后是对不同格式数据的准确预处理方法不同,上述chunk方法对文字类型的数据处理,相对有一些成熟方法,但是对图片和表格,处理起来会很费劲。如从图片中数据抽取,或者对pdf中的原生表格进行提取。传统的OCR需要大量的标注和训练,不太适合这个场景。有些性能较好的基础大模型已经具备了多模态提取信息的能力,但有些不行仍需微调,具体方法也要视情况而选择。
文档切分完成后,下一步要做的就是embedding(嵌入)每个文档块。
在机器学习和自然语言处理中,embedding是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程。embedding向量通常是一个由实数构成的向量,它将输入的数据表示成一个连续的数值空间中的点。简单来说,embedding就是一个N维的实值向量,它几乎可以用来表示任何事情,如文本、音乐、视频等。
生成Embedding的方法有很多。这里列举几个比较经典的方法和库:
Word2Vec:是一种基于神经网络的模型,用于将单词映射到向量空间中。Word2Vec包括两种架构:CBOW (Continuous Bag-of-Words) 和 Skip-gram。CBOW 通过上下文预测中心单词,而 Skip-gram 通过中心单词预测上下文单词。这些预测任务训练出来的神经网络权重可以用作单词的嵌入。
GloVe:全称为 Global Vectors for Word Representation,是一种基于共现矩阵的模型。该模型使用统计方法来计算单词之间的关联性,然后通过奇异值分解(SVD)来生成嵌入。GloVe 的特点是在计算上比 Word2Vec 更快,并且可以扩展到更大的数据集。
FastText:是由 Facebook AI Research 开发的一种模型,它在 Word2Vec 的基础上添加了一个字符级别的 n-gram 特征。这使得 FastText 可以将未知单词的嵌入表示为已知字符级别 n-gram 特征的平均值。FastText 在处理不规则单词和罕见单词时表现出色。
OpenAI的Embeddings:这是OpenAI官方发布的Embeddings的API接口。目前有2代产品。目前主要是第二代模型:text-embedding-ada-002。它最长的输入是8191个tokens,输出的维度是1536。
这些方法都有各自的优点和适用场景,选择最适合特定应用程序的嵌入生成方法需要根据具体情况进行评估和测试。不过,有人测试过,OpenAI应该是目前最好的。收费价格是1000个tokens需要0.0004美元,也就是1美元大约可以返回3000页的内容。获取之后直接保存即可。
选择不同的向量化模型,会对后续的召回产生影响。上述列举的几个embedding模型主要针对文本数据,企业仍需花时间调研和探索其效果。如果是图片或其他类型数据,则需要选择更加复杂的embedding模型,或许还需要选择自己微调。这块儿的成本和效果都难以把控。
RAG中重要的一步就是召回相关文档,并将相关文档跟问题一起喂给大模型,然后让大模型根据这些内容组织语言并回答,以减少模型幻觉。但是如果召回的是错误的文档呢?如果文档相关性不高呢?诸如此类的问题一直困扰着召回模块的落地。
常用的方式直接用用户的问题进行文档召回。例如根据用户query一次召回文档片段,让模型生成答案。开源的向量化模型效果可能一般,需要微调一下向量化模型。
只进行一次文档召回在长文本生成的场景下效果往往不好,生成的文本过长,更有可能扩展出和query相关性较弱的内容,如果模型没有这部分知识,容易产生模型幻觉问题。而且用户的问题是十分口语化的,描述的也比较模糊,一种解决思路是随着文本生成,多次从向量库中召回内容,或者使用大模型辅助召回,但计算开销/响应时间是否能够接受就要看具体使用场景了。
数据量的考量主要是受制于大模型的上下文长度,过量的找回数据无法传给大模型,而且召回的数据越多,越影响大模型的理解能力。
在推理层,Transformer模型中自注意力机制(Self Attention)的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加32倍时,计算量实际会增长1000倍。同时,超长上下文也将带来显存与带宽压力。当然现在也有一些针对长文本的大模型,如Moonshot的Kimi Chat,支持128K的上下文长度。但笔者认为在不是必要情况下,减少召回数据量是更加经济可行的方式。
但是召回的数据过少,有可能错过大模型所需要的信息。因此召回的数据需要进行一定的排序,比如一轮粗排,一轮精排等,给大模型最相关的、最有效的文档数据,才能在不影响模型性能的情况下提高达模型会回答的准确率。相关的研究内容包括语义空间对齐、混合检索、检索结果重排和检索效率优化等技术,需要进一步深入研究。
在不同行业或者不同需求的场景下,什么样模型能力可以覆盖当前需求?比如,在一个“翻译助手”的场景下,6B的基模就可以达到很好的效果,但是在“text 2 sql”的场景下,13B的模型都难以达到80%的准确率。这在企业选择不同尺寸的模型时也造成了一定的困难。也容易造成不同部门、不同场景需要引入不同基模的混乱情况。
当然,我们可以通过公布的一些排行榜看到不同模型的排行顺序,选择某些评测标准下表现更好的模型。但是基于企业特定的场景,通用的评测标准可能还不够,往往需要结合不同类型的问题来判断某个场景下模型的精度,比如纯检索问题,分析类问题,比较类问题,结论类的问题等。这也涉及到评测任务的设计,评测数据的准备,例如使用公开评测数据集、构建评测问答对、人工介入检验计算逻辑等。
从ChatGPT大火到现在已经一年多了,很多企业的大模型落地之路也已经尝试很多条了,但以RAG为基础的问答知识库类的场景还是落地最多的,那么解决好上述的问题和困难,就离想象中的体现业务价值的大模型应用,更近一步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-15
2026-04-22
2026-04-07
2026-04-07
2026-04-09
2026-05-15
2026-04-24
2026-04-05
2026-04-17
2026-04-05
2026-07-01
2026-06-30
2026-06-28
2026-06-27
2026-06-26
2026-06-26
2026-06-25
2026-06-23
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。