RAG的2024—随需而变，从狂热到理性（下）

发布日期：2024-11-25 14:42:53 浏览次数： 2870

作者：土猛的员外

微信搜一搜，关注“土猛的员外”

本文主要内容：

RAG和Fine-tune目前的市场态势
RAG在这一年的市场需求变化
这一年的AI从业者观察

1.RAG vs Fine-tune

2024这一年，RAG技术对应的市场需求变化也是挺大的。在讲变化之前，我觉得有必要分享一下为什么RAG是目前市场上不可或缺的一种大模型应用的技术实现方式，它的优点是什么？以及它和主要竞争技术之间的现状是怎么样的？

RAG最开始被大家热推，更多是因为以下三个原因：

可以避开大模型的上下文窗口长度的限制；
可以更好地管理和利用客户专有的本地资料文件；
可以更好地控制幻觉。

这三点到现在来看依然还是成立的，但上下文窗口这个优势已经慢慢淡化了，因为各大模型的上下文窗口都在暴涨，如Baichuan2的192K，doubao、GLM-4的128K，过10万tokens的上下文窗口长度已经屡见不鲜，更别说一些特长的模型版本，以及月之暗面这样用长文本占据用户心智的模型。虽然这些模型是否内置了RAG技术不好说，但是RAG解决上下文窗口长度限制的特点已经不太能站得住脚。

但是第二点管理和利用专属知识文件，以及第三点控制幻觉，现在反而是我认为RAG最大的杀手锏。

01 专属知识文件管理

因为RAG这种外挂文件的形式，我们便可以构建一个知识文件管理的系统来维护系统内的知识，包括生效和失效时间，知识的协作，以及便捷地为知识更新内容等。RAG在知识维护上，既不需要像传统NLP那样由人工先理解再抽取问答对，也不需要像微调（fine-tune）那样需要非常专业的技术能力，以及微调之后的繁琐对齐（alignment）优化。所以如果客户的知识内容更新比较频繁（假设每天需要追加、替换大量实时资讯内容），特别是金融证券、企业情报等场景，RAG知识更新便捷的特性真的非常合适。

02 RAG的幻觉控制

RAG的幻觉控制是一个有争议的话题，我之前写过类似观点，也有同学斩钉截铁地认为RAG和幻觉控制八竿子打不着，但我现在依然坚持RAG可以有效控制幻觉这个观点。

首先我们可以来看看LLM幻觉产生的主要原因：

对于用户的提问输入，LLM内部完全没有相应的知识来做应对。比如你问大模型，上周三我在思考一件事，但是现在想不起来，你帮我想想是什么。例子虽然夸张，但显而易见，LLM也不知道，但是它会一本正经给你一些建议，当然肯定不是你想要的；
当我们给LLM原始问题，以及多个模棱两可或互相影响的参考材料，那么LLM给出的最终答案也会出错。

好，那么针对以上问题，是否我们解决好对原始问题的“理解-检索-召回”，送到LLM的context足够清晰（指的是没有歧义内容、检索相关度高），结果就会非常准确？根据我们的实践结果，答案是明确的：

今年9月份我们对一些项目进行了槽位填充（消除模糊问答）和元数据辅助之后，问答准确率可达到98%以上。比直接把大文本扔进同一个LLM测试的问答准确率几乎高出14个百分点。

有同学会说，LLM幻觉的深层原因是temperature或者说概率引起的。就我纯个人观点来看，现当下的LLM参数足够大、知识量足够多，temperature引起的偏差对于最终结果的正确性影响已经微乎其微了。

03 市场表现

你应该看出来了，在RAG和微调之间，我明显站队了，而且从一年前就开始站队了，我们创业的技术方向也是如此。从今天来看，我觉得RAG在2024年的表现确实要强于微调。

如果去预测明年的企业级市场趋势，我觉得应用（Application）可能会是最大的关键词，甚至会超过Agent的热度。其实今年下半年已经能明显的看出来，越来越多传统大企业开始将大模型技术引入到业务中，而且他们的特点是“要求高”、“需求刚”、“付费爽”。而一旦大家开始在大模型的应用侧竞赛，RAG在整个业务流程中“白盒流程多”、“易控”等特点愈发会受到企业客户和开发者的热捧，优势进一步拉大。

2.市场变化之2024

关于企业AI应用市场在2024年的变化，我之前已经有写过文章《聊个五分钟的企业AI应用需求发展趋势》，这里就简单再总结一下。

上半年：AI无所不能，大而全

2024年的上半年，AI市场充斥着激情，那种热情似乎走在街上都会扑面而来，个人感觉最主要的推动者是自媒体和模型厂商。模型厂商的出发点很容易理解，快速打开市场嘛，但考虑到他们是要最终交付的，所以相对还是比较理性。但自媒体就一样了，整个上半年看过太多的文章，大家也都是把最好的一面呈现给了大众，所以很多人会觉得我才几个月没关注，AI已经发展到我不认识的地步了，AI已经无所不能了。所以，在2024年上半年，我们接触到的企业需求中，占主流的是那种大而全的需求，要用AI替代他们业务的全流程或基本流程，气味中充满了使用者的野望。

但实际情况并不理想，AI或者大模型还真没到这个程度，而且最关键的是范式转换也还需时间。什么是范式转换？最简单的例子就是以前人们用笨重的蒸汽机推动主轴承转动，带动整车间的机器工作。但是换了电动机之后呢，工作方式变了，动力可是变得非常分散，比如你拿在手上吹头发的吹风机。带着微型电动机的吹风机和传统的蒸汽机在工作范式上就完全不同，采用AI大模型之后，企业的业务流程也存在范式改造的过程，并非一朝一夕可以完成的。

所以，上半年我遇到的、参与的或者听说的那些大而全的AI项目，一半是在可行性推演中没有被验证，一半是交付之后效果很不理想，成功者寥寥。

下半年：回归理性，小而难

在今年7月份开始，陆续有一些传统大企业找上门来，包括非常知名的企业，以及世界500强和多家中国500强。如果从时间上来说，他们属于AI投入相对较晚的了，但他们的优势是需求非常明确，要求也极高。比如有些企业仅仅就是解决一个咨询服务的需求，在产品范围上就是一个AI问答，但要求准确率接近100%，就像我们CTO在《AIGC时代的淘金者，TorchV这一年的心路历程》说到社保咨询一样。

小而难的好处很明显，我能看到的是下面几点：

对企业现有业务流程改造相对较小，内部推动的阻力相对较小，企业客户配合度高；
切口小，需求明确，建设成果的考核清晰可量化；
使用功能较小但可用性较高的AI产品，可以让企业内部员工快速接受AI，做进一步业务流程改造的前期预热；
乐于承接大而全需求的合作厂商多半是外包性质的（这个观点有点伤人，但确实是我看到的现状），而专业的、交付成功率更高的厂商往往更喜欢需求清晰且有难度的任务。

关于2025年的预测

我在上文中已经有提到，2025年会有更多企业需求方采用AI技术，但企业永远不会为你的技术买单，他们只会为他们自己的使用价值买单。比如可以帮助他们提升销售额、业务流转效率更高，或者和竞争对手的竞争中获得优势，还有就是降低成本等等。所以，大模型应用端多端不够，还需要生长出藤蔓围绕着企业流程开花结果，这个任务最终会落在应用（Application）——内化了企业流程、借助了大模型能力的、带有可交互界面的程序。我自己预测2025年会成为大模型应用或AI应用之争。

另外还有一个趋势也很明显，就是知识管理和协作。我们都说这波AI浪潮把原来“没用”的非结构化数据给激活了，嗯，所以我们马上会看到那些原来堆在角落里面的“冷”文件和知识（类似wiki）会被大量启用，“热”文件和知识会爆炸性增长，知识的协作和管理会成为新的问题——就像你有再多的先进坦克和战车，却因为无序的交通都堵在阿登森林了。基于大模型的知识管理和协作，会在12月专门写一篇文章好好分享一下我自己的见解，希望能找到共鸣的客户以及开发者。

3.AI从业者观察

因为我看到的不代表真相，所以这一章节会很短，仅仅分享两个发现。

01 AI技术的下坡

有两个感受（非证据）可以说明这一点：

关于AI大模型的自媒体数量在减少，从搜索引擎趋势，加上我和几个业内朋友的blog、公众号以及X的阅读量下降趋势也可以佐证这一点，下半年虽然市场理性回归，但整体热度是在下降的。OpenAI不再持续放大招可能也是重要原因之一；
我前期接触了很多因为AI热潮而在企业内部抽调精干力量组成的AI小组、AI研究组和AI创新组等团队的成员，但下半年有不少类似团队已经解散，人员回归到原有岗位。

还有一点就是上半年加我微信好友的很多独立开发者或在职的个人，多半也已经在寻觅了半年机会之后放弃了继续探索，这一点在和他们交流，以及他们朋友圈的内容变化中可以明显感知。

但是这并不是坏事，上图已经告诉我们，这是必然规律。

02 价值开始显现

第二个观察就是目前还奔跑在AI大模型应用赛道的公司，很多已经开始创造出客户价值，有了自己的优势。

包括在海外风生水起的Dify，在内容提取端的合合，以及肯定会成为国内AI巨无霸的火山引擎。当然我们还看到了一些深耕垂直行业的优秀团队，特别是在法律、医药、教育等行业。我们也在今年6月份开始做了产品转身，现在已经不再烦恼人家问我们“你们和dify/fastgpt/ragflow有什么区别？”，因为赛道已经开始慢慢不一样了，而且这个不一样依然是产品层面的，和服务什么行业无关。关于这一点，也还是在12月的那篇文章再来分享吧。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业