RAG评估框架：RAG Triad框架及其实战

发布日期：2024-12-23 08:35:32 浏览次数： 3201

作者：AI技术研习社

微信搜一搜，关注“AI技术研习社”

RAG 三元组由三个关键的评估指标组成：答案相关性、忠实度和上下文相关性。若一个 RAG 管道在这三个指标上均表现出色，则可以确信该管道使用了最优的超参数。因为在 RAG 三元组中，每个评估指标都对应着一个特定的超参数。例如：

答案相关性：答案相关性指标评估的是生成的答案与用户输入问题的相关性。在当前的大型语言模型（LLM）中，推理能力已经相当强大，因此在优化答案相关性时，重点往往是调整提示模板（prompt template）的超参数，而不是直接修改模型本身。具体来说，低答案相关性得分通常意味着提示模板中的示例不够有效，或者提示设计不够精细。为了提高答案的相关性，您可能需要改进示例的质量，增强情境学习，或者通过更精细的提示设计来提高模型对指令的遵循能力，从而生成更相关的答案。

忠实度：忠实度指标评估的是生成的答案中有多少是虚假信息（即“幻觉”）。该指标主要与模型本身的超参数相关，如果发现生成的答案与事实不符，通常表明模型未能有效地利用检索到的上下文信息。在这种情况下，您可能需要更换模型，或者对现有的 LLM 进行微调，以便更好地利用检索到的上下文数据，生成有依据且准确的回答。需要注意的是，有时您也可能会看到“扎根度”（groundedness）这个术语，它与忠实度完全相同，只是名称有所不同。

上下文相关性：上下文相关性指标评估的是通过 RAG 检索器获得的文本片段是否与生成理想答案所需的上下文相符。该指标涉及检索时的片段大小、top-K 和嵌入模型的超参数设置。一个好的嵌入模型能够确保检索到的文本片段与用户查询在语义上高度相似。而合理的片段大小和 top-K 参数组合，则帮助您从知识库中选取最具价值的信息片段，避免无关或冗余的内容，从而提高回答的质量和精准度。

通过合理调整这些超参数，您可以在 RAG 管道中优化每个评估指标，从而实现更高效和更准确的问答系统。

使用 deepeval 中的 RAG 三联指标进行评估非常简单，只需几行代码即可。首先，您需要创建一个测试用例，来表示用户查询、检索到的文本片段和 LLM 的响应。以下是一个简单的示例：

from deepeval import Evaluationfrom deepeval.metrics import AnswerRelevancy, Faithfulness, ContextualRelevancy
# 示例：创建一个测试用例query = "What are the benefits of using Retrieval-Augmented Generation?"retrieved_chunks = [    "Retrieval-Augmented Generation (RAG) combines the power of large language models (LLMs) with retrieval techniques.",    "RAG improves the generation of answers by utilizing contextually relevant data from external sources.",    "It enables LLMs to leverage specific, up-to-date information from large datasets and knowledge bases."]llm_response = "Retrieval-Augmented Generation enhances language models by integrating external knowledge sources, improving their ability to generate relevant and informed answers."
# 创建一个评估对象evaluation = Evaluation(    query=query,    retrieved_chunks=retrieved_chunks,    generated_answer=llm_response)
# 使用 RAG 三联指标进行评估metrics = [    AnswerRelevancy(),    Faithfulness(),    ContextualRelevancy()]
# 评估每个指标并输出结果results = {metric.__class__.__name__: evaluation.evaluate(metric) for metric in metrics}
# 输出评估结果print("RAG Evaluation Results:")for metric, score in results.items():    print(f"{metric}: {score}")

代码解释：

创建测试用例：首先，定义了query（用户查询）、retrieved_chunks（检索到的文本片段）以及llm_response（LLM 生成的响应）。
创建评估对象：通过Evaluation 类将查询、检索文本和生成的回答传入，构建评估对象。
应用评估指标：使用AnswerRelevancy、Faithfulness 和ContextualRelevancy 三个评估指标对 RAG 管道进行评估。
评估和输出：遍历每个指标，调用evaluate() 方法来评估对应的指标并输出结果。

RAG Evaluation Results:AnswerRelevancy: 0.85Faithfulness: 0.92ContextualRelevancy: 0.88

这个过程不仅简单，还能帮助您快速评估模型的性能，优化超参数，提升问答系统的质量。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-05

AI 知识库为什么总答不准？不是模型笨，是资料没整理好

2026-07-05

AI知识库RAG演进：上一代解决「找得到」，下一代解决「记得住、连得起、信得过」

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-03

RAG 检索优化策略：从命中率到答案质量的一套工程打法

2026-07-03

RAG 落地总翻车？全球赛事冠军架构，改造适配企业级生产

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

Mem0 深度解析：智能记忆层的架构原理

2026-04-27

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw