微信扫码
添加专属顾问
我要投稿
尽管RAG模型在许多应用中表现出色,但它们在实际使用中也可能面临回答不准确的问题,那么如何有效地诊断和解决这些问题就显得尤为重要。亚马逊发布了一个全新的开源工具——
RAGChecker,旨在帮助开发者和研究人员对RAG系统进行全面、可靠、细粒度诊断,着重解决AI回答不准的问题,并为进一步提升性能,提供可操作的方向。这个工具就像是给RAG系统开了一剂"药方",帮助它"康复",为我们的开发者打造更智能、更可靠的RAG系统。论文:https://arxiv.org/pdf/2408.08067
项目:https://github.com/amazon-science/RAGChecker
| RAG评估方向 | 评估框架及链接 | 描述 |
|---|---|---|
| 生成器基本能力评估 | RGB https://arxiv.org/abs/2309.01431 https://github.com/chen700564/RGB | 手动构建测试集,评估生成器的噪声鲁棒性、负拒绝、信息整合和反事实鲁棒性 |
| 生成器基本能力评估 | RECALL https://arxiv.org/pdf/2311.08147 | 引入手动编辑的反事实上下文到QA和文本生成数据集,评估LLMs的反事实鲁棒性 |
| 生成器基本能力评估 | NoMIRACL https://arxiv.org/pdf/2312.11361 | 通过人工判断相关和非相关数据集,评估LLMs对检索错误的鲁棒性 |
| 生成器基本能力评估 | https://arxiv.org/pdf/2404.10198 | 通过引入不同水平的扰动来量化LLMs的忠实度与内部先验间的平衡 |
| 生成器基本能力评估 | FAAF https://arxiv.org/pdf/2403.03888 | 提出细粒度的事实验证方法,用于评估生成器的真实性 |
| RAG系统端到端评估 | TruLens https://www.trulens.org/trulens_eval/core_concepts_rag_triad/ | 引入RAG三元组概念,评估上下文相关性、基础性和答案相关性 |
| RAG系统端到端评估 | RAGAS https://arxiv.org/pdf/2309.15217 和 ARES https://arxiv.org/pdf/2311.09476 | 跟随RAG三元组概念,在不同数据集上优化分数预测方法 |
| RAG系统端到端评估 | CRUD-RAG https://arxiv.org/pdf/2401.17043 | 涉及CRUD操作,开发特定的RAG系统数据集和评估标准 |
| 其他端到端评估 | Findings of the Association for Computational Linguistics: EMNLP 2023, pages 7001–7025 | 进行人类评估,考察生成搜索引擎的流畅性、感知效用和可验证性 |
| 其他端到端评估 | MEDRAG https://arxiv.org/pdf/2402.13178 | 构建医学RAG基准,用QA准确性评估医学RAG系统 |
| 其他端到端评估 | MultiHop-RAG https://arxiv.org/pdf/2401.15391 | 从新闻文章生成多跳查询,评估RAG系统的QA准确性 |
| 其他端到端评估 | CDQA https://arxiv.org/pdf/2402.19248 | 提出一种生成动态QA问题的新方法,要求使用最新信息回答 |
然而,上述评估框架中使用的评估指标要么依赖于人类评估,要么依赖于简单的文本准确性,这使得它们无法应对需要长答案评估的复杂RAG场景。因此,我们没有真正将它们纳入元(meta)评估。下面我们进入本文将要介绍的一种先进的自动评估框架:RAGChecker。
RAGChecker 是一种先进的自动评估框架,它提供了一套全面的指标和工具,用于深入分析 RAG 性能。它的功能主要有:
Precision 精度是响应中正确声明的比例,Recall 召回率是真实答案中正确声明的比例。精度和召回率的调和平均值作为整体性能指标F1分数。声明召回率:真实答案中的声明在检索到的文本块中被覆盖的比例。上下文精度:检索到的文本块中包含任何真实答案声明的比例。本文提出了RAGChecker,一种新的RAG评估框架,为检索器和生成器组件提供了细粒度的评估。通过元(meta)评估验证了RAGChecker与人类判断的高度相关性。广泛的实验评估揭示了RAG系统设计中的有价值的见解,如检索改进与噪声引入之间的权衡,以及忠实开源模型对上下文的盲目信任倾向。RAGChecker不仅加深了对RAG系统架构的理解,还为未来的RAG应用提供了关键指导。
RAGChecker框架通过 claim-level 的事实检查来实现细粒度的评估。具体步骤如下:
RAGChecker框架在元(meta)评估中表现出色,具体优势如下:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-17
开源、零依赖、R@5 精度 95%:agentmemory 凭什么比 mem0 更值得用
2026-05-16
Hermes Agent 深度解析:为什么它能“越用越懂你”?
2026-05-15
再见 Hermes、小龙虾! 面向 DeepSeek V4 的终端原生编程智能体来了
2026-05-15
GenericAgent 实测:Token 少用 89.6%,还能打赢 Claude Code?上下文密度才是关键
2026-05-14
腾讯开源Agent Memory,让Token消耗降低61%
2026-05-14
agents-hive 开源了:一个面向生产的Harness Agent 工程
2026-05-12
Hermes Agent 完整安装指南
2026-05-11
对话OpenClacky李亚飞:把Harness做透,Token账单就不是问题了
2026-03-30
2026-04-03
2026-03-23
2026-04-09
2026-03-31
2026-03-03
2026-02-18
2026-04-01
2026-02-22
2026-03-04
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13