我要投稿

AIOps探索：分享一套保障100%准确率的告警知识检索方案

发布日期：2026-04-08 08:09:19 浏览次数： 1938

作者：阿铭linux

微信搜一搜，关注“阿铭linux”

研究AIOps已有数月，目前手里有不少可落地的方案了，接下来会把这些方案全部整理到我的大模型课程里。欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

经常看我公众号的朋友应该知道，这段时间我整理了很多关于AIOps的一些感想，同时也了解到了不少企业或者团队遇到的问题。其中最为典型的问题就是关于告警以及根因分析。

可能对于小规模应用或者平台来说，问题很好解决，因为体量不大，系统复杂度也非常简单，问题就很容易定位。然而，大规模应用所产生的海量告警信息以及复杂的系统架构要想做问题定位是非常难的！这个也是我们不得不做AIOps的一个根本原因。

今天这篇文章给大家提供一个解决海量告警问题的新思路 —— 利用静态DAG赋能多模态问答。

- 什么是DAG -

DAG是“Directed Acyclic Graph”的简称，中文叫“有向无环图”。

可以拆成三部分理解：

有向（Directed）：图里的连线有方向，表示“先后”或“依赖”关系，比如 A → B 意味着“做完 A，才能做 B”。
无环（Acyclic）：不会出现绕一圈又回到原点的情况，比如不会有 A → B → C → A 这种“自己依赖自己”的闭环。
图（Graph）：就是用“点”和“线”来表示事物及其关系。DAG 的点通常表示任务、步骤或子问题，线表示依赖关系。

-DAG如何赋能多模态问答 -

1. 传统RAG方法的局限性

传统RAG常用的“统一检索+一次性生成”流程，在面对运维领域复杂问题时，往往难以满足精准诊断与高效解决的需求，我总结了三点：

1）缺乏结构性：无法对复杂问题进行有效拆解，容易遗漏关键信息，导致回答不全面或不准确。

2）不适用于多跳问题：面对需要多步骤推理和多次信息检索才能解决的问题（即“多跳问题”），传统RAG难以应对。例如，当数据库出现连接超时告警时，传统方法难以一步到位地给出解决方案。

3）难以处理模态切换：运维数据不仅有文本，还包括图片（如告警截图、设备图纸）、表格（如配置清单）等多种模态。传统RAG在处理跨模态信息时存在困难。例如，当一个告警包含一张CPU使用率飙升的监控图时，传统方法难以有效结合图像信息进行诊断。

2. RAG新范式：静态DAG规划

基于静态DAG的RAG新规划范式能将复杂运维问题进行结构化拆解，分解为多个可执行的子问题，同时预先明确子问题间的依赖关系，构建出清晰的DAG，为问题解决搭建系统化框架。

它与业界已有的动态规划方法不同。传统的动态规划通常采用线性、动态调整的路径，效率较低，且容易在多轮交互中出现“意图偏离”的问题。而静态DAG规划则通过预先定义清晰、可并行的任务流，从根本上提升了复杂问题处理的效率和准确性。

基于静态DAG的RAG规划方法为智能运维带来了显著的提升。其核心流程如下：

① 用户提出问题：接收用户输入的复杂运维问题，例如“告警服务器风扇报警后应采取哪些维修措施？”

② LLM进行DAG规划：大型语言模型根据问题的复杂度和类型，将其结构化拆解成多个子问题，并梳理出它们之间的依赖关系。

③ 多模态执行检索：根据每个子问题的具体内容，选择最合适的模态进行检索。例如，查询拆机操作步骤是文本检索，而查看服务器图纸则是图像检索。

④ 答案整合与输出：将所有子问题的检索结果进行整合，并根据预设的依赖关系，最终生成完整的、可解释的答案。

- 静态DAG的卓越性能 -

给大家展示一组真实对比数据吧：

数据来源于一个针对多模态多跳问答数据集的实验，基于静态DAG的方法取得了显著的优势。

相比其他方法，该方法在ExactMatch（回答与标准答案是否完全一致）和F1Score（回答与标准答案的词级重合度）两项关键指标上均表现优异，充分证明了其在解决复杂多模态运维问题方面的准确性。

- 方案来源 -

该方案由一家专门做智能运维场景解决方案的公司（擎创科技）提供。

该公司将大模型技术应用于告警排查领域，构建了L1-L3三层智能告警排查与人机协同诊断框架，这一框架不仅实现了告警的自动化处置，更通过多智能体协作，深入排查故障根因，为运维人员提供了精准的决策支持。

1）L1自动化处置层：针对最常见、最简单的告警，实现自动化处置和效率最大化，通过预设规则匹配和自动化执行（如重启、清理等），快速恢复系统正常运行。

2）L2多源知识检索分析层：当规则无法解决时，L2层利用RAG新范式（基于静态DAG）和大模型能力，为运维人员提供智能分析和决策支持，通过多源知识库检索，快速定位相似告警和处置方案，提升排查效率。

3）L3人机交互式诊断层：针对最复杂、最未知的疑难杂症，L3层通过人机协同方式，结合AI的计算能力和专家的经验智慧，进行深入的问题分析和根因诊断。多轮探索式对话，引导专家逐步逼近真相，实现精准故障定位。

在擎创科技方案中，多智能体协同构建高效智能运维生态，智能体作为智能助手，能够根据人工指令快速排查问题，提供指标查询、日志分析等服务，并对当前告警进行初步判断与建议。同时，另有智能体专注于深度排查与根因推理，综合多维度信息与证据，进行系统化分析，精准定位故障可能根因。

- 成功案例 -

擎创科技的解决方案已在多个行业得到了成功应用，以下是一些典型案例：

案例一

在某头部城商行的产品完整性和基础设施根因定位场景中，擎创科技利用大语言模型，AI Agent及FUNCTIONCALL等前沿技术，实现了精准、快速的故障定位，通过模拟告警接入和L1-L3路径分析，运维人员能够流畅且准确地完成根因定位工作，处理效率得到了90%以上的显著提升。

案例二

某中腰部券商在探索大模型赋能知识运维应用的过程中，通过L1-L3三层架构，该企业成功实现了告警接收、关联CMDB、处置规则匹配以及自动化执行等功能的无缝串联，从而显著提升了整体的运维效率。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-06

RAG检索：注定下沉为检索基础设施_tag2

2026-06-02

设计生产级 RAG 架构

2026-06-02

万字深度|做了8年向量数据库后，我们决定为Milvus重构AI时代的存储引擎

2026-06-02

PDF2X：教材等高知识密度文档的解析与抽取实战

2026-05-28

ragflow v0.25.6 发布：Browser 自主浏览、RAPTOR 升级、Agent 体验增强与大量稳定性修复全解析

2026-05-27

从文档到智能问答：知识库构建的九步流程

2026-05-22

四种索引，一个系统，重新定义 AI 如何理解知识

2026-05-22

腾讯云Agent Memory节省61% Token提升52%成功率的诀窍：Mermaid无限画布×上下文卸载

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

知识基座：让“AI 越用越懂业务”的团队经验实践【天猫AI Coding实践系列】

2026-03-23

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

从RAG到GraphRAG：货拉拉元数据检索应用实践

2026-03-18

为什么总感觉 Claude Code 比 Cursor 聪明？真正的原因根本不是模型能力！

2026-03-20

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进

2026-03-21

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

企业AI落地三重门，用友如何破局？

2026-03-17

2026 年做搜索就是做 Agent Memory

2026-04-23

大家都在问

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

1G内存检索2500万向量，Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应？

2026-05-07

多Agent场景，子agent 之间数据读写不同步，如何解决？

2026-05-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

多轮对话时，RAG反复做重复召回，模型层与Milvus层分别如何解决？

2026-04-21

企业AI落地三重门，用友如何破局？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw