微信扫码
添加专属顾问
我要投稿
AIops实战:基于Dify打造智能故障诊断系统,让运维更高效更智能。 核心内容: 1. 智能故障诊断的核心思路与架构设计 2. 从告警感知到根因分析的完整流程解析 3. 基于Dify平台的实操部署指南与配置步骤
研究Aiops有一段时间了,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的大模型课程里。同时,欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。
今天的案例是基于dify做一个专门用来做故障诊断和根因分析的智能体,目前我还没有正式验证,只是有一个大概的思路。等验证完,我会将该案例相关的实操文档和视频放到课程中。
1)感知:统一告警入口
2)上下文增强:不止看告警,更要看现场,自动调用外部系统获取关联信息:
3)推理:LLM 驱动的根因分析(RCA)
4)行动:自动响应 or 人工协同
阶段 1: 基础环境准备
假设已经有了如下环境:
1、部署Grafana MCP(用来查询Loki日志)
步骤略,以前的文章里有介绍过
2、部署k8s MCP(用来获取pod信息)
步骤略,以前的文章里有介绍过
3、部署CMDB MCP
这个需要根据自己使用的CMDB工具来开发合适的MCP工具,这里存在一些不确定性因素
阶段 3: 在 Dify 中配置 MCP 工具
参考以前的发文,将以上三个MCP添加到Dify的MCP工具中心
阶段4:Dify中配置智能体
alert_name | ||
namespace | ||
pod | ||
instance | ||
severity |
3、添加「工具调用」节点(增强上下文)
获取:重启次数、事件(Events)、挂载卷、镜像版本等。
设置提示词
你是一个资深 SRE,负责对 Kubernetes 故障进行根因分析。当前告警信息:- 告警名称:{{alert_name}}- 命名空间:{{namespace}}- Pod 名称:{{pod}}- 严重等级:{{severity}}相关上下文:1. 最近日志摘要(来自 Loki):{{log_summary}}2. Pod 事件与状态(来自 K8s API):{{pod_events}}3. 服务元数据(来自 CMDB):{{cmdb_info}}请执行以下任务:1. 判断是否为真实故障(排除误报)。2. 推测最可能的根因(如:镜像拉取失败、OOMKilled、配置错误、依赖服务不可用等)。3. 给出 1~3 条可执行的修复建议(如:kubectl delete pod、回滚 Helm release v1.2.3)。4. 是否需要通知值班工程师?请以严格 JSON 格式输出,字段如下:{ "is_real_incident": true/false, "root_cause": "string", "confidence_score": 0.0~1.0, "remediation_steps": ["step1", "step2"], "notify_oncall": true/false, "related_components": ["service-a", "redis-cluster"]}5. 动作执行 & 通知
notify_oncall == true → 发送消息到 Slack/钉钉/Webhookremediation_steps 非空 → 调用 自动化平台 API(如自研运维平台)阶段5:对接Alertmanager
alertmanager.ymlroute: receiver: aiops-Agentreceivers:- name: aiops-agent webhook_configs: - url: 'http://dify-workflow-trigger-url' # 从 Dify Workflow 复制 http_config: authorization: credentials: 'your-dify-api-key' type: Bearer send_resolved: true
- alert: PodCrashLoopBackOff expr: kube_pod_status_reason{reason="CrashLoopBackOff"} == 1 labels: severity: critical namespace: "{{ $labels.namespace }}" pod: "{{ $labels.pod }}" annotations: summary: "Pod {{ $labels.pod }} in {{ $labels.namespace }} is CrashLooping"53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-26
Dify 官方上架 Nacos A2A 插件,补全双向多智能体协作能力
2026-01-16
Dify × PaddleOCR:强强联手,深度集成重塑 Agent 工作流智能文档底座
2026-01-14
刚刚,Dify v1.11.3发布,看看是否需要升级?
2026-01-11
五步框架:把 Workflow 变成可进化的 Skill
2026-01-08
dify v1.11.2 又又三个坑,别踩了!
2026-01-06
Dify v1.11.2 今天又发现来3个缺陷,看看有什么影响?
2026-01-05
效率翻倍门槛减半:Vibe Coding + Claude-Code重构Dify开发
2026-01-04
别让你的 Obsidian 吃灰了!一键同步 Dify,打造最强本地知识库
2025-12-05
2025-12-08
2025-11-11
2025-11-09
2025-11-20
2025-12-05
2026-01-11
2025-11-14
2025-11-17
2025-11-29