AIOps涉及哪些领域和方向？

发布日期：2024-10-08 22:08:51 浏览次数： 3093

作者：SRE说

微信搜一搜，关注“SRE说”

Gartner 在 2016 年首次提出了 AIOps 这一术语，它是 Algorithmic IT Operations 的缩写，意指算法驱动的 IT 运维。随着人工智能技术的发展和普及，AIOps 的含义已经扩展为 Artificial Intelligence for IT Operations，也就是用于 IT 运维的人工智能技术。

我们将从故障发现、故障定位、容量管理、变更控制、预案制定、磁盘故障预测以及大模型应用等七个关键点进行解读。

故障发现与 AI 结合

首先在故障发现领域就面临着很多挑战，这些挑战往往超出了人力所能及的范围。这些问题可以概括为三类。

监控项庞大，随着服务复杂性的增加，监控项的数量急剧上升，带来了首个挑战——在庞大的数据流中准确识别异常模式。以不同运营商和地区的流量数据为例，细分后可能产生数百条数据曲线，每条都需要定制的相应的监控策略。手动配置这些规则不仅任务繁重，而且在人力成本上也显得不经济。

二是微小变化检测难题，尤其是那些渐进性下降或微小波动的情况。例如曲线的缓慢下降可能预示着系统出现了一些小问题。这种细微的 Case 通常难以通过肉眼直接察觉。以流量数据为例，如果今天的总请求量大于昨天，这通常被视为正常表现。然而，如果今天 0～12 点的请求量大于昨天同期，而 12 点之后请求量出现缓慢下降，低于昨天的请求量，这背后可能隐藏着异常情况。这种情况下，需要依赖自动化的监控工具来帮助识别这些不易被察觉的异常变化。

第三个挑战在于，单独依赖任何一个指标通常难以揭示问题的本质。准确地诊断往往需要多个指标的联合评估。例如，在短视频服务中，仅观察视频播放量或播放时间的单一变化，可能不足以判断服务状态。如果视频播放量和播放时间同时增加，这通常表示服务运行正常。同样，如果播放量和播放时间同时下降，这也可能是正常波动的一部分。然而，如果出现播放量增加而播放时长下降的情况，这可能指示存在异常，比如推荐系统可能出现了问题。

所以在故障发现领域，目前我们可以归纳出三个主要的研究方向。

单指标异常检测：作为当前最活跃的研究领域之一，AIOps 在监控和定位单指标异常方面的应用在工业界和学术界都极为热门。AI 在此领域的显著效果使其成为研究和发表文章的热点。

多指标联合分析：当多个关键性能指标（例如服务等级协议 SLA、延迟、系统负载等）同时出现异常时，需要一个智能决策机制来综合分析这些指标间的相互关系和影响。这种综合分析有助于更准确地判断是否真的发生了问题，从而采取相应的措施。

报警优化：面对成千上万的监控指标，如何通过算法预测并自动设定合适的阈值是一个重要挑战。这需要智能算法来自动化阈值设定过程，优化报警系统的性能，减少误报和漏报，确保监控系统的高效运行。

故障定位与 AI 结合

服务故障定位面临的一大挑战是它成因的复杂性。在应对服务故障的时候，需要深入分析以识别问题的本质，是单个服务器或实例的问题，还是网络故障或其他外部因素所致。

如果故障仅出现在少量机器上，通常可以判断为机器本身的问题，而不是上层服务引起的实例异常。如果同一网段的多台机器同时出现故障，这通常指向网络异常，可能是网络配置或者网络设备出现了异常。如果同一型号、同一批次的机器同时出现问题，很可能是这一批次的机器存在共性问题，硬件层面存在缺陷。

故障定位的难点还包括调用链路的深度和复杂性。随着云计算和大数据技术的广泛应用，分布式和微服务架构的普及使得业务系统间的交互变得更加复杂。这导致在故障发生时，追踪故障的因果关系变得极为困难，主要的原因体现在两点。

首先是调用层次深的问题，在多层调用的系统中，追踪和定位故障源头变得更加困难，因为一个故障可能在多个服务和组件间传播。其次是故障之间的先后顺序和因果关系如何确定的问题，例如确定是服务 A 的故障导致了服务 B 的问题，还是相反。这种因果关系的确定有时类似于经典的“先有鸡还是先有蛋”问题，凸显了问题的复杂性和解决难度。

故障定位的难点三在于，导致故障的可能性是多样的。比如在流量出现波动的时候，原因可能相当复杂，比如促销活动、节假日影响，或者是内部系统故障。外部事件，如节假日或特殊活动，往往会对流量产生显著影响，这些因素在故障分析时可能不会立即被考虑到。同时，也必须排查是不是内部系统的问题导致了流量波动，比如服务故障或性能瓶颈。

因此在故障定位领域，场景的探索可以归纳为三个主要方向，每个方向都有针对不同问题的解决策略。

多维定位（下钻定位）：这个方向涉及从不同维度深入分析故障，通过细化问题来定位故障的具体位置。它要求能够识别和分析多个相关指标和日志，以便精确地找到问题根源。例如，通过下钻到特定的服务、实例或时间段，逐步缩小故障范围。

因果关系判断：在复杂的系统中，故障可能由一系列事件引起，确定这些事件之间的因果关系是至关重要的。这个方向要求开发智能算法，能够分析时间序列数据，识别先行指标，从而判断哪些事件是故障的直接原因，哪些是间接影响或结果。

重复故障定位：针对系统重复出现的故障，这个方向关注于识别故障模式和规律，以及它们重复出现的原因。通过历史数据分析，可以建立模型预测故障发生的可能性，并采取措施防止故障再次发生或减少其影响。

容量与 AI 结合

容量管理与人工智能的结合主要在三个关键领域：一是流量预测，这是容量管理中的一项基础工作。AI 技术可以通过机器学习算法，如时间序列分析、回归模型等，来分析历史流量数据。通过训练模型，AI 可以识别流量模式和趋势，预测未来的流量变化，包括节假日、促销活动等特殊事件的影响。准确的流量预测有助于提前规划资源，避免在流量高峰时出现服务中断或性能下降。

二是服务资源画像，指的是对服务在不同条件下资源需求的详细描述。这包括 CPU、内存、存储和网络带宽等资源。AI 可以帮助分析服务在不同查询率（QPS）和不同硬件配置下的性能表现，构建资源需求模型。有了服务资源画像，可以更精确地进行资源分配和优化，确保服务性能和用户体验。

三是扩容决策，根据当前和预测的请求量来确定需要的资源规模。AI 可以分析实时数据，帮助决策者理解何时需要增加资源，以及如何分配这些资源。

变更与 AI 结合

在系统上线变更过程中，人工检查面临两大挑战：高昂的检查成本和关键信息的遗漏风险。面对众多检查项，微小的异常很难通过人工识别，这限制了变更拦截的精确性。

此外，上线团队聚焦于直接负责的服务，而忽略了对相关上下游服务的评估。此外检查标准的不一致性，以及发布工具中阈值设置不当，进一步降低了变更拦截的准确性。

为应对这些挑战，智能检测技术应运而生。它能够自动分析服务上线对上下游服务的潜在影响，并全面监测相关指标。智能检测还能捕捉到那些难以被肉眼发现的微小变化，并通过自动化的全面检查，显著提升变更拦截的精确度和效率。

预案与 AI 结合

如何得到准确有效的决策，是预案和 AI 结合的重点。工程师面临着在高压环境下迅速做出准确决策的挑战。人工处理故障的时候，响应迟缓、决策失误和操作错误等问题频繁发生。

比如我之前就遇到过服务雪崩式的故障，有人提议重启服务，有人建议切流，还有人主张限流。最终，混乱的局面延长了故障持续时间。那究竟什么样的决策才是最合理的？这里我们可以借助 AI 的力量，将人工智能与预案管理相结合，可以形成一种智能决策过程。这种结合不仅能够加快决策速度，还能提高决策的质量和效率。

磁盘故障与 AI 的结合

AIOps 在磁盘故障预测领域的应用，通过提前识别和预测磁盘故障，AIOps 能够显著提升数据的安全性和系统的可靠性，减少因数据丢失或系统中断带来的风险。

利用机器学习和深度学习技术，分析磁盘的相关数据，构建预测模型，识别故障的早期迹象，并及时把将要发生故障的磁盘进行修复和替换。

大模型与运维

大模型给运维领域带来的变革之一就是让工具听懂人话。AI 现在能够理解人类的语言，而人们也能够理解 AI 的输出。这种相互理解极大地增强了人与 AI 的协作，提升了运维工作的效率和协调性。大模型让 AI 能够理解和解析人类的自然语言指令和查询，更准确地响应运维人员的需求。AI 还能用人类易于理解的语言生成报告和解释，帮助运维人员快速把握系统状态和问题核心。

通过自然语言的交互，运维人员可以直观地与 AI 系统合作，进行故障诊断、数据分析和决策制定。大模型不仅提升了运维的自动化和智能化水平，还促进了人与 AI 之间的协作，为运维领域带来了革命性的变化。

小结

这节课我们探讨了 AI 与系统可靠性结合的多个关键领域，包括问题发现、故障定位、容量预测、风险预案以及变更管理等。AI 的集成有望突破传统人工方法的局限，解决以往难以攻克的难题。后面几节课我会具体介绍这些领域内 AI 应用的具体技术和策略。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业