2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

AIOps涉及哪些领域和方向?

发布日期:2024-10-08 22:08:51 浏览次数: 3093
作者:SRE说

微信搜一搜,关注“SRE说”

Gartner 在 2016 年首次提出了 AIOps 这一术语,它是 Algorithmic IT Operations 的缩写,意指算法驱动的 IT 运维。随着人工智能技术的发展和普及,AIOps 的含义已经扩展为 Artificial Intelligence for IT Operations,也就是用于 IT 运维的人工智能技术。

我们将从故障发现、故障定位、容量管理、变更控制、预案制定、磁盘故障预测以及大模型应用等七个关键点进行解读。

故障发现与 AI 结合

首先在故障发现领域就面临着很多挑战,这些挑战往往超出了人力所能及的范围。这些问题可以概括为三类。

监控项庞大,随着服务复杂性的增加,监控项的数量急剧上升,带来了首个挑战——在庞大的数据流中准确识别异常模式。以不同运营商和地区的流量数据为例,细分后可能产生数百条数据曲线,每条都需要定制的相应的监控策略。手动配置这些规则不仅任务繁重,而且在人力成本上也显得不经济。

二是微小变化检测难题,尤其是那些渐进性下降或微小波动的情况。例如曲线的缓慢下降可能预示着系统出现了一些小问题。这种细微的 Case 通常难以通过肉眼直接察觉。以流量数据为例,如果今天的总请求量大于昨天,这通常被视为正常表现。然而,如果今天 0~12 点的请求量大于昨天同期,而 12 点之后请求量出现缓慢下降,低于昨天的请求量,这背后可能隐藏着异常情况。这种情况下,需要依赖自动化的监控工具来帮助识别这些不易被察觉的异常变化。

第三个挑战在于,单独依赖任何一个指标通常难以揭示问题的本质。准确地诊断往往需要多个指标的联合评估。例如,在短视频服务中,仅观察视频播放量或播放时间的单一变化,可能不足以判断服务状态。如果视频播放量和播放时间同时增加,这通常表示服务运行正常。同样,如果播放量和播放时间同时下降,这也可能是正常波动的一部分。然而,如果出现播放量增加而播放时长下降的情况,这可能指示存在异常,比如推荐系统可能出现了问题。

所以在故障发现领域,目前我们可以归纳出三个主要的研究方向。

单指标异常检测:作为当前最活跃的研究领域之一,AIOps 在监控和定位单指标异常方面的应用在工业界和学术界都极为热门。AI 在此领域的显著效果使其成为研究和发表文章的热点。

多指标联合分析:当多个关键性能指标(例如服务等级协议 SLA、延迟、系统负载等)同时出现异常时,需要一个智能决策机制来综合分析这些指标间的相互关系和影响。这种综合分析有助于更准确地判断是否真的发生了问题,从而采取相应的措施。

报警优化:面对成千上万的监控指标,如何通过算法预测并自动设定合适的阈值是一个重要挑战。这需要智能算法来自动化阈值设定过程,优化报警系统的性能,减少误报和漏报,确保监控系统的高效运行。

故障定位与 AI 结合

服务故障定位面临的一大挑战是它成因的复杂性。在应对服务故障的时候,需要深入分析以识别问题的本质,是单个服务器或实例的问题,还是网络故障或其他外部因素所致。

如果故障仅出现在少量机器上,通常可以判断为机器本身的问题,而不是上层服务引起的实例异常。如果同一网段的多台机器同时出现故障,这通常指向网络异常,可能是网络配置或者网络设备出现了异常。如果同一型号、同一批次的机器同时出现问题,很可能是这一批次的机器存在共性问题,硬件层面存在缺陷。

故障定位的难点还包括调用链路的深度和复杂性。随着云计算和大数据技术的广泛应用,分布式和微服务架构的普及使得业务系统间的交互变得更加复杂。这导致在故障发生时,追踪故障的因果关系变得极为困难,主要的原因体现在两点。

首先是调用层次深的问题,在多层调用的系统中,追踪和定位故障源头变得更加困难,因为一个故障可能在多个服务和组件间传播。其次是故障之间的先后顺序和因果关系如何确定的问题,例如确定是服务 A 的故障导致了服务 B 的问题,还是相反。这种因果关系的确定有时类似于经典的“先有鸡还是先有蛋”问题,凸显了问题的复杂性和解决难度。

故障定位的难点三在于,导致故障的可能性是多样的。比如在流量出现波动的时候,原因可能相当复杂,比如促销活动、节假日影响,或者是内部系统故障。外部事件,如节假日或特殊活动,往往会对流量产生显著影响,这些因素在故障分析时可能不会立即被考虑到。同时,也必须排查是不是内部系统的问题导致了流量波动,比如服务故障或性能瓶颈。

因此在故障定位领域,场景的探索可以归纳为三个主要方向,每个方向都有针对不同问题的解决策略。

多维定位(下钻定位):这个方向涉及从不同维度深入分析故障,通过细化问题来定位故障的具体位置。它要求能够识别和分析多个相关指标和日志,以便精确地找到问题根源。例如,通过下钻到特定的服务、实例或时间段,逐步缩小故障范围。

因果关系判断:在复杂的系统中,故障可能由一系列事件引起,确定这些事件之间的因果关系是至关重要的。这个方向要求开发智能算法,能够分析时间序列数据,识别先行指标,从而判断哪些事件是故障的直接原因,哪些是间接影响或结果。

重复故障定位:针对系统重复出现的故障,这个方向关注于识别故障模式和规律,以及它们重复出现的原因。通过历史数据分析,可以建立模型预测故障发生的可能性,并采取措施防止故障再次发生或减少其影响。

容量与 AI 结合

容量管理与人工智能的结合主要在三个关键领域:一是流量预测,这是容量管理中的一项基础工作。AI 技术可以通过机器学习算法,如时间序列分析、回归模型等,来分析历史流量数据。通过训练模型,AI 可以识别流量模式和趋势,预测未来的流量变化,包括节假日、促销活动等特殊事件的影响。准确的流量预测有助于提前规划资源,避免在流量高峰时出现服务中断或性能下降。

二是服务资源画像,指的是对服务在不同条件下资源需求的详细描述。这包括 CPU、内存、存储和网络带宽等资源。AI 可以帮助分析服务在不同查询率(QPS)和不同硬件配置下的性能表现,构建资源需求模型。有了服务资源画像,可以更精确地进行资源分配和优化,确保服务性能和用户体验。

三是扩容决策,根据当前和预测的请求量来确定需要的资源规模。AI 可以分析实时数据,帮助决策者理解何时需要增加资源,以及如何分配这些资源。

变更与 AI 结合

在系统上线变更过程中,人工检查面临两大挑战:高昂的检查成本和关键信息的遗漏风险。面对众多检查项,微小的异常很难通过人工识别,这限制了变更拦截的精确性。

此外,上线团队聚焦于直接负责的服务,而忽略了对相关上下游服务的评估。此外检查标准的不一致性,以及发布工具中阈值设置不当,进一步降低了变更拦截的准确性。

为应对这些挑战,智能检测技术应运而生。它能够自动分析服务上线对上下游服务的潜在影响,并全面监测相关指标。智能检测还能捕捉到那些难以被肉眼发现的微小变化,并通过自动化的全面检查,显著提升变更拦截的精确度和效率。

预案与 AI 结合

如何得到准确有效的决策,是预案和 AI 结合的重点。工程师面临着在高压环境下迅速做出准确决策的挑战。人工处理故障的时候,响应迟缓、决策失误和操作错误等问题频繁发生。

比如我之前就遇到过服务雪崩式的故障,有人提议重启服务,有人建议切流,还有人主张限流。最终,混乱的局面延长了故障持续时间。那究竟什么样的决策才是最合理的?这里我们可以借助 AI 的力量,将人工智能与预案管理相结合,可以形成一种智能决策过程。这种结合不仅能够加快决策速度,还能提高决策的质量和效率。

磁盘故障与 AI 的结合

AIOps 在磁盘故障预测领域的应用,通过提前识别和预测磁盘故障,AIOps 能够显著提升数据的安全性和系统的可靠性,减少因数据丢失或系统中断带来的风险。

利用机器学习和深度学习技术,分析磁盘的相关数据,构建预测模型,识别故障的早期迹象,并及时把将要发生故障的磁盘进行修复和替换。

大模型与运维

大模型给运维领域带来的变革之一就是让工具听懂人话。AI 现在能够理解人类的语言,而人们也能够理解 AI 的输出。这种相互理解极大地增强了人与 AI 的协作,提升了运维工作的效率和协调性。大模型让 AI 能够理解和解析人类的自然语言指令和查询,更准确地响应运维人员的需求。AI 还能用人类易于理解的语言生成报告和解释,帮助运维人员快速把握系统状态和问题核心。

通过自然语言的交互,运维人员可以直观地与 AI 系统合作,进行故障诊断、数据分析和决策制定。大模型不仅提升了运维的自动化和智能化水平,还促进了人与 AI 之间的协作,为运维领域带来了革命性的变化。

小结

这节课我们探讨了 AI 与系统可靠性结合的多个关键领域,包括问题发现、故障定位、容量预测、风险预案以及变更管理等。AI 的集成有望突破传统人工方法的局限,解决以往难以攻克的难题。后面几节课我会具体介绍这些领域内 AI 应用的具体技术和策略。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅