2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

阿里云容器服务 AI 助手 2.0:新一代容器智能运维能力

发布日期:2024-12-29 18:37:27 浏览次数: 3229
作者:阿里云云原生

微信搜一搜,关注“阿里云云原生”

前言




Cloud Native

随着智算时代的到来,人工智能与大模型的发展正引领着一场前所未有的技术变革,AI 工具的广泛应用更可谓是推动了各行各业的创新与发展。

智能运维 AIOps,是阿里云容器服务团队追求基础能力建设的目标终态。大模型 LLM 技术阶跃式发展当前已达到一定程度“可采纳”、“可信赖”的水平,那么下一时代的智能运维 AIOps 形态也将成为通过 AI 能力结合已有沉淀的专家诊断体系,以及结合可观测运维体系的丰富数据提供数据驱动力。

为了能够让 K8s(Kubernetes) 用户借助 AI 快速上手和自动化、智能化地解决运维难题,2023 年云栖大会上,阿里云容器服务团队正式发布 ACK AI 助手。在过去的近一年中,AI 助手持续在线上稳定运行,并累计为上万用户提供服务。2024 年 11 月,阿里云容器服务团队进一步深度融合现有的运维可观测体系,在场景上覆盖了 K8s 用户的全生命周期,正式推出升级版 AI 助手 2.0,旨在更好地为用户使用和运维 K8s 保驾护航。

AI 之于 K8s 的意义所在




Cloud Native

在正式介绍 ACK AI 助手之前,我们将结合 K8s 用户的痛点及其所需的平台能力谈谈 AI 之于 K8s 的意义,也是我们发布并持续迭代 ACK AI 助手的意义之所在。

K8s 已然是业界主流

根据 CNCF 2023 年的用户调研,当前 IT 生产系统有 89% 选用 Kubernetes 架构,这一数据在 2022 年是 76%。可见 Kubernetes 已然凭借其强大的能力成为业界 IT 架构的实施标准。
但正因如此,K8s 的痛点——较高的运维复杂度和学习成本,也逐渐浮出水面。正如 2022 年 CNCF 调研报告所显示的那样:“Kubernetes 的使用者反馈使用容器服务的最大障碍和挑战是面对复杂的概念和运维体系的巨大学习成本”(参考:https://www.cncf.io/reports/cncf-annual-survey-2022/)。2023 年 CNCF 调研数据相较于 2022 年更加凸显复杂性和可观测性问题,安全性和高学习门槛的难题仍不容小觑。(参考:https://www.cncf.io/reports/cncf-annual-survey-2023/ )

较原有观测能力,AI 助手“革命性”地缩减平均问题解决时间(MTTR)

事实上,在借力 AI 之前,针对 K8s 复杂体系的运维痛点我们已有了一些沉淀。阿里云容器服务现有的强大的可观测体系为广大用户提供了全方位的运维支持,包括提供容器场景上下层全面覆盖的数据、经过专业团队经验沉淀的预制监控大盘、默认报警规则等,为集群稳定性、超大流量系统性能提供保障,同时覆盖日常的异常问题诊断等,解决各大业务场景的实际运维挑战。
但是,可观测能力虽强大到能做到凡是遇到异常问题都能提供数据支撑,多年来异常排查链路过于冗长的问题以及相关专业知识学习门槛过高的问题仍然没有得到妥善解决。下图展示了一次典型的 K8s 上应用异常恢复的过程:
由此可见,虽说可观测体系提供了非常全面的数据支持,但还是需要用户配置上合适的“关键”报警规则、找到对应的监控大盘、看懂监控大盘中的关键指标以及当前的 K8s 异常事件才能完成“发现异常问题”这一关键运维步骤,然后再根据从监控信息获取的异常根因定论,结合自身使用 K8s 的经验找出对应问题的 SOP 解决方案,最终才能彻底解决问题。不管是面对日常运维还是处理紧急线上异常都是如此。通过可观测体系从发现异常到定位问题再到解决问题,整个过程几乎每个环节都需要有 K8s 观测、运维经验的人员参与。并且当前的运维观测体系散落在各个业务的角落,可谓是进一步增加了用户集中定位问题的时间精力成本。因而,一个完整问题的解决的 MTTR(平均故障解决时间)往往非常冗长,这无疑增加了用户造成业务影响甚至资损的风险。
我们再来看看 AI 助手是如何协助用户解决问题的。如下是 AI 助手“智能诊断”一个异常应用的路径:

可见阿里云容器服务 AI 助手只需要点击发起异常诊断,即可获得异常根因结论。AI 助手会自动查询相关实体的异常观测数据,如应用的状态、指标、事件等,结合专家诊断经验与 LLM 判断力快速给出问题结论和分析过程,以及最后会给出该问题的 SOP 解决方案。MTTR 缩短为一步,真正做到在 1 分钟内发现问题、5 分钟内定位问题并给出解决方案、最终让异常问题在 10 分钟内解决并闭环。


阿里云容器服务

AI 助手:新一代容器智能运维能力

Cloud Native

阿里云容器服务 AI 助手是我们容器服务团队于 2023 年推出的一款容器智能运维产品,旨在精准高效地帮助用户解决 K8s 使用和运维相关的问题。经过我们的不懈努力与迭代,最新的 ACK AI 助手 2.0 版在问题诊出率(是否针对问题给出正确的结论)和问题采纳率(AI 助手给出的答案是否被用户采纳)两大关键指标上已取得重大突破,诊断成功率超过 80%,根因定位率达到 70% 以上;应答文档采纳率超过 50%,内容采纳率超过 40%。接下来我们将详细介绍 ACK AI 助手的能力及其为用户带来的便利。

AI 助手 1.0

在 2023 年我们正式上线了 AI 助手 1.0 版本,主要提供了智能快速诊断和智能问答两大能力,以下我们对其能力和交互做些简要的回顾:

智能快速诊断

在智能快速诊断的场景下,ACK AI 助手能够通过 ACK 可观测体系自动获取 ACK 集群上的异常监控状态,并结合 K8s 的拓扑结构快速下钻浅析问题根因,同时融入阿里云容器服务 ACK 团队多年沉淀的 K8s 异常诊断、故障恢复的经验,结合 ACK 已有的专业故障诊断系统(专家系统)的沉淀迅速给出较为准确的诊断结论。(参考:https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/pod-troubleshooting-1)
下图展示了一个 Pod 在尝试拉取镜像时失败导致 Deployment 出现异常的场景,ACK AI 助手可以通过控制台 Deployment / Pod 列表“状态”一栏的“智能诊断”按钮直接唤起,并快速对当前异常进行诊断同时给出修复建议:
在主要 Kubernetes 实体对应列表页的异常状态下均可找到 AI 助手入口,方便用户在需要时随时快捷唤起并发起诊断。

智能问答

为了能够让用户尤其是小白用户快速了解容器领域的专业知识,降低学习成本,ACK AI 助手的智能问答功能可随时随地通过右下角的 icon 图标唤起,在这里用户可向其咨询任何与 K8s 和 ACK 产品相关的问题,我们参考阿里云卓越架构(参考:https://help.aliyun.com/document_detail/2362204.html),针对稳定性、安全性、成本优化、高可用、高性能这五个维度,同时结合我们的可观测数据及容器服务 ACK 团队多年来的运维经验、Multi-Agent RAG 增强 LLM 训练,旨在令 AI 助手更加直接更大程度地解决对应 K8s 领域问题:

AI 助手 2.0

经过一年的迭代,ACK AI 助手已实现了功能上的全面升级。2024 年的云栖大会上,我们推出了 ACK AI 助手 2.0 版,与我们现有的观测、诊断、安全性建设相关业务深度结合,旨在于更高维度更大范围为 K8s 用户保驾护航:
AI 助手 2.0 所提供的能力主要覆盖这几个方面:集群构建(集群规划、辅助生成)、集群运维(智能诊断、智能体检)、集群优化(集群与应用优化、成本优化)、集群安全(集群安全分析、应用安全分析),覆盖从 Day 0 规划与设计Day 1 部署与初始配置再到 Day 2 持续维护与优化整个生命周期的运维管理(lifecycle 定义参考:https://codilime.com/blog/day-0-day-1-day-2-the-software-lifecycle-in-the-cloud-age/)。
以下我们将按照从 Day 0 到 Day 2 的顺序向各位直观展示增强版 AI 助手如何在运维全生命周期中为用户提供支持。

Day 0 - 规划与设计

对于使用控制台创建集群的用户,AI 助手会在其进入创建确认页时自动被唤起,并基于 ACK 专家的相关经验快速对即将被创建的集群的配置进行快速分析,从稳定性、安全性、性能和网络等多个维度提供优化建议:
除此之外,我们在创建集群页提供了划词咨询功能,用户可以通过此途径便捷地唤起 AI 助手对选中字段进行解释,从而扫除知识盲点造成的障碍:

非控制台用户同样能受益于 AI 助手,它可以辅助生成包括 Terraform 等在内的基础设施即代码(IaC),大大简化集群资源配置的编排过程:
AI 助手专家般的辅助支持使得集群部署的效率显著提升,用户不必再过度聚焦繁琐的配置细节,而是可以更关注自身业务的发展。

Day 1 - 部署与初始化配置

创建集群后,许多应用需要通过编写 YAML 来部署,而编写出生产可用的 YAML 定义显然对于未深入了解 K8s 的用户而言确实有一定难度。针对这一点,AI 助手提供了两大相关核心能力:YAML 生成和 YAML 优化,二者均可在控制台 YAML 创建页通过对应按钮唤起:
对于 YAML 生成功能,AI 助手可以从零创建 YAML 文件,或在现有的 Deployment、StatefulSet 等基础上快速生成所需 Service、VPA 等配置。这一功能能够帮助用户高效创建符合生产标准的资源定义;YAML 优化功能则是针对用户已存在的 YAML 文件提供优化建议,包括资源限制、健康检查、自动扩缩容等最佳实践的融合,确保配置的最佳实践得以应用:
AI 助手的这两大功能可以帮助用户迅速掌握 K8s 应用部署的技巧,使之能够“站在巨人的肩膀上”迅速迈出生产环境部署的第一步。

Day 2 - 持续维护与优化

随着集群上业务规模的增长,越来越多的难题浮出水面。首先是针对一些偶发的集群异常和故障,我们缺乏降低风险的长效机制,相关处理速度也有待提高。除此之外,集群维度的安全风险状态也是用户高度关注的一大问题。而伴随着业务的扩张,成本管理也变得愈发重要。
为了满足客户在稳定性、安全性和成本这三个关键领域的需求,AI 助手提供了针对性的功能支持。
稳定性

① 集群智能体检

为了提升集群的稳定性,AI 助手提供了智能体检功能,用户可以通过控制台上的“AI 智能体检”按钮直接唤起,体检程序将从稳定性、安全性和成本等方面自动分析并生成全面的集群风险分析报告,比如组件版本是否需要升级、配额是否充足、资源使用情况是否存在风险等重要信息等。要实现集群体检能力,ACK 进行了大量的数据采集与分析。数据源包括可观测性数据、FinOps 与安全套件、集群巡检等,结合 ACK 的 20 多个领域检查项,运用增强型大模型进行深入分析。用户只需简单点击控制台上的智能体检按钮,即可快速启动体检程序,系统将自动生成全面的集群风险分析报告。接下来我们看一个实际的例子:
通过 AI 助手的集群一键体检能力,在稳定性上诊断出集群具有 CoreDNS 的单点故障风险,即 CoreDNS 多个副本部署在同一个节点上。CoreDNS 作为 K8s 集群 DNS 解析的重要组件,如果节点宕机不可用,会影响整个集群的 DNS 服务,而 AI 助手成功的为我们发现了这一稳定性风险:
智能体检功能能够让用户在问题发生前,提前识别出潜在风险并进行处理,从而维护集群的稳定,从源头预防重大故障的发生。

② 智能诊断

在 AI 助手 1.0 中我们提供了 Deployment、Pod、Event、Node 等 K8s 实体的智能诊断,AI 助手 2.0 对诊断的场景做了更加全面的覆盖,主要有几个:
  • API 调用诊断:控制台调用云产品 API 如果发生错误,会有弹窗提示,对此 AI 助手提供了针对相关错误的诊断能力并在错误弹窗上提供入口,告知用户问题产生的原因以及对应优化的建议。

  • 集群日志分析:对于集群存在异常的日志,AI 助手提供了对日志进行一键分析的能力。

  • 管控任务的诊断:ACK 目前提供的运维操作更多的是基于任务维度的,因此我们也针对失败的任务提供了智能诊断的相关能力。

  • 集群报警诊断:结合用户收到告警后会前往告警历史列表查看的使用习惯,我们在告警页面提供了相应的智能诊断入口。

  • 组件诊断:对于安装、升级、变配失败的组件,我们同样提供了智能诊断能力及入口。
以上所有智能诊断相关能力都在控制台上通过显眼的按钮透出,用户能够通过其一键唤起 AI 助手进行诊断,从而大大减少定位、排查、解决集群问题的时间。
安全性
针对安全性这一领域,AI 助手 2.0 提供了智能安全分析能力,旨在基于容器服务的安全能力,并结合专家知识、容器领域大模型,将集群安全风险快速透出。

智能安全分析包含以下几个方面:容器镜像安全扫描、安全策略辅助配置、集群节点 CVE 检查、工作负载配置风险扫描、集群运行时风险监控。
下图展示了 CVE 漏洞解读与安全策略生成相关功能:


AI 助手通过大模型驱动的安全分析,为客户提供详尽的自然语言安全报告,同时提供一键跳转的解决方案,帮助客户快速发现集群安全风险并快速实施修复操作。

成本
节约成本是用户选择业务上云和使用 K8s 的主要目的之一。随着业务的扩张,帮助用户节约成本是我们的责任。针对这一点,我们提供了应用和集群的双重成本智能分析优化能力,包括以下两个方面:
  • 资源配置优化:通过集成资源画像功能,帮助用户找到更合适的资源请求(request)和限制(limit)配置,以实现更合理的资源分配策略。

  • 闲置资源检测:检查包括 ECS、SLB 和 EIP 在内的各种资源的占用情况,分析后提供闲置资源清单,以帮助用户减少不必要的开支。

借助 AI 助手,客户能够快速识别并解决成本浪费问题,提升整体运营效率。

展望




Cloud Native

ACK AI 助手是我们阿里云容器服务团队进行的一次尝试,虽说当前还并未达到我们最满意的终态,但在我们的不懈努力下,AI 助手 2.0 版本已能提供相当自然流畅的人机对话机制,即便是初涉该领域的小白用户甚至是非技术人员,都能够轻松与之进行交流并获取有用信息或者针对特定任务的指导。这不仅降低了使用 K8s 的门槛,更是极大程度地提升了用户体验。

当下我们正在加强对于监控数据的处理,旨在追随并借助先进的机器学习算法和深度神经网络模型,从而实现 AI 助手对海量日志及指标信息的实时分析,使之能够自动识别潜在问题并预测可能出现的风险点,它不仅能够快速定位异常模式,还能够深入挖掘背后的原因,为用户提供全面而精准的数据洞察。我们也会持续沉淀和优化背后的知识库,旨在让 AI 助手面对新型挑战时作出更为准确合理的判断。
将“从发现问题到解决问题”这一整个流程平滑无缝地衔接是我们持续研究的重点,旨在让 AI 助手在检测到异常后,立即启动根因分析程序,并根据预设规则或者历史案例推荐最合适的解决策略。对于简单且常见的故障类型,AI 助手可以完全自动化地执行修复操作;而对于复杂度较高的或者必须要人为介入决策的情形则会提供详尽的操作指南和支持工具,协助用户高效完成运维工作。这种端到端的服务模式不仅能大大缩短故障恢复时间,也大大降低了工作负担和人工成本。
ACK AI 助手作为国内首家推出云原生容器场景的原生 AI 产品功能,于 2023 年云栖大会被推出并宣发,其 2.0 版本已于 2024 年 11 月发布上线并全面对外开放。我们诚邀大家一起来体验 AI 助手,感受其带来的便利,同时也敬请期待 ACK AI 助手后续的产品能力迭代演进与发展。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅