微信扫码
添加专属顾问
我要投稿
探索 Kubernetes 如何成为 AI Agent 的理想运行平台,从云原生视角解析 AI 原生基础设施的构建之道。核心内容: 1. AI Agent 与传统微服务在基础设施需求上的本质差异 2. Kubernetes 作为 AI Agent 运行平台的三大关键挑战 3. 构建生产级 AI Agent 架构的三层核心能力
欢迎关注「几米宋」的个人微信公众号,我主要关注 AI Native 基础设施方向,研究和实践 Agentic Runtime、Kubernetes 调度与 AI 推理系统的工程化问题。本文首发于 jimmysong.io。
📄 文章摘要
从云原生演进视角出发,系统阐述为什么 AI Agent 需要 Kubernetes 级别的基础设施,以及如何通过 Agent 编排、MCP 服务化与 AI 原生网关,构建真正生产级的 AI 原生架构。
作为一个长期在云原生领域工作的实践者,我越来越确信一件事:AI Agent 不只是一个应用形态的变化,而是基础设施范式的迁移。
随着人工智能从 Demo、Copilot 逐步走向真正承担任务与责任的系统,AI Agent(智能体) 正在成为企业 IT 架构中的新执行单元。它们不仅“会思考”,还会行动:能够调用工具、访问系统、协作完成目标。
那么,问题随之而来:
这样的系统,应该运行在什么样的基础设施之上?
在我看来,Kubernetes 依然是一个应对大规模场景的好选择,但前提是:我们必须用 AI 原生(AI-Native)的方式,重新理解 Kubernetes。
在真实生产环境中,AI Agent 暴露出与传统微服务完全不同的基础设施需求。Agent 并不是“另一个 HTTP 服务”,它们具有三个显著特征:
• 行为是非确定性的(由模型推理驱动)
• 执行路径是动态的(工具调用不可预先穷举)
• 决策需要被审计、约束和复盘
如果直接套用现有云原生基础设施,会迅速遇到瓶颈。
下面的表格总结了 AI Agent 在云原生环境下的主要挑战与风险:
| 策略与安全 | ||
| 可观测性 | ||
| 治理与一致性 |
这些问题,本质上都指向一个结论:
AI Agent 需要被视为 Kubernetes 的一等公民,而不是普通工作负载。
回顾云原生(Cloud Native)技术的演进路径,我们已经走过类似的阶段:
• 物理机 → 虚拟机
• 虚拟机 → 容器
• 容器 → 微服务
• 微服务 → 声明式、可治理的平台
AI Agent 只是下一步。
一个面向生产环境的 AI Agent 架构,至少需要三层能力:
1. Agent 编排层:声明式定义 Agent
2. 工具服务化层(MCP Services):把能力变成可治理的服务
3. AI 原生数据平面 / 网关:统一策略、安全与协议
Agent 不应再是某个 SDK 里的“运行时对象”,而应像 Pod、Deployment 一样被管理。
关键思想如下:
• Agent 使用 CRD(CustomResourceDefinition, 自定义资源定义) 进行定义
• 可通过 kubectl 或 GitOps 管理生命周期
• Agent 的模型、工具、策略全部显式声明
一个典型 Agent 定义包含以下内容:
• Agent 逻辑(推理循环)
• 模型配置(指定使用哪个大语言模型)
• 可调用工具集
这与我们当年把“应用”拆解为 Deployment、Service、ConfigMap 的过程高度一致。
在 Agent 架构中,工具(Tools) 是真正产生“行动”的地方。
早期 MCP 工具往往是:
• 本地进程
• 与单个 Agent 紧耦合
• 缺乏版本、权限、审计能力
这在企业环境中难以持续。
• 工具 → 远程服务
• 服务 → Kubernetes 原生工作负载
• 能力 → 可复用、可治理、可审计
这一步,和当年把脚本变成微服务的过程本质类似。
当 Agent 数量增加、工具和模型多样化之后,连接本身就成为系统风险。
传统 API Gateway 并不理解以下场景:
• MCP
• Agent-to-Agent(A2A, Agent 间通信)
• 模型调用上下文
因此需要一个AI 原生网关,专门处理中介与治理问题。
它至少要理解三类流量:
• A2T:Agent → Tool
• A2L:Agent → LLM
• A2A:Agent ↔ Agent
并在这些路径上统一执行:
• 身份与授权
• 策略与护栏
• 审计与限流
下方的架构图展示了 AI 原生系统在 Kubernetes 上的核心分层与流量路径:
AI 原生架构分层与流量路径
AI Agent 并没有否定云原生,相反:
AI Agent 是云原生在智能时代的自然延伸。
• 声明式 → Agent 定义
• Service → MCP Services
• Service Mesh → AI 原生网关
如果说 Kubernetes 是“自动化工厂”,那么 AI Agent 就是真正开始动手干活的智能工人。
而 AI 原生网关,正是那套为智能工人量身定制的安全与治理体系。
这不是一个可选架构,而是AI 走向生产的必经之路。
下面再给大家推荐一个这周六在北京举办的活动,HAMi 联合密瓜智能,并邀请 CNCF、海光信息、清程极智、贝壳找房、第四范式、睿思智联这些一线团队,分享算力调度在真实业务场景中的实践与思考。
更多精彩内容
🌐 个人网站:jimmysong.io
🎥 Bilibili:space.bilibili.com/31004924
如果这篇文章对你有帮助,欢迎点赞、分享给更多朋友!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-25
2026 年 ChatGPT 要加广告了,最懂你的 AI 都开始出卖你
2025-12-25
凯文·凯利的2049:一份写给中国企业家的未来地图
2025-12-25
全新输入法发布,终于舒服了!
2025-12-25
skill如何实现近乎无限上下文?:《Equipping agents…… with Agent Skills》 ②
2025-12-25
背靠通义大模型,这家阿里系公司正在重写体育场馆新的「定价公式」
2025-12-25
上下文缩减新视角-可逆vs不可逆:Manus联合创始人 Peak Ji最新分享①
2025-12-24
Open WebUI:可能是目前最好用的本地大模型 Web 界面
2025-12-24
Claude Agent Skills 深度解析:原理、工作流与最佳实践
2025-10-26
2025-10-02
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-02
2025-12-25
2025-12-22
2025-12-16
2025-12-15
2025-12-14
2025-12-12
2025-12-12
2025-12-11