微信扫码
添加专属顾问
我要投稿
探索AI Gateway新特性与Gateway API增强,了解如何优化AI推理流量调度与集群安全。 核心内容: 1. AI Gateway新增vLLM透传与上下文限制插件,强化安全与兼容性 2. Gateway API实现多网关隔离与版本兼容,提升路由稳定性 3. Ingress迁移优化与安全加固,减少对现有集群资源的改动
💡 目录 💡
01 AI Gateway:自建模型、长上下文与安全拦截
02 Gateway API:多网关隔离与版本兼容
03 Gateway API 推理扩展:让 AI 推理流量获得更合理的调度
04 Ingress 迁移:尽量减少对既有集群资源的改动
05 安全与稳定性
06 Console:配置增多后的操作体验优化
07 CNCF Sandbox 入驻完成
08 谁应该升级?
09 贡献者
Higress 近期发布了 v2.2.3 版本,主仓库共 48 项更新、Higress Console 8 项更新。核心变化包括:
ai-context-limit 上下文限制插件,增强 AI 安全防护与负载均衡,并修复一批多厂商协议兼容问题。jwt-auth 支持 remote JWKS,并加固 OIDC、TLS 校验、限流与 WASM/MCP 运行时。此外,社区层面 Higress 已正式完成 CNCF Sandbox 入驻。下面按主题展开。
01
过去几个版本里,Higress 的 AI Gateway 能力一直围绕一个方向演进:让不同模型服务尽量通过统一入口接入,同时少让业务应用自己处理协议差异。v2.2.3 继续在这条线上做了增补,并修掉了一批协议兼容上的小毛病。
新增与增强
ai-context-limit WASM 插件(#4000),可以在网关层提前判断请求是否超过模型上下文限制,省去等请求打到模型服务才失败的浪费。长文档问答、RAG、多轮对话、代码分析这类场景会比较实用。ai-security-guard 增加结构化拒绝响应、错误路径指标和 AI 日志(#3894),并支持 Embedding API 内容检测(#3895)。安全插件在拦截之后还能把原因说清楚,方便业务侧展示提示、做审计、接告警。ai-load-balancer 新增基于一致性哈希的 cluster_hash 策略(#3898);model-router 支持保留完整原始模型名(#3916)。问题修复
thoughtSignature、完善 Claude stream delta 中的 tool call type(#3973、#3985、#3990)。ai-cache 在 SSE 流式响应首个 chunk 只有 role 时的兼容问题(#3962,修复 #3953)。02
Gateway API 正在成为 Kubernetes 入口流量管理的重要标准。它比传统 Ingress 拆得更细:GatewayClass 负责说明谁来管网关,Gateway 负责网关实例,HTTPRoute 等资源负责路由规则。拆得更清楚之后,多团队、多网关、多协议的边界也更容易表达;但标准持续演进,生产环境里也会随之冒出一些现实问题。
新增与增强
问题修复
03
普通 Web 服务做负载均衡,常见依据是权重、连接数、健康状态。AI 推理流量会更复杂一些:不同请求可能命中不同模型,不同副本的 GPU 负载不同,队列长度不同,缓存命中情况也不同。Gateway API Inference Extension 想解决的就是这类问题:让网关在转发 AI 推理请求时,可以结合推理后端的状态做更合适的调度。
本次版本修复了 InferencePool 路由配置在 HTTPRoute 合并时可能丢失的问题(#3964)。当多个推理路由挂在同一个网关和域名下时,Higress 需要正确保留每条路由对应的推理调度配置,不能在合并过程中退回普通负载均衡。
这项能力还在跟随 Gateway API Inference Extension 持续演进,但它代表了 AI Gateway 的一个重要方向:网关不再只是入口,也会逐步参与推理流量调度。
04
Gateway API 是未来方向,但 Ingress 仍然是大量线上系统的现实入口。尤其是 Ingress NGINX,很多团队已经用了很多年,配置、发布系统、告警、DNS 自动化都围着它跑。所以从 Ingress NGINX 迁移到 Higress 时,用户最关心的往往不是新网关能不能写一套全新配置,而是已有配置能不能少改一点、现有平台边界能不能不被打乱。继 v2.2.2 的 nginx-rewrite-compatible 插件之后,v2.2.3 继续在迁移和安装细节上做补强。
新增与增强
问题修复
imagePullPolicy 从 PodSpec 调整到容器级别(#3924),并补齐 controller 和 promtail sidecar 的镜像拉取策略(#4002);plugin-server 镜像 tag 默认跟随 Chart 版本(#3998)。这些都算不上亮眼的功能,但迁移真正落地时,往往正是这些小地方决定了你要不要回滚。
05
网关在入口位置,安全默认值不能含糊。这一节大多是修复和加固,但每一项都直接关系到线上的可靠性。
新增与增强
jwt-auth 支持 remote JWKS(#3838),便于把认证公钥集中管理,后续密钥轮转也更方便。问题修复与加固
oauth2-proxy 修复 verifier callback 中的 nil panic(#3914),修复 Session 刷新时 Set-Cookie 被损坏的问题(#3928),并在 verifier 不可用时 fail closed(#4013)。最后一项尤其重要:认证组件异常时,受保护路由应该明确失败,而不是悄悄放行。06
Higress Console v2.2.3 包含 8 项更新,主要集中在 MCP、LLM provider 配置和路由操作体验。
新增与增强
问题修复
Console 这些改动的目标很直接:减少配置出错,让页面更易使用。
07
比起上面这些功能细节,这个版本周期里更值得说的,是 Higress 在社区治理上的一步:经 CNCF TOC 投票通过后,Higress 已经正式完成 CNCF Sandbox 入驻(cncf/sandbox#481)。
入驻不是一句口号,而是一份需要逐项落实的清单。围绕这份清单,Higress 在这段时间里完成了几类工作:
对正在选型或已经在用 Higress 的团队来说,这些事不像功能那样直接可感,但它们回答的是另一个更要紧的问题:当你把生产流量交给一个开源网关,它背后的项目,是否在被认真、长期、透明地维护。完成 Sandbox 入驻,意味着 Higress 的治理、合规与社区运作被纳入了 CNCF 的公共框架,而不只是依赖某一家公司或某几个人。
接下来,Higress 也会朝 Incubation 阶段继续准备。目前在活跃贡献者、社区关注度和 PR 活跃度上已经有了不错的基础,后续会把更多精力放在治理流程、安全治理,以及贡献者和采用方来源的多元化上。
如果你已经在生产或重要测试环境中使用 Higress,欢迎提供采用案例;如果你愿意参与 CNCF 采用方访谈,也欢迎主动联系 Higress maintainer。
08
如果你符合下面这些场景,建议关注 v2.2.3:
升级方式:
helm repo update
helm upgrade higress higress.io/higress --version 2.2.3
如果你正在使用 Gateway API、Ingress 迁移相关配置、AI Gateway 插件或自定义 Helm 参数,建议先在测试环境渲染并对比安装结果:
helm template higress higress.io/higress --version 2.2.3 > higress-2.2.3.yaml
09
本次发布共有 18 位贡献者参与,其中 10 位是首次贡献:
首次贡献:
@GHX5T-SOL·@FAUST-BENCHOU · @ponypony0123 · @XinhhD · @geekspeng · @philo-x · @yyyCode · @zijiren233 · @enkilee · @Rand01ph
持续贡献:
@Betula-L · @JianweiWang · @zat366 · @EndlessSeeker · @Jing-ze · @CH3CHO · @johnlanni · @JayLi52
每一个 PR 背后都是真实的使用场景和真实的问题。感谢每一位让 Higress 继续向前的贡献者。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-26
我把自己的知识库系统开源了
2026-06-26
近 8 千 Star!一次性干翻整本 PDF,百度这个 OCR 让文档解析彻底变了天
2026-06-25
谷歌开源 agents-cli:让 AI 助手帮你完成企业级 Agent 从搭建到部署全流程!
2026-06-25
官宣|我们推出了开源版Claude Tag,以及它背后记忆与工具引擎 MFS
2026-06-24
Nathan Lambert:GLM-5.2是开源Agent重大突破,连锁反应将渗透进更广泛的经济体
2026-06-23
百度开源 Unlimited OCR:让长文档解析一次完成
2026-06-23
我把自己的需求到交付 Skills 开源了:Analysis to Delivery
2026-06-23
腾讯开源WeKnora知识库部署实战(含踩坑排查)
2026-03-30
2026-04-09
2026-04-03
2026-04-01
2026-03-31
2026-03-30
2026-04-18
2026-04-18
2026-03-31
2026-04-02
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01