2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

AI 网关需要具备的10大基本能力

发布日期:2025-02-17 19:39:53 浏览次数: 2314
作者:Higress

微信搜一搜,关注“Higress”

推荐语

AI网关在企业数字化转型中的关键角色和核心能力解析。

核心内容:
1. AI网关与API网关的关系和区别
2. API网关在研发、供应和消费三大场景下的能力要求
3. API安全、可用性和高效性的重要性及实现方法

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大模型主战场从训练转向推理,已经成为业内共识。越来越多的公司已经开始设计满足企业内部需求和外部商业方向的大模型应用,并在生产环境中进行部署。这个过程中,我们遇到了一系列新的需求。


这些需求与最初的大模型应用在 “概念验证阶段” 有所不同,更多地源于对规模化和安全使用,其中,AI 网关成为被讨论较多的 AI 基础设施关键组件之一。

我们认为 AI 网关并不是独立于 API 网关的新形态,本质也是一种 API 网关,区别在于针对 AI 场景的新需求专门做了扩展,它既是 API 网关的继承,也是 API 网关的演进。因此我们从 API 视角,对 AI 网关的能力做了分类,便于形成概念的共识。


01

API 网关的继承


由于围绕 API 提供的网关能力繁多,涉及的角色众多,我们将所有能力基于使用方进行分类,包括研发、供应和消费三类场景,分别对应 API 接口的研发团队、API 平台的研发和运维团队、API 平台的外部调用方。



API 研发场景

API First 是先定义好 API 规范,再 code。不同于不定义 API,直接 coding,API First 强调的是在构建应用程序之前优先设计和开发 API 接口,将 API 视为系统的核心架构组件,通过定义良好的接口规范实现模块化。例如公共云的云产品都提供了 API 的调用方式,微信小程序、钉钉开放平台也面向开发者提供了 API 接口,类似乐高积木的模块化系统,通过标准接口实现服务间的灵活组合,提升系统的可扩展性和维护性,从而提升生态效率。

API 供应场景

API 供应场景指 API 提供方(如企业、平台或服务)通过标准化接口对外暴露数据或功能的过程。其核心是创建、管理和维护 API,确保其可用性、安全性和高效性。核心能力包括:


  • API 安全:保护 API 免受各种安全威胁,确保只有经过授权的用户、应用程序能够访问 API,并保障数据在传输和存储过程中的保密性、完整性和可用性。例如身份验证、授权管理、数据加解密、防攻击机制。


  • 灰度:是一种在生产环境中逐步引入新 API 版本或功能的策略,允许将一部分用户或请求流量导向新版本的 API,同时将其余部分仍保持在旧版本上,从而在不影响整体系统稳定性和用户体验的前提下,对新 API 进行测试和验证。


  • 缓存:指将 API 的响应结果临时存储在缓存服务器中,当有相同的请求再次到来时,直接从缓存中获取响应结果,而无需再次访问后端服务器,从而提高 API 的响应速度和系统的性能。


    API 消费场景

    API 消费场景指调用方(如应用、开发者)通过集成外部 API 快速实现功能或获取数据的过程。其核心是使用平台方提供的能力或数据,实现业务需求。


    • 调用审计:对 API 的调用活动进行全面记录、监控和分析的过程。它会详细记录每一次 API 调用的相关信息,包括调用时间、调用方身份、调用的 API 接口、请求参数、响应结果、响应时间等。


    • 调用方配额限速:指 API 网关根据预先设定的规则,对每个调用方(如用户、应用程序、IP 地址等)在一定时间内对 API 的调用次数、流量大小或资源使用量进行限制的机制。


    • 后端保护式限流:对 API 的访问流量进行管理和控制,确保 API 能够稳定、高效地运行,避免因流量过大或异常流量导致的系统崩溃和性能下降,包括负载均衡、限流、降级、熔断等能力。


    02

    API 网关的演进


    在大模型场景下,大模型通过 API 对外提供服务,因此研发场景、供应场景、消费场景都出现了更加丰富的诉求。



    大模型 API 研发场景

    API First 或者 API 是一等公民不再是一种口号,而是逐步成为实实在在的应用开发规范。Agent 的开发和运行,要调用 API,Agent 通过开放平台形式提供对外服务,也要提供 API。API 网关可以覆盖 API 的设计、开发、测试、发布、售卖、运维监测、安全管控、下线等各个生命周期阶段,企业的诉求将更为强烈。基于 API 网关,还可以提供多个插件能力,提升 Agent 开发效率,例如 AI 提示词模版[1]API AI Agent[2]Json 格式化[3],用于根据默认或用户配置的 Json Schema 对 AI 的响应进行结构化等等。


    大模型 API 供应场景

    • 多模型灵活切换&兜底重试:大模型应用后端对接多个大模型,已经成为应用的标配,一是供用户选择使用哪一个后端模型,二是应用出现故障或容量限制时的 faalback 机制。[4]

    • 内容安全和合规:通过内容安全插件,过滤掉有害或不适当的内容,检测和阻止包含敏感数据的请求,并对 AI 生成内容进行质量和合规性审核。[5]

    • 语义化缓存:大模型 API 服务定价分为每百万输入 tokens X 元(缓存命中)/ Y 元(缓存未命中),X 远低于 Y,以通义系列为例,X 仅为 Y 的40%,通过在内存数据库中缓存 LLM 响应,并以网关插件的形式来改善推理的延迟和成本。在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。[6]

    • 多 API Key 均衡:API Key 是用于识别和验证调用方身份以及控制其对 API 访问权限的密钥。多 API Key 均衡就是当存在多个 API Key 时,API 网关通过一定的策略将 API 请求均匀地或根据特定规则分配到这些 API Key 上进行处理。


    大模型 API 消费场景

    • Token 配额管理和限流:“令牌”(Token)是大模型应用的常见衡量单位,准确地量化了大模型应用处理的数据量,和传统网关管理服务的访问量一样,AI 网关也需要具备对 Token 的管理能力,包括对使用量的观测,并提供限流功能,以及面向调用租户配置精确的调用额度限制。[7][8]

    • 流量灰度:基模和大模型应用都在持续改善内容生成质量,使得大模型应用的变更频率保持在一个较高的 level,将会高度依赖 A/B 测试和服务灰度能力来进行模型迭代。作为流量入口,AI 网关需要在流量灰度和观测方面发挥关键作用,包括灰度打标以及入口流量延时和成功率等指标的监测。

    • 调用成本审计:大模型调用所消耗的计算资源远高于 Web 应用请求所消耗的计算资源,因此对调用成本的控制需求更加刚需。这里的调用既包括直接的经济成本,例如使用第三方 API 服务时需支付的费用,或者因 API 调用消耗企业内部计算资源(如服务器、存储、带宽等)而产生的成本;也包括间接成本,例如因 API 调用错误导致的资源成本等。


    03

    为什么要在网关上,而非大模型服务层实现这些能力


    架构设计与解耦

    • 功能分离:网关和大模型服务层承担着不同的核心功能。大模型服务层专注于执行复杂的计算任务,如自然语言处理、图像识别等,为用户提供智能响应。而 API 网关的主要功能是管理 API 的访问,包括安全认证、流量控制、协议转换等。将 API 网关的能力放在网关上实现,能够实现功能的清晰分离,使各个组件的职责更加明确,便于系统的开发、维护和扩展。

    • 解耦系统:如果在大模型服务层实现 API 网关的功能,会导致大模型服务与 API 管理功能紧密耦合。当需要对 API 管理策略进行调整(如更改安全认证方式、调整流量限制规则)时,可能会影响到大模型服务的稳定性和性能。而在网关上实现 API 网关能力,可以将大模型服务与 API 管理解耦,使两者可以独立发展和升级,降低系统的复杂度和维护成本。


    性能优化
    • 减少大模型负载:大模型通常需要大量的计算资源和内存来运行,处理复杂的推理任务已经消耗了大量的系统资源。如果再在大模型服务层实现 API 网关的功能,如身份验证、限流、缓存等,会进一步增加大模型的负载,影响其处理速度和响应时间。而将这些功能放在网关上实现,可以在请求到达大模型服务层之前对其进行预处理和过滤,减少不必要的请求进入大模型服务层,从而提高大模型的性能和效率。

    • 提高并发处理能力:网关可以通过负载均衡等技术,将大量的 API 请求均匀地分配到多个大模型服务实例上,提高系统的并发处理能力。如果在大模型服务层实现 API 网关功能,每个大模型服务实例都需要独立处理 API 管理任务,这会限制系统的并发处理能力。而网关可以集中处理这些任务,更好地应对高并发场景。 


    安全保障
    • 统一安全防护:网关作为系统的入口,可以对所有进入系统的 API 请求进行全面的安全检查,形成一道统一的安全防线。在网关上实现身份验证、授权、防攻击等安全功能,可以有效阻止恶意请求进入大模型服务层,保护大模型和相关数据的安全。如果在大模型服务层实现安全功能,可能会因为大模型服务的分散性而导致安全防护存在漏洞。

    • 数据保护:网关可以对 API 请求和响应的数据进行加密、脱敏等处理,确保数据在传输和存储过程中的安全性。在大模型服务层处理这些数据保护任务可能会增加大模型的复杂性和计算负担。而在网关上统一处理,可以更好地保护用户的敏感信息,同时避免大模型直接接触敏感数据带来的安全风险。


    可扩展性与灵活性
    • 方便新功能集成:随着业务的发展,可能需要为 API 管理添加新的功能,如支持新的安全认证协议、引入新的流量控制算法等。在网关上实现 API 网关能力,更容易集成这些新功能,而无需对大模型服务层进行大规模的修改。这样可以快速响应业务需求的变化,提高系统的扩展性。

    • 支持多模型接入:在实际应用中,可能会同时使用多个不同的大模型服务。网关可以作为统一的接入点,为不同的大模型服务提供相同的 API 管理服务,方便对多个大模型进行管理和调度。如果在每个大模型服务层分别实现 API 网关功能,会增加系统的复杂性和管理难度。


    可观测性与监控

    • 集中监控与分析:网关可以对所有 API 请求进行集中监控和分析,收集各种指标数据,如请求响应时间、调用频率、错误率等。通过对这些数据的分析,可以及时发现系统中存在的问题,如性能瓶颈、安全漏洞等,并采取相应的措施进行优化和修复。如果在大模型服务层实现监控功能,将难以对整个系统的 API 调用情况进行全面的了解和分析。

    • 故障排查与定位:当出现 API 调用故障时,在网关上可以更容易地进行故障排查和定位。网关可以记录每个 API 请求的详细信息,包括请求的来源、请求参数、响应结果等,通过分析这些信息可以快速确定故障的原因和位置,减少故障修复的时间和成本。

    04

    AI 网关未来的演进方向


    得益于 Wasm 插件的动态扩展能力,Higress 在 AI 时代快速演进并发展 AI 时代的能力。本文提到的大模型 API 管理底层能力,均已经在开源 Higress 和阿里云云原生 API 网关上线:

    Higress 开源控制台



    阿里云云原生 API 网关控制台


    同时,在阿里云云原生 API 网关上我们提供了 AI API 管理能力,可以更便捷更高效地管理 AI 时代的 API:


    创建 AI API 选项

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询

    扫码登录
    登录即表示您同意《53AI网站服务协议》
    服务协议

    欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

    在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

    一、 定义

    本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

    会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

    知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

    二、 账号注册与登录

    登录方式:本网站支持以下登录方式,您可根据实际情况选择:

    微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

    手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

    账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

    实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

    未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

    三、 服务内容与规范

    知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

    服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

    禁止行为:您在使用服务时不得实施以下行为:

    利用技术手段批量爬取、下载、转存知识库内容;

    将知识库内容用于商业目的或未经授权地向第三方传播;

    干扰本网站正常运行或侵犯其他用户合法权益;

    发布违法违规信息或从事违反公序良俗的活动。

    四、 知识产权声明

    权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

    有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

    侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

    五、 个人信息保护

    我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

    您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

    您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

    六、 免责声明

    内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

    不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

    第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

    七、 违约责任

    如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

    如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

    八、 法律适用与争议解决

    本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

    因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

    九、 其他

    本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

    本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

    我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


    已查阅