免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

AI Agent落地“卡壳”?腾讯云用100毫秒沙箱打通“最后一公里”|甲子光年

发布日期:2025-12-26 14:00:40 浏览次数: 1523
作者:甲子光年

微信搜一搜,关注“甲子光年”

推荐语

腾讯云100毫秒沙箱技术突破,让AI Agent落地不再“卡壳”,解决高并发与安全难题。

核心内容:
1. AI Agent落地面临的三大困境:跑不动、不安全、不兼容
2. 传统云计算架构与Agent特性的代际错配问题分析
3. 腾讯云100毫秒沙箱技术如何打通Agent落地的“最后一公里”

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


2025年,Agent很忙。


上半年忙着比谁的模型更聪明,下半年忙着解决一个更现实的问题:怎么让这些聪明的Agent真正“动起来”?


有些企业满怀期待地引入“数字员工”,希望它们能自动完成数据整理、客户服务、代码编写等重复性工作,然而现实却频频“打脸”:任务执行到一半突然中断,面对突发流量时响应迟缓,算力成本居高不下,甚至因为安全漏洞让企业数据面临风险。


这不是个别现象。据Gartner测算,2028年全球Agent市场规模将达到2850亿美元,届时15%的日常业务决策将由Agent自主完成,33%的企业软件将原生嵌入Agentic AI能力;IDC则指出,2024年中国AI Agent软件市场收入规模首次突破50亿元人民币,预计2028年将跃升至8520亿元人民币,2023~2028年复合年增长率高达72.7%。其中,面向企业端的应用长期占据98%以上份额。


但当这些在Demo中表现惊艳的Agent投入真实的高并发业务环境时,便频频陷入“跑不动、不安全、不兼容”的窘境。


问题的症结在于:传统云计算基础设施与Agent的原生特征之间,存在着代际错配。Agent的高自主性、长会话、突发负载等特点,难以被为传统应用设计的架构所支撑。


于是,行业逐渐形成共识——“Agent跑起来,Infra先铺路。”


Agent Infra,这个从技术后台走向幕前的新赛道,正在成为决定AI Agent规模化落地的关键变量。




1.从AI Infra到Agent Infra:一场范式革命


要理解Agent Infra的价值,需要先看清楚AI应用正在经历的范式转变。


传统AI应用追求的是“确定性”——输入相同的数据,输出相同的结果。


但Agent的出现打破了这一切。它具备不确定性、复杂性和自主性。想象你在使用一个传统的数据分析软件。你输入同一份销售数据,每次都会得到相同的报表,这就是确定性。


但当你换成Agent来做同样的工作,情况就不一样了。今天它可能重点分析地区差异,明天可能关注季节趋势,后天又可能发现价格敏感性。


这种不确定性源于大模型的概率推理机制,让Agent的行为难以精确预测。企业在应用Agent时必须接受这种不确定性,同时通过工程手段将其控制在可接受范围内。


当这个Agent出现错误时,排查就成了一场侦探游戏——是因为你的提问方式(Prompt)有歧义?还是它从历史对话(记忆)中提取了错误信息?抑或是调用的数据源(知识库)本身就有问题?


在传统软件中,你可以单步调试、逐行排查;但在Agent系统中,这些组件像一团乱麻,相互影响又难以拆解。这就是复杂性,它让传统的调试方法失去用武之地。


最让人担心的是自主性。传统软件只会做你让它做的事,但Agent会“自作主张”。它可能自己决定调用某个API、执行某段代码、访问某个网站。


这种能力让它能够处理复杂任务,但也带来了风险:如果它被恶意提示词诱导,可能做出危险操作;如果它对权限边界理解错误,可能越权访问敏感数据。


在传统软件的安全模型中,“自主行动”通常意味着系统被入侵了;但对Agent来说,自主行动恰恰是它的核心价值。如何让这种自主性既强大又安全,是基础设施必须解决的问题。


这三大特征并非孤立存在,它们相互交织,构成了AI Agent范式的核心。不确定性与复杂性是自主性的内在体现,而自主性则将前两者带来的风险具象化。


腾讯云产品团队在思考Agent Infra的演进逻辑时,提出了一个核心观点:云计算的发展史,就是在企业应用架构不断演进的过程中,持续化解“偶然复杂度”的过程。从单体应用时代的IaaS,到微服务时代的容器治理平台,再到大数据时代的一站式数据引擎,每一次技术跃迁都是为了让开发者从基础设施的繁琐中解放出来,专注于业务创新。


云计算发展史,图源:GeeksforGeeks


Agent时代同样如此。当Agent需要执行代码、访问网络、操作数据库时,传统的云基础设施已经无法满足其“高频、轻量、突发、即时响应”的工作模式。


Agent Infra的出现,正是云计算对这一新型工作负载挑战的必然回应。随着AI竞争焦点从模型能力转向基础设施支撑能力,Agent Infra已成为全球云厂商争夺的战略高地。


在国际市场,三大云厂商已展现出鲜明的技术路径和战略侧重。


  • AWS凭借在云计算基础设施领域的深厚积累,于今年7月推出Agent Core预览版,它基于Lambda FaaS深度定制全托管运行时,提供记忆管理、身份验证、代码执行等工具,强调安全、可扩展和多Agent协作。值得注意的是,Agent Core专注于保障Agent运行,而非构建Agent本身。


  • 微软Azure选择了生态协同的差异化路径,在今年5月推出AI Foundry Agent Service,深度集成NVIDIA NIM微服务与AgentIQ工具包,形成从模型优化到Agent调度的全链路能力。依托Functions FaaS的事件驱动架构,它支持1小时长时运行与企业级IAM权限管理。


  • 谷歌GCP则走轻量化与普适性路线,Vertex AI Agent Builder聚焦构建和管理多Agent系统,用低代码降低了Agent开发门槛,让企业无需深厚编程能力即可构建客服、HR问答等场景的智能体。


尽管技术路径各异,但云厂商们都有一个共同的目标:为Agent提供更高弹性、更低延迟、更强安全、更长会话的保障,支撑其真正落地千万级企业场景。




2.沙箱:Agent跑起来的第一道关


在Agent Infra的诸多能力中,沙箱是最关键的一环。它为Agent提供隔离、监控、记录、约束的受控执行环境,是智能体与真实世界之间的安全边界。


但问题在于,传统沙箱太慢。


传统虚拟机的启动方式为长时间运行设计,动辄需要数秒甚至数十秒,对于需要即时响应的Agent来说,这种延迟是不可接受的。容器虽然启动快,但隔离性不足,共享内核带来的安全风险让企业望而却步。


腾讯云Agent Infra团队的解决方案是:不在旧技术上“打补丁”,而是专门为Agent设计一套全新的底座——Cube(MicroVM Runtime)。


Cube并非从零开始。它源自腾讯云成熟的Serverless体系,每天承载着百亿级调用。在Agent时代,这些经过大规模验证的能力被系统性地引入沙箱服务。其核心突破体现在三个维度:


首先是速度上的突破。


传统虚拟机启动需要完整的系统引导过程。Cube通过“运行时快照”技术,将一个已就绪的沙箱固化成模板,通过内存映射恢复的方式,Cube只需约40毫秒就能交付一个安全沙箱,加上网络、鉴权等开销,端到端启动时长稳定在100毫秒级别。


这是什么概念?人眨一次眼需要100~150毫秒。当你眨眼的瞬间,腾讯云已经为你的Agent准备好了一个完整的执行环境。


其次是安全上的加强。


速度不能以牺牲安全为代价。Cube保留了虚拟机级别的强隔离能力,每个Agent的行为都运行在独立、可审计、可约束的执行环境中。代码执行、网络访问、系统调用均受严格策略控制,任何越界行为会被即时阻断。


腾讯云首创的“会话与实例绑定”机制更进一步:每个用户会话分配一个独立的轻量虚拟机,会话结束后彻底销毁、清零内存,从根源上杜绝数据泄露风险。


最后是并发上的提升。


Agent的工作负载极不稳定——可能长时间空闲,也可能突然涌来海量请求。Cube通过资源提前池化(网络、进程、磁盘等预创建),实现了单机同时拉起2000+沙箱,平台整体可瞬时调度10万级沙箱的实例。


这种“即开即用、用完即销毁”的Serverless架构,让企业无需按最高负载囤积机器,资源利用率提升至80%以上,算力成本大幅降低。


腾讯云沙箱,图源:腾讯云


目前,腾讯云Agent沙箱服务已经开放内测,支持代码沙箱(Python、JavaScript)、浏览器沙箱和计算机沙箱等多种类型,兼容主流社区开源协议(如MCP)以及RESTful API、SDK、CLI等多种接入方式。




3.不只是沙箱:Agent Runtime的全栈思考


尽管已经将沙箱技术做到了行业领先,腾讯云对Agent Infra的理解,远不止于一个高性能沙箱。


今年9月,在全球数字生态大会上,腾讯云正式发布了Agent Runtime解决方案,集成了执行引擎、云沙箱、上下文服务、网关、安全可观测等核心模块。这套方案背后,体现的是腾讯云对Agent全生命周期管理的系统性思考。


腾讯云Agent Runtime解决方案,图源:腾讯云


执行引擎扮演着“智能调度中心”的角色。它由Agent Server(决策中枢)、MCP Server(工具集成层)和沙箱应用三个原子化模块组成,支持会话亲和调度、实例级安全隔离。值得一提的是,执行引擎支持会话持续运行7天,并能暂停保留30天,这对于需要长时间运行的复杂Agent任务至关重要。


上下文服务解决了Agent的“记忆”问题。如何从对话中提炼关键信息并沉淀为“长期记忆”,且在不浪费资源的前提下实现记忆存储与检索,是企业落地Agent的重大技术门槛。腾讯云将记忆管理云化为通用服务,降低了企业的开发难度。


网关与安全可观测则提供了全链路的安全防护。从模型服务接入、工具调用流量管理,到机密计算、日志服务、全链路安全与可观测,腾讯云构建了一套完整的安全体系。


这种自下而上的分层演进逻辑与海外云厂商的布局思路不谋而合,但腾讯云在底层性能上的突破,让其在这场竞赛中占据了先发优势。


以腾讯元宝为例,其AI编程功能就运行在Agent Runtime之上。通过云沙箱提供的安全隔离环境,元宝可以即时生成并执行代码,实测运行速度远超同类产品。


腾讯产品团队强调,元宝只是Agent Runtime众多应用场景之一。这套基础设施的真正价值,在于它为所有开发者提供了一个安全、高性能、Serverless的Agent运行环境,让他们能够专注于业务逻辑,而不是陷入底层基础设施的泥潭。


以一家专注于Agent浏览器的公司为例,其核心技术挑战是训练智能体自动完成浏览器通用任务(信息检索、表单填写、在线购物等),整个后训练流程包含模型推理、执行轨迹生成、沙箱执行和模型训练四个环节,单轮训练需要并发启动近万个Session和对应数量的PC/浏览器沙箱环境。传统方案中,沙箱启动时间过长成为制约训练效率的主要瓶颈。


在引入腾讯云沙箱后,该公司不仅能使用腾讯云的全球算力资源池灵活调配,可承载十万级的Session并发创建能力,沙箱的启动时间也提速到100毫秒级别。


此外,Agent Runtime的优异表现,并非源于单一的技术或产品,还在于其根植于腾讯公司内部最庞大、最多样化的业务生态。


腾讯内部拥有从社交(微信)、游戏、文娱(视频)、到支付、云计算等业界最丰富的应用形态。目前,所有这些业务都在进行AI化转型,并催生出大量独特的Agent应用。可以说,这些海量、复杂且高标准的内部场景,成为了Agent Runtime产品最好的“磨刀石”和“试验田”。




4.云原生的下一站:为Agent而生


尽管Agent Infra已经成为行业热点,但必须承认,这个领域仍处于早期阶段。当前的产品和解决方案,主要解决的是“能跑起来”的问题;而未来的演进方向,则是解决“跑得更好”的问题。


现阶段,安全隔离、弹性供给、极致性能是AI Agent最紧迫的需求。而当Agent能够稳定运行后,企业的需求会快速升级:如何让Agent更智能、更可控、更易管理?


评估体系的构建是第一个挑战。传统软件有明确的测试标准——功能是否正确、性能是否达标、有无bug。但Agent基于大模型,输出具有不确定性,如何评估其“好坏”?如何建立客观的评价指标?如何确保Agent的能力不会退化?这些问题目前还没有标准答案。


“第一,你要从工程思维,转化成驾驭不确定性和复杂系统的思维,要去为它构建评测体系,这种转变是非常巨大的;第二,你不仅需要利用AI Coding的工具进行代码生成,更是要用它改变你们之间的协同模式。这两点都是巨大的挑战。”腾讯云云原生产品副总经理,腾讯云专家工程师于广游说。


数据管理与回放是第二个挑战。Agent在真实环境中的表现,往往与实验室环境有很大差异。如何收集和管理Agent的运行数据?如何回放历史场景进行调试?如何构建测试集确保可持续性?这需要基础设施层提供系统化的支持。


记忆与上下文管理是第三个挑战。未来的Agent不应只是执行单次任务,而应能够从历史交互中学习、在长期运行中积累经验、在上下文理解中不断优化。这要求基础设施提供自动总结、学习沉淀、上下文压缩等高阶能力。


“假如你跟Agent说,请你帮我搜一个什么东西,Agent会拉出来非常多资料——这个工作并不是从一个RAG的数据库中挑取处一个片段,而是真的要理解这个问题。为了训练这种能力,我们需要对模型进行进行了Search和代码的RL(强化学习),而非让模型自己进行反向传播。这个训练过程占据了60%以上的时间。但是腾讯云的沙箱极大加速了这个过程,反映到用户的感受上,其实就是很多Agent产品的能力在逐渐增强。”于广游说。


当前,腾讯云已经在运维层和工具层建立了领先优势。未来,随着安全层和智能化层能力的逐步完善,Agent Runtime有望成为一个真正意义上的“Agent操作系统”——就像iOS之于移动应用、Kubernetes之于云原生应用一样,为Agent提供标准化的运行环境和开发范式。


2025年,我们见证了Agent从实验室走向生产环境的关键转折。Agent Infra的成熟与普及,正在从根本上降低AI智能体的应用门槛。就像云计算让每个企业都能享受到原本只有互联网巨头才具备的计算能力一样,Agent Infra正在让每个开发者都能构建出原本需要庞大团队才能完成的智能应用。


这场变革才刚刚开始。正如腾讯云产品团队所言,完备的Agent Infra新范式目前尚不存在,行业仍处于“共识落地为行动”的初期阶段。但从100毫秒的沙箱启动速度、10万级的瞬时调度能力、会话级的安全隔离机制来看,腾讯云已经在这条赛道上建立了清晰的技术领先优势。


当Agent从Demo走向生产,从实验室走向企业,它需要的不仅仅是一个“能用”的基础设施,更需要一个“好用”的、专为其设计的云原生环境。


这或许就是Agent Infra存在的意义,也是腾讯云正在书写的答案。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询