微信扫码
添加专属顾问
蚂蚁数据构建引擎如何通过Ray技术实现海量数据处理与智能推荐的高效协同? 核心内容: 1. 基于Ray的弹性调度与任务编排优化,解决传统C++引擎资源调度与稳定性难题 2. 构建RAG算子体系,实现分布式环境下高性能计算与智能推荐的无缝衔接 3. 蚂蚁集团在搜推和RAG场景的实践案例与未来技术演进方向
在蚂蚁集团,每一次精准的搜索推荐、每一轮流畅的智能对话背后,都离不开高质量数据的强力支撑。作为蚂蚁智能引擎部的核心技术底座之一,AI 数据构建引擎正持续为全站搜推广系统等关键产品注入“智能血液”。
本文整理自 Ray Forward 2025 上蚂蚁集团技术专家谢涛的分享,共包含三个部分:
基于 Ray 的海量数据构建提效
基于 Ray 的 RAG 算子体系建设
下一步展望
基于 Ray 的海量数据构建提效
1. 基于 Ray 的海量数据构建提效
我们基于 Ray 构建新一代索引构建引擎,支撑全站万亿级正排、倒排、KV、KKV 索引的高效生成。传统 C++ 引擎虽能力强(200 万行代码),但面临资源调度冲击、长尾场景低效与稳定性保障难题。通过引入 Ray 实现弹性调度与任务编排优化,显著提升系统可扩展性与运行成功率。
资源弹性调度:应对海量任务对容器平台的压力
传统索引构建任务规模大、资源峰值高,易导致底层容器调度平台(如 Kubernetes)资源争抢或 OOM 失败。基于 Ray 的分布式计算框架支持动态资源申请与释放,实现任务级弹性扩缩容,降低对底层基础设施的冲击,提升容器交付成功率与系统稳定性。
长尾场景提效:优化小批量任务执行效率
在推广 Processor-Builder-Merge 三阶段流水线,实现多任务并发调度与资源复用,显著提升长尾场景的吞吐能力与响应速度业务中存在大量低频、小数据量的长尾索引构建任务,传统批处理模式效率低下。Ray 支持细粒度任务并行与异步执行,结合。
稳定性与成功率保障:构建可观测与自愈机制
为保障存量业务稳定运行,在 Ray 框架中集成任务重试、失败隔离、状态持久化等机制。通过实时监控任务执行链路、自动熔断异常节点,并结合历史成功率预测模型,实现故障预判与快速恢复,提升整体作业成功率至 99.9% 以上。
2. 基于 Ray 底座迁移
蚂蚁集团将原生 C++ 索引构建引擎迁移到 Ray 分布式框架,通过 Actor 化改造、资源弹性调度与原生能力集成,解决传统容器架构下的稳定性、性能与运维难题。基于 Ray 的 C++ API 与核心服务(如 Health Check、Fail Over),实现了任务级高可用与自动扩缩容,显著提升系统可靠性与资源利用率。
Ray C++ API 深度集成
为支持原有 200 万行 C++ 代码的平滑迁移,团队深度集成 Ray C++ API,实现对 Processor、Builder、Merger 等核心组件的高效调用。利用 Ray 原生异步通信与对象存储机制,保障高性能计算任务在分布式环境下的低延迟与高吞吐。
PBM Worker Actor 化改造
将原基于容器的 PBM Worker 改造为 Ray Actor,实现从“容器粒度”到“进程粒度”的演进。Actor 模型支持轻量级启动与状态持久化,大幅降低镜像拉取与初始化开销,提升任务冷启动效率,尤其适用于长尾场景下的快速响应需求。
集群与作业模式重构
基于 Ray Job 模型重构上层作业调度体系,引入 BS Job Manager 作为统一管控入口,通过 Rest API 动态创建 ProcessorActor、BuilderActor 和 MergerActor。结合 SyncTarget 机制实现跨阶段数据同步,提升作业编排灵活性与可观测性。
HC/FO 与资源调度优化
充分利用 Ray 原生的 Health Check(HC)与Fail Over(FO)能力,实现任务节点故障检测与自动恢复。结合 Resource Manager 与 Colocate Placement 策略,优化资源分配与数据本地性,提升整体计算效率与系统稳定性。
Auto Scale 实现弹性伸缩
基于 Ray 的 Auto Scale 机制,系统可根据任务负载动态调整 Worker 数量,实现从几核到数千核的弹性扩展。配合 Disk Schedule 与 Object Store,有效应对海量索引构建带来的突发资源需求,显著提升资源利用率与任务成功率。
3. Ray 迁移收益
容器规格从 10+ 种减少至 2 种,资源弹性瓶颈消除。
Actor 轻量化改造,异构 worker 按需加载资源,调度 overhead 减少,小表构建耗时减少 1 倍+。
构建成功率和稳定性提升。
历时半年,我们完成核心索引构建引擎向 Ray 的全面迁移,80% 存量任务已上线新底座。通过容器规格简化、Actor 轻量化与资源弹性调度优化,实现资源利用率提升、长尾任务加速 1 倍以上、成功率升至 99.9%,显著改善系统稳定性与运维体验。
容器规格精简:消除资源弹性瓶颈
原架构依赖 10+ 种容器规格,导致调度复杂、资源碎片化严重。迁移后统一为大、小两类标准规格,结合 Ray 的动态资源分配能力,实现任务按需调度,大幅降低调度 overhead,有效缓解与底层 Kubernetes 平台的资源冲突问题。
Actor 轻量化改造:提升长尾任务效率
通过将 Worker 改造为轻量级 Actor,支持异构任务按需加载资源,减少冷启动开销。针对 100GB 以下的小表索引构建,P95 构建耗时从数十分钟降至约 10 分钟,整体提速超 1 倍,显著提升用户体验与业务响应速度。
构建成功率与稳定性全面提升
依托 Ray 的 Health Check、Fail Over 与 Auto Scale 机制,系统具备更强容错与自愈能力。当前索引构建成功率稳定在 99.9% 以上,故障率显著下降,夜间应急响应频率大幅减少,运维负担明显减轻,保障了核心业务连续性。
基于 Ray 的 RAG 算子体系建设
1. 基于 Ray 的 RAG 算子体系建设
为应对 RAG(Retrieval-Augmented Generation)场景中数据处理流程碎片化问题,蚂蚁集团基于 Ray 构建统一算子体系,覆盖 算子市场、编程范式与服务 SLA 保障 三大层。通过抽象通用处理链路(如 Parse、Chunk、Embedding、Indexing),实现跨业务域的标准化与可复用,支撑离线批处理、实时流与在线服务等多模态场景。
算子市场:支持租户管理、计费与动态注册
在服务接入层构建 算子市场,提供租户隔离、按量计费与动态注册能力。用户可将自定义算子上传至平台,系统自动完成元信息登记与权限控制,支持多团队协同开发与资源高效共享,形成开放可控的生态闭环。
算子编程范式:基于注解的输入输出约束
引入注解驱动的算子编程模型,对每个算子(如 SourceOp、ParseOp、ChunkOp)定义明确的输入输出契约。通过装饰器机制实现执行逻辑封装与类型校验,确保任务链路一致性,降低因接口不规范导致的错误风险,提升开发效率与系统稳定性。
算子服务:基于 Ray 实现多场景 SLA 保障
依托 Ray 的作业调度与集群管理模式,构建面向不同负载的算子服务引擎。支持从离线批处理(Batch)、实时流(Streaming)到在线推理(Online Serving)的全栈能力,并通过资源隔离、优先级调度与自动扩缩容,为各类业务提供差异化 SLA 支持,满足多样化需求。
数据标签,收集是比较困难的,很多场景中的数据是没有标签的
数据是分散的,(这也是最重要的一点)每家应用的数据不一样,比如腾讯用的是社交属性数据,阿里用的是电商交易数据,微众用的是信用数据,都是分散来应用的。现实中,如何进行跨组织间的数据合作,会有很大的挑战。
2. RAG 算子服务-API
为支撑多租户场景下的 RAG 算子服务,我们在 API 层构建了完整的治理框架,涵盖调用计量、权限隔离、OAuth 鉴权、灵活计费、限流熔断与智能路由六大核心能力。通过标准化接口与精细化管控,实现资源可控、成本透明、服务稳定的目标,推动 RAG 能力向企业级平台演进。
调用计量:实现精准资源消耗追踪
系统基于 API 调用次数与实际资源消耗(如 CPU、内存、GPU)进行精确计量,生成细粒度使用数据。为后续计费提供可靠依据,提升资源利用率分析能力,并支持按量付费、阶梯定价等商业模式,增强平台商业可持续性。
权限隔离与 OAuth 鉴权:保障多租户安全
采用 OAuth 2.0 协议实现身份认证与授权管理,结合租户维度的权限控制策略,确保不同业务方仅能访问其授权范围内的算子与数据。有效防止越权访问与资源滥用,保障系统安全与租户间独立性。
灵活计费:支持多样化商业模式
支持多种计费模式(如按调用量、按资源时长、按模型规模),结合计量数据实现成本分摊与账单生成。满足金融、健康等不同业务线的个性化需求,助力内部资源市场化运营与价值量化。
限流熔断:保障高并发下服务稳定性
集成限流(Rate Limiting)与熔断(Circuit Breaking)机制,动态控制请求流量,防止突发流量导致系统过载。在异常情况下自动降级或拒绝请求,确保核心服务持续可用,提升整体 SLA 水平。
智能路由:优化请求分发与系统吞吐
基于负载均衡与智能路由算法,根据算子类型、资源状态、延迟指标等动态分配请求路径。实现跨集群、跨区域的高效调度,提升 API 响应效率与系统整体吞吐能力,适应离线、实时、在线等多场景需求。
3. Rag 算子开发约束
为提升 RAG 算子的可复用性与系统稳定性,我们构建了一套基于 Python 装饰器的开发规范体系,涵盖节点定义、接口契约、资源初始化、异步加载、执行逻辑、幂等性、资源释放与生命周期管理八大约束。通过声明编程降低开发门槛,实现算子在多场景下的统一接入与高效运行。
节点定义:明确算子类型与职责
使用 node 装饰器定义算子逻辑单元,声明其类型、处理职责与数据流转角色。形成可识别的处理节点,便于平台自动编排与可视化调度,提升任务链路清晰度与模块化程度。
接口契约:保障数据流动兼容性
通过 input 和 output 注解声明算子输入输出接口规范,确保数据结构一致性。支持 JSON Schema 或 Protobuf 定义,实现跨算子的数据格式校验与自动转换,提升组件集成效率与系统健壮性。
初始化资源:支持依赖注入与异步启动
使用 setup 装饰器完成依赖加载、配置解析与外部服务连接建立。支持异步模型初始化,避免阻塞主流程,提升算子启动效率与并发能力,适用于高延迟资源加载场景。
异步加载:优化大型模型加载性能
框架支持按需或延迟加载大型模型,结合 Ray 的对象存储机制实现资源预热与共享。减少冷启动时间,提升整体吞吐率,尤其适用于多租户、低频调用场景。
执行逻辑:核心处理逻辑封装
通过 execute 装饰器封装算子的核心业务逻辑,明确输入输出映射关系。要求实现上下文隔离,保证多次执行互不干扰,支持幂等性与容错重试,提升任务可靠性与可调试性。
幂等性要求:保障重试与容错安全
要求算子具备幂等特性,即多次执行结果一致,避免副作用。适用于任务失败重试、断点续传等容错机制,防止重复处理导致数据污染或状态异常,增强系统鲁棒性。
资源释放:防止内存泄漏与句柄残留
通过 teardown 装饰器定义资源清理逻辑,负责释放内存、关闭数据库连接、回收 GPU 显存等。确保环境干净退出,避免长期运行导致资源累积与系统不稳定。
生命周期管理:覆盖全周期可控运行
完整覆盖从初始化到销毁的算子生命周期,提供统一的管控接口。支持动态扩缩容、健康检查与故障恢复,保障组件在分布式环境下的稳定运行与高可用性。
4. Rag 算子执行层
Code Gen 模块确保算子一次编写,即可运行在多个场景
Ray 作业模式:支撑日常海量非结构化数据处理场景
Ray 集群模式:支撑响应要求较高的异步场景
在线服务模式:支撑响应要求极高的在线服务场景
为满足 RAG 场景下多样化处理需求,我们构建了基于 Ray 的多模态算子执行层,通过 Code Gen 模块将用户自定义算子封装为可复用组件,支持 Ray 作业模式、Ray 集群模式与在线服务模式 三大运行范式。实现“一次开发、多场景部署”,提升资源利用率与系统灵活性。
Ray 作业模式:支撑海量非结构化数据批处理
将算子打包为 Ray Job,通过 ray submit 启动集群执行,适用于大规模非结构化数据的离线批处理任务。支持自动扩缩容与分布式调度,高效处理 PB 级数据,保障高吞吐与低成本运行。
Ray 集群模式:支持高响应异步处理场景
在 Ray Cluster 上部署算子,支持长尾、小批量或调试类任务的异步执行。结合动态资源调度与任务优先级管理,实现低延迟响应与高并发处理能力,适用于研发测试、快速迭代等场景。
在线服务模式:支撑极低延迟实时推理请求
将算子直接部署为在线服务(Serving),通过 API 接口接收实时请求,实现同步执行与毫秒级响应。适用于业务方直接调用 Chunk、Embedding 等操作的在线场景,确保高可用性与强一致性分
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-06-30
本体论语义建设新思路,另类RAG来解决检索问题
2026-06-30
别把RAG当架构:Ontology(本体)才是Agent的业务世界
2026-06-29
PixelRAG:伯克利团队颠覆传统 RAG,用截图代替文本检索! 28 天狂揽 3000+ Star!
2026-06-29
腾讯WeKnora开源详解(三):检索引擎与生态集成
2026-06-29
腾讯开源WeKnora详解(二):知识库与对话核心能力
2026-06-29
RAG又被绕开了,MIT用MEMO给AI外挂记忆脑
2026-04-06
2026-04-27
2026-04-23
2026-04-02
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
2026-05-11
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。