微信扫码
添加专属顾问
我要投稿
阿里云 OpenLake 如何引领 AI 时代的数据革命?深度解析其全模态、多引擎、一体化架构。核心内容: 1. 大数据与 AI 融合的行业趋势及市场规模 2. 阿里云 OpenLake 解决方案的架构升级与技术创新 3. 智能体与数据深度融合的未来发展方向
导读 数据与 AI 时代的浪潮
1. 大数据行业的宏观趋势与技术演进
2. AI 行业的爆发与 PAI 基础设施的变革
3. Agentic Data:智能体与数据的深度融合
4. 阿里云 OpenLake 解决方案的架构与升级
5. 阿里云大数据 AI 平台
6. 总结:阿里云 OpenLake 面向 AI 时代的开放式架构
分享嘉宾|徐晟 阿里云智能集团 计算平台事业部产品负责人
内容校对|郭慧敏
出品社区|DataFun
01
大数据行业的发展脉络清晰可见,主要体现在市场规模的激增、权威机构的认可,以及技术架构的不断升级。
全球数据存储量正以惊人的速度持续攀升。根据 IDC 的预测,到 2025 年,全球数据总量将达到 163ZB,这一数字将是 2020 年的 10 倍。值得注意的是,其中实时数据的占比将超过 25%,而物联网(IoT)实时数据又将占据实时数据中的 95%。
推动市场增长的核心动力主要有三方面:首先是 AI 与大数据的深度融合,其次是多云架构的普及,最后是数据合规的刚性需求。随着全球数据隐私法规的不断强化,数据治理的定位也发生了根本性转变,它不再是单纯的“成本中心”,而是转变为驱动业务增长的“价值引擎”。
阿里云大数据平台在国内外市场均获得了权威机构的高度认可。在 2024 中国公有云大数据平台服务市场份额中,阿里云以 32% 的份额位居第一,并在 2024 中国数据治理平台市场份额中占据重要地位。此外,IDC MarketScape 2024 中国实时湖仓评估也显示了阿里云在能力方面的领先。在全球范围,阿里云的 DataWorks 等产品在 Gartner 的《2025 数据管理平台市场指南》和 Forrester Wave™ 的《云数据仓库》等报告中均被提及。
大数据技术架构的演进路径是一个从分散走向统一、从封闭走向开放的过程。它经历了 Data Lake(数据湖)、Data Lakehouse(湖仓一体)、Bigdata Search AI Lakehouse(大数据搜索 AI 湖仓),并最终发展到今年的核心概念 OpenLake Agent(开放湖智能体)。
在技术演进的早期,数据湖中的数据多为 Parquet、Orc、Avro 等文件格式,仅支持 Read(只读)。随后,湖仓一体架构的出现,引入了 Iceberg、Delta、Hudi、Paimon 等一系列开放且公认的协议和格式,实现了数据的读/写能力。这种开放性使得不同的计算引擎能够使用同一份数据进行计算和使用,解决了数据孤岛问题。
而今年的重点 OpenLake Agent,则代表了数据与 AI 的深度融合。其核心价值在于,今天的数据必须能够被 Agent(智能体)所使用,例如实现自然语言到 SQL(NL to SQL)或 Chat BI 等功能。这意味着 Agent 需要具备将多引擎、同一份数据以及这些数据的元数据(Meta)混合起来,进行串通使用的能力,这正是 Data Lake Agent 所要解决的核心问题。
某互联网知名企业的大数据全栈上云项目是阿里云解决方案的经典案例。该企业旨在通过云上大数据产品,对其已布局多年的传统 IT 基础设施进行架构升级,以解决现有 IDC 在应对业务高峰、数据安全等方面的痛点。
阿里云采用了以 DataWorks + MaxCompute + Hologres 为核心产品的方案,并通过 MMA 数据迁移服务实现了平滑迁移。最终,该项目取得了显著成果:在增效降本方面,仅使用了原有 IDC 60% 的计算资源,就将周期性 ETL 任务的整体耗时缩短了 40%;在业务提效方面,Hologres 中的应用层数据查询速度提升了数十倍,高效满足了业务方各类自定义分析的需求;同时,平台提供了分时弹性资源供给、可视化管控和诊断、免运维等能力,确保了可靠性,并满足了未来 3-5 年业务发展的先进技术架构需求。
AI 行业正经历着前所未有的爆发,尤其在算力增长和市场规模方面表现突出,而阿里云的 PAI(Platform for AI)正是支撑这一爆发的核心基础设施。
在算力方面,预计到 2028 年,中国智能算力规模将达到 2781.9 EFLOPS(每秒百亿亿次浮点运算次数)。在市场规模方面,IDC 预测到 2028 年中国人工智能总投资规模将突破 1,000 亿美元,五年复合增长率高达 35.2%。其中,生成式 AI(GenAI)的投资占比将从 2024 年的 18.9% 快速增长至 2028 年的 30.6%,投资规模将超过 300 亿美元,五年复合增长率为 51.5%。市场细分数据也明确指出,智算服务(高网高性能计算)将占据主导地位,而推理服务的数量将大幅超越训练服务。而阿里云也在全球各类机构的AI报告中获得多项领先的评测与奖项。
AI 技术的发展趋势呈现出明显的成本递减规律,即从预训练大模型到后训练(调优),再到 Test Time。Test Time 指的是在模型部署后,不再对模型本身进行修改,而是通过外部手段持续提升模型效果,例如利用 RAG(检索增强生成)、Agent(智能体)和 Prompt Engineering(提示词工程)等技术。这种方式的成本更低,因此许多企业已将工作重心转向 Test Time。虽然部分企业仍需进行后训练的优化和微调,但其成本也远低于从头训练基础模型。
今天的 AI 基础设施(AI Infra)已经发生了根本性变革,它不再是简单的集群,而是涵盖了三个关键部分:高网 GPU(High Net GPU)、高性能分布式存储和数据计算(Data Computing)。
当模型超出单机或单卡限制时,需要高性能的 I/O 来支持数据交换,这就要求整个机房具备 High Net 能力,包括 RDMA(RoCE)等技术。同时,需要 CPFS、NAS、EBS、OSS 等高性能分布式存储来提高数据 IO 性能。同时 AI 数据的预处理需要和 Data Computing 的基础架构做好资源调度和存储复用的整合。这种新的基础设施的变革为用户带来了巨大的收益(Customer Benefits),即用户无需关注底层复杂的架构,就可以低门槛的使用 Data+AI 的基础架构,基于新的基础架构, PAI 提供了资源管理、高可用性(High Availability)以及 Responsible AI 能力,即通过内容检查(Content Check)、反攻击(Anti Attack)等手段,确保 AI 的使用符合规则和限制。
阿里云人工智能平台 PAI 支持了世界顶级大模型千问/万象系列的商业化 AI 训练和推理,是 AI 工程全链路一站式平台,提供了资产管理(异构 GPU/CPU、存储)、资源管理(分布式弹性自愈调度、抢占式实例)、高可用训练和推理深度优化以及从模型到 Agent 的开发能力支持。
某头部新能源车企的智能驾驶(智驾)项目是 PAI 应用的一个典型案例。该客户面临着端到端大模型研发对数据产线产能、训练集群规模和效率的指数级增长需求,以及多种异构算力(CPU、GPU、智算)规模大、利用率低、高性能要求高等痛点。
阿里云的解决方案是利用 PAI 纳管异构资源池,并通过 PAI-TurboX 框架及算子优化,使模型迭代速度提升 20%。核心的 PAI-DLC 协同 Hologres 实现了数据产线工作流开发,保障了日均千万级任务的高效调度和容错,使生产耗时缩短两倍,GPU 调度率稳定在 98% 以上,产能提升超4倍。此外,PAI 通过 sGPU 支持 GPU 虚拟化,进一步提升了集群资源利用率,并最大限度满足了客户核心技术自主可控的要求。
当前,“Agent is coming”(智能体正在到来)已成为业界共识。智能体(Agent)与传统模型的最大区别在于,它具备感知、决策、反馈和反思的能力。
Agentic Data(智能体数据)的核心逻辑在于,数据和 AI 之间需要建立明确的通道。符合 MCP(Model Context Protocol)协议的数据可以提供给 AI 使用,而 AI 作为 Agent,则可以反过来在数据上进行操作和使用。MCP Server 定义了这一通道,使得各种应用能够利用 MCP Server 或 Client 来操作不同数据域下的数据。
构建一个 Agent 需要一个复杂的系统,包括 Agent System 和编排(Orchestration)。Agent System 需要解决认证(Authentication)、长记忆(Long Memory)、沙箱(Agent Sandbox)、Agent Observability(可观测性)以及各种 Agent Protocol(协议)等问题。编排则负责定义和执行 Agent 的工作流程,如 Planning/Action,以及 Human in Loop 的机制。无论是 AWorld、LangGraph 还是 AutoGen 等框架,都需要基础设施层面予以支持。在工具层面除了能发现和使用 MCP 工具以及使用 browser 和 crawler 工具以外,还要负责没有工具写 code 创建工具的过程,同时负责任的 AI 能力也必须在 Agent 的构建中予以重视。
基于 AI 时代的浪潮与趋势,阿里云推出 OpenLake 解决方案,通过 DLF 在统一开放的湖仓上实现了结构化、半结构化、非结构化数据的统一存储与管理,通过所有计算引擎的湖仓升级支持一份数据多个计算引擎(MaxCompute、Hologres、Flink、EMR、PAI、AI 搜索等)协同计算,使得 OpenLake 湖仓成为 Data 和 AI 的共同底座。同时通过 DataWorks 提供的 OpenLake Studio 可对大数据和 AI 任务的开发和发布提供一体化开发体验以及 Agent 形式的服务支持。
OpenLake 基于 One Copy(一份数据)的理念。这意味着无论是 Spark、Flink 等大数据引擎,还是 Ray 等 AI 计算框架,或是多模态的向量检索,都可以在一个湖仓中完成,且无需进行数据传输。这种架构极大地简化了数据管线,减少了数据的一致性问题和用户的成本
为了实现这一目标,阿里云将 DLF(Data Lake Formation)新增 Omni Catalog 能力,它是 OpenLake 的核心元数据(Meta)管控服务。最新的 DLF 3.0 支持 Paimon Table、Iceberg Table、Lance Table、Object Table 和 Format Table(支持 Parquet、ORC、Avro、CSV 等文件格式),共 5 类目录服务,全面支持结构化数据兼容模式、独立生态模式、对象存储文件和 AI 打包等多种形态。
在行业实践上, OpenLake 助力诗悦游戏降本增效,并提供实时湖仓能力,总成本降低 38%,计算资源下降 17%,以低成本 + 高稳定性 + 高性能承接未来各种业务应用。
互联网教育企业绚星智慧通过 OpenLake 让同一份数据支持 Flink,Spark,StarRocks 多种引擎对接,满足不同场景的用数需求,整体成本降低 50%,查询性能提升 300%,端到端数据 10 分钟可见。
阿里云 DLF(Data Lake Formation)3.0 升级为面向 AI 时代的智能全模态湖仓管理平台,从传统的湖仓管理工具,全面进化为支持结构化、半结构化与非结构化数据统一管理、安全开放、性能卓越的新一代数据基础设施。
实时流计算、湖流一体的存储 Fluss 现已上线阿里云并即将在十月正式开启公测。该存储方案基于 Apache Arrow 列式存储设计,大幅优化 IO 性能,并支持流读列裁剪、分区下推等特性,实现高性能低成本的流处理。Fluss 就是 DLF 的实时(秒级)版本,Fluss 中的数据会定期 flush 到 DLF 中,如果单独查询可以做实时湖仓,如果 Fluss 联合 DLF 就可以实现实时离线一体化湖仓(支持引擎实时/离线查询)。
EMR-Spark和 EMR-StarRocks 发布了 Native Code 版本, Fusion (企业级 Spark 向量编程内核) 和 Stella (企业级 StarRocks 向量编程内核) 在全球数据仓库性能及性价比排行榜中斩获两项全球冠军!
MaxCompute 基于“Data+AI 一体化”的设计理念,构建了一套覆盖数据、算力、模型与融合层的能力体系,旨在打造真正意义上的 AI 原生数据仓库。实现从“传统数据仓库”向“AI 原生数仓”的跃迁。
Hologres4.0 以“AI 时代的一站式多模态分析平台”为核心理念,在 OLAP 分析、点查、向量检索、全文检索、湖仓协同及 AI Function 集成等方面的更新能力,向量检索登顶 VectorDBBench 性价比榜单四项第一。
DataWorks 从传统数据平台工具,进化为面向 AI 时代的 “智能数据中枢”,致力于帮助企业应对多模态数据爆发、AI 模型和 AI 应用迭代频繁、组织协同复杂等挑战,实现“Data+AI”的深度融合与高效协同。
5. 阿里云人工智能平台 PAI
面向开发者和企业的一站式 AI 开发平台,提供从数据集管理、算力调度、模型开发、训练,到模型部署、服务及 AI 资产与 AI 安全治理等全链路能力,内置 400+ 基础大模型和 200+ 最佳实践案例,助力用户实现高性能、高稳定的 AI 大模型工程化。
推出 Agentic Search 架构创新,通过多 Agent 协同、多模态数据处理与任务自主规划,构建了从“问题提出”到“方案自主生成”的智能闭环,从传统“信息匹配”迈向“智能问题解决”的全新时代。
阿里云 OpenLake 通过 DLF 全新支持 Paimon Table、Iceberg Table、Format Table(虚拟概念,支持 Parquet、ORC、Avro、CSV 文件格式,表类型以文件格式为命名)、 Lance Table、 Object Table 共 5 类目录服务,覆盖结构化数据的兼容模式和独立生态模式,对象存储文件和 AI 打包 AI 等多种形态,全面支持数据计算需求、多模态检索需求和 AI 模型需求。同时在工作台层面提供 OpenLake Studio 可对大数据和 AI 进行任务编写,发布等。 在存储层面也全面支持了全托管存储(可以更安全和高效的使用 OSS 存储,管控表级和列级权限,管理引擎和存储的访问账号等),结合引擎全系支持 AI Function 以后,阿里云 OpenLake 解决方案升级成为全模态数智一体企业级解决方案。
阿里云 OpenLake 解决方案展现了阿里云大数据 AI 平台面向 AI 时代的战略布局和技术领先性,助力企业实现从数据价值挖掘到 AI 应用落地的全链路成本优化和引擎选型自由。阿里云将积极与各行业专家、合作伙伴以及专业媒体侧持续保持深入交流,助力千行百业 Data+AI 一体化融合,为企业在 AI 时代的创新与实践提供了坚实的技术底座、更高性价比以及无限可能。
如果各位对以上内容提到的产品感兴趣,可以在阿里云官网搜索进行免费试用。
分享嘉宾
INTRODUCTION
徐晟
阿里云智能集团
计算平台事业部产品负责人
微软十年,曾任微软必应新闻搜索搜索引擎团队负责人,曾负责 MS 多个事业部的不同产品相关工作。 阿里八年,曾任阿里集团搜推广事业群数据平台+效能/质量团队负责人,阿里集团研发效能事业部负责人,阿里云无影事业部负责人, 曾负责 DataWorks 1.0、2.0、 3.0, PAI 1.0、2.0, 达摩盘 3.0 等核心产品。
往期推荐
点个在看你最好看
SPRING HAS ARRIVED
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-08
AI落地:上下文工程,那个决定性的关键!
2025-11-08
TEN 框架:轻松实现与 AI 实时语音对话
2025-11-08
一文读懂上下文工程(Context Engineering)
2025-11-08
谷歌《Agents》白皮书:剖析智能体的核心框架与未来发展(附下载)
2025-11-08
技术还是场景?为大模型能力画一张“地图”:详解RAG、AIGC、Agent如何驱动千行百业
2025-11-08
打败GPT5的Kimi K2 Thinking,真就只会写代码吗?
2025-11-07
让AI打出丝滑连招:编码-部署-自测-改bug
2025-11-07
官宣上线!RocketMQ for AI:企业级 AI 应用异步通信首选方案
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-10-02
2025-09-08
2025-09-17
2025-08-19
2025-09-29
2025-09-19