微信扫码
添加专属顾问
我要投稿
小鹏发布X-Foresight系统,通过预测式世界模型从视频中学习物理规律,实现驾驶决策的本质跃升。 核心内容: 1. 自动驾驶世界知识为何必须从驾驶视频中学习 2. X-Foresight如何通过联合预测未来画面与动作内化世界知识 3. 该系统相比传统反应式VLA模型的核心优势与突破
继 2026 年 3 月发布 X-World、4 月发布 X-Cache 之后,近日,小鹏集团正式发布 X-Foresight,一套基于预测式世界模型(Predictive World Modeling)的视觉-动作因果预测网络。
X-Foresight 把世界建模直接嵌入自动驾驶的 VLA架构,通过联合预测未来画面与驾驶动作,从海量真实驾驶视频中习得物理世界的运行规律,更好执行控车决策,实现驾驶能力的本质跃升。
物理世界知识 核心承载于视频
大语言模型在编程、数学领域的能力突破,源于文本模态承载了对应领域的全部知识,模型通过海量文本训练即可完成知识学习。知识的承载模态,决定了模型的学习与建模方式。
基于这一核心逻辑,小鹏提出物理 AI 领域的关键判断:自动驾驶所需的世界知识,并非存在于纯文本或图文对中,而是密集编码于驾驶视频内。没有一本书会记录在突发行人鬼探头场景中行人如何反应、自车如何决策。相反,海量驾驶视频会存储静态场景、交通控制、自车行为、周围物体行为等多维度世界信息。如同大语言模型依托文本习得数理编程知识,自动驾驶系统需通过世界模型从视频中萃取物理世界知识,X-Foresight 正是小鹏打造的专属物理世界知识学习引擎。
闭环推演(Closed-loop rollout):
七路环视摄像头以 4 Hz 的频率进行自回归预测;每一帧画面均由大型驾驶模型(LDM)预测的摄像头 Token 渲染生成
X-Foresight:以预测式建模内化世界知识
X-Foresight 的核心,是把预测式世界模型直接融入 VLA,在统一的 token 空间内联合预测未来的多视角画面(video)与自车动作(action)。这样做的核心价值是,车辆行驶轨迹是世界环境演化的组成部分,同步预测未来画面,可以让模型依托单一数据集获取更密集的监督信号,将视频中的物理动力学规律、长时因果关系转化为模型固有认知,为 VLA 架构控车决策提供核心支撑。
这也是 X-Foresight 与传统 VLA 模型的本质区别。传统 VLA 属于反应式决策逻辑,仅学习 “当前观测对应执行动作” 的关联,不关注环境演化规律与因果逻辑;X-Foresight 采用预测式决策逻辑,输出动作的同时需完成未来世界状态预测,倒逼模型掌握车辆、行人运动规律与场景因果链条。凭借更扎实的世界知识储备,X-Foresight 在驾驶决策层面全面超越传统反应式 VLA 基线模型。
围绕 “从视频高效学习世界知识” 的核心目标,X-Foresight 针对性破解时序两难、长程漂移、采样失衡、渲染失真等一系列核心技术难题,构建完整的技术实现路径。
(A) X-Foresight 的推理流程
(B) 在 t=2 s、t=4 s、t=6 s 时刻预测未来帧的闭环推理可视化结果
(C) X-Foresight 在多项基准测试中均优于基线方法
拉长预测视界 捕捉长时因果知识
驾驶行为的长时因果关系,是世界知识的核心组成部分。例如变道超车的操作,可能引发数百米后错过导航出口的结果,此类关联仅通过短时序预测无法习得。
X-Foresight 主动拓展训练预测视界,实测数据验证:当训练视界从 1 个时间块扩展至 21 个时间块时,安全、合规等与长时世界因果强相关的指标实现持续提升,印证长时序预测是习得世界知识的核心前提。
多出口环岛下,X-Foresight根据实际情况追踪目标出口
夜间十字路口下,X-Foresight预测信号灯转换
长时域分块自回归 破解预测退化与时序困境
长时预测面临两大核心难题:一是预测退化,视频帧冗余度高,传统逐帧预测易退化为像素外推,无法学习物理规律;二是时序困境,瞬时动态知识需高帧率稠密预测,长时因果学习需跨时长稀疏预测,二者难以兼顾。
X-Foresight 采用长时域分块自回归策略,将时间序列划分为多个模块:块内保留稠密帧,精准捕捉车辆转弯、行人移动等瞬时动态;块间采用稀疏长跨度过渡,高效学习长时因果关系。模型由此掌握运动惯性、转弯弧度等物理常识,而非简单完成像素外推。
课程学习策略 实现长时序稳定训练
直接开展长时序训练,存在收敛不稳定、算力成本过高的问题。一方面模型预测能力需循序渐进培养,另一方面序列长度增加会导致算力消耗呈指数级上升。
X-Foresight 采用课程学习配合扩展视界策略,训练初期以短视界、紧密相接的时间块起步,模型稳定后逐步将块间时间步长从 1 秒扩展至 3 秒。在不增加算力预算的前提下,平稳提升模型长时预测能力,兼顾训练稳定性与落地可行性。
时序重要性采样 聚焦安全关键场景学习
驾驶视频中,平稳巡航片段占比极高,急刹、变道、加塞等安全关键场景仅为少数。均匀采样会浪费监督信号,稀释核心知识学习效果。
X-Foresight 创新应用时序重要性采样技术,依据车辆纵向、横向加速度识别并加权安全关键片段,将算力与监督资源集中投向核心场景。实测数据显示,该技术进一步降低碰撞率,实现最优安全指标,验证了精准学习的有效性。
半因果块稀疏注意力 提升长序列训练效率
注意力机制是长序列训练的核心算力瓶颈,内存占用和计算成本随着序列长度的增加而呈二次方增长,大幅提升训练成本。
X-Foresight 采用半因果块稀疏注意力机制,保留模块内双向注意力与全局指令访问权限,对跨块冗余交互施加块级稀疏约束,按时间偏移奇偶性分组注意力头,让关注块数随序列长度线性增长。最终训练吞吐量较传统方案提升 1.59 倍,保障长时序世界建模的工程化落地。
用于长序列训练的半因果块稀疏注意力掩码
两个面板展示了分配给不同注意力头组的互补稀疏模式
双核心架构 实现预测 - 渲染 - 控车一体化
X-Foresight 依托两大核心模块,构建 “世界预测 + 高清渲染 + 实时控车” 的完整闭环:
Large Drive Model(LDM,大型驾驶模型):一个自回归 Transformer,同步预测未来控车动作、鸟瞰图(BEV,Bird's-Eye-View)与多视角 latent tokens,将世界建模与动作控制统一于同一框架。
视觉渲染器(Vision Renderer):基于 X-World 优化的扩散式多视角渲染器与 3D 因果 VAE(Variational Auto-Encoder,变分自编码器),将抽象预测转化为高清、几何一致的 7 路环视摄像头画面并闭环反馈。1 秒预测视界 FID 值低至 1.51,6 秒长时预测仍保持极低漂移,支撑持续稳定的长时预测。
训练流程示意
海量实景数据 筑牢世界知识学习基础
世界知识的学习质量,依赖数据的规模与多样性。X-Foresight 基于小鹏 28 万小时自有驾驶数据训练,涵盖 3400 万条视频片段,token 规模达 13.8 万亿,采用 7 目环视摄像头(前鱼眼、前长焦、左右前、左右后、后)实现 360 度无死角覆盖。
数据覆盖城市道路(86.8%)、高速(13.2%),并保留环岛、匝道、收费站、弱势道路使用者交互等长尾安全场景,为世界建模提供了广覆盖、高质量的真实样本。
实测性能验证 世界知识转化为控车实力
经实测,X-Foresight 在规划安全与生成保真度上全面领先传统基线:
碰撞率相对下降 16.2%,安全(Safety)指标提升 9.1%,合规(Compliance)指标提升 8.2%;
轨迹横向、纵向 ADE(Average Displacement Error,平均位移误差)的表现分别提升 6.4%、3.6%,FDE(Final Displacement Error,终点位移误差)的表现分别提升 8.8%、4.1%;
依据小鹏的CCES(合规性-Compliance、舒适性-Comfort、效率-Efficiency、安全性-Safety)测评指标体系,X-Foresight在四个指标上的综合表现提升了4.6%。
在实际场景中,X-Foresight 展现出前瞻性决策能力:多出口环岛场景下,精准锚定导航目标出口,不受近处出口干扰;夜间路口场景中,预判信号灯切换趋势,平稳通过路口而非盲目制动。对比传统VLA模型的车道偏离、盲目制动问题,充分印证预测式建模与世界知识习得对驾驶决策的核心赋能。
X-Foresight与基线模型进行的实测数据对比
全栈协同:构筑小鹏世界模型自动驾驶生态
X-Foresight 与此前发布的 X-World(多视角世界仿真)、X-Cache(世界模型推理加速)形成完整技术闭环:
X-World 负责虚实映射与场景推演,提供可供策略训练的仿真环境;
X-Cache 提供无损推理加速;
X-Foresight 从海量视频中习得世界知识,实现更优驾驶决策。
三者协同构建 “知识学习 - 场景仿真 - 推理加速” 全栈体系,为小鹏自动驾驶模型训练、仿真验证、持续迭代提供全链路技术支撑。
以科技突破定义智能辅助驾驶新高度
作为第二代VLA的核心技术,X-Foresight 将持续迭代,深度融入小鹏下一代智驾系统。随着更多来源、更大规模视频的纳入,模型所能习得的物理世界知识也将不断扩展,推动高阶自动驾驶从“能用”走向“好用、敢用”。
近日,小鹏 GX 正式上市,首发搭载小鹏第二代VLA XOS 6.2.0版本,首次向用户提供无导航下的园区及地库漫游,带来更多场景下的智能辅助驾驶体验。逐步丰富的智驾场景与优秀的智驾体验背后,是小鹏在物理 AI 底层技术上的持续投入。
北京时间6月4日,全球计算机视觉顶级学术会议CVPR 2026将在美国科罗拉多州丹佛开幕。作为唯一受邀演讲的中国企业,小鹏集团通用智能中心负责人刘先明将出席CVPR首届具身智能基座模型部署研讨会,与特斯拉、Waymo、英伟达等国际头部科技企业同台交流。这也是小鹏集团第三次受邀在这一国际顶会登台演讲,届时,刘先明将向全球同行分享小鹏物理AI的最新研发进展。
小鹏汽车将持续深耕世界模型核心技术,以科技突破定义智能辅助驾驶新高度,为用户带来全场景、超安心的智能出行体验。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-07
AI技术在汽车合规导向数模设计中的应用
2024-12-27
速递|理想汽车李想:发力大模型建立全面AI生态,汽车本质上是一种无接触机器人
2024-12-16
深度解析!AI智能体在To B领域应用,汽车售后服务落地全攻略
2024-11-08
解锁大模型和 AI Agent 在车端的革新应用和落地方法
2024-09-25
案例:AI大模型如何应用在整车及关键部件质检中?
2024-07-10
CPS AI Agent:解锁工业数据融合,加速企业数字化转型新纪元
2024-07-04
携手豆包大模型,领克汽车在智能销售领域迈出坚实一步
2024-06-26
AI对谈 | 大模型“上车”,终局是什么?