我要投稿

小鹏集团发布X-Foresight：学习世界知识赋能智驾，开创预测模型新范式

发布日期：2026-06-08 12:52:25 浏览次数： 1538

作者：小鹏汽车

微信搜一搜，关注“小鹏汽车”

继 2026 年 3 月发布 X-World、4 月发布 X-Cache 之后，近日，小鹏集团正式发布 X-Foresight，一套基于预测式世界模型（Predictive World Modeling）的视觉-动作因果预测网络。
X-Foresight 把世界建模直接嵌入自动驾驶的 VLA架构，通过联合预测未来画面与驾驶动作，从海量真实驾驶视频中习得物理世界的运行规律，更好执行控车决策，实现驾驶能力的本质跃升。

物理世界知识核心承载于视频

大语言模型在编程、数学领域的能力突破，源于文本模态承载了对应领域的全部知识，模型通过海量文本训练即可完成知识学习。知识的承载模态，决定了模型的学习与建模方式。

基于这一核心逻辑，小鹏提出物理 AI 领域的关键判断：自动驾驶所需的世界知识，并非存在于纯文本或图文对中，而是密集编码于驾驶视频内。没有一本书会记录在突发行人鬼探头场景中行人如何反应、自车如何决策。相反，海量驾驶视频会存储静态场景、交通控制、自车行为、周围物体行为等多维度世界信息。如同大语言模型依托文本习得数理编程知识，自动驾驶系统需通过世界模型从视频中萃取物理世界知识，X-Foresight 正是小鹏打造的专属物理世界知识学习引擎。

闭环推演（Closed-loop rollout）：

七路环视摄像头以 4 Hz 的频率进行自回归预测；每一帧画面均由大型驾驶模型（LDM）预测的摄像头 Token 渲染生成

X-Foresight：以预测式建模内化世界知识

X-Foresight 的核心，是把预测式世界模型直接融入 VLA，在统一的 token 空间内联合预测未来的多视角画面（video）与自车动作（action）。这样做的核心价值是，车辆行驶轨迹是世界环境演化的组成部分，同步预测未来画面，可以让模型依托单一数据集获取更密集的监督信号，将视频中的物理动力学规律、长时因果关系转化为模型固有认知，为 VLA 架构控车决策提供核心支撑。

这也是 X-Foresight 与传统 VLA 模型的本质区别。传统 VLA 属于反应式决策逻辑，仅学习 “当前观测对应执行动作” 的关联，不关注环境演化规律与因果逻辑；X-Foresight 采用预测式决策逻辑，输出动作的同时需完成未来世界状态预测，倒逼模型掌握车辆、行人运动规律与场景因果链条。凭借更扎实的世界知识储备，X-Foresight 在驾驶决策层面全面超越传统反应式 VLA 基线模型。

围绕 “从视频高效学习世界知识” 的核心目标，X-Foresight 针对性破解时序两难、长程漂移、采样失衡、渲染失真等一系列核心技术难题，构建完整的技术实现路径。

(A) X-Foresight 的推理流程

(B) 在 t=2 s、t=4 s、t=6 s 时刻预测未来帧的闭环推理可视化结果

拉长预测视界捕捉长时因果知识

驾驶行为的长时因果关系，是世界知识的核心组成部分。例如变道超车的操作，可能引发数百米后错过导航出口的结果，此类关联仅通过短时序预测无法习得。

X-Foresight 主动拓展训练预测视界，实测数据验证：当训练视界从 1 个时间块扩展至 21 个时间块时，安全、合规等与长时世界因果强相关的指标实现持续提升，印证长时序预测是习得世界知识的核心前提。

多出口环岛下，X-Foresight根据实际情况追踪目标出口

夜间十字路口下，X-Foresight预测信号灯转换

长时域分块自回归破解预测退化与时序困境

长时预测面临两大核心难题：一是预测退化，视频帧冗余度高，传统逐帧预测易退化为像素外推，无法学习物理规律；二是时序困境，瞬时动态知识需高帧率稠密预测，长时因果学习需跨时长稀疏预测，二者难以兼顾。

X-Foresight 采用长时域分块自回归策略，将时间序列划分为多个模块：块内保留稠密帧，精准捕捉车辆转弯、行人移动等瞬时动态；块间采用稀疏长跨度过渡，高效学习长时因果关系。模型由此掌握运动惯性、转弯弧度等物理常识，而非简单完成像素外推。

课程学习策略实现长时序稳定训练

直接开展长时序训练，存在收敛不稳定、算力成本过高的问题。一方面模型预测能力需循序渐进培养，另一方面序列长度增加会导致算力消耗呈指数级上升。

X-Foresight 采用课程学习配合扩展视界策略，训练初期以短视界、紧密相接的时间块起步，模型稳定后逐步将块间时间步长从 1 秒扩展至 3 秒。在不增加算力预算的前提下，平稳提升模型长时预测能力，兼顾训练稳定性与落地可行性。

时序重要性采样聚焦安全关键场景学习

驾驶视频中，平稳巡航片段占比极高，急刹、变道、加塞等安全关键场景仅为少数。均匀采样会浪费监督信号，稀释核心知识学习效果。

X-Foresight 创新应用时序重要性采样技术，依据车辆纵向、横向加速度识别并加权安全关键片段，将算力与监督资源集中投向核心场景。实测数据显示，该技术进一步降低碰撞率，实现最优安全指标，验证了精准学习的有效性。

半因果块稀疏注意力提升长序列训练效率

注意力机制是长序列训练的核心算力瓶颈，内存占用和计算成本随着序列长度的增加而呈二次方增长，大幅提升训练成本。

X-Foresight 采用半因果块稀疏注意力机制，保留模块内双向注意力与全局指令访问权限，对跨块冗余交互施加块级稀疏约束，按时间偏移奇偶性分组注意力头，让关注块数随序列长度线性增长。最终训练吞吐量较传统方案提升 1.59 倍，保障长时序世界建模的工程化落地。

用于长序列训练的半因果块稀疏注意力掩码

两个面板展示了分配给不同注意力头组的互补稀疏模式

双核心架构实现预测 - 渲染 - 控车一体化

X-Foresight 依托两大核心模块，构建 “世界预测 + 高清渲染 + 实时控车” 的完整闭环：

Large Drive Model（LDM，大型驾驶模型）：一个自回归 Transformer，同步预测未来控车动作、鸟瞰图（BEV，Bird's-Eye-View）与多视角 latent tokens，将世界建模与动作控制统一于同一框架。
视觉渲染器（Vision Renderer）：基于 X-World 优化的扩散式多视角渲染器与 3D 因果 VAE（Variational Auto-Encoder，变分自编码器），将抽象预测转化为高清、几何一致的 7 路环视摄像头画面并闭环反馈。1 秒预测视界 FID 值低至 1.51，6 秒长时预测仍保持极低漂移，支撑持续稳定的长时预测。

训练流程示意

海量实景数据筑牢世界知识学习基础

世界知识的学习质量，依赖数据的规模与多样性。X-Foresight 基于小鹏 28 万小时自有驾驶数据训练，涵盖 3400 万条视频片段，token 规模达 13.8 万亿，采用 7 目环视摄像头（前鱼眼、前长焦、左右前、左右后、后）实现 360 度无死角覆盖。

数据覆盖城市道路（86.8%）、高速（13.2%），并保留环岛、匝道、收费站、弱势道路使用者交互等长尾安全场景，为世界建模提供了广覆盖、高质量的真实样本。

实测性能验证世界知识转化为控车实力

经实测，X-Foresight 在规划安全与生成保真度上全面领先传统基线：

碰撞率相对下降 16.2%，安全（Safety）指标提升 9.1%，合规（Compliance）指标提升 8.2%；
轨迹横向、纵向 ADE（Average Displacement Error，平均位移误差）的表现分别提升 6.4%、3.6%，FDE（Final Displacement Error，终点位移误差）的表现分别提升 8.8%、4.1%；
依据小鹏的CCES（合规性-Compliance、舒适性-Comfort、效率-Efficiency、安全性-Safety）测评指标体系，X-Foresight在四个指标上的综合表现提升了4.6%。

在实际场景中，X-Foresight 展现出前瞻性决策能力：多出口环岛场景下，精准锚定导航目标出口，不受近处出口干扰；夜间路口场景中，预判信号灯切换趋势，平稳通过路口而非盲目制动。对比传统VLA模型的车道偏离、盲目制动问题，充分印证预测式建模与世界知识习得对驾驶决策的核心赋能。

X-Foresight与基线模型进行的实测数据对比

全栈协同：构筑小鹏世界模型自动驾驶生态

X-Foresight 与此前发布的 X-World（多视角世界仿真）、X-Cache（世界模型推理加速）形成完整技术闭环：

X-World 负责虚实映射与场景推演，提供可供策略训练的仿真环境；
X-Cache 提供无损推理加速；
X-Foresight 从海量视频中习得世界知识，实现更优驾驶决策。

三者协同构建 “知识学习 - 场景仿真 - 推理加速” 全栈体系，为小鹏自动驾驶模型训练、仿真验证、持续迭代提供全链路技术支撑。

以科技突破定义智能辅助驾驶新高度

作为第二代VLA的核心技术，X-Foresight 将持续迭代，深度融入小鹏下一代智驾系统。随着更多来源、更大规模视频的纳入，模型所能习得的物理世界知识也将不断扩展，推动高阶自动驾驶从“能用”走向“好用、敢用”。

近日，小鹏 GX 正式上市，首发搭载小鹏第二代VLA XOS 6.2.0版本，首次向用户提供无导航下的园区及地库漫游，带来更多场景下的智能辅助驾驶体验。逐步丰富的智驾场景与优秀的智驾体验背后，是小鹏在物理 AI 底层技术上的持续投入。

北京时间6月4日，全球计算机视觉顶级学术会议CVPR 2026将在美国科罗拉多州丹佛开幕。作为唯一受邀演讲的中国企业，小鹏集团通用智能中心负责人刘先明将出席CVPR首届具身智能基座模型部署研讨会，与特斯拉、Waymo、英伟达等国际头部科技企业同台交流。这也是小鹏集团第三次受邀在这一国际顶会登台演讲，届时，刘先明将向全球同行分享小鹏物理AI的最新研发进展。

小鹏汽车将持续深耕世界模型核心技术，以科技突破定义智能辅助驾驶新高度，为用户带来全场景、超安心的智能出行体验。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业