ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4

量子位,2025-11-08 12:32:59

一凡 发自 凹非寺
量子位 | 公众号 QbitAI

智能汽车、自动驾驶、物理AI的竞速引擎,正在悄然收敛——

至少核心头部玩家,已经在最近的ICCV 2025,展现出了共识。

在端到端一统江湖但数据瓶颈开始成为新挑战后,必须转向强化学习,必须把云端生成式世界模型作为新基座。

春江水暖,异口同声。特斯拉和理想汽车,都在AI顶会现场分享着最新实践真知。

特斯拉自动驾驶副总裁Ashok Elluswamy在演讲中透露,当前特斯拉正在用世界模拟器来评估车端模型。几乎同时,理想VLA模型负责人詹锟也围绕世界模型,在具身智能研讨会做了题为《World Model:Evolving from Data Closed-loop to Training Closed-loop》(世界模型让我们从数据闭环走向训练闭环)的分享。



理想的观点是,当前数据闭环已经不够用了,VLA通往L4,需要训练闭环。

而这种闭环的构建方法和背后原因,詹锟也在会后更进一步的对话中分享了理想的思考和实践。

自动驾驶下半场?从数据闭环迈向训练闭环

在ICCV现场,理想在开篇就提出,自动驾驶技术和大模型一样,都进入了下半场。为什么这么说?

首先回忆一下上半场,端到端架构统一自动驾驶的技术栈,释放了Scaling Law的潜力,让AI能力快速提高。



但理想很快发现,AI基于模仿学习只能学到数据的平均水平,难以超越人类司机的能力,技术范式需要改变。几乎同时,大规模算力基础设施和高保真仿真环境技术也在快速成熟,为范式迁移创造了条件。于是理想决定从数据闭环迈向训练闭环。

数据闭环大家都很熟悉了,就是数据采集、模型训练、评估和部署的循环,但这无法覆盖到一些边缘场景。



训练闭环则是在此基础上,让模型不断通过环境生成和环境反馈来迭代,从而实现设定的训练目标。

具体实现方法如下:理想在云端构建了一套世界模型训练环境,来训练具备先验知识和驾驶能力的车端VLA模型。这是全球首个将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构。



由于行业对世界模型的定义有所不同,这里需要说明一下,理想所说的世界模型是一个全面的系统,包括环境的构建、智能体的构建、反馈的构建以及场景的多种推演世界模型是理想此次在ICCV分享的核心内容,据介绍该系统主要具备三大能力:

  • 区域级别的仿真和评估
  • 合成全新数据
  • 强化学习的世界引擎

三项能力协同,推动训练闭环落地,接下来逐一进行讨论。

首先是区域级别的仿真和评估,这是车端VLA能进行长时序拟真评估的关键。据介绍,理想目前采用重建和生成结合的仿真路线。

因为在理想看来,重建和生成各具优势。重建能把操作对象完美还原,稳定性更好,但一般输出的是静态结果。

而生成则能输出动态的变化信息,可以得到与操作对象完全不同的图像,泛化性更强,但结果不可控。

所以理想决定将两者结合进行仿真,与合作伙伴产出的研究成果相继被计算机视觉三大顶会收录。



比如理想此前参与的首个自动驾驶3DGS街景重建算法Street Gaussians,该工作被顶会ECCV 2024收录。

还有入选本届ICCV的工作《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》,由浙江大学、理想汽车和电子科技大学等单位共同完成。

Hierarchy UGP是业内首个大规模自动驾驶重建模型,在作者专有的数据集和公开的Waymo数据集上都实现了SOTA。

该模型分为根、子场景和图元三层。其中根层是入口,然后子场景层将空间进一步划分,并提取出各种元素。最后图元层用定义在4D空间的统一高斯图元(Unified Gaussian Primitive)将元素建模。这个方法可以同时对刚性和非刚性运动重建。



以上两项成果主要围绕重建工作,此外在重建和生成结合方向上,理想还联合GigaAI提出基于补充生成新视角的重建范式ReconDreamer,相关成果入选了今年的CVPR。

尽管过去在重建方面取得了不错的成绩,但詹锟认为由于生成方式能低成本、大规模生成边缘场景,而且数据很多样,所以未来的仿真工作中,重建的占比将越来越少,对应地生成的占比越来越多,而且该趋势不可逆。

探讨完世界模型的第一层应用仿真,再往下来看合成全新数据能力,可以构建多样的场景集,让场景的数据均衡分布,最终实现更全面的评估,提高模型性能。

在理想看来,合成数据主要有场景编辑、迁移和全场景生成这三层应用。这项能力让理想的数据更全面,从下图中可以看出,过去依靠采集方式获取的数据(上半部分),集中在晴天、普通道路和普通车辆等简单场景,而现在与合成的数据结合后(下半部分),覆盖场景更广、极端案例更多、种类更加复杂,对应地模型能得到更全面的提升。



最后一层应用是理想认为最具挑战性的强化学习世界引擎,这一层让模型能在训练环境中自由探索并获得反馈,主要有五大关键因素:

  • 世界模型、3D资产、仿真智能体:主要解决环境是否真实的问题
  • 奖励模型:对强化学习产生最重要的直接影响
  • 性能优化:决定强化学习能否大规模应用的关键



在五个因素中,理想认为仿真智能体是目前最棘手的问题,完整地建模他车、他车和自车以及他车和他车的交互行为,甚至比实现单车L4级自动驾驶还要难

詹锟在分享中介绍了两种解决方法,一种是业内此前尝试过的自博弈(Self-play),另一种是理想应用的范式。其通过给定目标函数和奖励函数来约束多个智能体的行为,包括他们的个体动态和交互动态,同时通过调整奖励权重改变智能体的行为分布,从而实现样本多样性。



上述一系列技术成果推动着理想的辅助驾驶能力快速进步,开始通过渐进升维方式,向L4迈进。詹锟在分享中还展示了一小段理想在园区内部道路的辅助驾驶能力。

率先洞察到行业趋势,迈向训练闭环,这背后得益于理想率先跑通的另一个闭环。

理想的另一个闭环?

理想在一众造车新势力中率先实现盈利,跑通商业化闭环,这是其近年科研成果不断开花落地的重要原因。

2023年和2024年,理想全年研发投入连续超百亿元,2025年上半年财报显示,理想同期研发投入为53亿元,预估今年仍将超过百亿。

数百亿砸向的不仅仅是上层的辅助驾驶算法,还包括底层的整车操作系统理想星环OS。星环OS首次上车于2024年,一方面实现了开发过程中的软硬件解耦,将芯片的适配和验证加快至4周内完成。



另一方面,星环OS上车后打通了整车割裂的多个模块,提升了车辆整体的性能,以AEB(自动紧急制动)功能为例,实现该功能一般需要经过以下三个环节:

传感器发现危险,上报中央算力控制器做出决策,最终执行器操作刹车。

整个功能链路经过了多个控制器,它们分别属于不同域,信息在每个环节中传递,就像咱们工作中要协调多个部门,在传统架构下会产生一些延迟。而星环OS采用跨系统架构设计,能够让不同控制器响应更快,协调更好。

据理想介绍,在车辆以120km/h速度行驶的情况下,星环OS相比传统OS可以缩短7米刹停距离,7米距离,极端情况下很可能就是两个相反的结果。

该成果不仅服务着130多万名理想车主,在今年也开始惠及整个行业。2025年3月,理想星环OS正式亮相随后开源,相关源码逐步公开。



据理想介绍,自研星环OS投入资金超10亿,上车后每年整体降低了几十亿BOM成本。所以说,这项成果开源给行业后也能够帮助很多车企省去数亿元研发预算,快速获得整车OS能力。

自己开源,帮行业节流,一个围绕星环OS的生态联盟很快成形。2025年9月,长城汽车、英飞凌、芯驰科技、汇川联合动力、欣旺达和德赛西威等16位产业链玩家与理想汽车共同签署《星环OS社区章程》。

值得一提的是,理想的开源成果不仅得到了工业界的积极响应,也被学术界AI顶会认可。本届ICCV就收录了理想的开源数据集3DRealCar



3DRealCar采用完全开放可商用的Apache 2.0开源协议,其包含了2500辆真实汽车,平均每辆车采集了200张高分辨率RGB-D图像,是目前行业唯一的高质量、大规模真实汽车3D数据集,具有360度视角和不同光照条件。



由于数据集中的每辆车都提供了RGB-D图像、点云、车辆解析图和详细标注信息,因此该数据集可用于各种2D和3D任务,用于重建各种场景。



缺乏高质量真实3D车辆数据,一直是一个令行业头疼的问题。因此3DRealCar在开源后,很快就被行业头部拿去用了,用行动表达了认可。

实际上,随着理想这一年越来越多AI进展和成果浮出水面,那个大众层面以奶爸车、家用车、车和家被人认知,以汽车产品体验获得口碑和销量的理想汽车……

在技术层面早已呈现出另一面——

一个技术面貌的理想,一个AI面貌的理想,一个基于造车但超越汽车本身的理想。

AI顶会趋势:有理想的汽车玩家必须逐鹿AI

有意思的是,理想内部也早已完成了自我追求刷新。

在大模型重塑浪潮中,理想率先完成了新阶段定义——面向AI,成长为空间机器人企业

这也是理想不断挑战成长极限的新目标,而且天时地利人和兼具。

首先,理想有基本盘储备。造车基本盘稳固,在造车研发、制造、营销和交付全流程完成了闭环飞轮,在新势力浪潮中率先拿到晋级门票。

其次,AI技术储备,机器人和物理世界交互的关键钥匙VLA,此前已全量推送上车,驱动着车辆本体游遍大街小巷。

再次,预研方向和技术展现世界级水平,在全球华山论剑的AI顶会获得认可。比如本次ICCV收录的《RoboPearls: Editable Video Simulation for Robot Manipulation》,提出一个基于3D高斯泼溅的可编辑视频仿真系统,专门用于机器人操作任务的仿真数据生成。

最后,还有理想构建的「研产闭环」能力,让理想能够将预研成果转化为技术储备。

据詹锟介绍,理想的研究课题来源,正是量产团队在算法落地过程中遇到的真实瓶颈。理想做研究就是为了更好地交付,因此研究成果能快速应用在量产上,形成高效的研产闭环。

业内最熟知的案例就是《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》,这是一个由VLM(视觉语言模型)和端到端组成的双系统架构,被CoRL 2024收录,去年就已落地量产,大幅提高了理想的辅助驾驶能力。

所以总结来看,尽管今年重注AI和机器人的车企,数不胜数。但像理想这样,同时实现算法训练闭环、跑通商业化闭环、建立研产闭环能力的玩家,少之又少。

特斯拉是一个,理想是另一个。

这份车企底色的AI公司名单,未来会很长……但现在,还只是开始,从学术、技术、产业再到大众认知层面不断破圈的开始。

不论如何,趋势已经开始。士别理想三日,是时候刮目相看了。