<pre class="c7Ij"> </pre>



<pre class="c7Ij"> </pre>
QQ:355128452



<pre class="c7Ij"> </pre> 导航菜单



<pre class="c7Ij"> </pre>

新闻资讯

理想5篇论文中稿顶会!李想发文祝贺,瞄准高阶智驾落地

车东西(公众号:chedongxi)作者 | 张睿编辑 | 志豪理想汽车自动驾驶团队5篇论文被世界顶级学术会议录用!包含世界模型、端到端规划模型等方面。车东西6月30日消息,近日,理想汽车宣布其自动驾驶团队有5篇论文中稿ICCV 2025。▲理想汽车自动驾驶研发副总裁郎咸朋宣布中稿计算机视觉国际大会(ICCV,International Conference on Computer Vision)是计算机领域世界顶级的学术会议之一,每两年举办一届,和CVPR、ECCV并称计算机视觉三大顶级会议。而2025年ICCV大会共收到了11239份有效投稿,为历史最多,这些投稿经过评审后接受2698篇论文,接受率为24%,由此可以看出理想汽车此次多篇论文中稿ICCV的含金量。理想汽车CEO李想也在社交媒体上发文表示:“如果大家对ICCV论文含金量不太理解,可以类比医学界的《柳叶刀》论文,每一篇都能代表世界级的‘学术金牌’。”▲理想汽车CEO李想在社交媒体上发文此外,李想还提到,除理想汽车自动驾驶团队中稿的5篇论文外,理想汽车基座模型团队还有3篇论文中稿,一共8篇论文被ICCV 2025录用。一、Hierarchy UGP:用于大规模动态场景重建的层次化统一高斯基元目前,理想汽车自动驾驶团队中稿的5篇论文中,名为《Hierarchy UGP》的论文已经公开,这篇论文的是理想汽车与浙江大学合作在世界模型方面的进展。▲《Hierarchy UGP》在署名作者中可以看到,理想汽车智能驾驶高级算法专家詹锟、理想汽车高级算法工程师王一达的名字出现了论文署名中。论文中表示,近年来可微渲染技术的进步显著提升了动态街景重建的效果。然而,大规模场景和动态元素(如车辆和行人)的复杂性仍是重大挑战,现有方法通常难以扩展到大型场景或准确建模任意动态。为解决这些限制,研究者提出Hierarchy UGP,其构建了由根层级、子场景层级和基元层级组成的层次结构,并使用在四维空间中定义的统一高斯基元(UGP)作为表示,实现动态静态长达1km的重建能力。具体来看,Hierarchy UGP的三层分层结构如下:1. Root Level(根层):管理整个场景的结构,是渲染和优化的入口。2. Sub-scenes Level(子场景层):将大规模场景按空间划分为多个子场景,分别建模天空、背景、刚体和非刚体对象。3. Primitive Level(基元层):使用定义在四维时空中的统一高斯基元(UGP)对每个元素进行建模。▲Hierarchy UGP采用三层分层根层级作为层次结构的入口点。在子场景层级,场景在空间上被划分为多个子场景,并提取各种元素。在基元层级,每个元素通过UGP建模,其全局位姿由与时间相关的运动先验控制。这种层次化设计极大增强了模型的能力,使其能够建模大规模场景。此外,UGP允许同时重建刚性和非刚性动态。四维高斯建模UGP在三维空间基础上引入时间维度,能够自然表达对象的动态变化,尤其适用于非刚体建模。层次细节控制(LOD)通过图像平面投影尺寸选择渲染基元,提升渲染效率,实现实时渲染。子场景并行优化采用“块级对象训练策略”,避免跨子场景动态对象的干扰,通过“时间尺度初始化”提升大幅运动区域的拟合精度。虚拟视图监督在新视角合成任务中引入虚拟视图监督,有效提升外推质量。在实验结果方面,研究者在专有大规模动态街景数据集Dynamic City以及公开的Waymo数据集上进行了实验。Dynamic City数据集是包含以10 Hz频率捕获的图像和雷达数据序列,覆盖600米至1公里以上的街景。与Waymo和PandaSet等公开数据集相比,Dynamic City数据集包含更广泛的街景,研究者将该数据集作为开源资源发布,以推进大规模动态街景重建的研究。为证明算法的有效性并确保公平比较,研究者进行了两个实验:一个使用大规模动态场景,另一个使用从大规模场景中提取的子场景。下图中的的表格和图片结果表明,对于插值任务,Hierarchy UGP在大规模动态场景和较小的子场景中均始终优于现有方法。▲Hierarchy UGP在插值任务上的表现此外,通过集成LOD技术和基于gsplat的工程增强,Hierarchy UGP实现了大规模动态场景的实时渲染。对于外推任务,Hierarchy UGP显著优于所有其他基线方法。这一改进主要归因于虚拟扭曲视图的监督。Waymo数据集是一个真实世界数据集,包含在实际道路上收集的数千个驾驶片段,每个片段包含以10Hz采样的20秒传感器数据。下图中图片的定性结果表明,Hierarchy UGP在重建方面优于其他方法。▲Waymo数据集上的定性比较具体而言,Hierarchy UGP在人体物体上实现了显著更高的视觉指标,突出了其强大的动态元素建模能力,即使在大运动区域也是如此。此外,结果表明Hierarchy UGP和OmniRe在测试帧上的视觉质量下降更为明显。这种下降发生是因为在这些帧中,行人运动完全未知,UGP 和 SMPL 都无法完全捕捉行人的运动,导致性能明显下降。尽管如此,Hierarchy UGP仍然与最先进的方法具有竞争力。▲Waymo数据集上的定量比较最后,研究者们计划将配套代码和Dynamic City数据集作为开源资源发布,以推动社区内的进一步研究。二、共8篇论文中稿 含端到端模型、渲染框架等多方面另外,除了已经公开的《Hierarchy UGP》论文,在ICCV 2025中理想汽车自动驾驶团队还有4篇论文中稿。在端到端规划模型方面,理想汽车与中国科学院合作的《World4Drive》论文,提出业界首个通过自监督学习实现无需感知标注的端到端规划模型。▲《World4Drive》理想汽车与中山大学合作的《RoboPerls》论文,利用3DGS构建面向机器人操作的可编辑视频仿真框架,能够从示范视频构建具有照片级真实感、视角一致的仿真环境,支持机器人的数据合成。▲《RoboPerls》理想汽车独立完成的《HiNeus》论文,提出了一个统一3D复杂渲染框架,通过三项基础创新同时解决多视角辐射不一致性、增强低纹理表面恢复并保留精细结构细节。▲《HiNeus》理想汽车与悉尼科技大学合作的《3D RealCar》论文,提出大规模真实三维车辆数据集3D RealCar,具备海量数据、高品质、高多样性等特性,将有力促进三维车辆识别与重建技术的发展。▲《3D RealCar》除理想汽车自动驾驶团队的论文外,理想汽车基座模型团队还有三篇论文被ICCV 2025录用。理想汽车与中国科学技术大学合作《DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation》,提出大规模高质量人脸视频数据集DH-FaceVid-1K,具备多种族、高质量、大容量等特性,可用于训练多模态数字人脸视频生成基座大模型。▲《DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation》理想汽车与哈尔滨工业大学合作的《QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation》论文,提出一种全新的图像定制化微调范式,可适配现有各种生成模型,训练参数为普通LoRA的一半,微调速度更快,并能用于多属性组合生成等定制化场景。▲《QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation》理想汽车发表的《Twig:Growing a Twig to Accelerate Large Vision-Language Models》论文,提出一种自适应VLM Token压缩&推理加速方法,通过分支引导的Token剪枝策略&自投机解码策略,自适应地删除VLM模型LLM推理阶段中和Query无关的Token,全方位提升prefill & decode阶段的模型计算效率,在长问答Task上可实现1.5倍的提速。▲《Twig:Growing a Twig to Accelerate Large Vision-Language Models》结语:理想汽车持续投入基础理论研究理想汽车此前已在人工智能领域的顶级学术会议和期刊上崭露头角。近3年,理想汽车围绕端到端、世界模型、VLA和基座模型等核心技术,在AAAI、CVPR、ICRA等顶级学术平台发表了近50篇论文。在基础理论研究过程中,理想汽车在独立研究之外,还积极与高校展开合作,能够充分利用高校的科研资源和人才优势,加速技术研究进程。而理想汽车能在辅助驾驶、智能座舱等多方面表现出色,离不开其在底层研发的长期投入。



<pre class="c7Ij"> </pre>



<pre class="c7Ij"> </pre>