3月18日,理想汽车在NVIDIA GTC2026大会上宣布了下一代自动驾驶基础模型MindVLA-o1。该模型由理想汽车基座模型负责人詹锟发布,标志着公司在自动驾驶技术上的核心突破。MindVLA-o1采用了原生3DViT技术,即真正的三维视觉编码器,旨在解决自动驾驶进展缓慢的问题。理想汽车CEO李想强调,自动驾驶只是物理AI的起点,而3DViT技术能够使模型直接在真实的三维世界中工作,实现对3D空间几何和语义的统一理解。
李想进一步解释说,传统的自动驾驶系统更像是通过2D视频学习开车,而3DViT技术则让AI从一开始就能理解三维世界。这种技术不仅能够识别物体的位置和属性,还能在隐空间中模拟未来几秒的场景变化,实现多模态思考。此外,激光雷达的角色也发生了变化,从感知核心转变为高精度的尺子,为视觉提供几何标定和近场空间约束。理想汽车自研的马赫芯片,单颗有效算力是上一代的3倍,使得这套架构能够真正放入汽车中。MindVLA-o1模型不仅适用于自动驾驶,还能控制机器人,展现出其作为通用物理世界智能体的潜力。

