今日,理想汽车基座模型负责人詹锟在NVIDIA GTC2026上发表演讲,介绍了公司下一代自动驾驶基础模型MindVLA-o1。该模型通过五大技术创新,包括3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计,旨在构建面向物理世界智能的自动驾驶基础模型。
MindVLA-o1的核心突破体现在五个维度:看得更准的3D空间理解能力,结合摄像头和激光雷达,让车辆能够感知物体的深浅、距离和运动状态;想得更深的多模态思考能力,通过隐世界模型预演未来场景,做出预见性决策;行得更稳的统一行为生成能力,采用VLA-MoE架构,生成行驶轨迹点并通过优化过程确保行驶平稳;进化更快的闭环强化学习能力,通过世界模拟器进行自我练习和策略优化;部署更高效的软硬件协同能力,缩短架构设计时间,使大模型流畅运行在车端芯片上。
