今日,理想汽车自动驾驶负责人郎咸朋发表长文,回应宇树科技CEO王兴兴对VLA模型(视觉-语言-动作)的质疑。郎咸朋认为,VLA模型的关键在于与整个具身智能系统适配,数据在此过程中起决定性作用。他强调,理想的VLA本质上是生成式模型,通过GPT方式生成轨迹和控制信号,已在某些场景下展现出对物理世界的认知涌现。此外,郎咸朋指出,世界模型更适合云端数据生成和仿真测试,而理想的VLA模型则依赖于数百万辆车构建的数据闭环,以实现接近人类的驾驶水平。
郎咸朋进一步阐述了具身智能系统的重要性,包括感知、模型、操作系统、芯片和本体等部分的协同作用。他以底盘的VMM模块为例,说明了精细化调校对自动驾驶控制信号的重要性,以及如何实现“身体”和“大脑”的协同价值。郎咸朋还提到,理想汽车能够比友商更早落地VLA,得益于公司在数据、算法、算力、工程方面的优势。目前,理想汽车的总算力为13EFLOPS,其中3EFLOPS用于推理,10EFLOPS用于训练。郎咸朋预测,如果明年理想汽车能做到1000MPI,VLA将迎来ChatGPT时刻。


