今日,理想汽车自动驾驶研发高级副总裁郎咸朋在微博发表长文,回应宇树科技创始人王兴兴对VLA(视觉语言动作模型)的质疑。王兴兴曾称VLA为“相对傻瓜式的架构”,认为其数据质量、数量不足。郎咸朋则认为,模型的关键是要与整个具身智能系统适配,数据起决定性作用。他强调,理想的VLA本质上是生成式模型,用GPT方式做自动驾驶,生成的Token是轨迹和控制信号。
郎咸朋分享了VLA自发布以来的实践心得,认为VLA是自动驾驶的最佳模型方案,具身智能最终拼的是整体系统能力。他指出,理想的VLA已在某些场景下展现出对物理世界的认知涌现,用户发现越来越多的拟人行为。同时,他强调,世界模型更适合做“考场”而非“考生”,在自动驾驶领域,脱离海量真实数据谈模型架构是不切实际的。理想汽车拥有数百万辆车构建的数据闭环,能在当前算力下,将驾驶水平做到接近人类。

