12月2日,英伟达在NeurIPS人工智能大会上宣布推出Alpamayo-R1,这是一款面向自动驾驶研究的开源推理型视觉语言模型。Alpamayo-R1是业界首个专注于自动驾驶领域的视觉语言动作模型,能够同时处理文本与图像信息,使车辆能够“看见”周围环境,并基于所感知的内容做出决策。该模型基于英伟达此前推出的Cosmos-Reason推理模型构建,后者具备在响应前对决策进行逻辑推演的能力。
英伟达强调,Alpamayo-R1这类技术对于致力于实现L4级自动驾驶的企业至关重要。L4级自动驾驶指在特定区域和限定条件下实现完全自动驾驶。英伟达希望,此类具备推理能力的模型能赋予自动驾驶车辆类似人类的“常识”,从而更妥善地应对复杂的驾驶场景中的细微决策。目前,Alpamayo-R1已在GitHub和HuggingFace平台开源发布,同时英伟达还推出了名为“CosmosCookbook”的全套开发资源包,包含分步指南、推理工具及训练后工作流,以帮助开发者更高效地使用和训练Cosmos系列模型。

