今日,宇树科技宣布开源UnifoLM-VLA-0大模型,这是UnifoLM系列中面向通用人形机器人操作的视觉-语言-动作(VLA)模型。该模型通过在机器人操作数据上的预训练,实现了从图文理解到具备物理常识的“具身大脑”的进化。它通过深度融合文本指令与2D/3D空间细节,增强了空间感知能力,并构建了全链路动力学预测数据,提升了任务泛化性。在真机验证中,该模型仅需单一策略即可高质量完成12类复杂的操作任务。
基于Qwen2.5-VL-7B开源模型,宇树构建了覆盖机器人与通用场景的多任务数据集,并开展持续预训练。数据集包括2D检测与分割、任务层级分解、3D目标检测等多维数据,有效提升了模型对几何空间与语义逻辑的对齐能力。针对操作类任务,宇树对开源数据集进行了系统化清洗,利用约340小时的真机数据进行离散动作的预测训练。模型集成了动作分块预测及动力学约束,实现对动作序列的统一建模,支持长时序动作规划与决策。
在UnifoLM-VLM-0模型的基础上,宇树集成了动作预测头(ActionHead),构建出UnifoLM-VLA-0。经过仿真环境与真机实验的多任务训练验证,该模型展现了单模型处理多任务的通用能力,在LIBERO仿真基准测试中取得了接近最优的性能。在宇树G1人形机器人平台上,基于高质量真机数据集对UnifoLM-VLA-0进行单一策略网络的统一端到端训练,实验结果表明,该模型能够稳定完成全部12项任务,在外部扰动条件下保持良好的执行鲁棒性与抗干扰能力。


