宇树开源UnifoLM-VLA-0大模型，12类复杂操作任务一网打尽_知识学习

宇树开源UnifoLM-VLA-0大模型，12类复杂操作任务一网打尽

创始人

2026-01-29 21:11:08

0次

今日，宇树科技宣布开源UnifoLM-VLA-0大模型，这是UnifoLM系列中面向通用人形机器人操作的视觉-语言-动作（VLA）模型。该模型通过在机器人操作数据上的预训练，实现了从图文理解到具备物理常识的“具身大脑”的进化。它通过深度融合文本指令与2D/3D空间细节，增强了空间感知能力，并构建了全链路动力学预测数据，提升了任务泛化性。在真机验证中，该模型仅需单一策略即可高质量完成12类复杂的操作任务。

基于Qwen2.5-VL-7B开源模型，宇树构建了覆盖机器人与通用场景的多任务数据集，并开展持续预训练。数据集包括2D检测与分割、任务层级分解、3D目标检测等多维数据，有效提升了模型对几何空间与语义逻辑的对齐能力。针对操作类任务，宇树对开源数据集进行了系统化清洗，利用约340小时的真机数据进行离散动作的预测训练。模型集成了动作分块预测及动力学约束，实现对动作序列的统一建模，支持长时序动作规划与决策。

在UnifoLM-VLM-0模型的基础上，宇树集成了动作预测头(ActionHead)，构建出UnifoLM-VLA-0。经过仿真环境与真机实验的多任务训练验证，该模型展现了单模型处理多任务的通用能力，在LIBERO仿真基准测试中取得了接近最优的性能。在宇树G1人形机器人平台上，基于高质量真机数据集对UnifoLM-VLA-0进行单一策略网络的统一端到端训练，实验结果表明，该模型能够稳定完成全部12项任务，在外部扰动条件下保持良好的执行鲁棒性与抗干扰能力。

上一篇：宾利欧陆GTS双门轿跑发布：V8混动+四驱，纯电续航48.3公里

下一篇：特斯拉2025年营收首降3%，汽车销量同比减少9%

宇树开源UnifoLM-VLA-0大模型，12类复杂操作任务一网打尽

相关内容

热门资讯