今日,蚂蚁集团旗下蚂蚁灵波科技宣布开源世界模型LingBot-World,这是一个专为交互式世界模型设计的开源框架。LingBot-World-Base作为其核心,旨在提供高保真、可控制且逻辑一致的模拟环境。该模型由ScalableDataEngine驱动,通过学习物理规律与因果关系,实现与生成世界的实时交互,并在视频质量、动态程度、长时序一致性与交互能力等关键指标上展现出业界领先性能。
LingBot-World通过多阶段训练及并行化加速策略,解决了视频生成领域普遍存在的“长时漂移”问题,实现了近10分钟的连续稳定无损生成。在官方压力测试中,即使镜头移开长达60秒后返回,场景中的核心物体依然能保持其结构与外观的一致性。此外,LingBot-World支持精细化的、由动作驱动的生成,能够响应用户指令,渲染出符合物理真实感的动态场景,实现约16FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。
为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合数据采集策略,通过清洗大规模网络视频覆盖多样化场景,并结合游戏采集与虚幻引擎合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录下操作指令与相机位姿。得益于此,LingBot-World具备了更好的Zero-shot泛化能力,仅需输入一张真实的城市街景照片或游戏截图,模型即可生成对应的可交互视频流,无需针对单一场景进行额外训练,降低了在不同场景中的部署与使用成本。目前,LingBot-World模型权重及推理代码已全面开源。


