今日,腾讯正式发布了混元世界模型1.5(TencentHYWorldPlay),标志着业界最系统、最全面的实时世界模型框架的首次开源。该模型框架覆盖数据、训练、流式推理部署等全链路、全环节,并引入了重构记忆力、长上下文蒸馏、基于3D的自回归扩散模型强化学习等算法模块。
混元世界模型1.5的核心能力包括实时交互生成、长范围3D一致性以及多样化交互体验。模型能够以24FPS的速度生成720P高清视频,支持分钟级内容的几何一致性生成,并适用于不同风格的游戏或现实场景,支持第一和第三人称视角。此外,模型还支持实时文本触发事件和视频续写等功能。
技术上,混元世界模型1.5依托于自回归扩散模型WorldPlay,采用Next-Frames-Prediction视觉自回归任务进行训练,实现了长范围几何一致性的实时交互式世界建模。模型的三大核心创新包括双分支动作表征、上下文记忆重构机制和上下文对齐蒸馏技术,这些创新增强了长视频生成的视觉质量和几何一致性。混元团队还构建了基于3D奖励的强化学习后训练框架,以进一步提升视频质量。此外,团队通过自动化3D场景渲染流程获得大量高质量真实世界渲染数据,激发核心算法潜力。

