12月18日,美团LongCat团队宣布正式发布并开源SOTA级虚拟人视频生成模型——LongCat-Video-Avatar。该模型基于LongCat-Video基座打造,延续“一个模型支持多任务”的核心设计,原生支持Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等核心功能。
LongCat-Video-Avatar在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。模型不仅能指挥嘴型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。美团通过DisentangledUnconditionalGuidance训练方法,让模型在说话间歇也能自然地眨眼、调整坐姿、放松肩膀,使虚拟人更像真人。
LongCat-Video-Avatar成为首个同时支持文字、图片、视频三种生成模式的“全能选手”,在HDTF、CelebV-HQ、EMTD和EvalTalker等权威公开数据集上的定量评测表明,该模型在多项核心指标上达到SOTA领先水平。

