今日,生数科技发布了一款名为ViduS1的新一代实时交互模型,专为实时交互场景设计。该模型支持实时视频通话和语音控制视频走向,允许用户通过语音指令控制数字人的行为,并实现无限时长的连续互动。
ViduS1模型具备540P高清分辨率和25FPS帧率(最高支持42FPS),能够基于用户的初始形象和个性化音色,快速创建专属的交互角色。技术层面,ViduS1采用了自回归扩散模型(AR+Diffusion),不再一次性生成完整视频,而是根据历史画面和当前语音指令及对话上下文,持续预测并生成后续内容。这意味着当用户发出新的语音指令时,模型能够实时理解并调整角色的表情、动作及视频走向,将视频转变为一个持续生成、实时响应、动态演化的交互过程。
目前,ViduS1已开启内测,感兴趣的用户可以通过提供的线上体验地址和API体验地址进行尝试。

