今日,哥伦比亚大学创意机器实验室(CreativeMachinesLab)宣布研发出一款名为EMO的机器人面部系统,旨在解决仿人机器人“恐怖谷”效应中的唇形与语音同步问题。EMO机器人具备自我学习能力,能够通过观察人类行为来优化面部表达,使其交互体验更接近科幻作品《西部世界》中的设定。
EMO机器人覆盖了一层柔软的硅胶皮肤,质感接近真实人类。皮肤下精密部署了26个微型电机(致动器),通过不同组合的协同运作,能够精细牵引皮肤,呈现出微妙的面部表情并控制唇形变化。研究团队引入了“视觉-动作”(Vision-to-Action, VLA)语言模型,让EMO通过观察镜中的自己,分析电机指令与最终面部表情之间的因果关系,建立内部的本体感官模型。
在进阶训练阶段,EMO观看了数小时的人类说话和唱歌的YouTube视频,系统通过分析视频中的音频特征与对应的口型变化,映射听觉信号与视觉信号。结合VLA模型,EMO实现了在发出合成语音的同时,实时生成高度吻合的唇部动作,甚至能在发声前几毫秒预判并调整口型。尽管EMO在处理某些闭唇音时仍存在细微瑕疵,但其核心架构已展现出巨大潜力。研究人员表示,随着训练数据的增加,这些问题将逐步得到解决,并计划将EMO与先进的对话式AI整合。
