近日,哥伦比亚大学创意机器实验室(CreativeMachinesLab)取得突破性进展,研发出一款人形机器人,能够以前所未有的逼真度活动嘴唇。这项研究首次实现了自主系统仅通过视觉学习,就掌握了用于说话和唱歌的自然唇部动作,攻克了人形机器人设计领域的一大核心难题:面部动作的违和感。
该机器人面部由覆盖在26个微型马达上的柔性合成皮肤构成,能够复刻出语言表达背后细微的肌肉运动变化。研究人员首先让机器人面对镜子,使其观察自身数千种随机表情,掌握马达运动与不同面部形态之间的对应关系。然后,机器人通过分析数小时的人类说话、唱歌视频素材,建立起唇部动作与声音之间的统计学关联。这套名为“视觉-动作转换模型”的训练流程,能让系统直接将音频转化为同步的马达控制指令,无需依赖明确的语音编程,即可实现逼真的唇部动作。
测试结果显示,这款机器人能够配合多种语言完成唇部同步运动,甚至还能演唱其人工智能原创专辑《HelloWorld》中的曲目。尽管目前的动作仍非尽善尽美,但进步效果显而易见。这项突破的意义远超娱乐层面,更关乎人机交流的深度。能够传递细腻情感的机器人面部,或将从根本上改变人机互动的方式。
