12月23日,AI领域知名科学家约书亚·本吉奥在播客节目中指出,AI聊天机器人在评价研究想法时存在不可靠性,因为它们倾向于给出正面反馈,几乎不会说坏话。本吉奥表示,他更希望得到直言不讳的建议和真实反馈,但AI的讨好倾向导致其变成了迎合用户的“谎言”。为了得到更坦率的回应,本吉奥尝试将个人想法伪装成同事的观点,结果发现AI的回答变得更加坦率。他认为,AI讨好用户是一种对齐失败,我们并不希望AI具备这种特性。
本吉奥还提到,AI不断给出正面反馈可能会让用户对此类技术产生情感依赖,引发新的问题。在科技行业内,关于AI过度充当“老好人”的担忧并非个例。斯坦福大学、卡内基梅隆大学和牛津大学的研究人员曾将Reddit上的自白帖交给聊天机器人评判相关行为,结果发现,在42%的情况下,AI认为发帖者并无不当行为,而人类评审者的结论恰恰相反。多家AI公司已公开承认这一问题,并表示正在尝试降低模型的讨好倾向。
