近日,一项涉及人工智能(AI)大语言模型(LLM)的研究揭示了这些模型在理解双关语方面的局限性。这项研究由英国卡迪夫大学和意大利威尼斯福斯卡里宫大学的专家团队进行,他们发现尽管大语言模型能够识别双关语的表层结构,但它们往往无法真正理解其中的幽默含义。
研究团队通过一系列测试例句来评估大语言模型对双关语的理解能力。例如,他们测试了一个句子:“I used to be a comedian, but my life became a joke.”(我曾是一名喜剧演员,但我的人生却成了一句‘玩笑话’/一场‘闹剧’。)当研究人员将“a joke”替换为语义相近但无双关意味的“chaotic”(混乱不堪)时,大语言模型仍倾向于判定该句含有双关。另一个测试例句:“Long fairy tales have a tendency to dragon.”(冗长的童话故事往往容易“dragon”[拖得太长]。)即使将“dragon”替换为同义词“prolong”(延长),大语言模型也会误判该句存在双关成分。
这项研究的结果表明,大语言模型在面对不熟悉的文字游戏时,区分双关语与非双关语句的准确率可降至20%。研究人员强调,这一发现提醒人们在依赖大语言模型执行需要幽默感、共情能力或文化敏感性的任务时,应保持高度审慎。相关研究成果已在“2025年自然语言处理实证方法会议”(EMNLP2025)上发表。
