近日,一项大规模的生物医学论文引文分析报告揭示了同行评审研究中虚假参考文献的严重性。该研究由哥伦比亚大学及多家机构的研究团队在《柳叶刀》期刊上发布,涉及2023年至2026年间发表的247万篇论文,共核查9710万条参考文献,发现4046条为伪造,分布在2810篇论文中。研究人员指出,2023年虚假参考文献的比例相对稳定,但自2024年年中起,该比例急剧上升,到2026年前七周达到每万篇56.9条,较2023年增长超十二倍。
研究团队认为,这一现象可能与ChatGPT等大语言模型的普及有关。由于论文发表周期,人工智能生成的内容在2024年年中开始大量出现。此外,代写论文产业的泛滥和文献索引规则的变动也可能是诱因。虚假参考文献具有极强的隐蔽性,内容贴合论文主题、格式规范,且署名真实研究者,发表年份看似合理。综述类论文受影响最为严重,其参考文献伪造率比其他类型论文高出57%,这可能对临床诊疗指南的制定造成影响。目前,科研界已开始采取措施应对,但效果不一。预印本平台arXiv加强了对大语言模型生成不实内容的惩处,而顶尖人工智能学术会议NeurIPS也难以有效甄别伪造引文。研究团队提出了四项改进建议,包括自动化参考文献核验、增设科研诚信元数据等。

