近日,全球顶尖人工智能模型被发现能够通过提示词生成与畅销小说几乎逐字相同的内容,这一现象对AI行业声称其系统不存储受版权保护作品的说法提出了新的质疑。研究显示,来自OpenAI、谷歌、Meta、Anthropic和xAI的大语言模型对训练数据的记忆量远超此前认知。AI及法律专家向《金融时报》表示,这种“记忆”能力可能对全球AI企业应对数十起版权诉讼产生重大影响,直接动摇了这些企业的核心抗辩理由:大语言模型只是从受版权保护作品中“学习”,而非存储副本。
上个月,斯坦福大学与耶鲁大学研究人员通过针对性提示词,成功让OpenAI、谷歌、Anthropic和xAI的大语言模型输出了《权力的游戏》《饥饿游戏》《霍比特人》等13部作品的数千字内容。谷歌Gemini2.5高精度复现了《哈利·波特与魔法石》76.8%的内容,xAI的Grok3则生成了70.3%。研究人员还通过“越狱”(绕过安全限制)Anthropic的Claude3.7Sonnet,几乎提取了整部小说的完整原文。这一结论建立在去年一项研究基础之上:该研究发现,Meta的Llama等开源模型,会记住训练数据中特定书籍的大量内容。
法律专家表示,这可能使AI企业面临重大版权侵权责任,并影响其模型训练方式与研发成本。AI模型是否记忆训练数据,已成为近期版权法律纠纷的关键因素。美国一家法院去年裁定,Anthropic使用部分受版权内容训练大语言模型可被视为合理使用,因其具有“转化性”。但法院同时认定,存储盗版作品“本质上、无可挽回地构成侵权”,最终该AI企业以15亿美元达成和解。德国去年11月的一项判决认定,OpenAI因模型记忆歌词侵犯版权。此案由词曲作者及出版商协会GEMA提起,被视为欧盟标志性判例。
