1月20日,英伟达被指控使用“安娜档案馆”的数百万本盗版书籍为其人工智能模型训练提供数据支持。在一项集体诉讼案中,数位图书作者指控英伟达直接联系“安娜档案馆”寻求高速访问权限。原告方发现英伟达的多份内部邮件及文件,指出该公司曾蓄意下载数百万本受版权保护的图书。诉状称,英伟达数据战略团队的一名成员曾主动联系“安娜档案馆”,洽谈获取其数百万份盗版资料,并探讨将“安娜档案馆”纳入其大语言模型预训练数据的可行性。英伟达方面在一周内就批准了这项合作,随后“安娜档案馆”便向这家芯片巨头开放了盗版书籍的访问权限。
原告方在证据开示阶段发现了更多佐证,上周五提交了经修订的起诉状,大幅扩大了诉讼范围。除新增更多涉案书籍、作者及人工智能模型外,诉状还纳入了更广泛的“影子图书馆”相关指控。诉状指出,“安娜档案馆”承诺向英伟达开放约500TB的数据访问权限,其中包含数百万本图书,这些图书通常仅能通过“互联网档案馆”的数字借阅系统获取。英伟达还被指控使用了其他盗版数据源,如“图书馆基因”(LibGen)、“科学枢纽”(Sci-Hub)以及“Z图书馆”(Z-Library)等平台下载图书。原告方称,英伟达除了自身下载并使用盗版书籍训练人工智能模型外,还向企业客户分发脚本和工具,使其能够自动下载包含盗版Books3数据集的“ThePile”数据库。
