英伟达被控使用“安娜档案馆”百万盗版书训练AI_知识学习

英伟达被控使用“安娜档案馆”百万盗版书训练AI

创始人

2026-01-20 19:26:02

0次

1月20日，英伟达被指控使用“安娜档案馆”的数百万本盗版书籍为其人工智能模型训练提供数据支持。在一项集体诉讼案中，数位图书作者指控英伟达直接联系“安娜档案馆”寻求高速访问权限。原告方发现英伟达的多份内部邮件及文件，指出该公司曾蓄意下载数百万本受版权保护的图书。诉状称，英伟达数据战略团队的一名成员曾主动联系“安娜档案馆”，洽谈获取其数百万份盗版资料，并探讨将“安娜档案馆”纳入其大语言模型预训练数据的可行性。英伟达方面在一周内就批准了这项合作，随后“安娜档案馆”便向这家芯片巨头开放了盗版书籍的访问权限。

原告方在证据开示阶段发现了更多佐证，上周五提交了经修订的起诉状，大幅扩大了诉讼范围。除新增更多涉案书籍、作者及人工智能模型外，诉状还纳入了更广泛的“影子图书馆”相关指控。诉状指出，“安娜档案馆”承诺向英伟达开放约500TB的数据访问权限，其中包含数百万本图书，这些图书通常仅能通过“互联网档案馆”的数字借阅系统获取。英伟达还被指控使用了其他盗版数据源，如“图书馆基因”（LibGen）、“科学枢纽”（Sci-Hub）以及“Z图书馆”（Z-Library）等平台下载图书。原告方称，英伟达除了自身下载并使用盗版书籍训练人工智能模型外，还向企业客户分发脚本和工具，使其能够自动下载包含盗版Books3数据集的“ThePile”数据库。

上一篇：荔湾区委书记刘晨辉：建设具有经典魅力和时代活力的现代化中心城区｜广州开好局

下一篇：中国车企欧洲销量破10万，市场份额翻倍飙升

英伟达被控使用“安娜档案馆”百万盗版书训练AI

相关内容

热门资讯