2月21日,科技媒体ArsTechnica报道,微软在遭到舆论强烈反弹后,删除了Azure官方博客上一篇发布于2024年11月的技术教程。该教程由微软高级产品经理Pooja Kamath撰写,旨在演示如何利用Azure SQL数据库和LangChain技术快速构建生成式AI应用。教程的核心演示案例是指导用户下载并使用盗版的《哈利·波特》全集来训练大语言模型(LLM)。
教程设计了两个应用场景:构建问答系统和生成同人小说。作者通过AI生成了一个营销故事,将微软SQL中的“原生向量支持”功能比作“麻瓜世界的魔法”。教程还附带了一张带有微软Logo的哈利与朋友的生成图片。法律专家CathayY.N.Smith指出,这种利用受版权保护的角色进行商业营销的行为,极易触犯版权法。教程中提供的训练数据链接指向Kaggle上的一个数据集,该数据集包含《哈利·波特》全七册电子书,被错误地标记为“公有领域”。尽管该数据集已存在多年并积累了超过一万次下载,但《哈利·波特》系列显然仍处于版权保护期内。在ArsTechnica联系上传者后,上传者承认标记错误并删除了数据集。
