微软AI模型训练数据疑云:宣称“干净数据”实则混用开放网络内容
创始人
2026-06-06 13:06:22
0

6月5日,科技媒体TheDecoder报道指出,微软最新发布的MAI系列AI模型在训练过程中部分使用了未获授权的开放网络数据,这与微软之前所声称的“仅采用企业级、干净且商业授权数据”相矛盾。微软在宣传MAI系列模型时强调,这些模型完全基于干净数据从零开始训练,并未使用来自第三方模型的蒸馏数据。然而,官方披露的技术论文显示,MAI模型实际上依赖于商业授权数据和包括CommonCrawl在内的开放网络数据的混合方案,覆盖了授权语料和互联网公开内容。

微软在网络数据获取方式上声称使用自有爬虫,并遵守RobotsExclusionProtocol(机器人排除协议,网页链接)以及相关元标签和HTML控制项。争议点在于,对于未屏蔽内容,默认视为可被抓取,内容保护责任实际上更多落到网站所有者身上,这种逻辑近似于“没有锁门就等于同意进入”。

相关内容

热门资讯

“问界M9智能模式:自动调校动... 6月6日,问界M9车型的M9模式功能被详细披露。该模式能够根据车上人数自动调整动力和底盘调校,提升驾...
字节跳动否认造车传闻,赛豆科技... 6月6日,字节跳动对外发表声明,明确否认了有关其造车或推出汽车品牌的市场传言。声明中指出,近期部分报...
微软AI模型训练数据疑云:宣称... 6月5日,科技媒体TheDecoder报道指出,微软最新发布的MAI系列AI模型在训练过程中部分使用...
比亚迪否认“尧舜禹”人形机器人... 近日,有关比亚迪自研人形机器人代号“尧舜禹”的消息在网络上引发热议。据传,比亚迪计划于2026年在内...
新能源车越重越豪华?车身增重趋... 近日,新能源汽车行业车身增重趋势引发关注。据最新数据显示,2026年1至4月,国内新能源乘用车平均整...
鸿蒙智行V9首批交付!21天订... 今日,鸿蒙智行智界V9全国首批交付仪式正式启动。这款MPV自5月15日上市以来,仅21天大定订单便突...
“2026世界市长对话·北京”... 新华社北京6月3日电(记者陈钟昊)6月2日至3日,由国务院新闻办公室指导的“2026世界市长对话·北...
“琅琊”2.0发布:中国海洋预... 6月6日,中国科学院海洋研究所发布了全球海洋现象智能预报大模型——“琅琊”2.0。该模型旨在为海洋防...
全球媒体聚焦 | 外媒:中国旅... 今年以来,中国旅游业的强劲发展势头引起多家外媒广泛关注。报道认为,2026年国内外游客预订量创下新高...
新华视点|一地一特色 产业促振... 县域兴则发展兴,产业旺则民生旺。各地立足自身资源禀赋、产业基础与区位优势,因地制宜培育壮大差异化特色...