数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 23|回复: 0

[科技] 微软MAI系列AI模型训练数据曝光,仅商业授权说法存在出入

[复制链接]
发表于 1 小时前 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
科技媒体 The Decoder 昨日(6 月 5 日)发布博文,报道称微软最新发布的 MAI 系列 AI 模型部分使用未获授权的开放网络数据训练,与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。
IT之家此前报道,在宣传 MAI 系列模型时,微软号称“完全基于干净数据从零开始训练,未使用来自第三方模型的蒸馏数据”。
不过根据官方披露的 MAI 技术论文,这些模型并非只依赖商业授权数据,还部分包括 Common Crawl 在内的开放网络数据,这与微软此前对外强调的“企业级、干净且商业授权数据”表述存在明显落差。
从论文描述看,微软采用的是“公开可得数据”与“授权的人类生成数据”的混合方案,同时覆盖授权语料与互联网公开内容。
在网络数据获取方式上,微软称其使用自有爬虫,并遵守 Robots Exclusion Protocol(机器人排除协议,robots.txt)以及相关元标签和 HTML 控制项。
不过该媒体指出争议点在于,对于未屏蔽内容,默认视为可被抓取,内容保护责任实际上更多落到网站所有者身上,这种逻辑近似于“没有锁门就等于同意进入”。

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|数码之家-技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2026-6-6 22:33 , Processed in 0.156001 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz!

© MyDigit.Net Since 2006

快速回复 返回顶部 返回列表