数码之家

 找回密码
 立即注册
搜索
查看: 147|回复: 1

[产品] OpenAI模型被曝"背诵"版权内容?OpenAI训练数据再陷版权风波

[复制链接]
发表于 2025-4-6 18:18:40 | 显示全部楼层 |阅读模式
本帖最后由 Meise 于 2025-4-6 18:23 编辑

最近科技圈又出了个大新闻!华盛顿大学、哥本哈根大学和斯坦福大学的科研天团搞了个新检测法,发现OpenAI家的GPT-4居然能像学霸背课文似的,准确补全小说里的生僻词。这事儿可不简单,因为这些文本片段都来自受版权保护的电子书库BookMIA,还有部分《纽约时报》的文章段落。

这事儿得从去年说起。从2024年开始,OpenAI就被作家、程序员们组团告上法庭,说他们拿别人家的书和代码库偷偷训练AI。虽然OpenAI搬出"合理使用"当挡箭牌,但原告们坚称美国版权法里压根没有AI训练的免死金牌。

科研团队这次放大招了,专门盯着那些"八竿子打不着"的词汇下手。比如说把"雷达在嗡嗡作响"里的"雷达"遮住,让AI来填空。结果你猜怎么着?GPT-4还真能把原词给蒙对,就跟学霸默写课文似的。测试结果显示,这AI对流行小说的记忆最溜,报纸文章虽然记得少点,但也逃不过检测。

研究主力军、华盛顿大学的博士生拉维钱德说得实在:"要想让大伙儿信得过AI,就得让它们经得起查账。我们这检测工具只是开了个头,关键还得整个行业都把训练数据摊开来给大家看。"

眼下OpenAI虽然开通了"作品黑名单"功能,让版权方可以申请屏蔽自家内容,但转头又在各国议会使劲游说,想给AI训练搞个法律保护伞。这场科技巨头和创作者之间的掰头,估计还得打个好几回合。各位吃瓜群众,这波AI时代的版权大战,你们站哪边?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
发表于 2025-4-6 19:50:08 | 显示全部楼层
训练材料都用正版授权的话,100个OpenAI+100个Deepseek都投不起这个钱。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-2 16:11 , Processed in 0.280801 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表