OpenAI模型被曝"背诵"版权内容？OpenAI训练数据再陷版权风波

Meise · 发表于 2025-4-6 18:18:40

本帖最后由 Meise 于 2025-4-6 18:23 编辑

最近科技圈又出了个大新闻！华盛顿大学、哥本哈根大学和斯坦福大学的科研天团搞了个新检测法，发现OpenAI家的GPT-4居然能像学霸背课文似的，准确补全小说里的生僻词。这事儿可不简单，因为这些文本片段都来自受版权保护的电子书库BookMIA，还有部分《纽约时报》的文章段落。

这事儿得从去年说起。从2024年开始，OpenAI就被作家、程序员们组团告上法庭，说他们拿别人家的书和代码库偷偷训练AI。虽然OpenAI搬出"合理使用"当挡箭牌，但原告们坚称美国版权法里压根没有AI训练的免死金牌。

科研团队这次放大招了，专门盯着那些"八竿子打不着"的词汇下手。比如说把"雷达在嗡嗡作响"里的"雷达"遮住，让AI来填空。结果你猜怎么着？GPT-4还真能把原词给蒙对，就跟学霸默写课文似的。测试结果显示，这AI对流行小说的记忆最溜，报纸文章虽然记得少点，但也逃不过检测。

研究主力军、华盛顿大学的博士生拉维钱德说得实在："要想让大伙儿信得过AI，就得让它们经得起查账。我们这检测工具只是开了个头，关键还得整个行业都把训练数据摊开来给大家看。"

眼下OpenAI虽然开通了"作品黑名单"功能，让版权方可以申请屏蔽自家内容，但转头又在各国议会使劲游说，想给AI训练搞个法律保护伞。这场科技巨头和创作者之间的掰头，估计还得打个好几回合。各位吃瓜群众，这波AI时代的版权大战，你们站哪边？

digital2001 · 发表于 2025-4-6 19:50:08

训练材料都用正版授权的话，100个OpenAI+100个Deepseek都投不起这个钱。

账号		自动登录	找回密码
密码			立即注册

[产品] OpenAI模型被曝"背诵"版权内容？OpenAI训练数据再陷版权风波

本帖子中包含更多资源

相关帖子

浏览过的版块