数码之家

 找回密码
 立即注册
搜索
查看: 175|回复: 0

[业界] AI大厂被曝盗用付费书籍训练GPT-4o!出版商老板亲自带队实锤

[复制链接]
发表于 2025-4-2 13:17:04 | 显示全部楼层 |阅读模式
本帖最后由 Meise 于 2025-4-2 13:29 编辑

吃瓜群众集合!最近科技圈爆出大新闻:由奥莱利传媒CEO蒂姆·奥莱利参与成立的AI监管组织发布报告指出,OpenAI可能未经授权使用付费电子书训练其最新AI模型GPT-4o。这个发现直接冲击当前AI训练数据来源的争议焦点。

研究团队选取了34本奥莱利出版的计算机专业书籍,抽取其中13,962个付费内容段落进行测试。结果显示,作为ChatGPT默认模型的GPT-4o,对需要付费阅读的专业内容识别率比旧版GPT-3.5 Turbo提升显著。值得注意的是,这些书籍内容需要付费订阅才能获取,而OpenAI并未与奥莱利传媒达成内容授权协议。

检测使用了一种名为DE-COP的技术手段,该方法是2024年由学术界提出的版权内容检测方案。其原理是通过对比AI对人类原创文本和机器改写文本的识别能力,判断模型是否在训练过程中接触过原始素材。研究团队强调,虽然这种方法存在误差,但GPT-4o对付费内容的高识别率仍具有参考价值。

面对质疑,OpenAI目前尚未作出正式回应。值得注意的是,该研究未涉及OpenAI最新发布的GPT-4.5系列模型,包括o3-mini和o1等版本。有业内人士指出,AI公司为提升模型性能,确实存在寻求高质量训练数据的迫切需求。目前OpenAI已与多家新闻机构、社交平台达成数据合作协议,并提供版权方内容移除机制。

当前OpenAI正面临多起版权诉讼,包括作家协会和《纽约时报》等机构的集体诉讼。此次涉及专业出版机构的争议若被证实,可能引发新一轮法律纠纷。研究团队特别说明,检测结果不能排除用户主动输入付费内容的影响,但GPT-4o对专业内容的高匹配度仍值得关注。

(2025年4月2日整理自外媒报道)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-2 07:39 , Processed in 0.124800 second(s), 12 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表