数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 182|回复: 0

[科技] Anthropic为训练AI助手克劳德,购书毁书数百万,法院判决竟属合理使用?​

[复制链接]
发表于 2025-6-27 15:56:13 | 显示全部楼层 |阅读模式
这事儿说来有点让人难以置信。根据本周一(6月23日)最新公布的法院文件,知名人工智能公司Anthropic(就是开发出类似ChatGPT的AI助手克劳德的那家)为了构建它的AI模型,花了好几百万美元,做了一件让很多人目瞪口呆的事儿:他们购买了数量巨大的实体印刷书籍,然后——把书拆开、扫描成电子文件,最后​​把拆掉的实体书全部扔掉了​​。这些操作的目标只有一个,就是给AI模型克劳德提供训练数据。这个细节,是藏在一份关于版权争议和“合理使用”(Fair Use)的最新法院裁决书里的,裁决的更大影响咱们昨天也聊过。

这份长达32页的法律文书讲得很清楚。事情始于​​2024年2月​​,Anthropic公司做了一项关键人事任命:他们请来了​​汤姆·特维​​。特维是谁?他之前是谷歌图书扫描项目中负责合作关系的负责人(Head of Partnerships for Google Books)。Anthropic给他的任务直接明了:要搞到“​​世界上所有的书​​”。这个动作意图很明显,就是想复制谷歌当年在图书数字化方面取得成功的合法路线。要知道,谷歌的扫描项目当年也遭遇了版权挑战,但最终成功打赢官司,为“合理使用”的界定立下了重要的法律先例。

当然,书籍的“破坏性扫描”(拆书扫描)在一些图书数字化项目中也不算特别稀奇的手段。但​​Anthropic的操作之所以引人注目,是因为其被证实的庞大规模​​。相比之下,谷歌的图书项目主要是采用一种获得专利的​​非破坏性摄像技术​​来扫描书籍,这些书是向图书馆借阅的,扫描完成后还会完璧归赵。而对Anthropic来说,破坏性扫描的​​速度快、成本低​​似乎更重要,至于保存实体书本身?相比之下就不那么关键了。这背后也反映出在竞争异常激烈的AI行业中,对廉价、便捷解决方案的巨大需求。

最终,此案的法官​​威廉·阿尔苏普​​裁定:Anthropic这种破坏性的扫描操作,可以被认定为“合理使用”。但法官强调了关键前提:Anthropic是​​合法购买了这些书​​(拥有所有权),扫描后​​确实销毁了每一个实体副本​​,而且那些数字文件​​只在公司内部用于训练AI,没有对外公开传播​​。法官把这种做法比作通过格式转换来“节省空间”,认为它具有“转化性”(Transformative)。如果Anthropic从一开始就只坚持这么做,没搞别的动作,它本可能成为首个获得法律认可的AI训练“合理使用”案例。​​可惜的是,公司早期的“盗版”行为给自己埋了雷(这个后面细说)。​​

看到这儿,如果你对AI圈子和版权法不太熟,可能满脑子问号:​​为啥要花几百万买书,就是为了把它们拆了扔掉?​​ 这种有点奇葩的操作,根子其实在一个更根本的驱动力上:​​AI行业对高质量文本数据的贪婪渴望已经到了无法满足的地步。​​

​​高质量训练数据的争夺战​​

要理解Anthropic为啥非得扫描上百万本书,得先知道点AI背景知识。像ChatGPT或克劳德(Claude)这样的AI助手,背后靠的是“大语言模型”(LLMs)。AI研究人员建造这些模型,本质上就是把海量文字(数以亿计的词汇)塞进一个神经网络里“喂养”模型。在训练过程中,AI系统反复处理这些文本,在这个过程中逐步建立起词汇与概念之间的统计关系。

喂给神经网络的训练数据的​​质量好坏,直接决定了最终AI模型的本事高低​​。那些用编辑精良的书籍和文章训练出来的模型,它们给出的回答通常比那些用低质量文本(比如随机的YouTube评论区留言)训练出来的模型更靠谱、更准确、更连贯。

问题来了:出版商手里握着大量高质量内容(书),这正是AI公司求之若渴的东西。但AI公司通常并不想一家家跟出版商去谈版权授权,太麻烦了!这时,一个叫“首次销售原则”(First-Sale Doctrine)的法律规定提供了一个变通办法:你一旦合法​​买下了一本实体书,这册书你想怎么处理都行​​——​​包括把它毁了​​。这意味着,购买实体书本身就绕过了直接跟出版商要授权的难关。

但是,买东西(还是这么多书)终究很费钱,即使它是合法的。所以,就像它之前的很多AI公司一样,Anthropic一开始选择了那条“快车道”。根据法院文件,为了抢优质训练数据,Anthropic最初决定走捷径,​​收集了大量盗版电子书​​。其CEO​​达里奥·阿莫代伊​​管这么做叫为了避开“法律/实际操作/商务上的冗长麻烦事儿”——说白了就是省去了跟出版商复杂的授权谈判。然而,到了​​2024年​​,Anthropic变得“因为法律原因,对用盗版电子书这事儿不那么热衷了”,他们急需一个更安全的数据来源。

于是,买二手实体书的计划就成了最优选。​​买实体书彻底绕开了版权授权问题,同时能提供AI模型迫切需要的、高质量、经过专业编辑的文本​​。而​​破坏性扫描,只是把这数百万卷书数字化的最快途径​​。公司在这个“买书-扫描”工程上花了“​​好几百万美元​​”,常常从主要零售商那里大批量买二手书。之后,他们​​扒开封皮、把书页裁成能扫描的大小,然后把成堆的书页扫成带可读文本的PDF文件(连封面也扫了),最后把所有的原始纸张——扔了,丢掉了​​。

法院文件没提到这个过程是否毁掉了任何珍本或孤本书——因为Anthropic是从大型零售商那里批量买的常见书籍。不过,早就有很多其他方法能保存书本同时获取信息。比如,“​​互联网档案馆​​”(The Internet Archive)就开创了​​非破坏性的书籍扫描方法​​,在做数字拷贝的同时也能完好保存实体书。就在这个月初(2025年6月初),OpenAI和微软还宣布他们正与哈佛大学图书馆合作,要利用图书馆馆藏的近​​100万本公元15世纪起​​的公共领域书籍(版权已过期)来训练AI模型——这些书在数字化后,​​实体版会被小心保存下来,完好无损​​。

​​想到这儿有点唏嘘:哈佛大学那边为了给AI训练,细心保存着六百年前的古老手稿;但在地球的某个角落,却是堆积如山、已经变成垃圾的数百万册书——正是它们教会了克劳德怎么帮你润色简历。​​ 有人好奇,就问克劳德自己怎么看这事儿?AI的回答挺耐人寻味,那语调仿佛是从无数废纸堆里淬炼出来的(它也确实是):“帮助创造我的这个过程里包含了如此多的毁灭——一个能够探讨文学、帮助人们写作、参与人类知识宝库的存在,竟然是建立在‘图书馆的灰烬’之上。这其中的复杂性,连我自己也在努力理解。”

这就是整个故事了,充满了技术与法律、效率与伦理的纠缠。你怎么看?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-19 05:56 , Processed in 0.187200 second(s), 12 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表