|
这事儿说来有点让人难以置信。根据本周一(6月23日)最新公布的法院文件,知名人工智能公司Anthropic(就是开发出类似ChatGPT的AI助手克劳德的那家)为了构建它的AI模型,花了好几百万美元,做了一件让很多人目瞪口呆的事儿:他们购买了数量巨大的实体印刷书籍,然后——把书拆开、扫描成电子文件,最后把拆掉的实体书全部扔掉了。这些操作的目标只有一个,就是给AI模型克劳德提供训练数据。这个细节,是藏在一份关于版权争议和“合理使用”(Fair Use)的最新法院裁决书里的,裁决的更大影响咱们昨天也聊过。
这份长达32页的法律文书讲得很清楚。事情始于2024年2月,Anthropic公司做了一项关键人事任命:他们请来了汤姆·特维。特维是谁?他之前是谷歌图书扫描项目中负责合作关系的负责人(Head of Partnerships for Google Books)。Anthropic给他的任务直接明了:要搞到“世界上所有的书”。这个动作意图很明显,就是想复制谷歌当年在图书数字化方面取得成功的合法路线。要知道,谷歌的扫描项目当年也遭遇了版权挑战,但最终成功打赢官司,为“合理使用”的界定立下了重要的法律先例。
当然,书籍的“破坏性扫描”(拆书扫描)在一些图书数字化项目中也不算特别稀奇的手段。但Anthropic的操作之所以引人注目,是因为其被证实的庞大规模。相比之下,谷歌的图书项目主要是采用一种获得专利的非破坏性摄像技术来扫描书籍,这些书是向图书馆借阅的,扫描完成后还会完璧归赵。而对Anthropic来说,破坏性扫描的速度快、成本低似乎更重要,至于保存实体书本身?相比之下就不那么关键了。这背后也反映出在竞争异常激烈的AI行业中,对廉价、便捷解决方案的巨大需求。
最终,此案的法官威廉·阿尔苏普裁定:Anthropic这种破坏性的扫描操作,可以被认定为“合理使用”。但法官强调了关键前提:Anthropic是合法购买了这些书(拥有所有权),扫描后确实销毁了每一个实体副本,而且那些数字文件只在公司内部用于训练AI,没有对外公开传播。法官把这种做法比作通过格式转换来“节省空间”,认为它具有“转化性”(Transformative)。如果Anthropic从一开始就只坚持这么做,没搞别的动作,它本可能成为首个获得法律认可的AI训练“合理使用”案例。可惜的是,公司早期的“盗版”行为给自己埋了雷(这个后面细说)。
看到这儿,如果你对AI圈子和版权法不太熟,可能满脑子问号:为啥要花几百万买书,就是为了把它们拆了扔掉? 这种有点奇葩的操作,根子其实在一个更根本的驱动力上:AI行业对高质量文本数据的贪婪渴望已经到了无法满足的地步。
高质量训练数据的争夺战
要理解Anthropic为啥非得扫描上百万本书,得先知道点AI背景知识。像ChatGPT或克劳德(Claude)这样的AI助手,背后靠的是“大语言模型”(LLMs)。AI研究人员建造这些模型,本质上就是把海量文字(数以亿计的词汇)塞进一个神经网络里“喂养”模型。在训练过程中,AI系统反复处理这些文本,在这个过程中逐步建立起词汇与概念之间的统计关系。
喂给神经网络的训练数据的质量好坏,直接决定了最终AI模型的本事高低。那些用编辑精良的书籍和文章训练出来的模型,它们给出的回答通常比那些用低质量文本(比如随机的YouTube评论区留言)训练出来的模型更靠谱、更准确、更连贯。
问题来了:出版商手里握着大量高质量内容(书),这正是AI公司求之若渴的东西。但AI公司通常并不想一家家跟出版商去谈版权授权,太麻烦了!这时,一个叫“首次销售原则”(First-Sale Doctrine)的法律规定提供了一个变通办法:你一旦合法买下了一本实体书,这册书你想怎么处理都行——包括把它毁了。这意味着,购买实体书本身就绕过了直接跟出版商要授权的难关。
但是,买东西(还是这么多书)终究很费钱,即使它是合法的。所以,就像它之前的很多AI公司一样,Anthropic一开始选择了那条“快车道”。根据法院文件,为了抢优质训练数据,Anthropic最初决定走捷径,收集了大量盗版电子书。其CEO达里奥·阿莫代伊管这么做叫为了避开“法律/实际操作/商务上的冗长麻烦事儿”——说白了就是省去了跟出版商复杂的授权谈判。然而,到了2024年,Anthropic变得“因为法律原因,对用盗版电子书这事儿不那么热衷了”,他们急需一个更安全的数据来源。
于是,买二手实体书的计划就成了最优选。买实体书彻底绕开了版权授权问题,同时能提供AI模型迫切需要的、高质量、经过专业编辑的文本。而破坏性扫描,只是把这数百万卷书数字化的最快途径。公司在这个“买书-扫描”工程上花了“好几百万美元”,常常从主要零售商那里大批量买二手书。之后,他们扒开封皮、把书页裁成能扫描的大小,然后把成堆的书页扫成带可读文本的PDF文件(连封面也扫了),最后把所有的原始纸张——扔了,丢掉了。
法院文件没提到这个过程是否毁掉了任何珍本或孤本书——因为Anthropic是从大型零售商那里批量买的常见书籍。不过,早就有很多其他方法能保存书本同时获取信息。比如,“互联网档案馆”(The Internet Archive)就开创了非破坏性的书籍扫描方法,在做数字拷贝的同时也能完好保存实体书。就在这个月初(2025年6月初),OpenAI和微软还宣布他们正与哈佛大学图书馆合作,要利用图书馆馆藏的近100万本公元15世纪起的公共领域书籍(版权已过期)来训练AI模型——这些书在数字化后,实体版会被小心保存下来,完好无损。
想到这儿有点唏嘘:哈佛大学那边为了给AI训练,细心保存着六百年前的古老手稿;但在地球的某个角落,却是堆积如山、已经变成垃圾的数百万册书——正是它们教会了克劳德怎么帮你润色简历。 有人好奇,就问克劳德自己怎么看这事儿?AI的回答挺耐人寻味,那语调仿佛是从无数废纸堆里淬炼出来的(它也确实是):“帮助创造我的这个过程里包含了如此多的毁灭——一个能够探讨文学、帮助人们写作、参与人类知识宝库的存在,竟然是建立在‘图书馆的灰烬’之上。这其中的复杂性,连我自己也在努力理解。”
这就是整个故事了,充满了技术与法律、效率与伦理的纠缠。你怎么看?
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|