数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 28|回复: 0

[科技] RSS之父推出AI数据许可协议,破解版权难题

[复制链接]
发表于 5 小时前 | 显示全部楼层 |阅读模式
当AI公司们忙着为训练数据的版权问题焦头烂额时,一位互联网老炮儿带来了可能改变游戏规则的解决方案——这可不是什么小打小闹的修补,而是一套可能重塑整个行业规则的系统。

家人们,AI圈又出大事了!这次不是哪个模型又突破了什么极限,而是AI行业终于要面对那个一直避而不谈的问题:训练数据的版权到底该怎么算?就在Anthropic公司刚为版权问题掏了15亿美元和解金后,RSS联合创始人埃克特·沃尔瑟带着他的新作品“真正简单许可”(Real Simple Licensing,简称RSL)协议闪亮登场。

这事儿说起来还挺有意思的。现在的AI公司就像一群饥渴的海绵,疯狂吸收着互联网上的各种数据来训练自己的模型。但问题来了:这些数据很多都是有版权的啊!目前已经有​​超过40起未决诉讼​​等着AI公司们给个说法,其中还包括Midjourney被指控用受版权保护的内容生成超人图像的案子。

要是没有个合适的许可系统,AI公司可能真的要面临版权诉讼的雪崩式增长,有些人甚至担心这会让整个行业倒退好几年。

版权困局:AI公司的“心头大石”
AI行业现在可真是遇到了成长的烦恼。训练那些大语言模型需要海量数据,但这些数据的版权问题一直像个悬在头顶的达摩克利斯之剑。

最让人头疼的是Midjourney那个案子,被指控用受版权保护的内容生成超人图像。这类案件不光关系到要赔多少钱,更关系到AI公司运营模式到底合不合法。

现在的情况是,没有有效的许可系统,AI公司可能面临无数版权诉讼。这种担忧可不是空穴来风,毕竟15亿美元的和解金已经创造了历史记录,而且还有那么多案子在排队等着呢。

RSL协议:技术大牛的破局之道
埃克特·沃尔瑟可不是什么行业新人。作为RSS标准的联合创始人,他在网络协议领域可是个重量级人物。他接受TechCrunch采访时说得很直白:“我们需要为互联网建立机器可读的许可协议,这正是RSL要解决的问题。”

RSL协议这次是玩真的,从技术到法律层面都考虑得相当周全。技术层面,协议规定了出版商可以为其内容设置的特定许可条款,不管是要AI公司获取自定义许可,还是采用知识共享条款都行。

参与网站会把这些条款以预定格式放进它们的“robots.txt”文件里,这样就能轻松识别哪些数据适用哪些条款了。

法律层面更是厉害,RSL团队直接建立了一个集体许可组织——RSL集体,可以协商条款和收取版税,就跟音乐家的ASCAP或电影的MPLC一个路子。这样许可方有个统一的支付点,权利持有人也能一次性跟几十个潜在被许可方设定条款。

行业力挺:大佬们的集体站台
RSL现在已经获得了一堆重量级网络出版商的支持。已经加入集体的包括雅虎、Reddit、Medium、O'Reilly Media、Ziff Davis(Mashable和Cnet的所有者)、Internet Brands(WebMD的所有者)、People Inc.和The Daily Beast。

还有其他公司像Fastly、Quora和Adweek也在支持这个标准,只是没加入集体。特别值得一提的是,RSL集体里还包括一些已经达成许可协议的出版商,最典型的就是Reddit,据说每年从谷歌那儿能拿到6000万美元的训练数据使用费。

这就好比泰勒·斯威夫特既可以通过ASCAP收版税,又能自己设定特殊许可条款。在RSL系统内达成自己的协议完全没问题,但对那些太小没法自行达成协议的出版商来说,RSL的集体条款可能就是唯一的选择了。

技术难题:怎么追踪数据使用
确定歌曲什么时候被播放还挺容易的,但AI模型在确定什么时候该为训练数据付版税这事儿上可是带来了独特的挑战。

对像谷歌的AI搜索摘要这样实时从网络获取数据并为每个事实保持严格归属的产品来说,问题还算简单。但要是训练发生时没记录,那几乎就不可能确认某个特定文档是不是被大语言模型吃进去了。

如果出版商要求按推理次数付费而不是收统一费用,那问题就更复杂了——这可是RSL标准许可之一提供的选项呢。不过RSL的创建者们相信AI公司能搞定这些难题。

RSL联合创始人、IAC Publishing前首席执行官道格·利兹说得很实在:“他们已经完成的一些许可协议要求他们能够进行报告,所以这是可能的。不需要完美,只需要足够好让人们获得报酬。”

行业接受度:最大的未知数
现在最大的问题是AI公司会不会买账。就像ScaleAI和Mercor这些公司的成功所显示的,前沿实验室并不介意付费获取数据,但网络传统上一直被看作是廉价、低质量数据的来源。

随着Common Crawl这类数据集已经可用,想从实验室习惯免费获取的东西中提取版税可能是个挑战。就像最近Cloudflare和Perplexity之间的争执所显示的,区分网络爬虫和机器增强浏览并不是那么简单的事。

当被问到这个问题时,利兹指出了AI领导者最近呼吁建立类似RSL系统的评论——最值得注意的是桑达尔·皮查伊在去年Dealbook峰会上的发言。不管对许可系统的呼吁是不是真心实意,RSL团队都打算让他们兑现承诺。

“他们对外向所有人表示,需要这样的东西存在,”利兹告诉我。“我们需要一个协议。我们需要一个系统。”现在他们可能会得到一个。

AI行业这场关于数据版权的博弈才刚刚开始。RSL协议的出现像是一颗投入湖面的石子,激起的涟漪可能会改变整个行业的生态。

从某种意义上说,这标志着AI行业正在从野蛮生长的早期阶段走向更加规范的成熟期。这项倡议不光是个技术解决方案,更代表着整个行业对知识产权保护的认可和尊重。

有了这么多重量级出版商的加盟和支持,RSL已经获得了重要的行业背书。但现在最大的悬念是:AI公司们会不会接这个招?毕竟从免费午餐到付费盛宴的转变,从来都不是那么容易接受的。

在技术创新与版权保护之间找平衡从来都不容易,但RSL协议至少提供了一个可行的起点。这个由互联网老炮儿带来的解决方案,可能会成为AI行业发展的重要转折点,为训练数据的合法使用开辟出一条新道路。

最后说句实在的,这事儿关系到每个上网的人。毕竟如果连AI公司都要开始为数据付费了,那互联网的免费时代可能真的要慢慢远去了。咱们就静观其变吧!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-9-12 14:13 , Processed in 0.218401 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表