数码之家

 找回密码
 立即注册
搜索
查看: 372|回复: 7

[业界] 维基百科遭AI爬虫"狂啃":服务器带宽暴增50% 运营方紧急限流

[复制链接]
发表于 2025-4-3 09:17:35 | 显示全部楼层 |阅读模式
本帖最后由 Meise 于 2025-4-3 10:25 编辑

"我们的内容免费,但我们也不是慈善机构啊!"近日,这个全球最大在线百科全书的运营方发出警告:人工智能公司疯狂抓取数据的行为,正在掏空他们的服务器资源。

维基媒体基金会近日披露,自2024年1月以来,网站多媒体内容下载流量激增50%。但令人意外的是,这些流量并非来自求知若渴的网民,而是各类AI公司开发的自动抓取程序。这些"数据收割机"24小时不间断地下载开放授权的图片和文字,用以投喂自家的AI模型。

更让技术团队头疼的是,这些爬虫不仅盯着热门词条,连冷门内容也不放过。数据显示,虽然机器人访问仅占网站总流量的35%,却消耗了65%的系统资源。某些程序甚至潜入开发人员使用的代码审查平台和漏洞追踪系统,给技术维护带来额外负担。

面对愈演愈烈的资源争夺战,维基百科已采取紧急措施:对过度活跃的爬虫实施限速,严重者直接封禁。但长期解决方案仍在酝酿中,基金会正着手制定"基础设施合理使用"计划,要求大批量抓取数据的公司必须通过身份认证。

"我们的内容免费开放,但服务器和带宽都不是大风刮来的。"基金会发言人强调,当前AI公司无节制抓取数据的行为已难以为继。其实类似困境去年就曾上演——社交平台Reddit发现微软未经许可抓取其内容训练AI,双方为此展开长达数月的攻防战。Reddit首席执行官史蒂夫·霍夫曼事后坦言,处理这类纠纷"真是让人头疼"。

如今随着生成式AI热潮持续升温,如何平衡开放共享与技术公司的商业需求,正成为互联网公共平台面临的新挑战。维基百科技术团队表示,他们将继续与社区用户商讨解决方案,既要维护知识共享的初心,也要确保网站基础设施不被"数字蝗虫"啃食殆尽。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
发表于 2025-4-3 09:58:06 | 显示全部楼层

回帖奖励 +3 家元

机器人干那活干的666,比人干的快多了。
回复 支持 反对

使用道具 举报

发表于 2025-4-3 10:04:14 | 显示全部楼层

回帖奖励 +3 家元

都在疯狂截取数据。
回复 支持 反对

使用道具 举报

发表于 2025-4-3 10:50:59 | 显示全部楼层
总得找到合适的处理方式,这需要过程。
回复 支持 反对

使用道具 举报

发表于 2025-4-3 12:12:14 | 显示全部楼层
用维基百科训练ai,ai还能公平公正吗?
回复 支持 反对

使用道具 举报

发表于 2025-4-3 14:22:32 | 显示全部楼层
我觉得模型蒸馏还能对网站运营者友好一点
回复 支持 反对

使用道具 举报

发表于 2025-4-3 16:00:51 | 显示全部楼层
很简单,自己拿块硬盘到维基百科的机房去复制,不占用对方的带宽就省大钱了。
回复 支持 反对

使用道具 举报

发表于 2025-4-3 22:51:58 | 显示全部楼层
skyplayer 发表于 2025-4-3 16:00
很简单,自己拿块硬盘到维基百科的机房去复制,不占用对方的带宽就省大钱了。 ...

都不想花钱的
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-15 21:49 , Processed in 0.109200 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表