维基百科遭AI爬虫"狂啃"：服务器带宽暴增50% 运营方紧急限流

Meise · 发表于 2025-4-3 09:17:35

本帖最后由 Meise 于 2025-4-3 10:25 编辑

"我们的内容免费，但我们也不是慈善机构啊！"近日，这个全球最大在线百科全书的运营方发出警告：人工智能公司疯狂抓取数据的行为，正在掏空他们的服务器资源。

维基媒体基金会近日披露，自2024年1月以来，网站多媒体内容下载流量激增50%。但令人意外的是，这些流量并非来自求知若渴的网民，而是各类AI公司开发的自动抓取程序。这些"数据收割机"24小时不间断地下载开放授权的图片和文字，用以投喂自家的AI模型。

更让技术团队头疼的是，这些爬虫不仅盯着热门词条，连冷门内容也不放过。数据显示，虽然机器人访问仅占网站总流量的35%，却消耗了65%的系统资源。某些程序甚至潜入开发人员使用的代码审查平台和漏洞追踪系统，给技术维护带来额外负担。

面对愈演愈烈的资源争夺战，维基百科已采取紧急措施：对过度活跃的爬虫实施限速，严重者直接封禁。但长期解决方案仍在酝酿中，基金会正着手制定"基础设施合理使用"计划，要求大批量抓取数据的公司必须通过身份认证。

"我们的内容免费开放，但服务器和带宽都不是大风刮来的。"基金会发言人强调，当前AI公司无节制抓取数据的行为已难以为继。其实类似困境去年就曾上演——社交平台Reddit发现微软未经许可抓取其内容训练AI，双方为此展开长达数月的攻防战。Reddit首席执行官史蒂夫·霍夫曼事后坦言，处理这类纠纷"真是让人头疼"。

如今随着生成式AI热潮持续升温，如何平衡开放共享与技术公司的商业需求，正成为互联网公共平台面临的新挑战。维基百科技术团队表示，他们将继续与社区用户商讨解决方案，既要维护知识共享的初心，也要确保网站基础设施不被"数字蝗虫"啃食殆尽。