Cloudflare下狠手整治AI爬虫：9月15日起默认屏蔽混用抓取工具

麻薯滑芝士 · 发表于昨天 14:42

本帖最后由麻薯滑芝士于 2026-7-3 17:04 编辑

哎，各位自己搭网站、写博客、搞电商小店、或者在公司里管着官网服务器的站长们，还有那些每天盯着网站流量报表、看着访客曲线忽上忽下、心里七上八下的运营同学，以及那些辛辛苦苦写了一篇干货文章、结果发现被别人家的AI聊天机器人一字不改地抄去用了、连个出处都没标的内容创作者——今天有个事儿，我觉得你们听完之后，多半会拍一下大腿，说一声“早该这么干了”。

你有没有遇到过这种情况：半夜睡不着觉，打开自己网站的后台统计，看了一眼今天的访客记录，结果发现好家伙，IP地址来自五湖四海，什么亚马逊云、谷歌云、微软云，乌泱泱一大片，全是各种爬虫机器人。真正的人类用户点进来的比例，连一半都不到。你心想，算了，爬就爬吧，好歹搜索引擎的爬虫来了，能让我的网页被搜到，也算有点价值。但你慢慢发现不对劲了——有些爬虫不光把你的网页内容拿走去做索引，还顺手把你的文章、图片、产品描述一股脑儿塞进了它们的AI训练数据库里。过了一阵子，你发现有人在某个AI对话框里问了一个跟你网站内容一模一样的问题，那个AI直接把你写的东西整理成一段话甩出去了，连你的网站链接都没附上。而你这边呢，流量没了，广告没人点了，会员也没人订阅了，一分钱没捞着，等于被人白嫖了个干干净净。

这种事情以前你只能干瞪眼，因为互联网的规矩本来就是“谁都能爬”，技术上你也拦不住那些伪装成正常访客的爬虫。但从现在开始，情况真的要变了。全球最大的网站安全防护和内容分发网络服务商Cloudflare，在2026年7月3日这一天，通过科技媒体Engadget发布了一条消息，我看完之后觉得这事儿值得拿出来跟你们好好聊聊。

Cloudflare正式宣布了一项新计划，他们打算自动拦截那些所谓的“混合用途网络爬虫”。什么叫混合用途？就是说这种爬虫不是单纯干一件事的，它一边帮搜索引擎做网页索引，让你的内容能够在搜索结果里被找到，另一边同时又扮演着AI代理的角色——也就是代替人类用户去访问你的网站、抓取最新信息——同时还拿你的数据去训练AI模型。一个人打三份工，拿三份好处，但你作为内容的产出方，连个招呼都没被打一声。

其实Cloudflare之前就已经给了客户一个选择权，让网站主可以主动开启一个功能，阻止这些爬虫抓取网站内容去喂AI聊天机器人。但那会儿是“可选”的，你得自己去设置，你不设置它就默认放行。现在不一样了，Cloudflare的态度变得强硬了很多，他们要把这种保护变成默认状态。用他们CEO马修·普林斯（Matthew Prince）在官方声明里的话来说：“现在互联网上的大多数流量都不是人类产生的了，面对这种情况，我们必须走得更远、行动得更快，这样才能让一个可持续的生态系统真正建立起来。”马修·普林斯是Cloudflare的首席执行官兼联合创始人，他在声明里还接着说：“Cloudflare推出的这些新工具和合作伙伴关系，能够让网站所有者获得更高的可见度和更多的商业机会，同时也能让那些拥有意图清晰、行为透明的机器人的AI公司从中受益。我们希望我们提出的这些默认设置的改变，能够促使那些混合用途的爬虫把搜索引擎索引的功能，跟AI代理的使用以及模型训练的功能彻底分开。”

这段话听起来有点官方，但背后的意思其实很简单：以前互联网上的流量，大部分是真人用户在看网页、点广告、付订阅费，网站靠这些来赚钱养活自己。但现在不一样了，AI模型越来越火，它们可以代替用户去访问网站，抓取最新的实时信息，然后直接把这些信息整合成答案告诉用户。这样一来，用户就不用亲自点进你的网站了，你的广告没人看了，你的订阅也没人买了，但你辛辛苦苦生产的内容却被AI公司拿去用了，你一分钱回报都拿不到。Cloudflare这次出手，就是想重新平衡这个关系，让AI公司和网站主之间能有一个相对公平的交易规则。

那具体怎么操作呢？Cloudflare给出了一个非常明确的时间表和执行方案。从2026年9月15日开始，所有新注册的Cloudflare客户，以及现有Cloudflare订阅用户新添加的网站，都会默认启用一套新的规则。这套规则的核心内容是：“允许搜索引擎抓取你的内容来做索引，但对于那些带有广告的页面，默认禁止将你的内容用于AI模型训练，也禁止用作AI代理的信息源。”换句话说，如果你的网页上挂了广告，那些混合用途的爬虫如果没有给网站主提供一个选择按钮——也就是让网站主自己来决定“你到底能不能拿我的内容去搞AI”——那Cloudflare就会默认把这些爬虫挡在门外。就算你是用免费账户的用户，到了2026年9月15日这个截止日期之后，你的网站也会自动切换到这套默认设置，除非你自己提前跑到后台去把这个选项关掉。

这还没完。作为这次调整的一部分，Cloudflare还对他们在去年——也就是2025年——推出的一项功能进行了升级。那项功能原来叫“按爬取付费”（Pay Per Crawl），意思是网站主可以默认屏蔽AI爬虫，除非那些AI公司愿意掏钱来抓取你的内容。现在这个功能改名了，叫“按使用付费”（Pay Per Use）。变化在哪里呢？以前是按照爬虫有没有爬到你的页面来计算费用，现在是按照你的内容有没有真的出现在AI聊天机器人的回答里来计算费用。也就是说，如果某个AI公司用了你的内容去回答用户的问题，那你就能拿到报酬。Cloudflare在这次公告里只提到了两家合作伙伴：一家叫Ceramic.AI，另一家叫You.com。但Cloudflare显然希望更多的AI公司能加入这个体系，因为一旦他们的客户大规模启用这套默认设置，那些不愿意配合的AI公司将面临无数据可用的尴尬局面。

说到这里，肯定有人会问：Cloudflare这么大张旗鼓地搞这一出，除了想让网站和AI公司之间的关系变得更公平之外，是不是还有别的目标？答案是肯定的，而且目标非常明确。根据科技媒体TechCrunch的分析，Cloudflare这一系列动作，实际上是在间接瞄准谷歌。Cloudflare在公告里特意提到了这样一句话：“目前最大的搜索引擎能够接触到的信息量，大约是领先AI公司的两倍之多，原因就在于这家搜索引擎让它的客户很难在保持自身内容可被发现的同时，又避免被用于AI训练。”这话虽然没有直接点名，但稍微了解互联网行业的人都知道，说的就是谷歌。

具体是怎么回事呢？谷歌的主力爬虫叫做Googlebot，这个爬虫既负责为谷歌旗下的各种搜索引擎做网页索引，又负责收集数据来训练谷歌的AI模型Gemini，同时还为谷歌的一系列AI功能——比如AI概览（AI Overviews）和AI模式（AI Mode）——提供信息支持。谷歌倒是提供了一个单独的爬虫叫做Google-Extended，网站主可以选择只让这个爬虫来抓取传统搜索结果，不让自己的内容参与AI训练。但问题出在这里：如果一个网站主希望自己的内容能够出现在AI模式的搜索结果里，但他又不希望自己的内容被拿去训练谷歌的AI模型，那他根本就没有选择的余地。你要么全给，要么全不给，没有中间选项。Cloudflare这次的新政策，说白了就是在逼谷歌和其他那些使用混合型爬虫的公司，必须改变他们现在的做法。

想象一下这个画面：一个中小规模的网站站长，每天起早贪黑地更新内容，就指着谷歌搜索能带来点流量，再挂点谷歌的广告联盟赚点生活费。结果现在谷歌推出了AI概览功能，直接在搜索结果页里面就把答案显示出来了，用户连鼠标都不用点一下，你的网站链接都没人看了。流量没了，广告收入也跟着跳水。但你的内容呢？实实在在地帮谷歌训练了它的AI模型，帮谷歌完善了它的AI功能。你付出了劳动，承担了服务器成本，结果别人拿着你的东西去赚钱，你连口汤都喝不上。这事儿搁谁身上不憋屈？Cloudflare这次就是站出来替这些网站主撑腰，用技术手段给他们一个反击的工具。

总的来说，Cloudflare这次的举动，可以说是闹出了不小的动静。它不仅仅是一个技术层面的更新，更是一次对现有商业规则的挑战。对于咱们这些普通用户来说，短期内可能感受不到太大的变化，毕竟我们平时上网也就是看看新闻、刷刷视频。但对于那些靠内容吃饭的创作者、那些辛辛苦苦运营网站的站长、以及那些正在疯狂搜集数据来训练模型的AI公司来说，从今年9月15号开始，很多事情真的要不一样了。至于谷歌会怎么接招，其他AI公司会不会乖乖掏钱买数据，Cloudflare这套“按使用付费”的模式能不能真正跑通，咱们就泡杯茶，坐在电脑前面，慢慢等着看后续的发展吧。

oness · 发表于昨天 16:56

游客请登录后查看回复内容

leafchy · 发表于昨天 17:55

游客请登录后查看回复内容

账号		自动登录	找回密码
密码			立即注册

[科技] Cloudflare下狠手整治AI爬虫：9月15日起默认屏蔽混用抓取工具

本帖子中包含更多资源

相关帖子