谷歌自曝AI训练内幕：网站屏蔽Gemini竟对搜索无效？媒体内容保护难在哪

土耳鸡烤鸡 · 发表于 2025-5-11 17:18:47

本帖最后由土耳鸡烤鸡于 2025-5-11 17:20 编辑

最近这场科技巨头反垄断官司爆出猛料！谷歌首次在法庭摊牌自家AI的数据玩法，结果让所有网站管理员倒吸一口凉气——原来之前大家用来屏蔽AI爬虫的"终极武器"Google-Extended，压根没有想象中那么万能。

时间倒回2024年9月，谷歌推出这个新工具时宣传说能让网站拒绝被AI训练。可到今年5月的庭审现场大家才惊觉：这玩意只管像Gemini这样的聊天机器人，对每天处理几十上百亿次搜索的引擎系统根本没用！好比在自家门口贴了"谢绝推销"，结果业务员照样每天来“登门拜访”。

更扎心的事实是：就算网站启用了Google-Extended屏蔽谷歌AI产品，他们的内容仍然会被搜索引擎用来训练"AI摘要"功能。这种套娃式设计让《纽约时报》等媒体气得跳脚——他们去年刚和OpenAI打完侵权官司，现在发现自家防护措施形同虚设。

三个关键防御策略现在全网疯传： ① Google-Extended专治聊天AI（Gemini/Vertex AI） ② 要防搜索引擎学艺，还得用传统robots.txt文件 ③ 重点盯防"AI摘要"展示，必须用noindex标签或禁止内容截取

法庭文件显示戏剧性转折：去年大批网站启用新防护后，谷歌旗下DeepMind的训练数据瞬间蒸发800亿条（从1600亿缩水到800亿）。不过这些被屏蔽的内容在搜索系统眼里依旧畅通无阻，活生生演绎现实版"防君子不防小人"。

这场数据攻防战已掀起连锁反应。云服务商Cloudflare开发出能扰乱AI爬虫的"数据迷宫"，法国监管部门提前半年就警告谷歌整改。现在压力来到美国司法部这边——主审法官面临是否要拆分Chrome浏览器、禁止预装AI系统的重大抉择。谷歌CEO劈柴哥（皮查伊）当庭喊冤，声称这些措施会"摧毁搜索业务根基"。

对普通网站运营者来说，当务之急是摸清三套防御体系：防聊天机器人：认准Google-Extended 防搜索AI修炼：死磕robots.txt配置文件终极内容防护：用上nosnippet代码大法

值得注意的是，出版巨头Ziff Davis已正式起诉OpenAI涉嫌违规抓取数据，而谷歌自己也没闲着——谷歌自己也没闲着——刚花6000万美元买下Reddit的数据授权，明显在为AI军备竞赛囤积粮草。这场牵涉全球互联网规则的"数据暗战"，最终判决预计今年年底落锤定音。

账号		自动登录	找回密码
密码			立即注册

[科技] 谷歌自曝AI训练内幕：网站屏蔽Gemini竟对搜索无效？媒体内容保护难在哪

本帖子中包含更多资源

相关帖子