数码之家

 找回密码
 立即注册
搜索
查看: 55|回复: 0

[科技] 谷歌自曝AI训练内幕:网站屏蔽Gemini竟对搜索无效?媒体内容保护难在哪

[复制链接]
发表于 昨天 17:18 | 显示全部楼层 |阅读模式
本帖最后由 土耳鸡烤鸡 于 2025-5-11 17:20 编辑

最近这场科技巨头反垄断官司爆出猛料!谷歌首次在法庭摊牌自家AI的数据玩法,结果让所有网站管理员倒吸一口凉气——原来之前大家用来屏蔽AI爬虫的"终极武器"Google-Extended,压根没有想象中那么万能。

时间倒回2024年9月,谷歌推出这个新工具时宣传说能让网站拒绝被AI训练。可到今年5月的庭审现场大家才惊觉:这玩意只管像Gemini这样的聊天机器人,对每天处理几十上百亿次搜索的引擎系统根本没用!好比在自家门口贴了"谢绝推销",结果业务员照样每天来“登门拜访”。

更扎心的事实是:就算网站启用了Google-Extended屏蔽谷歌AI产品,他们的内容仍然会被搜索引擎用来训练"AI摘要"功能。这种套娃式设计让《纽约时报》等媒体气得跳脚——他们去年刚和OpenAI打完侵权官司,现在发现自家防护措施形同虚设。

三个关键防御策略现在全网疯传: ① Google-Extended专治聊天AI(Gemini/Vertex AI) ② 要防搜索引擎学艺,还得用传统robots.txt文件 ③ 重点盯防"AI摘要"展示,必须用noindex标签或禁止内容截取

法庭文件显示戏剧性转折:去年大批网站启用新防护后,谷歌旗下DeepMind的训练数据瞬间蒸发800亿条(从1600亿缩水到800亿)。不过这些被屏蔽的内容在搜索系统眼里依旧畅通无阻,活生生演绎现实版"防君子不防小人"。

这场数据攻防战已掀起连锁反应。云服务商Cloudflare开发出能扰乱AI爬虫的"数据迷宫",法国监管部门提前半年就警告谷歌整改。现在压力来到美国司法部这边——主审法官面临是否要拆分Chrome浏览器、禁止预装AI系统的重大抉择。谷歌CEO劈柴哥(皮查伊)当庭喊冤,声称这些措施会"摧毁搜索业务根基"。

对普通网站运营者来说,当务之急是摸清三套防御体系: 防聊天机器人:认准Google-Extended 防搜索AI修炼:死磕robots.txt配置文件 终极内容防护:用上nosnippet代码大法

值得注意的是,出版巨头Ziff Davis已正式起诉OpenAI涉嫌违规抓取数据,而谷歌自己也没闲着——谷歌自己也没闲着——刚花6000万美元买下Reddit的数据授权,明显在为AI军备竞赛囤积粮草。这场牵涉全球互联网规则的"数据暗战",最终判决预计今年年底落锤定音。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-12 19:23 , Processed in 0.171600 second(s), 12 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表