|
本帖最后由 Meise 于 2025-5-6 16:49 编辑
最近技术圈炸出个冷知识:给谷歌AI模型Gemini打工的网络爬虫"Google-Extended",原来和咱天天见的谷歌搜索爬虫是亲兄弟!这事儿还是谷歌工程师Martin Splitt在一次媒体采访里说漏嘴的——原来不管是传统搜索引擎用的Googlebot,还是给AI投喂数据的Google-Extended,全都共享同一套网页渲染黑科技(WRS)!
简单来说,这就像是给俩机器人装上了同款"电子眼"。当你打开某个加载了JavaScript的炫酷网页,普通AI爬虫可能只会看到光秃秃的骨架,而谷歌这俩兄弟却能像真人用户一样,把动态加载的图片、动画甚至隐藏内容全给"看"明白。难怪有网友调侃:"原来大厂AI看的网页,和我们刷的抖音一样丝滑!"
更有意思的是,这次爆料还给站长们解开了多年疑惑。以前总有人问:"我屏蔽了Googlebot,Gemini会不会饿肚子?"现在实锤了——只要开着JavaScript渲染功能,Gemini训练时看到的网页和搜索结果页完全就是"同一份外卖"。不过Martin也赶紧补充说,虽然技术底子一样,但搜索数据和AI训练数据可是"分锅吃饭",绝不会混着用。
要说这项独家本领到底多厉害?看看现在市面上那些被React框架网站搞得晕头转向的AI就知道——当别的模型还在对着空白页面干瞪眼时,Gemini已经在用WebGL动画当教材学画画了。这也难怪谷歌敢让AI直接从全网抓素材,因为自家爬虫已经把最难啃的网页动态内容都消化成"营养膏"了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|