服务器反爬虫蜘蛛攻略：Apache/Nginx/PHP禁止某些User Agent搜索抓取网站

不长叶子的树 · 发表于 2023-12-5 20:59:47

爱科技、爱创意、爱折腾、爱极致，我们都是技术控

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由不长叶子的树于 2023-12-5 21:05 编辑

我们都知道网络上的爬虫非常多，有对网站收录有益的，比如百度蜘蛛（Baiduspider），也有不但不遵守 robots 规则对服务器造成压力，还不能为网站带来流量的无用爬虫，比如宜搜蜘蛛（YisouSpider）（最新补充：宜搜蜘蛛已被 UC 神马搜索收购！所以本文已去掉宜搜蜘蛛的禁封！==>相关文章)。最近张戈发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。
一、Apache①、通过修改 .htaccess 文件修改网站目录下的.htaccess，添加如下代码即可（2 种代码任选）：
可用代码 (1)：[tr][/tr]

RewriteEngine On

[tr][/tr]

RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]

RewriteRule ^(.*)$ - [F]

可用代码 (2)：[tr][/tr]

[tr][/tr]

Order Allow,Deny

[tr][/tr]

Allow from all

Deny from env=BADBOT

②、通过修改 httpd.conf 配置文件找到如下类似位置，根据以下代码新增 / 修改，然后重启 Apache 即可：
[tr][/tr]

DocumentRoot /home/wwwroot/xxx

[tr][/tr]

[tr][/tr]

[tr][/tr]

Order allow,deny

[tr][/tr]

Allow from all

[tr][/tr]

deny from env=BADBOT

</Directory>

二、Nginx 代码进入到 nginx 安装目录下的 conf 目录，将如下代码保存为 agent_deny.conf
cd /usr/local/nginx/conf
vim agent_deny.conf
[tr][/tr]

#禁止 Scrapy 等工具的抓取

[tr][/tr]

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {

[tr][/tr]

return 403;

[tr][/tr]

}

[tr][/tr]

#禁止指定 UA 及 UA 为空的访问

[tr][/tr]

if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {

[tr][/tr]

return 403;

[tr][/tr]

}

[tr][/tr]

#禁止非 GET|HEAD|POST 方式的抓取

[tr][/tr]

if ($request_method !~ ^(GET|HEAD|POST)$) {

[tr][/tr]

return 403;

}

然后，在网站相关配置中的 location / { 之后插入如下代码：

include agent_deny.conf;

如张戈博客的配置：
[tr][/tr]

[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf

[tr][/tr]

location / {

[tr][/tr]

try_files $uri $uri/ /index.php?$args;

[tr][/tr]

#这个位置新增 1 行：

[tr][/tr]

include agent_deny.conf;

[tr][/tr]

rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;

[tr][/tr]

rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;

rewrite ^/sitemap_m.xml$ /sitemap_m.php last;

保存后，执行如下命令，平滑重启 nginx 即可：

/usr/local/nginx/sbin/nginx -s reload

三、PHP 代码将如下方法放到贴到网站入口文件 index.php 中的第一个 <?php 之后即可：
[tr][/tr]

//获取 UA 信息

[tr][/tr]

$ua = $_SERVER['HTTP_USER_AGENT'];

[tr][/tr]

//将恶意 USER_AGENT 存入数组

[tr][/tr]

$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');

[tr][/tr]

//禁止空 USER_AGENT，dedecms 等主流采集程序都是空 USER_AGENT，部分 sql 注入工具也是空 USER_AGENT

[tr][/tr]

if(!$ua) {

[tr][/tr]

header("Content-type: text/html; charset=utf-8");

[tr][/tr]

die('请勿采集本站，因为采集的站长木有小 JJ！');

[tr][/tr]

}else{

[tr][/tr]

foreach($now_ua as $value )

[tr][/tr]

//判断是否是数组中存在的 UA

[tr][/tr]

if(eregi($value,$ua)) {

[tr][/tr]

header("Content-type: text/html; charset=utf-8");

[tr][/tr]

die('请勿采集本站，因为采集的站长木有小 JJ！');

[tr][/tr]

}

四、测试效果如果是 vps，那非常简单，使用 curl -A 模拟抓取即可，比如：
模拟宜搜蜘蛛抓取：

curl -I -A 'YisouSpider' zhang.ge

模拟 UA 为空的抓取：

curl -I -A '' zhang.ge

模拟百度蜘蛛的抓取：

curl -I -A 'Baiduspider' zhang.ge

三次抓取结果截图如下：

可以看出，宜搜蜘蛛和 UA 为空的返回是 403 禁止访问标识，而百度蜘蛛则成功返回 200，说明生效！
补充：第二天，查看 nginx 日志的效果截图：①、UA 信息为空的垃圾采集被拦截：

②、被禁止的 UA 被拦截：

因此，对于垃圾蜘蛛的收集，我们可以通过分析网站的访问日志，找出一些没见过的的蜘蛛（spider）名称，经过查询无误之后，可以将其加入到前文代码的禁止列表当中，起到禁止抓取的作用。
五、附录：UA 收集下面是网络上常见的垃圾 UA 列表，仅供参考，同时也欢迎你来补充。
[tr][/tr]

FeedDemon 内容采集

[tr][/tr]

BOT/0.1 (BOT for JCE) sql 注入

[tr][/tr]

CrawlDaddy sql 注入

[tr][/tr]

Java 内容采集

[tr][/tr]

Jullo 内容采集

[tr][/tr]

Feedly 内容采集

[tr][/tr]

UniversalFeedParser 内容采集

[tr][/tr]

ApacheBench cc 攻击器

[tr][/tr]

Swiftbot 无用爬虫

[tr][/tr]

YandexBot 无用爬虫

[tr][/tr]

AhrefsBot 无用爬虫

[tr][/tr]

YisouSpider 无用爬虫（已被 UC 神马搜索收购，此蜘蛛可以放开！）

[tr][/tr]

MJ12bot 无用爬虫

[tr][/tr]

ZmEu phpmyadmin 漏洞扫描

[tr][/tr]

WinHttp 采集 cc 攻击

[tr][/tr]

EasouSpider 无用爬虫

[tr][/tr]

HttpClient tcp 攻击

[tr][/tr]

Microsoft URL Control 扫描

[tr][/tr]

YYSpider 无用爬虫

[tr][/tr]

jaunty wordpress 爆破扫描器

[tr][/tr]

oBot 无用爬虫

[tr][/tr]

Python-urllib 内容采集

[tr][/tr]

Indy Library 扫描

[tr][/tr]

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

zhang.ge/4458.html

账号		自动登录	找回密码
密码			立即注册

服务器反爬虫蜘蛛攻略：Apache/Nginx/PHP禁止某些User Agent搜索抓取网站

爱科技、爱创意、爱折腾、爱极致，我们都是技术控

相关帖子