屏蔽爬虫

大象笔记 > 标签 > 屏蔽爬虫

设置 Nginx 规则以屏蔽指定 User Agent 的网站爬虫

晚上我的一个 wordpress 网站再一次被可恶的爬虫爬挂了。。。 对方疯狂的爬取网页,且瞬间并发无数个请求,丝毫不考虑我这孱弱的阿里云低配服务器的小身板能否承受住。不出意外,我的网站挂掉了。。。 没办法,必须得处理一下。 看了一下 nginx 日志中这些爬虫的请求记录: 每 10 个请求一换 IP 请求头都为 "Scrapy/1.7.3 (+https://scrapy.org)" 所以通过 IP 规则来屏蔽是不可能了,可以简单地用 User Agent 匹配规则的方式来屏蔽这些爬虫。 Nginx 配置 顺便把 Yisou 的爬虫屏蔽了。 if ($http_use ...

阅读全文...