爬虫
(5)字体反爬
例如,58同城上的同一个手机号,每次刷新页面时,其映射的字符都在变化。
实际上是每次用的字体映射关系都在变化。
下面就是同一个电话号码的不同字体映射结果。
```
> python3
Python 3.8.5 (def
php 网站爬虫入门 - Goutte
## 不使用 python scrapy 的原因
虽然我用 python 写爬虫已有多年,但是我越来越想尝试一下用 PHP 来写个爬虫
- 厌恶了 python 的包管理
- [scrapy](https://www.sunzho
代理池
## 为何要使用代理 IP
很多时候,目标网站对单 IP 的请求有频率限制,如果要最大限度的发挥单机采集效率,就不得不使用代理 IP。甚至是大量的代理 IP。
## 使用代理的逻辑
- 建立一个数据表用于存储代理 IP。主要目
scrapy
对于很多简单页面,厌倦了一行一行自己写爬虫,所以尝试一下 Scrapy。重点考察
- 开发效率
- 异常处理
- 防封机制
使用教程参考官网 [scrapy.org](http://scrapy.org), 写得很细致。
爬虫
## 不错的参考资料
- [从第三方数据到第一方数据的技术变革](http://www.infoq.com/cn/articles/data-third-to-first)
上一页
下一页