爬虫

(5)

字体反爬

例如,58同城上的同一个手机号,每次刷新页面时,其映射的字符都在变化。 实际上是每次用的字体映射关系都在变化。 下面就是同一个电话号码的不同字体映射结果。 ``` > python3 Python 3.8.5 (def

php 网站爬虫入门 - Goutte

## 不使用 python scrapy 的原因 虽然我用 python 写爬虫已有多年,但是我越来越想尝试一下用 PHP 来写个爬虫 - 厌恶了 python 的包管理 - [scrapy](https://www.sunzho

代理池

## 为何要使用代理 IP 很多时候,目标网站对单 IP 的请求有频率限制,如果要最大限度的发挥单机采集效率,就不得不使用代理 IP。甚至是大量的代理 IP。 ## 使用代理的逻辑 - 建立一个数据表用于存储代理 IP。主要目

scrapy

对于很多简单页面,厌倦了一行一行自己写爬虫,所以尝试一下 Scrapy。重点考察 - 开发效率 - 异常处理 - 防封机制 使用教程参考官网 [scrapy.org](http://scrapy.org), 写得很细致。

爬虫

## 不错的参考资料 - [从第三方数据到第一方数据的技术变革](http://www.infoq.com/cn/articles/data-third-to-first)