爬虫

分类下相关文章

php 网站爬虫入门 - Goutte

不使用 python scrapy 的原因 虽然我用 python 写爬虫已有多年,但是我越来越想尝试一下用 PHP 来写个爬虫 厌恶了 python 的包管理 scrapy 对于小爬虫来说太繁琐了 python 的 ORM 相对 PHP laravel 的 eloquent 都像是半成品 当然 scrapy 也有不可替代的功能 调试 console,这个无人可替代。chrome console XPath? PHP 的爬虫库 https://github.com/BruceDone/awesome-crawler Goutte 看上去不错,但是活跃度太低,一年也没几次提交。 不过, ...

阅读全文...

爬虫

不错的参考资料 从第三方数据到第一方数据的技术变革 ...

阅读全文...

scrapy

对于很多简单页面,厌倦了一行一行自己写爬虫,所以尝试一下 Scrapy。重点考察 开发效率 异常处理 防封机制 使用教程参考官网 scrapy.org, 写得很细致。 安装 Scrapy sudo pip install scrapy 在 Mac OS 10.11 酋长石系统上报错 build/temp.macosx-10.10-x86_64-2.7/_openssl.c:400:10: fatal error: 'openssl/aes.h' file not found 开始以为是 openssl 没有安装,于是尝试 $ brew install openssl Warning: ...

阅读全文...

代理池

为何要使用代理 IP 很多时候,目标网站对单 IP 的请求有频率限制,如果要最大限度的发挥单机采集效率,就不得不使用代理 IP。甚至是大量的代理 IP。 使用代理的逻辑 建立一个数据表用于存储代理 IP。主要目的是防止不同服务器上的进程使用了同一代理。 每个进程启动时,从数据表里拉取一个可用的 IP,标识为已被使用。最好能够按照响应时间进行排序,优先获取当前延时最小的代理 当一个代理失效后,从数据表表再获取一个代理,并将原代理标识为废弃 定期更新这个数据表 ...

阅读全文...