爬虫

分类下相关文章

php 网站爬虫入门 - Goutte

不使用 python scrapy 的原因 虽然我用 python 写爬虫已有多年,但是我越来越想尝试一下用 PHP 来写个爬虫 厌恶了 python 的包管理 scrapy 对于小爬虫来说太繁琐了 python 的 ORM 相对 PHP laravel 的 eloquent 都像是半成品 当然 scrapy 也有不可替代的功能 调试 console,这个无人可替代。chrome console XPath? PHP 的爬虫库 https://github.com/BruceDone/awesome-crawler Goutte 看上去不错,但是活跃度太低,一年也没几次提交。 不过, ...

阅读全文...

爬虫

不错的参考资料 从第三方数据到第一方数据的技术变革 ...

阅读全文...

scrapy

对于很多简单页面,厌倦了一行一行自己写爬虫,所以尝试一下 Scrapy。重点考察 开发效率 异常处理 防封机制 使用教程参考官网 scrapy.org, 写得很细致。 安装 Scrapy sudo pip install scrapy 在 Mac OS 10.11 酋长石系统上报错 build/temp.macosx-10.10-x86_64-2.7/_openssl.c:400:10: fatal error: 'openssl/aes.h' file not found 开始以为是 openssl 没有安装,于是尝试 $ brew install openssl Warning: ...

阅读全文...

代理池

为何要使用代理 IP 很多时候,目标网站对单 IP 的请求有频率限制,如果要最大限度的发挥单机采集效率,就不得不使用代理 IP。甚至是大量的代理 IP。 使用代理的逻辑 建立一个数据表用于存储代理 IP。主要目的是防止不同服务器上的进程使用了同一代理。 每个进程启动时,从数据表里拉取一个可用的 IP,标识为已被使用。最好能够按照响应时间进行排序,优先获取当前延时最小的代理 当一个代理失效后,从数据表表再获取一个代理,并将原代理标识为废弃 定期更新这个数据表 ...

阅读全文...

近期节日

2018年10月22日 世界传统医药日
2018年10月23日 霜降
2018年10月24日 联合国日
2018年10月31日 世界勤俭日
2018年11月01日 万圣节
2018年11月07日 立冬
2018年11月08日 中国记者日
2018年11月10日 世界青年节
2018年11月11日 光棍节
2018年11月14日 世界糖尿病日
2018年11月17日 国际大学生节
2018年11月20日 国际儿童日
查看更多节日