爬虫

分类下相关文章

php 网站爬虫入门 - Goutte

不使用 python scrapy 的原因 虽然我用 python 写爬虫已有多年,但是我越来越想尝试一下用 PHP 来写个爬虫 厌恶了 python 的包管理 scrapy 对于小爬虫来说太繁琐了 python 的 ORM 相对 PHP laravel 的 eloquent 都像是半成品 当然 scrapy 也有不可替代的功能 调试 console,这个无人可替代。chrome console XPath? PHP 的爬虫库 https://github.com/BruceDone/awesome-crawler Goutte 看上去不错,但是活跃度太低,一年也没几次提交。 不过, ...

阅读全文...

代理池

为何要使用代理 IP 很多时候,目标网站对单 IP 的请求有频率限制,如果要最大限度的发挥单机采集效率,就不得不使用代理 IP。甚至是大量的代理 IP。 使用代理的逻辑 建立一个数据表用于存储代理 IP。主要目的是防止不同服务器上的进程使用了同一代理。 每个进程启动时,从数据表里拉取一个可用的 IP,标识为已被使用。最好能够按照响应时间进行排序,优先获取当前延时最小的代理 当一个代理失效后,从数据表表再获取一个代理,并将原代理标识为废弃 定期更新这个数据表 ...

阅读全文...

scrapy

对于很多简单页面,厌倦了一行一行自己写爬虫,所以尝试一下 Scrapy。重点考察 开发效率 异常处理 防封机制 使用教程参考官网 scrapy.org, 写得很细致。 安装 Scrapy sudo pip install scrapy 在 Mac OS 10.11 酋长石系统上报错 build/temp.macosx-10.10-x86_64-2.7/_openssl.c:400:10: fatal error: 'openssl/aes.h' file not found 开始以为是 openssl 没有安装,于是尝试 $ brew install openssl Warning: ...

阅读全文...

爬虫

不错的参考资料 从第三方数据到第一方数据的技术变革 ...

阅读全文...

近期节日

2019年02月24日 第三世界青年日
2019年02月28日 世界居住条件调查日
2019年03月01日 国际海豹日
2019年03月03日 全国爱耳日
2019年03月05日 学雷锋日
2019年03月06日 惊蛰
2019年03月08日 三八妇女节
2019年03月08日 龙抬头
2019年03月12日 植树节
2019年03月14日 白色情人节
2019年03月15日 消费者权益日
2019年03月17日 国际航海日
查看更多节日