代理池

更新日期: 2016-04-15 阅读次数: 6470 分类: 爬虫

为何要使用代理 IP

很多时候,目标网站对单 IP 的请求有频率限制,如果要最大限度的发挥单机采集效率,就不得不使用代理 IP。甚至是大量的代理 IP。

使用代理的逻辑

  • 建立一个数据表用于存储代理 IP。主要目的是防止不同服务器上的进程使用了同一代理。
  • 每个进程启动时,从数据表里拉取一个可用的 IP,标识为已被使用。最好能够按照响应时间进行排序,优先获取当前延时最小的代理
  • 当一个代理失效后,从数据表表再获取一个代理,并将原代理标识为废弃
  • 定期更新这个数据表

关于作者

我是来自山东烟台的一名开发者,喜欢瞎折腾,顺便记记笔记。有敢兴趣的话题,欢迎加微信 zhongwei 聊聊。 白天工地搬砖,晚上哄熊孩子,可能回复有点慢,见谅。 查看更多联系方式

相关文章

爱评论不评论

近期节日

2019年12月20日 澳门回归日
2019年12月21日 国际篮球日
2019年12月22日 冬至
2019年12月24日 平安夜
2019年12月25日 圣诞节
查看更多节日