分类下相关文章
2015-12-12 · 阅读 8101
玩,就得遵守游戏规则 Pinterest 是禁止成人内容的,但是通过爬虫爬取的图片很难保证不存在这样的内容,所以需要对上传到 Pinterest 的图片做筛选分级,保证提交到 Pinterest 的图片即具有吸引力,同时又不违反 Pinterest 的政策。 又快又有效的实现方式 每天爬取的图片数量不大,所以人工审核成本并不高。就算量很大,实际上也不要全部审核,能挑出几张图片就已经足够了。 可选技术实现方案: 专门写个带 UI 的后台。缺点,工作量大 在前端加审核按钮。权限控制也挺麻烦 使用 Slack bot 进行图片分级。这个靠谱 新建一个 Outgoing WebHooks,发送到 ...
2016-05-14 · 阅读 6475
三方数据建站的思路 历史数据一次性爬取完 利用获取到的数据,分析出一定的有价值的结论/数据。或者是非结构化的数据,转换成结构化的数据。 再考虑数据更新的问题。以及更多数据源的问题。 新的数据是否应该出现在首页是需要谨慎处理的。 常见单词 PM me - private message me Do NOT post excessive "thank you" posts for the purpose of inflating your post count. excessive - 过度的 inflate - 膨胀 But made a cool few gr ...