中易网

如何设置python爬虫的爬取时间

答案:2  悬赏:10  
解决时间 2021-02-22 06:47
如何设置python爬虫的爬取时间
最佳答案
将网页page source 保存到数据库(mongodb)中,每次取得新的page source 和数据库中的page source 的hash 值是不是想等,如果不等表示有更新。

这个判断有了,爬虫爬取时间策略就好办了。

自己动手实现吧。
全部回答
由于项目需求收集并使用过一些爬虫相关库,做过一些对比分析。以下是我接触过的一些库: beautiful soup。名气大,整合了一些常用爬虫需求。缺点:不能加载js。 scrapy。看起来很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。 python基础教程 mechanize。优点:可以加载js。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。 selenium。这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。 cola。一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高,不过值得借鉴。 以下是我的一些实践经验: 对于简单的需求,比如有固定pattern的信息,怎么搞都是可以的。 对于较为复杂的需求,比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发,这种情况下是很难找到一个契合需求的库的,很多东西只能自己写。 至于题主提到的: 还有,采用现有的python爬虫框架,相比与直接使用内置库,优势在哪?因为python本身写爬虫已经很简单了。 third party library可以做到built-in library做不到或者做起来很困难的事情,仅此而已。还有就是,爬虫简不简单,完全取决于需求,跟python是没什么关系的。
我要举报
如以上问答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
和久日本料理在哪里啊,我有事要去这个地方
拔丝地瓜的英文怎么说
下楼村这个地址在什么地方,我要处理点事
王者荣耀中的复仇之矛是谁
陇南恒通商贸有限责任公司我想知道这个在什么
韩语中(奚落,安对)有什么区别
lsp文件怎么使用
雨隆泽宏汽修地址在什么地方,想过去办事
厦航网上招聘审核要多长时间?
求一个MAYA模型下载地址。要求很简单就可以了
各位,中兴微电子研究院怎么样
木综厂宿舍楼43至44幢我想知道这个在什么地方
如何验证cox回归模型预测效果
花(吊兰)移到新土需不需要浇水?
佳鹏专业美发用品商行在什么地方啊,我要过去
推荐资讯
南京未来几天天气如何。台风南京只是外围?
沧州飞豹管件有限公司怎么去啊,有知道地址的
金志文•徐佳莹的《远走高飞》高品音质,求资
大连离鞍山锦州沈阳哪个近
合子丘地址在什么地方,想过去办事
民康药品超市北京路分店我想知道这个在什么地
不用刀如何剥开柚子
魔兽2012世界末日1.00攻略
学化学工程与工艺专业从事什么工作?
梦见自己在路上走着走着腿就不能走了是怎么回
现在市场上有一款畅智益开奶灵.它和衍生哪个
好记大排档地址在哪,我要去那里办事
手机登qq时,显示手机磁盘不足,清理后重新登
刺客的套装怎么选啊?