如何设置python爬虫的爬取时间

答案:2 悬赏:10

解决时间 2021-02-22 06:47

提问者网友：樱花树下最美的约定
2021-02-21 20:42

如何设置python爬虫的爬取时间

最佳答案

二级知识专家网友：末路丶一枝花
2021-02-21 20:59

将网页page source 保存到数据库（mongodb）中，每次取得新的page source 和数据库中的page source 的hash 值是不是想等，如果不等表示有更新。

这个判断有了，爬虫爬取时间策略就好办了。

自己动手实现吧。

全部回答

1楼网友：厭世為王
2021-02-21 21:07

由于项目需求收集并使用过一些爬虫相关库，做过一些对比分析。以下是我接触过的一些库： beautiful soup。名气大，整合了一些常用爬虫需求。缺点：不能加载js。 scrapy。看起来很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。 python基础教程 mechanize。优点：可以加载js。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。 selenium。这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。 cola。一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高，不过值得借鉴。以下是我的一些实践经验：对于简单的需求，比如有固定pattern的信息，怎么搞都是可以的。对于较为复杂的需求，比如爬取动态页面、涉及状态转换、涉及反爬虫机制、涉及高并发，这种情况下是很难找到一个契合需求的库的，很多东西只能自己写。至于题主提到的：还有，采用现有的python爬虫框架，相比与直接使用内置库，优势在哪？因为python本身写爬虫已经很简单了。 third party library可以做到built-in library做不到或者做起来很困难的事情，仅此而已。还有就是，爬虫简不简单，完全取决于需求，跟python是没什么关系的。

我要举报

如以上问答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！