美文网首页
webmagic中级:(三)

webmagic中级:(三)

作者: 沙漏如心 | 来源:发表于2018-03-15 10:23 被阅读0次

这里呢,我们会说一下webmagic 的第三个核心,shceduler,管理器,他在webmagic整体框架中主要实现的是对url 的一系列管理操作,也就是去重,过滤,分发等一系列行为。

这个呢就是我们所看到的的核心包里面的东西了,里面一共有2个接口,2个类,1个抽象类。我们还是挑重点看!

scheduler接口

  这个里面只有两个方法,一个是push,推送! 一个是poll ! 

    push 呢,方法主要是负责推送,在spider 添加地址的时候,会将url 封装成request,并且推送给scheduler,只不过在这里有一点点区别的就是,去重的操作,不是在scheduler 来进行的操作,而是spider 里面来进行完成的一部分才做,这里只是一个url 存储机制吧! 查看了源码才知道自己以前的一部分理解完全是有点问题的! 

如果这些呢,都不太符合你的需求的话,在webmagic-extension里面还存在很多的哦,总有一个适合你!

相关文章

  • webmagic中级:(三)

    这里呢,我们会说一下webmagic 的第三个核心,shceduler,管理器,他在webmagic整体框架中主要...

  • webmagic中级(二)

    上一篇呢,我们说了pipeline 数据管道,这下呢,我们就来了解一下这个download,看看这些个数据呢,到底...

  • webmagic中级:(四)

    在这个地方我们将对spider来进行一点源码的查看! spider 因为呢,不想其他的几个部件一样,这个部件拥有...

  • WebMagic指北

    WebMagic指北 一、快速开始 WebMagic主要包含两个jar包:webmagic-core-{versi...

  • java爬虫基础--webmagic

    java爬虫--webmagic 整理自尚硅谷教学内容 一、webMagic的总体介绍 WebMagic的结构分为...

  • WebMagic+Spring Boot爬取网易云音乐评论

    关于WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个...

  • 爬虫框架webmagic与spring boot的结合使用

    1. 爬虫框架webmagic WebMagic是一个简单灵活的爬虫框架。基于WebMagic,你可以快速开发出一...

  • Webmagic+selenium+chromedriver使用

    一、Webmagic总体架构: WebMagic的结构分为Downloader、PageProcessor、Sch...

  • WebMagic JAVA爬虫框架

    官方文档 WebMagic总体架构 WebMagic的结构分为Downloader、PageProcessor、S...

  • webmagic高级:(三)

    这一篇呢,我们看看Site 这个对象! Site 作为Webmagic 的一个重要对象,却永远是呗最先忽略掉的一个...

网友评论

      本文标题:webmagic中级:(三)

      本文链接:https://www.haomeiwen.com/subject/eqzzfftx.html