美文网首页
scrapy一些知识点

scrapy一些知识点

作者: BigBigTang | 来源:发表于2019-03-05 07:32 被阅读0次

1.scrapy的重复url处理

class Request(object_ref):

    def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None):

这是scrapy.Request的参数定义,其中有一个dont_filter参数,这是重复url是否处理的开关,默认为False,也就是默认会过滤掉重复的url
也就是如果scrapy检查发现这个url已经爬取过,就会跳过这个Request

关于scrapy判断重复url,scrapy会有一个set存放请求url的指纹信息,如果发现当前的url的信息在set中就判断为重复

相关文章

网友评论

      本文标题:scrapy一些知识点

      本文链接:https://www.haomeiwen.com/subject/gamguqtx.html