1.scrapy的重复url处理
class Request(object_ref):
def __init__(self, url, callback=None, method='GET', headers=None, body=None,
cookies=None, meta=None, encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None):
这是scrapy.Request的参数定义,其中有一个dont_filter参数,这是重复url是否处理的开关,默认为False,也就是默认会过滤掉重复的url
也就是如果scrapy检查发现这个url已经爬取过,就会跳过这个Request
关于scrapy判断重复url,scrapy会有一个set存放请求url的指纹信息,如果发现当前的url的信息在set中就判断为重复
网友评论