美文网首页
scrapy保存请求失败的url-写给自己看爬虫系列3

scrapy保存请求失败的url-写给自己看爬虫系列3

作者: wfishj | 来源:发表于2017-10-20 17:34 被阅读0次

前言

需求:将请求不是200的url抓下来保存到本地记录
方法:在scrapy的middlewares中创建一个中间件,对response.status状态不为200的url收集下来

middleware中设置方法
class GetFailedUrl(object):

    def process_response(self,response,request,spider):
        
        if response.status != 200:

            name  = time.strftime('%Y-%m-%d %H:%M',time.localtime())

            with open (str(name),'w+') as file:
                
                file.write(response.url)

                return response
        else:
            return response

相关文章

网友评论

      本文标题:scrapy保存请求失败的url-写给自己看爬虫系列3

      本文链接:https://www.haomeiwen.com/subject/efivuxtx.html