首先介绍的是一个工具fake-useragent,可自动生成随机请求头,它被在线维护在github上。
可通过pip install fake-useragent进行安装。
以下是github上常用做法的展示,我们用得最多的是最后一项,直接使用实例化后的.random即可生成一个随机请求头,十分方便。
图1.常用方法
具体scrapy中随机User-Agent设置是在Download Middleware中完成,在Middlewares中添加一个类,比如命名为RandomUserAgentMiddleware。
如下图所示,在process_request中添加代码就可以,print语句只是为了检查验证是否更换了请求头,可以删除。
在更换请求头的下面,同样简单的完成了ip代理的随机更换,我是将获取的ip每个一行以http://112.85.166.116:999的形式存放在text文档中的。使用request.meta['proxy'] = proxy的方式传递使用代理ip。










网友评论