反爬策略与日志处理
反爬
headers
- use-agent
- cookies http 协议是无状态,识别用户
- 设置下载延迟
setting.py download-delay 设置下载延迟 - 使用IP代理池
日志
调试信息 debug
一般信息
警告信息
错误
严重错误
如何设置log日志的级别 --nolog 去掉日志调试信息
- 在终端设置日志
日志默认输入debug等级
可以在运行的时候设置日志登陆
scrapy crawl aaa_spider -L INFO
输出显示:
2019-01-20 11:09:23 [scrapy.core.engine] INFO: Closing spider (finished)
2019-01-20 11:09:23 [scrapy.statscollectors] INFO: Dumping Scrapy stats
- 在setting.py文件中设置日志
self.logger.info('开始爬虫')
在setting 最后设置:
#日志输入的文件:
LOG_FILE = 'aaa.log'
#日志的级别
LOG_LEVEL = 'INFO'
会生成一个aaa.log 文件,日志会写入到这个日志文件里面的
requests response
meta 在不同请求之间进行数据传递,字典格式
dont_filter 不过滤
errback 错误回调
模拟登陆
post请求
formdata
登陆豆瓣
post 找到浏览器提交表单的请求










网友评论