美文网首页
初见scrapy

初见scrapy

作者: 石野小真人 | 来源:发表于2017-04-06 09:28 被阅读34次

从java的webmagic转过来的.webmagic是根据scrapy的设计思路用java实现的,但实际用的过程中发现webmagic没有下载模块,还有一些其他功能也不够全,所以干脆看了看python语法,直接上手scrapy算了.这里简单记录一些问题,算是备忘吧.

爬虫的一些通用技术点

对于反爬虫机制的处理

请求发送的间隔时间设置->拿别人的数据要有节操

setting里
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
注意:download指的是download html,不是download文件.
默认情况下,Scrapy在两个请求间不等待一个固定的值, 而是使用0.5到1.5之间的一个随机值.
感觉就是,你没想到的,框架都帮你想好了.
建立大于2s,不要把人家网站搞的卡住,模拟正常的频率就好.

伪造user-agent,或者动态切换多个user-agent

同样在setting里:
单个:
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

动态:

DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,
'example.middlewares.RotateUserAgentMiddleware':400,
//注意这里的路径写法: model名.文件名.class名
}

example.middlewares.RotateUserAgentMiddleware 是自己定义的一个class.详见
http://blog.csdn.net/liyuetao680/article/details/48501481

使用代理-维护一个代理池

登录相关

  • 怎么发post
  • 验证码怎么搞
  • cookie管理

其他

  • 断线重连
  • 多进程和多线程
    需不需要自己实现,还是框架内置?
    怎么指定多少个进程,多少线程?
  • ajax 请求的处理
  • 怎么样实现分布式?
  • 怎么调试
  • 怎么增量式抓取

setting.py 全局配置

http://www.myexception.cn/web/1646523.html

强制停止

两次 ctrl +C

清空上次缓存

相关文章

  • 初见scrapy

    从java的webmagic转过来的.webmagic是根据scrapy的设计思路用java实现的,但实际用的过程...

  • 简单 Scrapy 使用小结

    Scrapy 安装Scrapy pip install scrapy Scrapy Doc 查看Scrapy的文档...

  • scrapy框架

    一、scrapy简介 二、scrapy原理 三、scrapy工作流程 四、scrapy框架的创建 五、scrapy...

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • Scrapy基础(一): 安装和使用

    安装 新建scrapy项目 目录 scrapy模板 使用pycharm调试scrapy执行流程 scrapy 终端...

  • python爬虫13:scrapy

    scrapy的结构 scrapy的工作原理 scrapy的用法

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • PyCharm运行和调试Scrapy

    前言: PyCharm运行和调试Scrapy,首先需要安装Scrapy,安装Scrapy请点链接Scrapy的安装...

  • 11- Scrapy-Redis分布式

    Scrapy和Scrapy-Redis的区别 安装Scrapy-Redis Scrapy-Redis介绍 提供了下...

网友评论

      本文标题:初见scrapy

      本文链接:https://www.haomeiwen.com/subject/vmufattx.html