美文网首页
33.scrapy_redis概念作用和流程

33.scrapy_redis概念作用和流程

作者: M_小七 | 来源:发表于2020-07-28 15:02 被阅读0次

scrapy_redis概念作用和流程

学习目标
  1. 了解 分布式的概念及特点
  2. 了解 scarpy_redis的概念
  3. 了解 scrapy_redis的作用
  4. 了解 scrapy_redis的工作流程

在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据

1. 分布式是什么

简单的说 分布式就是不同的节点(服务器,ip不同)共同完成一个任务

2. scrapy_redis的概念

scrapy_redis是scrapy框架的基于redis的分布式组件

3. scrapy_redis的作用

Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:

通过持久化请求队列和请求的指纹集合来实现:

  • 断点续爬
  • 分布式快速抓取

4. scrapy_redis的工作流程

4.1 回顾scrapy的流程

1.3.3.scrapy工作流程.png
思考:那么,在这个基础上,如果需要实现分布式,即多台服务器同时完成一个爬虫,需要怎么做呢?

4.2 scrapy_redis的流程

  • 在scrapy_redis中,所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中

  • 所有的服务器中的scrapy进程公用同一个redis中的request对象的队列

  • 所有的request对象存入redis前,都会通过该redis中的request指纹集合进行判断,之前是否已经存入过

  • 在默认情况下所有的数据会保存在redis中

具体流程如下:

7.4.2.scrapy_redis的流程.png

小结

scarpy_redis的分布式工作原理

  • 在scrapy_redis中,所有的待抓取的对象和去重的指纹都存在公用的redis中
  • 所有的服务器公用同一redis中的请求对象的队列
  • 所有的request对象存入redis前,都会通过请求对象的指纹进行判断,之前是否已经存入过

相关文章

  • 33.scrapy_redis概念作用和流程

    scrapy_redis概念作用和流程 学习目标 了解 分布式的概念及特点 了解 scarpy_redis的概念 ...

  • scrapy的概念和流程 (黑马教育)

    scrapy的概念和流程 学习目标: 了解 scrapy的概念 了解 scrapy框架的作用 掌握 scrapy框...

  • 27. scrapy的概念和流程

    scrapy的概念和流程 学习目标: 了解 scrapy的概念 了解 scrapy框架的作用 掌握 scrapy框...

  • Xcode 基础工程结构解析

    Xcode 基础概念这里只讨论单project,不讨论多project间引用 流程作用projectProject...

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 会计基础 - 02 凭证 - 财务工作的起点

    会计基础 - 大纲 会计基础 - 01 会计的工作流程 一、会计凭证的概念和作用 二、原始凭证的种类 三、原始凭证...

  • redis 哨兵机制

    哨兵机制的作用 服务发现和健康检查 故障切换流程 七大核心概念 哨兵如何知道Redis主从信息(自动发现机制) 什...

  • 游标的概念和作用

    游标实际上是一种能从包括多条数据记录的结果集中每次提取一条记录的机制。游标充当指针的作用。尽管游标能遍历结果中的所...

  • python基础知识纵览(下)

    python函数 1.函数作用 最大化代码重用和最小化代码冗余 流程的分解 2.函数基本概念 def创建对象并赋值...

  • Promise对象异步对象

    1,Promise的概念和作用: Promise是异步编程的一种解决方案,将异步操作以同步操作的流程表达出来,避免...

网友评论

      本文标题:33.scrapy_redis概念作用和流程

      本文链接:https://www.haomeiwen.com/subject/iomfrktx.html