美文网首页
scrapy框架总结

scrapy框架总结

作者: han呐 | 来源:发表于2018-11-05 20:32 被阅读0次

#scrapy框架是什么:

#####scrapy是用纯Python实现的一个为了爬去网站数据,提取结构数据而编写的应用框架.

scrapy框架的工作流程:![scrapy.jpeg](https://img.haomeiwen.com/i9879502/9957aa2df11ded61.jpeg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

```

#个个模块之间的作用:

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy ##Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy ##Engine(引擎),由引擎交给Spider来处理,

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。

#Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和##Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

```

![c893ae3b-5557-4649-9b48-c8748d3936cd.png](https://img.haomeiwen.com/i9879502/ea12c4f8aa5ef9c9.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

##介绍完了scrapy的工作流程之后我们就可以开始爬虫项目了!!

>1:新建一个项目: scapy startproject 我的爬虫名称

>项目新建完成之后我们要进入spider文件下再创建你的爬虫文件, scrapy genspider 爬虫文件名称 爬虫域

创建完了项目之后我们就可一制作我们的爬虫了打开我们创建的爬虫文件,我们可以看到默认代码如下:

-*- coding: utf-8 -*-

import scrapy

class JobboleSpider(scrapy.Spider):

    name = '爬虫名称'

    allowed_domains = ['默认域']

    start_urls = ['起始URL']

    def parse(self, response):

        pass

再然后就可以直接使用选择器进行获取数据了

#scrapy框架是什么:

#####scrapy是用纯Python实现的一个为了爬去网站数据,提取结构数据而编写的应用框架.

scrapy框架的工作流程:![scrapy.jpeg](https://img.haomeiwen.com/i9879502/9957aa2df11ded61.jpeg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

```

#个个模块之间的作用:

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy ##Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy ##Engine(引擎),由引擎交给Spider来处理,

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。

#Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和##Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

```

![c893ae3b-5557-4649-9b48-c8748d3936cd.png](https://img.haomeiwen.com/i9879502/ea12c4f8aa5ef9c9.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

##介绍完了scrapy的工作流程之后我们就可以开始爬虫项目了!!

>1:新建一个项目: scapy startproject 我的爬虫名称

>项目新建完成之后我们要进入spider文件下再创建你的爬虫文件, scrapy genspider 爬虫文件名称 爬虫域

创建完了项目之后我们就可一制作我们的爬虫了打开我们创建的爬虫文件,我们可以看到默认代码如下:

-*- coding: utf-8 -*-

import scrapy

class JobboleSpider(scrapy.Spider):

    name = '爬虫名称'

    allowed_domains = ['默认域']

    start_urls = ['起始URL']

    def parse(self, response):

        pass

再然后就可以直接使用选择器进行获取数据了

相关文章

  • Scrapy框架总结

    一、Scrapy框架的使用步骤: 创建项目:scrapy startproject project_name cd...

  • scrapy框架总结

    作用概括: Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。...

  • Scrapy框架总结

    文件目录说明: scrapy.cfg: 项目的配置文件 tutorial/: 该项目的python模块。之后您将在...

  • scrapy框架总结

    #scrapy框架是什么: #####scrapy是用纯Python实现的一个为了爬去网站数据,提取结构数据而编写...

  • scrapy 框架总结

    scrapy的基本用法 通过命令创建项目scrapy startproject 项目名称 用pycharm打开项目...

  • scrapy框架总结

    创建项目 scrapy startproject 项目名称 创建爬虫文件 scrapy genspider 文件名...

  • scrapy框架总结

    Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非...

  • 假期总结及后半段安排

    总结 考试过后在学习上完成了js,jquery的学习,爬虫学习至Scrapy框架,Scrapy还有scrawl...

  • Scrapy框架总结(1)

    @TOC Scrapy简介 较为流行的python爬虫框架。本文着重将记录本人入门Scrapy时的所有精炼总结(除...

  • Pycharm+Scrapy框架运行爬虫糗事百科(无items数

    scrapy爬虫框架 qsbk.py 爬虫代码 import scrapy'''scrapy框架爬虫流程:发送请求...

网友评论

      本文标题:scrapy框架总结

      本文链接:https://www.haomeiwen.com/subject/vvdexqtx.html