进程，scrapy

作者: 3e0a50393df8 | 来源:发表于2018-12-02 22:15 被阅读0次

进程，scrapy
进程，scrapy总结
(十五) Telnet Console
scrapy 源代码阅读笔记（0）-- 背景
python3关闭子进程的两种方式
线程&进程&协程&Scrapy框架
简单 Scrapy 使用小结
同步与异步区别
scrapy框架
Scrapy笔记

进程，线程

········进程，能够完成多任务，比如在一台电脑上能够同时运行多个QQ
········线程，能够完成多任务，比如一个QQ中的多个聊天窗口
········进程是系统进行资源分配基本单位
········线程是进程的一个实体，是CPU调度和分派的基本单位，它是比进程更小的能独立运行的基本单位
····线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享所在进程所拥有的全部资源

区别：

一个程序至少有一个进程，一个进程至少有一个线程

线程的划分尺度小于进程（资源比进程少），使得多线程程序的并发性高
进程在执行过程中拥有独立的内存单元，而多个线程共享内存，从而极大提高了程序的运行效率
线线程不能够独立执行，必须依存在进程中
线程和进程在使用上各有优缺点：线程执行开销小，但不利于资源的管理和保护；而进程正相反。
多进程常用来处理计算密集型任务
多线程常用来处理IO密集型任务

队列

创建一个队列：queue_obj = queue.Queue(maxsize=30)
maxsize :表示允许存储的最
(FIFO) : 对列--先进先出
存值： queue_obj.put( )

取值： queue_obj.get( )
获取队列的大小： queue_obj.qsize( )
判断队列是否满： queue_obj.full( )
判断队列是否为空： queue_obj.empty()
注意：队列是线程安全的,list,dict 是非线程安全的，使用的时候最好使用线程锁

Scrapy 框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
Scrapy 使用了 Twisted['twɪstɪd] 异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

scrapy基本介绍

创建一个项目scrapy startproject projectname(项目名称)

进入到spidres文件夹中创建爬虫文件scrapy genspider 爬虫文件名称　网站的域
使用pycharm打开项目，设置虚拟环境scrapy项目的框架

chinaz：项目文件夹
spiders:爬虫文件（存放所有的爬虫文件）
zzw.py:爬虫文件（解析response响应，提取目标数据和url）
items.py:编写要爬取的字段

middlewares.py:中间件（爬虫中间件,下载中间件）

pipelines.py:数据管道（在这里做数据持久化）
settings.py:设置文件（设置请求头，设置下载延迟，设置是否遵守robot协议,以及激活管道……）
scrapy.cfg:配置文件（部署项目时会使用到）

网友评论

本文标题：进程，scrapy

本文链接：https://www.haomeiwen.com/subject/hqpscqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

进程，scrapy

进程，线程

区别：

一个程序至少有一个进程，一个进程至少有一个线程

队列

Scrapy 框架

scrapy基本介绍

相关文章

进程，scrapy

进程，scrapy总结

(十五) Telnet Console

scrapy 源代码阅读笔记（0）-- 背景

python3关闭子进程的两种方式

线程&进程&协程&Scrapy框架

简单 Scrapy 使用小结

同步与异步区别

scrapy框架

Scrapy笔记

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读