美文网首页
租房?Scrapy给你安排的明明白白

租房?Scrapy给你安排的明明白白

作者: 实训邦小姐姐 | 来源:发表于2018-09-10 14:08 被阅读8次

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求去修改。

Scrapy Engine(引擎): 负责Spider、Item Pipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)

Item Pipeline(管道)它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方

Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件

Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

新建项目 (scrapy startproject xxx):新建一个新的爬虫项目

明确目标 (编写items.py):明确你想要抓取的目标

制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页

存储内容 (pipelines.py):设计管道存储爬取内

Scrapy shell的使用

1.安装Pycharm专业版,ipython

2、打开windows命令提示符,输入scrapy,列出用法

3、安装环境

4、我们需爬取租房信息,输入scrapy shell http://tj.ganji.com/fang1/chaoyang/

输入后会返回状态和参数,200表示成功

二、浏览器和xpath学习

1、使用xpath获取要抓取的内容,选取xpath可以用火狐浏览器器的firebug和firepath,两个配合使用。

2、选取合适的xpath获取页面所有价钱

然后在命令提示符中输入:

response.xpath(".//*[@id=’puid-2475025075’/dl/dd[5]/div[1]/span[1]/text()").extract()

text()是xpath的一个方法,获取文本内容

extract():序列化该节点为unicode字符串并返回list

这样就用scrapy shell 获取了所有价钱,同样的,也可以通过改变xpath获取其他内容

三、Scrapy项目的创建

1、在前面输入 scrapy 的时候有个选项是 startproject,这个选项是创建scrapy项目,我们在命令提示符中输入:scrapy startproject zufang (zufang是项目名称)

2、打开pycharm-->file-->open 找到建好的项目,显示项目结构

_init_.py 保持默认,不修改

items.py 保存爬取到的数据的容器

middlewares.py 中间件配置文件

settings.py 项目的设置文件,延迟等。

pipelines.py 项目管道文件,对传入的项目类中的数据进行一个清理和入库

spiders目录 该目录下只有一个init.py 文件,在该目录下定义爬虫类并集成scrapy.Spider

3.输入

在Terminal显示数据

四、创建数据库

1、在Terminal输入

2完成创建数据库

3、按住这个文件拖动到右侧的Database中

Tips:Database默认是在右侧,如果没有的话可能pycharm不是专业版或者没调出来

创建完成效果

 五、爬取数据

在Spiders目录下创建Python文件

1、Ganji.py:

2、items.py

3、pipelines.py

4、setting.py

 六、最后运行

运行命令为scrapy crawl XXX

scrapy crawl zufang

再查看数据库

通过数据爬取,不难发现朝阳区哪些房价为最高与最低等一些基本信息,最重要的还是房屋介绍这个深坑,希望小伙伴以后租房多加一个心眼。实训邦新上线的《Scraoy租房项目》课程帮你解决租房问题~

一、本项目介绍

二、课程大纲

三、你将获得

四、适合人群

                                                    录播课程,购买后可反复回看

                                             现在添加小姐姐价值¥69的Scrapy课程

                                                可享免费学习,记得来找小姐姐

相关文章

  • 租房?Scrapy给你安排的明明白白

    Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化...

  • 疫情背后的礼物

    这次疫情, 把买菜做饭给我安排得明明白白的, 把唱歌跳舞给我安排得明明白白的, 把电影新闻给我安排得明明白白的, ...

  • 内存管理

    面试问了解Linux内存管理吗?10张图给你安排得明明白白! 史上最全linux内存管理 linux分段和分页机制...

  • 毕业典礼排练

    每件事都安排的明明白白,每一步都安排的明明白白,优秀毕业生排练,真是服气了。原来每一场秩序都有着前奏的安排。 本来...

  • 我的时间 被手机安排得 明明白白

  • 进程、线程与协程还傻傻分不清?P7大佬大白话讲解,直接秒懂

    本篇开始介绍进程、线程、协程,相信很多小白们对这几个概念理解的不清晰,这里全部给你们安排的明明白白,我们开始进入正...

  • 安排的明明白白

    总是说时间像海绵里的水,挤挤总会有的,但有了又能怎么样呢?你充分利用了吗?你给它存在的价值了吗?如果你的回答是No...

  • 冰可乐

    工资还没发下来,已经被安排得明明白白。十分的伤心。。。一直到明年年底的工资都被安排得明明白白,无比的伤心。。。 成...

  • 婚礼当天发红包!怎么发?发给谁?

    结婚发红包到底给谁发? 发多少? 看完这篇文章 保证给你安排的明明白白的 温馨提示:小编只是给大家一个参考,各位新...

  • 你想要的,Nest 都给你安排得明明白白

    今天的主题不是雀巢咖啡,也不是雀巢奶粉,毕竟我王境泽就是饿死,也不会打你们一点广告。 前言 近几年由于 Node....

网友评论

      本文标题:租房?Scrapy给你安排的明明白白

      本文链接:https://www.haomeiwen.com/subject/dirsgftx.html