【爬虫】-012-Scrapy-内置爬虫介绍

【爬虫】-012-Scrapy-内置爬虫介绍

作者: 9756a8680596 | 来源:发表于2019-03-11 00:31 被阅读1次

【爬虫】-012-Scrapy-内置爬虫介绍
爬虫入门基础
01-认识爬虫
Python 网络爬虫（一）
Python网络爬虫
CNN大战验证码
Python爬虫|使用urllib库爬取百度新闻首页的标题信息
scrapy与scrapy-redis的使用（一）-基础
Go开发的分布式爬虫框架 yispider
http与https网络请求

内置爬虫简单介绍

首先，来了解下Scrapy中有哪些内置的爬虫。这个可以通过命令 scrapy genspider -l来查看内置爬虫模版类型，如下图。

available templates

basic：最基础的爬虫，是前面介绍过的
crawl：爬取有规律的网站内容
csvfeed：爬取csv格式内容
xmlfeed：爬取xml格式内容

接下来主要介绍crawl爬虫及其与basic 的区别。

`basic` 与 `crawl` 区别

首先，通过命令来创建crawl爬虫：scrapy genspider -t 模板名爬虫名目标网站，具体来说就是： scrapy genspider -t crawl ganji2 ganji.com
接下来，在IDE中查看创建的爬虫文件 crawl 爬虫模板
爬虫类及其名称均被创建成功，与basic 模板不同的是，顶部引用的库、rules属性以及爬虫函数 parse_item
rules属性主要作用是通过正则对需要爬取的链接进行规则匹配，然后放到回调函数中获取数据。
爬虫函数 parse_item 与 basic 中的parse不同。由于 CrawlSpider 使用 parse 方法来实现其逻辑，如果您覆盖了 parse 方法，CrawlSpider将会运行失败。所以，爬虫函数通过parse_item实现
parse函数原理大致如下：在CrawlSpider中被用于分析链接，得到response，再通过rules属性去重；其中的Rule方法，对response匹配正则表达式命中的链接，对命中的链接使用对应的回调函数爬取数据。
parse函数在basic 中通过下载器下载规定的地址，得到response，然后回调到parse函数中；此时的parse需要自己写爬取xpath路径和回调规则，通过不断新建函数从开始链接获取什么样的数据。

`CrawlSpider`运行机制

image.png

相关文章

【爬虫】-012-Scrapy-内置爬虫介绍
内置爬虫简单介绍首先，来了解下Scrapy中有哪些内置的爬虫。这个可以通过命令 scrapy genspider...
爬虫入门基础
Day01 一、爬虫介绍什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么爬虫与反爬虫与反反爬虫...
01-认识爬虫
一、爬虫介绍什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么爬虫与反爬虫与反反爬虫三角之争网...
Python 网络爬虫（一）
网络爬虫的基本介绍学习爬虫，我想主要从以下几个方面来切入 -爬虫的原理？ -爬虫的作用？ -爬虫的实现？ -爬虫...
Python网络爬虫
Python开发简单爬虫（Python2.X版本，Eclipse工具）一、爬虫介绍爬虫调度端：启动、停止爬虫，...
CNN大战验证码
介绍爬虫江湖，风云再起。自从有了爬虫，也就有了反爬虫；自从有了反爬虫，也就有了反反爬虫。反爬虫界的一大利...
Python爬虫|使用urllib库爬取百度新闻首页的标题信息
1 urllib爬虫库介绍 Python内置HTTP请求库，不需要额外安装官方链接：https://docs.p...
scrapy与scrapy-redis的使用（一）-基础
爬虫框架scrapy 介绍scrapy这个爬虫框架的Spider(爬虫器)、Scheduler(调度器)、Down...
Go开发的分布式爬虫框架 yispider
yispider一款分布式爬虫平台，帮助你更好的管理和开发爬虫。内置一套爬虫定义规则（模版），可使用模版快速定义爬...
http与https网络请求
1.爬虫介绍爬虫spider，获取数据的一种方式，根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. ...

网友评论

本文标题：【爬虫】-012-Scrapy-内置爬虫介绍

本文链接：https://www.haomeiwen.com/subject/ssumpqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|【爬虫】-012-Scrapy-内置爬虫介绍|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！