Scrapy 框架中的scrapy.Spider介绍（十九）

Scrapy 框架中的scrapy.Spider介绍（十九）

作者: 梦捷者 | 来源:发表于2019-07-31 12:16 被阅读0次

scrapy 下一页链接请求
scrapy爬取天猫被重定向302问题
Scrapy泡面小镇新闻抓取练手篇一
python scrapy极细拆解，打开Spider类看内容，顺
Scrapy 框架中的Request类（二十四）
scrapy.Spider
2019-06-21爬虫框架
我们的第一个爬虫
scrapy
scrapy与scrapy-redis的使用（一）-基础

一、scrapy.Spider爬虫运行流程

编写爬虫时继承scrapy.Spider类的爬虫过程如下

首先生成初始请求以爬取第一个URL，并指定要使用从这些请求下载的响应调用的回调函数。
在回调函数中，解析响应（网页）并返回，Item对象， Request对象或这些对象的可迭代的dicts。
在回调函数中，通常使用选择器解析页面内容（但您也可以使用BeautifulSoup，lxml或您喜欢的任何机制）并使用解析的数据生成item。
最后，从蜘蛛返回的项目通常会持久保存到数据库（在某些项目管道中）或使用Feed导出写入文件。

二、scrapy.Spider爬虫中的属性

name（spider的名称）
一个字符串，用于定义此蜘蛛的名称。蜘蛛名称是Scrapy如何定位（并实例化）蜘蛛，因此它必须是唯一的。这是最重要的蜘蛛属性，它是必需的。
start_urls（起始 url）
蜘蛛将开始爬取的URL列表。因此，下载的第一页将是此处列出的页面。后续Request将从起始URL中包含的数据连续生成。
customer_settings（自定义设置）
运行此蜘蛛时将覆盖项目范围的设置。必须将其定义为类属性，因为在实例化之前更新了设置。
logger
使用Spider创建的Python日志器。您可以使用它来发送日志消息。
from_crawler(创建spider的类方法)
这是Scrapy用于创建spider的类方法。一般不用覆盖。
start_requests（）------开始请求
此方法必须返回一个iterable，其中包含第一个要爬网的请求。它只会被调用一次。
parse（response）---默认回调函数
这是Scrapy在其请求未指定回调时处理下载的响应时使用的默认回调。
close（）----关闭spider
spider关闭时调用。

运行流程的参考文档：https://www.jianshu.com/p/57fe9ee15ef3

相关文章

scrapy 下一页链接请求
``` import scrapy class QuotesSpider(scrapy.Spider): na...
scrapy爬取天猫被重定向302问题
importscrapy classtmSpider(scrapy.Spider): name ='tianmao...
Scrapy泡面小镇新闻抓取练手篇一
import scrapyclass mingyan(scrapy.Spider):name ="paomian...
python scrapy极细拆解，打开Spider类看内容，顺
本篇博客为你带来 scrapy.Spider 模块中的相关函数与类，带你再一次认识 scrapy 的细节。本次采...
Scrapy 框架中的Request类（二十四）
一、Scrapy.http.Request类的介绍 Scrapy.http.Request类是scrapy框架中r...
scrapy.Spider
Spider是最简单的spider。每个其他的spider必须继承自该类(包括Scrapy自带的其他spider以...
2019-06-21爬虫框架
爬虫框架： scrapy pyspider crawley scrapy框架介绍 https://doc.scra...
我们的第一个爬虫
Scrapy使用你定义的爬虫的类来从网站中爬取信息。你定义的爬虫的类必须是scrapy.Spider的子类，并且需...
scrapy
scrapy学习一、scrapy框架介绍 Scrapy Engine(引擎): 负责Spider、ItemPip...
scrapy与scrapy-redis的使用（一）-基础
爬虫框架scrapy 介绍scrapy这个爬虫框架的Spider(爬虫器)、Scheduler(调度器)、Down...

网友评论

本文标题：Scrapy 框架中的scrapy.Spider介绍（十九）

本文链接：https://www.haomeiwen.com/subject/nsdqdctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy 框架中的scrapy.Spider介绍（十九）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！