scrapy

作者: 小赵天1 | 来源:发表于2019-01-13 21:52 被阅读0次

1.如何在以py文件的方式运行scrapy?

from scrapy import cmdline

cmdline.execute(['scrapy', 'crawl', '爬虫名'])

这样运行py文件即可,不用每次都找到目录在crawl

2.CrawlSpider是什么?

Spider是什么,是scrapy里面的一个爬虫类,CrawlSpider也是一个爬虫类,而且是Spider的子类,所以有自己独有的功能

独有功能:提取链接的功能  extract_links  链接提取器

from scrapy.linkextractors import LinkExtractor

正则,xpath都可以提取

如何使用:在创建爬虫的时候加上 -t crawlSpider就可以创建了

3.爬虫思路:

一、首先确定要爬取的内容和起始url,看看详情页在起始url后的第几级,然后划分好几层函数,比如爬取彼岸除4k以外所有类的所有壁纸,起始url---》提取出所有类的url传给下个函数---》提取每个图片的详情页---》解析详情页,将需要的内容提取出来存入item,这就是三层函数,每层用yield将这一层获取的来传递给下一层。(目前还没写遍历所有页码)

二、配置settings:

配置ua,取消robot协议的遵守,打开节流等等

三、根据目标文件的要求的格式来定义item里面的数据格式,然后将item导入到spider文件中实例化来存入解析详情页提取出来的内容

四、然后再pipeline里面定义下载文件的方式(每个分类为一个文件夹,如果存在该文件夹,则写入,不存在则创建)(今天就写到这里出bug,mongodb下载安装也浪费了好多时间还没弄好,调的太烦了,明天再写)。

相关文章

  • 简单 Scrapy 使用小结

    Scrapy 安装Scrapy pip install scrapy Scrapy Doc 查看Scrapy的文档...

  • scrapy框架

    一、scrapy简介 二、scrapy原理 三、scrapy工作流程 四、scrapy框架的创建 五、scrapy...

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • Scrapy基础(一): 安装和使用

    安装 新建scrapy项目 目录 scrapy模板 使用pycharm调试scrapy执行流程 scrapy 终端...

  • python爬虫13:scrapy

    scrapy的结构 scrapy的工作原理 scrapy的用法

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • PyCharm运行和调试Scrapy

    前言: PyCharm运行和调试Scrapy,首先需要安装Scrapy,安装Scrapy请点链接Scrapy的安装...

  • 11- Scrapy-Redis分布式

    Scrapy和Scrapy-Redis的区别 安装Scrapy-Redis Scrapy-Redis介绍 提供了下...

  • scrapy框架基本使用

    scrapy基本介绍 scrapy VS requests Mac安装 conda install scrapy ...

网友评论

      本文标题:scrapy

      本文链接:https://www.haomeiwen.com/subject/hseldqtx.html