美文网首页
scrapy一个spider 爬取多个内容

scrapy一个spider 爬取多个内容

作者: 是东东 | 来源:发表于2019-04-10 16:48 被阅读0次

一个spider 爬取多个内容
需求:爬取音乐详情、乐评,在同一个spider完成

    name = 'music'
    allowed_domains = ['music.douban.com']
  # 首页
    start_urls = ['https://music.douban.com/tag/',
                  'https://music.douban.com/tag/?view=cloud'
                  ]
    rules = (
# 分类 
             Rule(LinkExtractor(allow=r"/tag/((\d+)|([\u4e00-\u9fa5]+)|(\w+))$")),
# 分类下一页
             Rule(LinkExtractor(allow=r"/tag/((\d+)|([\u4e00-\u9fa5]+)|(\w+))\?start=\d+\&type=T$")),
# 乐评
             Rule(LinkExtractor(allow=r"/subject/\d+/reviews\?sort=time$")),
# 乐评下一页
             Rule(LinkExtractor(allow=r"/subject/\d+/reviews\?sort=time\&start=\d+$")),
#音乐详情
             Rule(LinkExtractor(allow=r"/subject/\d+/$"), callback="parse_music", follow=True),
#乐评详情
             Rule(LinkExtractor(allow=r"/review/\d+/$"), callback="parse_review", follow=True),
)
首页.png
目标分类.png
音乐详情页.png
乐评详情页.png

相关文章

  • scrapy一个spider 爬取多个内容

    一个spider 爬取多个内容需求:爬取音乐详情、乐评,在同一个spider完成

  • 2018-06-24

    scrapy items.py决定爬取哪些内容 spider决定怎么爬 settings.py决定谁去处理爬取的内...

  • 初学scrapy的坑

    爬取腾讯招聘,scrapy项目 items配置 spider配置 settings配置 pipelines配置 蛋...

  • scrapy爬取豆瓣电影top250

    学习scrapy,总结下使用scrapy爬取豆瓣电影的demo,以及中间遇到的问题。 核心就是一个spider和一...

  • scrapy

    scrapy通用爬虫CrawlSpider它是Spider的派生类,Spider类的设计原则是只爬取start_u...

  • scrapy通用爬虫

    什么是scrapy通用爬虫 CrawlSpider它是Spider的派生类,Spider类的设计原则是只爬取sta...

  • python爬虫之Scrapy CrawlSpiders介绍和使

    1. scrapy通用爬虫 CrawlSpider它是Spider的派生类,Spider类的设计原则是只爬取sta...

  • Scrapy概要

    四大组件 spider item pipline middleware 爬取动态网页 利用Scrapy-Splas...

  • Python爬虫Scrapy(五)_Spiders

    更多内容请参考:Python学习指南 Spider Spider类定义了如何爬取某个网站(或某些)网站。包括了爬取...

  • 爬虫系列(十六):scrapy入门案例

    入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提...

网友评论

      本文标题:scrapy一个spider 爬取多个内容

      本文链接:https://www.haomeiwen.com/subject/ppkoiqtx.html