美文网首页
scrapy笔记

scrapy笔记

作者: _好孩子 | 来源:发表于2019-03-23 13:24 被阅读0次

创建项目步骤:

0:pycharm安装scrapy

1:创建一个空目录,用来存放项目

2:File->new projiect->pure python 选择上面创建的目录,点完成

3.当前项目下点Terminal,进入项目跟目录(默认就是),输入scrapy startproject <projectName>

4.当前项目下点Terminal,cd进入项目的spider目录(默认目录两级子目录)输入scrapy genspider <spiderName> <域名>

注意:spiderName和projectName不能重复

5.编辑item文件

6.编辑spider文件

7.运行spider:Terminal中用cd进入 scrapy.cfg所在目录下  执行:scrapy crawl <spiderName> 【-o data.json/data.csv】

8.如果包403,更改setting文件的USER_AGENT值,值可以在你要爬的网站中找一个请求,复制里面的user_agent值

9.上面每次要运行spider都要在Terminal输入命令,很麻烦,可以在和settings文件同一文件加下创建main.py文件,加入以下内容:

from scrapyimport cmdline

cmdline.execute('scrapy crawl douban_spider'.split())

通过运行该文件来启动spider

10.setting文件中打开pipline,配置数据库连接信息;编写pipline文件

11.http代理设置:

    download_midleware中(注意不是spider_midleware)定义代理类,并在setting文件中配置

12.useragent伪装

    同上

相关文章

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • scrapy学习笔记(有示例版)

    scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...

  • scrapy爬虫折腾系列-02

    Scrapy折腾系列-02 1、笔记 response是一个scrapy.http.response.html.H...

  • 分布式爬虫笔记(一)- 非框架实现的Crawlspider

    不久前写过一篇使用Scrapy框架写的Crawlspider爬虫笔记(五)- 关于Scrapy 全站遍历Crawl...

  • 使用scrapy-deltafetch实现增量爬取

    Scrapy学习笔记-使用scrapy-deltafetch实现增量爬取 前言 在之前的文章中我们都是对目标站点进...

  • 2018-08-12

    Scrapy学习 《精通Scrapy网络爬虫》第八章--仅作为本人学习笔记,如有侵权,请私信我删除 1、项目需求 ...

  • Scrapy笔记

    入门 http://scrapy-chs.readthedocs.org/zh_CN/1.0/intro/tuto...

  • scrapy笔记

    1.return与yield两个关键字都可以返回scrapy.Request,区别是return返回的是列表,即使...

网友评论

      本文标题:scrapy笔记

      本文链接:https://www.haomeiwen.com/subject/hhrujqtx.html