1.爬虫框架
爬虫框架就是一些爬虫项目的半成品,即对一些常见的功能代码、业务逻辑等进行封装。用户在使用时,需要根据具体爬虫任务对其进行修改之后才能达到用户需求。
2.常见的爬虫框架
①scrapy框架;
②crawley框架;
③portia框架(允许没有任何编程基础的用户可视化爬取网页);
④newspaper框架(提取新闻、文章及内容分析);
⑤python-goose框架(提取文章)...
3.scrapy框架
(1)安装
①升级pip:打开命令提示符窗口,输入命令:
python -m pip install --upgrade pip
②安装visual studio
③安装lxml(https://www.lfd.uci.edu/~gohlke/pythonlibs/)
cmd安装lxml的命令行
④安装Twisted(https://www.lfd.uci.edu/~gohlke/pythonlibs/)
cmd安装Twisted的命令行
⑤安装pypiwin(https://pypi.python.org/pypi/pypiwin32/219)
cmd安装pypiwin的命令行
⑥安装scrapy
cmd安装scrapy的命令行
(2)scrapy框架常见命令
文件类命令:
scrapy文件类命令
①查看命令使用格式:
scrapy fetch -h
②显示网页爬取过程:
scrapy fetch http://www.baidu.com
③不依托爬虫项目,运行爬虫文件:
G:\python课程\>scrapy runspider first.py
④启动scrapy交互终端(测试):
scrapy shell http://www.baidu.com --nolog
scrapy shell命令
⑤创建爬虫项目:
scrapy startproject projectname
scrapy创建爬虫项目命令
⑥查看对应爬虫版本信息:
scrapy version
⑦下载某网页并用浏览器查看:
scrapy view http://news.163.com
项目类命令:
scrapy项目类命令
①测试本地硬件性能:
scrapy bench
②查看爬虫文件模版:
scrapy genspider -l
爬虫模板
即:基本爬虫(basic)、自动爬虫(crawl)、处理csv文件(csvfeed)、处理xml文件(xmlfeed)
③创建爬虫文件:
scrapy genspider -t basic filename domainname
scrapy创建爬虫项目命令
【注】网址=协议名(http)://主机名(www).域名(baidu.com)
④测试爬虫是否可行:
scrapy check filename
测试爬虫项目命令
⑤运行爬虫,启动爬虫文件:
scrapy crawl filename
启动爬虫项目命令
⑥展示当前可以使用的爬虫文件:
scrapy list
⑦直接通过编辑器打开爬虫文件(Linux OS):
scrapy edit bd
⑧获取指定url网址,并进行相应的处理和分析:
scrapy parse url
scrapy parse命令













网友评论