1.创建项目:scrapy startproject 项目名
如果是想在对应pycharm目录下创建,则在pycharm中选择-show in explorer,在需要创建项目的文件夹中打开cmd(shift+此处打开powershell)执行创建项目命令
2.创建爬虫,进入项目文件夹下(文件夹包含两个文件,其中为scrapy.cfg),cmd中运行
scrapy genspider 爬虫名 网站域名
- 爬虫名不能与项目名相同
- 网站域名是允许爬虫采集的域名,如 baidu.com
3.编写item字段(items.py文件)
4.编写爬虫程序:采集数据,翻页操作等
5.编写pipelins.py文件,存储数据,如:
def __init__(self):
self.f = open("tencent.json","w")
def process_item(self, item, spider):
line = json.dumps(dict(item)) + "\n"
self.f.write(line)
return item
def close_spider(self,spider):
self.f.close()
6.设置setting文件
- ROBOTSTXT_OBEY = False
- 启用ITEM_PIPELINES
- 如果是下载图片,在setting.py中新加IMAGES_STORE路径
IMAGES_STORE = "D:/test/"
7.进入项目目录命令行中运行爬虫
scrapy crawl 爬虫名
网友评论