前两天,我的一个朋友在学习Python,她对数据处理和爬虫比较感兴趣,她看到了一篇文章新型冠状病毒数据分析演示比较感兴趣,想知道其中的实现过程,因为我也没有对爬虫进行学习过,就开始进行学习。
通过查看,了解到这篇文章来源于GitHub上,地址为https://github.com/jianxu305/nCov2019_analysis/blob/master/src/demo.ipynb?from=singlemessage&isappinstalled=0, 主要实现了从丁香园疫情网站进行爬虫,获取到对应的数据,后续进行相关的分析,在这里咱们根据整个流程进行细致的分析。
收集
利用爬虫程序DXY-2019-nCoV-Crawler 不断的去丁香园上爬取数据,爬取到了对应的数据,并存储到数据库中
先安装所需要的库
python3 -m pip install bs4
python3 -m pip install requests
这里的爬虫分为疫情数据和资讯两部分,我们这里也分成两部分进行阐述
爬取病情数据
爬取资讯信息
整理
DXY-2019-nCoV-Data对爬取到的数据进行整理,形成数据仓库,存储到了csv文件中,以便后续对数据进行使用,同时也提供了https://lab.isaaclin.cn/nCoV/ api供用户直接请求获取整理好的数据
分析
通过nCov2019_analysis进行数据分析。











网友评论