美文网首页
爬虫入门01-作业

爬虫入门01-作业

作者: 明说危险 | 来源:发表于2017-07-04 03:44 被阅读26次

最早看过一本跟大数据相关的书籍是《大数据时代》,后面还断断续续看过涂子沛老师写的有关大数据的系列文章,工作的原因最近涉及到数据处理,看到tiger的解密大数据社群就立马加进来了。以下是学完爬虫入门后的作业练习。

Q1要爬取的数据类型

为了了解交通运输行业(汽车,轮船,飞机,火车)的安全水平,需要监测最近的事故/事件信息,对这些信息加以分析,总结经验提高交通运输行业的安全水平。

监测的数据类型包括,

每天交通运输行业更新的信息,从网站上获得,

数据的类型有时间(年,月,日,具体时间点),交通工具名称,地点,死伤人数,事故原因,

目前限制的范围为近十年的数据。

Q2对应的数据源网站

为了调查这一块的数据,需要涉及到的网站包括国家政府的统计网站,一些行业的信息网站。都是国内的,不涉及到国外的网站。

Q3爬取数据的url

安全信息网

安全生产信息网

先以上面两个为例。

Q4数据筛选规则(选作)

待定,还没搞懂,后续实践中再补充完善。

相关文章

  • 爬虫入门01-作业

    最早看过一本跟大数据相关的书籍是《大数据时代》,后面还断断续续看过涂子沛老师写的有关大数据的系列文章,工作的原因最...

  • 3分钟带你了解世界第一语言Python 入门上手也这么简单!

    一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...

  • 爬虫入门01-获取网络数据的原理作业

    作业: 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则 我的答案是这样的: 要爬取的数据是豆瓣...

  • 爬虫入门系列(六):正则表达式完全指南(下)

    爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests...

  • Python爬虫入门

    注:采转归档,自己学习查询使用 Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Pytho...

  • 爬虫入门03作业

    这次作业总的而言就是一个理解代码,修改代码的过程。老师给出的代码中,第一个函数download()是用来下载界面的...

  • 爬虫入门01作业

    自己一直对爬虫挺感兴趣,但对其理解不过是可以更高效率的搜集信息。听完第一课,知道爬虫可以从获取信息,再到整理成一份...

  • 爬虫入门01作业

    课堂作业 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则(选做) 要爬取的数据类型 我对金融行...

  • 爬虫入门02作业

    网页结构分析 上面两个界面分别是评论栏,以及相关文章栏。再做进一步的拆分 顶部导航栏分为: 网页logo 导航栏 ...

  • 爬虫入门02作业

    作业: 选择简书“解密大数据”专题里面上次爬虫作业的文档地址作为分析页面。 分析并提交该页面结构分析与元素标签位置...

网友评论

      本文标题:爬虫入门01-作业

      本文链接:https://www.haomeiwen.com/subject/imlthxtx.html