美文网首页解密大数据
爬虫入门01作业 phsyke

爬虫入门01作业 phsyke

作者: phsyke | 来源:发表于2017-07-03 12:38 被阅读0次

爬虫入门01作业 phsyke:

一直以来对爬虫挺感兴趣的,最近因为工作上的一些原因,需要的数据采集会比较多,需要更高效的收集有用的数据。

Q1.需要爬取的数据类别

拍卖行交易网站所更新的拍卖信息是不定时的,所以在设计爬取数据类别的时候首先确定的是:

1:每日更新的数据,因为是工作日更新数据,所以在上班之前更新一份便可以。

2:更新的数据分类,比如房产拍卖,设备物资拍卖。

3:限制的范围 广东省范围内。

Q2.对应的数据源网站

1:网站数据源,政府网站公告,拍卖行网站公告。

2:如果需要爬到外国网站则需要用VPN。

Q3.爬取数据的URL(每个拍卖行的公告信息,先熟悉两个网站)

1:http://www.zwauction.com/gonggao.php

2:http://www.hhpm.cn/

Q4.数据筛选规则

1:筛选的数据需要每天拿最新的数据。

2:倘若公告有截至日期的关键字,那么一定要特别标识。

3:如果筛选的数据里面有提到资质字眼,也需要特别标识。

4:数据按照截至报名日期排序,快到期的排在最前面。

相关文章

  • 爬虫入门01作业 phsyke

    爬虫入门01作业 phsyke: 一直以来对爬虫挺感兴趣的,最近因为工作上的一些原因,需要的数据采集会比较多,需要...

  • 爬虫入门01作业

    自己一直对爬虫挺感兴趣,但对其理解不过是可以更高效率的搜集信息。听完第一课,知道爬虫可以从获取信息,再到整理成一份...

  • 爬虫入门01作业

    课堂作业 要爬取的数据类别 对应的数据源网站 爬取数据的URL 数据筛选规则(选做) 要爬取的数据类型 我对金融行...

  • 爬虫入门01-作业

    最早看过一本跟大数据相关的书籍是《大数据时代》,后面还断断续续看过涂子沛老师写的有关大数据的系列文章,工作的原因最...

  • 课程作业-爬虫入门02-网页基础与结构分析-WilliamZen

    课堂作业 选择简书解密大数据专题里面爬虫入门01提交的作业文档地址作为分析页面 分析并提交该页面的网页结构分析与元...

  • 3分钟带你了解世界第一语言Python 入门上手也这么简单!

    一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...

  • 爬虫入门系列(六):正则表达式完全指南(下)

    爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议 爬虫入门系列(二):优雅的HTTP库requests...

  • Python爬虫入门

    注:采转归档,自己学习查询使用 Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Pytho...

  • 爬虫入门03作业

    这次作业总的而言就是一个理解代码,修改代码的过程。老师给出的代码中,第一个函数download()是用来下载界面的...

  • 爬虫入门02作业

    网页结构分析 上面两个界面分别是评论栏,以及相关文章栏。再做进一步的拆分 顶部导航栏分为: 网页logo 导航栏 ...

网友评论

    本文标题:爬虫入门01作业 phsyke

    本文链接:https://www.haomeiwen.com/subject/subacxtx.html