作业:
- 要爬取的数据类别
- 对应的数据源网站
- 爬取数据的URL
- 数据筛选规则
我的答案是这样的:
- 要爬取的数据是豆瓣网上评分在7.0以上的电影以及其简介。
- 对应的数据源网站是豆瓣网电影板块。
- 爬取数据的URL是https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=rank&page_limit=20&page_start=0
以及每个影片对应的链接如:
https://movie.douban.com/subject/26580232/?tag=%E7%83%AD%E9%97%A8&from=gaia - 数据筛选规则:
要爬取图中被标记的那一部分以及下图中被标记的一部分
本文为tiger解密大数据社群爬虫入门课第一次课的作业。了解更多关注微信“泰阁志”













网友评论