写在前面
前端时间写了几个爬虫,其中有一个是爬取百度指数。这是我第一次知道百度指数这个东西,以前我只是知道怎么用百度的。百度指数呢,大概长下面这个样子(用我最喜欢的歌手举例子):
image-20200507161438341
百度指数可以显示每一天有多少人搜索指定的关键词,而且可以自己选择PC端、移动端,可以自己选择不同的省份。而这次项目的需求呢,就是让我去爬取百度指数
需求
这次的需求呢大概分为以下几点:
- 用户给出要爬取的关键词,以Excel的形式提供
- 爬取能爬取到的每一天、每一个省份、每一个关键词的PC端、移动端、以及PC+移动端的搜索数量
- 爬取结果以Excel的形式保存
- 提供界面,不可以只在命令行运行
演示示例
-
首先打开程序,会看到下面的界面:
image-20200507162652218
-
点击选择文件,然后勾选要爬取的关键词的Excel,文件目录框会自动显示勾选的文件的路径。下面的滚动窗口会显示获得的要爬取的关键词列表:
image
- 点击开始爬虫,程序就开始工作了。当然,如果你想搜索百度指数,那么你必须先登录,而爬虫怎么让自己看起来是登录的状态呢?就是用Cookie。所以如果你没有Cookie或者Cookie过期了,那么你就需要重新输入Cookie
image
然后仔细看上面的滚动窗口你就可以发现,爬虫会先判断关键词是否被百度指数收录,然后会将收录的关键词重新提取出来,开始爬取搜索数量。当关键词过多的时候,爬虫会每10个关键词保存成一个Excel
- Excel示例
可以看到每一个关键词分3列,第一列是PC端,第二列是移动端,最后一列是PC+移动端。有趣的是可能2006年Angelababy、迪丽热巴他们还没出道呢,所以没有人搜索他们。然后第一个Sheet存放的是2011年以前的全国综合数据,之后每一个sheet会保存各个省市从2011年开始到爬虫那天的前一天为止的每一天的搜索数据。
写在最后
其实这个爬虫还是挺有意思的,爬取的结果的分析价值也比较大,而且涉及到的Python的知识也比较全面。所以我就想把这个爬虫拿出来,分几期介绍一下。希望大家喜欢!














网友评论