美文网首页
百度指数爬虫|介绍篇

百度指数爬虫|介绍篇

作者: DZQANN | 来源:发表于2020-05-13 23:46 被阅读0次

写在前面

​ 前端时间写了几个爬虫,其中有一个是爬取百度指数。这是我第一次知道百度指数这个东西,以前我只是知道怎么用百度的。百度指数呢,大概长下面这个样子(用我最喜欢的歌手举例子):

image-20200507161438341

百度指数可以显示每一天有多少人搜索指定的关键词,而且可以自己选择PC端、移动端,可以自己选择不同的省份。而这次项目的需求呢,就是让我去爬取百度指数

需求

​ 这次的需求呢大概分为以下几点:

  1. 用户给出要爬取的关键词,以Excel的形式提供
  2. 爬取能爬取到的每一天、每一个省份、每一个关键词的PC端、移动端、以及PC+移动端的搜索数量
  3. 爬取结果以Excel的形式保存
  4. 提供界面,不可以只在命令行运行

演示示例

  • 首先打开程序,会看到下面的界面:

    image-20200507162652218
  • 点击选择文件,然后勾选要爬取的关键词的Excel,文件目录框会自动显示勾选的文件的路径。下面的滚动窗口会显示获得的要爬取的关键词列表:

image
  • 点击开始爬虫,程序就开始工作了。当然,如果你想搜索百度指数,那么你必须先登录,而爬虫怎么让自己看起来是登录的状态呢?就是用Cookie。所以如果你没有Cookie或者Cookie过期了,那么你就需要重新输入Cookie
image

​ 然后仔细看上面的滚动窗口你就可以发现,爬虫会先判断关键词是否被百度指数收录,然后会将收录的关键词重新提取出来,开始爬取搜索数量。当关键词过多的时候,爬虫会每10个关键词保存成一个Excel

  • Excel示例

​ 可以看到每一个关键词分3列,第一列是PC端,第二列是移动端,最后一列是PC+移动端。有趣的是可能2006年Angelababy、迪丽热巴他们还没出道呢,所以没有人搜索他们。然后第一个Sheet存放的是2011年以前的全国综合数据,之后每一个sheet会保存各个省市从2011年开始到爬虫那天的前一天为止的每一天的搜索数据。

写在最后

​ 其实这个爬虫还是挺有意思的,爬取的结果的分析价值也比较大,而且涉及到的Python的知识也比较全面。所以我就想把这个爬虫拿出来,分几期介绍一下。希望大家喜欢!

相关文章

  • 2019-07-22

    爬虫基础概念 "大数据时代"从何而来? - 企业生产的用户数据:阿里指数,百度指数,微博指数... - 政府公开的...

  • 百度指数获取踩坑小结

    引言 经过若干天不断地踩坑,总算能够正常获取百度指数啦,Just for fun~ 百度指数爬虫开发的难点不在于爬...

  • 爬虫——百度指数

    蛮早之前公司有个产品问我能不能爬百度指数,我随便瞄了眼,直接回了可以,然后...光速打脸...今儿个有空,研究研究...

  • python爬虫工具库

    本文主要介绍并使用在爬虫工作中经常使用的一些工具 爬虫是什么 关于爬虫是什么,我们可以直接看百度百科的介绍,不多做...

  • python爬虫的原理和数据抓取

    为什么要做爬虫?都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览...

  • 爬虫天坑系列-百度指数爬虫

    原文链接:http://blog.shenjianshou.cn/?p=170 最近有很多朋友跟我说,“爬虫这东西...

  • 理财指数篇三——创业板指数

    导语: 上一篇文章理财指数篇二——深证指数介绍了深证指数.这篇文章来介绍创业板指数.在看基金或股票的详情时,除了上...

  • 小白学爬虫:网易云音乐歌单(一)

    从零开始写爬虫,初学者的速成指南! 介绍 什么是爬虫? 先看看百度百科的定义: 简单的说网络爬虫(Web craw...

  • 手把手教你写网络爬虫(1):网易云音乐歌单

    介绍 什么是爬虫? 先看看百度百科的定义: 简单的说网络爬虫(Web crawler)也叫做网络铲(Web scr...

  • 理财指数篇二——深证指数

    导语: 上一篇文章理财指数篇一——上证指数介绍了上证指数.这篇文章来介绍深证指数. 我国的股票交易市场分为两个地方...

网友评论

      本文标题:百度指数爬虫|介绍篇

      本文链接:https://www.haomeiwen.com/subject/venfohtx.html