美文网首页PowerQueryPower BI干货PowerBI专栏
利用Power BI轻松爬取豆瓣电影数据

利用Power BI轻松爬取豆瓣电影数据

作者: PowerBI星球 | 来源:发表于2020-12-17 21:51 被阅读0次

这篇文章就来看看如何用PowerBI批量抓取豆瓣电影的数据。以最近正在上映的电影为例,豆瓣网址为:https://movie.douban.com/

利用从web获取数据的功能,将这个网址放进去,就可以轻松获取这些影片的评分:

这种方式抓取的只有一个评分数据,其实在每部电影的详情页,有更丰富的数据,比如电影的导演、主演、评分人数、影评条数等。

比如最近最热门的电影《姜子牙》的豆瓣详情页:

如何能批量抓取每一部电影详情页中的这些数据呢?下面就来看看操作步骤。

1、批量获取电影的详情页网址。

要想获得详情页的数据,首先就需要先得到每部电影的详情页网址,批量获取网址的方法,之前也介绍过。

先打开前两部电影的详情页并将网址复制下来,然后利用"使用示例添加表"的功能,将前两行数据粘贴到前两行,系统就可以自动识别并补全剩余的信息。

或许是豆瓣电影网页的数据结构不够规范,所以提取出来的数据,与网站实际看到的略有出入,将重复的、以及不正确的数据删除即可。

need-to-insert-img

2、提取某一部电影详情页需要的数据。

选择某一个电影,进入详情页,比如提取出《姜子牙》的导演、主演、评分人数等数据,依然"使用示例添加表",将这些数据提取成一行,

然后将这一行数据清洗成规范的数据。

3、利用第2步的查询建立自定义函数。

右键该查询>创建函数,

命名为movieinfo,并修改前两行代码,定义网址为参数:

自定义函数制作完成。

4、调用自定义函数。

在第1步查询的基础上,调用创建好的自定义函数:

然后展开数据即可获得每一部电影的详细数据:

将抓取到的数据上载到数据模型中就可以进行分析了,

不得不说,之前备受瞩目的《花木兰》评分真的好低,不推荐观看。

以上就是PowerBI批量抓取链接网页中数据的步骤,具体细节,可能不同的网站需要不同的处理,但整体思路基本如此。

-精彩推荐-

Power BI商业数据分析模型:RFM客户价值分析

如何用PowerBI 打造高大上的财务报表分析报告?

Power BI应用技巧:动态显示最近N天的数据

PowerBI数据分析和可视化实战案例

采悟  Power BI星球

相关文章

  • 利用Power BI轻松爬取豆瓣电影数据

    这篇文章就来看看如何用PowerBI批量抓取豆瓣电影的数据。以最近正在上映的电影为例,豆瓣网址为:https://...

  • Python学习

    python爬虫(五) python爬虫爬取豆瓣电影Top250数据 利用python爬取豆瓣电影TOP250页面...

  • Python学习

    python爬虫(四) python爬虫爬取豆瓣电影数据 今天我们爬取一下豆瓣电影TOP250页面电影的数据,依然...

  • 爬虫案例

    实战巩固 爬取搜狗指定页面的数据-待完成 爬取破解百度翻译 爬取豆瓣电影分类排行榜 爬取肯德基餐厅查询地址 爬取国...

  • Python爬取豆瓣电影的短评数据并进行词云分析处理

    前言 对于爬虫很不陌生,而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了,今天小编就介绍一下如果爬取豆瓣上面电影影...

  • Python·爬取当当网图书信息

    爬虫实践 爬取当当网图书信息 爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3) 批量命名图片

  • 实战爬取豆瓣电影TOP250(基于lxml和re)

    目标 爬取豆瓣电影TOP250的数据,并保存到MySQL数据库中。爬取的信息包括影名(name)、导演(direc...

  • Python爬取豆瓣读书

    主要思路 利用Python的requests模块和beautifulsoup模块来爬取豆瓣读书的数据,并对这些数据...

  • (2018-05-21.Python从Zero到One)5、(爬

    用Pymongo保存数据 爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存...

  • scrapy爬取豆瓣电影

    scrapy爬取豆瓣电影,存储在MongoDB 本节分享用的Scrapy爬取豆瓣电影Top250的实战。 本节要实...

网友评论

    本文标题:利用Power BI轻松爬取豆瓣电影数据

    本文链接:https://www.haomeiwen.com/subject/xodtnktx.html