美文网首页数据分析解密大数据
第三次作业-正态分布分析

第三次作业-正态分布分析

作者: 万能滴小笼包 | 来源:发表于2017-03-14 20:18 被阅读159次
赛马时间正态分布结果
正态分布代码截图-1
正态分布代码截图-2

这次作业碰到了挺多的问题,部分问题已找到答案,以注释的形式出现在代码中。

  • 比如python magic命令,在之前确实未曾了解过这系列的神奇命令,想具体了解有哪些神奇之处可以戳进这篇博客 27 个Jupyter Notebook的小提示与技巧

  • 同时在读取csv文件时遇到了些问题,csv文件的编码格式无法识别,导致文件中的数据无法读取。之前遇到过这样的问题,在此把解决办法写下:

1.打开csv文件,选择文件 ——> 另存为txt文件,保存格式为unicode 文本

另存为unicode文本格式

2.打开新生成的txt文件,此处最好用notepad++打开,选择 格式 ——> 以utf-8格式编码

3.修改编码格式后,选择文件另存为,此时另存为的文件名字、后缀与原有的csv文件均相同,覆盖原来的文件即可

4.打开新生成的csv文件,python可正常读取文件内的数据

  • 在进行编码过程中,也考虑了如何确定曲线的范围,比如求取最大值与最小值,界定范围以更好地分析。其次,在确定步进的时候也着实需要一步步尝试。如图可以看到范围145~155,在最初按照课件的演示,确定步进为1的时候,整条正态曲线像是多条直线相连接的折线,整体非常“尖锐”。后在逐渐缩小步进后得到图中教圆滑的曲线图。另外,需要选择适当数量的柱,bins的适当选取也是需要不断地调整。

  • matplotlib中文显示问题早已解决,如果想要彻底解决这个问题可以在小密圈里看我的发表,详细介绍了步骤,有不懂的可以一起探讨。

最后说一下对这个数据集的理解:如图所示,可以看到大多数赛马的赛跑时间分布在148~150区间,跑的特别快和特别慢的都占少数。《极简统计学》这本书上写到:数学家们证明了,在通过数学概率作出的硬币透支直方图中,在n充分大时,接近正态分布。

样本量足够大时,且由很多单一的不确定现象复合而成的现象,如动物身长现象,股票价格的现象等,它们的数据分布大多数表现为正态分布。

以上。

相关文章

  • 第三次作业-正态分布分析

    这次作业碰到了挺多的问题,部分问题已找到答案,以注释的形式出现在代码中。 比如python magic命令,在之前...

  • 第三次作业——正态分布

    对数据的理解: 该组数据平均值是100.83,标准差是15.02。 大部分的数据集中在85至115之间。 离平均值...

  • 过程能力分析的来龙去脉

    过程能力分析的来龙去脉 =========== 过程能力分析离不开正态分布的知识,所以我们先从直方图及正态分布讲起...

  • R相关性分析

    两组时间向量相关性分析(皮尔逊分析) 检测两个变量是否符合正态分布(看散点是否分布在阴影中,是,则是正态分布) 检...

  • 检验样本是否服从正态分布,处理偏态分布

    在数据分析中如果某个数据服从正态分布的话,我们可以利用正态分布的性质做出很多有意义的分析,例如t-检验。。 如何检...

  • 正态分布作业一

    具体的代码及运行过程如下: 数据分析如下: 1)智商得分位于100~110区间内的人数最多,超过25%;2)智商得...

  • 正态分布作业二

    具体代码及过程如下: 数据分析: 1)将直方图分为10份后,其呈现出中间频次高,两边频次低的特点;2)但是与正态分...

  • #橙子创意思维训练营#NO.3

    第三次作业:SWOT分析法,象限法,人物分析法,畅想计划。 选择熟悉的人作SWOT分析,将照片作为主题,分别从优势...

  • 数据分析|正态分布与对数正态分布

    我们前文指出过,正态分布的一个重要特性是它的稳定性,即服从正态分布的收益加和后的结果依然服从正态分布。 但是这一特...

  • 检验正态分布方法的汇总

    在数据分析过程中,往往需要数据服从正态分布,正态分布,也称“常态分布”,又名高斯分布,在求二项分布的渐近公式中得到...

网友评论

本文标题:第三次作业-正态分布分析

本文链接:https://www.haomeiwen.com/subject/pitknttx.html