美文网首页
数据挖掘与建模

数据挖掘与建模

作者: 恰似一碗咸鱼粥 | 来源:发表于2019-10-07 17:18 被阅读0次

1.数据获取

一般有以下四个手段:
数据仓库
检测与抓取
填写、日志、埋点
计算

2.探索性数据分析与可视化

(1)单因子与可视化

集中趋势:均值、中位数、众数、分位数:常用四分位数
离中趋势:标准差、方差数据

分布:偏态系数与峰态系数
S=\frac{\frac{1}{n}\sum(x_i-x_{mean})^3}{(\frac{1}{n}\sum(x_i-x_{mean})^2)^{\frac{3}{2}}},S表示偏态系数,即与均值的偏离程度,S>0为正偏,否则为负偏。

K=\frac{\frac{1}{n}\sum(x_i-x_{mean})^4}{(\frac{1}{n}\sum(x_i-x_{mean})^2)^{2}},K为峰态系数,峰态系数越高,其图像越陡,否则越平缓。

对于正态分布来说,经常用到卡方分布,T分布,F分布。

抽样理论:
有放回抽样的误差:\mu_x=\sqrt{\sigma^2/n}
不放回抽样的误差:\mu_x=\sqrt{\frac{\sigma^2(N-n)}{n(N-1)}}
这里的方差表示整体方差,n表示抽样的数量

import pandas as pd
df=pd.read_csv('first_round_training_data.csv')
df['Attribute6'].skew()#偏态系数
df['Attribute6'].kurt()#峰态系数

对于正态分布:

import scipy.stats as ss
ss.norm.stats(moments="mvsk")
#(array(0.), array(1.), array(0.), array(0.))
#引入标准正态分布
ss.norm.pdf(0.0)
#返回分布函数在0处的值
ss.norm.ppf(0.9)
#积分到0.9的时候,是从负无穷到返回值
ss.norm.cdf(2)
#从负无穷到2的积分值
ss.norm.rvs(size=10)
#得到10个服从正态分布的数字

同理,卡方分布有ss.chi2,t分布有ss.t,f分布有ss.f,操作也和norm一样。
对于抽样:

#随机抽取10个
df.sample(n=10)
#抽取10%
df.sample(frac=0.1)

相关文章

  • Python数据分析与数据挖掘思路

    Python数据分析与数据挖掘思路分为四大模块:数据获取、数据探索、数据预处理、挖掘建模

  • 2018-11-12

    关于举办 “大数据建模与分析挖掘应用”实战培训班的通知 一、课程简介 大数据建模与分析挖掘技术已经逐步地应用到...

  • 2018-12-26

    关于举办 “大数据建模与分析挖掘应用”实战培训班的通知 一、课程简介 大数据建模与分析挖掘技术已经逐步地应用到...

  • 2019-03-04

    关于举办 “大数据建模与分析挖掘应用”实战培训班的通知 一、课程简介 大数据建模与分析挖掘技术已经逐步地应用到新兴...

  • 数据挖掘与建模

    1.数据获取 一般有以下四个手段:数据仓库检测与抓取填写、日志、埋点计算 2.探索性数据分析与可视化 (1)单因子...

  • 苏州10月大数据建模与分析挖掘应用实战培训班

    大数据建模与分析挖掘应用实战培训班 1.培训简介 大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商...

  • 2019-07-14

    “大数据建模与分析挖掘应用”实战研讨会的通知 一、研讨会简介 大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企...

  • 数据挖掘

    数据挖掘是机器学习的前身,标准的数据分析与挖掘流程分为6部分,与数据挖掘紧密相关有3部分:数据整理、构建模型和模型...

  • 第一章 数据挖掘基础

    数据挖掘的基本任务:分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐数据挖掘建模过程:1)定义挖掘目标...

  • Task 4:建模调参

    Datawhale 零基础入门数据挖掘-Task4 建模调参 四、建模与调参 4.1 学习目标 了解常用的机器学习...

网友评论

      本文标题:数据挖掘与建模

      本文链接:https://www.haomeiwen.com/subject/mrympctx.html