美文网首页
pyspark卡方检验用于特征选择

pyspark卡方检验用于特征选择

作者: 米斯特芳 | 来源:发表于2021-07-24 12:08 被阅读0次

卡方检验特征选择原理

计算特征变量与因变量的卡方独立性检验统计量,如果特征变量与因变量独立,说明其对预测因变量效果差。
根据p值从大到小(p值越大,越有可能不独立,)取设定的K个变量即可
在机器学习的决策树算法中,可以根据卡方独立性检验、基尼系数(CART)、信息增益(ID3)、信息增益率(C4.5)进行选择,一般来说,使用CART或C4.5较好

from pyspark.sql import SparkSession
from pyspark.ml.feature import ChiSqSelector
from pyspark.ml.linalg import Vectors

spark = SparkSession\
    .builder\
    .appName("ChiSqSelectorExample")\
    .getOrCreate()

df = spark.createDataFrame([
    (7, Vectors.dense([0.0, 0.0, 18.0, 1.0]), 1.0,),
    (8, Vectors.dense([0.0, 1.0, 12.0, 0.0]), 0.0,),
    (9, Vectors.dense([1.0, 0.0, 15.0, 0.1]), 0.0,)], ["id", "features", "clicked"])
# 假设我们使用2个变量预测是否点击
selector = ChiSqSelector(numTopFeatures=2, featuresCol="features",
                         outputCol="selectedFeatures", labelCol="clicked")

result = selector.fit(df).transform(df)

print("ChiSqSelector output with top %d features selected" % selector.getNumTopFeatures())
result.show()

# sklearn中实现
from sklearn.feature_selection import SelectKBest
selector=SelectKBest(score_func='chi2',k=2)
fit=selector.fit(X,y)
newX=fit.transform(X)# 选择变量后的数据
fit.scores_# p值

相关文章

  • pyspark卡方检验用于特征选择

    卡方检验特征选择原理 计算特征变量与因变量的卡方独立性检验统计量,如果特征变量与因变量独立,说明其对预测因变量效果...

  • 特征选择之Chi卡方检验

    卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立...

  • 白话“卡方检验”

    白话“卡方检验” 什么是“卡方检验”? 卡方检验是假设检验的一种,用于分析两个类别变量的相关关系,是一种非参数假设...

  • 一文带你全方位理解卡方检验

    一、基本概念:卡方检验 (一)定义 卡方检验主要用于研究定类与定类数据之间的差异关系。一般使用卡方检验进行分析的目...

  • 卡方分布知识说明

    卡方分布定义 卡方分布的性质 卡方分布的数字特征 拓展SPSSAU卡方检验 卡方分布定义 设X1,X2,⋯,Xn是...

  • 卡方检验

    ①四格表卡方检验 ②配对卡方检验 ③RxC卡方检验

  • 全流程总结卡方检验,帮你理清分析思路

    卡方分析 卡方检验主要用于研究定类与定类数据之间的差异关系。 1.数据类型 卡方检验要求X、Y项均为定类数据,即数...

  • 干货!一文汇总卡方检验分析步骤

    一、类型 SPSSAU中卡方检验包括卡方检验、卡方拟合优度、配对卡方、分层卡方。 对于上述四种卡方检验区别如下: ...

  • Python统计分析-卡方校验

    卡方校验 卡方检验属于非参数检验的范畴,用于统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值...

  • 特征选择__过滤型

    过滤型--方差过滤法 过滤方差较低的特征 过滤型--## 卡方检验 考虑当前特征和目标特征的相关性,但是容易删除有...

网友评论

      本文标题:pyspark卡方检验用于特征选择

      本文链接:https://www.haomeiwen.com/subject/ezhpmltx.html