美文网首页
清洗数据

清洗数据

作者: maocy | 来源:发表于2017-08-04 17:36 被阅读0次

pandas.DataFrame.dropna
(http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dropna.html#pandas-dataframe-dropna)

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
axis 0 行   1列
how any 有一个以上缺失去除 all所有缺失才去除
thresh  至少thresh个非控制

#统计缺失情况
sum_na_col=data_last.apply(lambda x: sum(x.isnull()),axis=0) 
per_na_col=sum_na_col/data_last.shape[0]
sum_na_row=data_last.apply(lambda x: sum(x.isnull()),axis=1) 
plt.hist(sum_na_row)
sum_na_row=sum_na_row.tolist()

count_na_row = {k:sum_na_row.count(k) for k in set(sum_na_row)}


def sum_na(data):
    return data.isnull().sum()

data_last['column_na']= data_last.apply(sum_na,axis=1)
#法1
df.apply(lambda x: sum(x.isnull()),axis=0) 

#默认是列的
#法1
df.apply(lambda x: sum(x.isnull()),axis=0) 
#法2
total= df_train.isnull().sum().sort_values(ascending=False)
percent = (df_train.isnull().sum()/df_train.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total','Percent'])
missing_data.head(20)

df_train= df_train.drop((missing_data[missing_data['Total'] > 50000]).index,1)  
 

相关文章

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • 2019-09-14 分析lianjia数据(四)——Power

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-10-03 分析lianjia数据(五)——生成词云图

    分析lianjia房源数据(一)——Python数据清洗 分析lianjia房源数据(二)——SPSS数据清洗 分...

  • 2019-08-19 分析lianjia数据(三)——SPSS数

    前置内容——lianjia数据清洗 分析lianjia房源数据(一)——Python数据清洗 分析lianjia房...

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 机器学习-数据清洗

    本文由brzhang发表 数据清洗 首先,为何需要对数据进行清洗 数据清洗的工作绝壁是非常枯燥的,做数据研究的的人...

  • 数据清洗

    从两个角度上看,数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘。不同的目的下分不同的情况,也都有相应的解...

  • 数据清洗

    数据清洗 重复数据处理(推荐使用顺序) 数据透视表可统计数据重复次数和重复数据 选中A、B两列,点击插入选项卡-数...

  • 数据清洗

  • 数据清洗

    数据清洗是指对提供的原始数据进行一定的加工,使得其方便后续的特征抽取。其与特征抽取的界限有时也没有那么明确。常用的...

网友评论

      本文标题:清洗数据

      本文链接:https://www.haomeiwen.com/subject/ynkblxtx.html