如何保证训练数据和测试数据具有相同的one-hot encodi

作者: 泡泡_e661 | 来源:发表于2018-11-14 03:47 被阅读0次

如何保证训练数据和测试数据具有相同的one-hot encodi
Day and Night Image data Standar
Batch Normalization
线性回归
神经网络的训练
随机划分数据集（matlab）
2.封装kNN算法之数据分割
深度学习Batch Normalization作用与原理
Batch Normlization
训练和测试数据的观察

在机器学习中，如果数据包含Categorical类型的数据，我们知道一种有效的处理方法就是使用One-Hot Encoding。Pandas提供get_dummies方法可以快速将categorical的数据转化为one-hot encoding的形式。

同时Scikit-learn library对于数据中包含列的顺序是敏感的，如果训练数据和测试数据包含的列的顺序是不同的，如下面的两个图所示。

训练数据one-hot encoding之后：

测试数据one-hot encoding之后：

此时使用训练数据训练好的模型，预测或者分类测试数据，这将是没有意义的。

所以出现了新的问题，如果训练数据和测试数据是两个分开的文档，例如train.csv 和test.csv文档。如何在one-hot encoding之后，使训练数据和测试数据具有相同的列顺序？

另一个问题是，如果训练数据和测试数据的某一个categorcal列的值不一样时，如何保证one-hot encoding之后，训练数据和测试数据具有相同的列? 例如：在训练数据中名为 "Car" 的列的值有“Honda, Toyota, Ford" 但是在测试数据中名为 "Car" 的列的值有”Honda, Toyota, Ford, BMW“

我们可以使用align command解决上述的两个问题。从而保证测试数据和训练数据具有相同的编码行为（encoding manner）

举个列子说明align如何使用：

首先从csv文档中读取训练数据和测试数据

train_df = pd.read_csv("train.csv")

test_df = pd.read_csv("test.csv")

然后使用get_dummies方法将训练数据和测试数据转化为one-hot encoding的形式

one_hot_train = pd.get_dummies(train_df)

one_hot_test = pd.get_dummies(test_df )

最后使用align方法处理训练和测试数据

train, test=one_hot_train .align(one_hot_test ,join='left',axis=1)

其中join='left' 和SQL中的left join实现形同的功能，意思是如果训练数据和测试数据中的列的个数不同时，只保留所有在训练数据中的列。当然也可以用join='inner'，意思是保留同时存在于训练数据和测试数据中的列。

如果喜欢，就给个赞👍吧！谢谢！！！

网友评论

机器学习

本文标题：如何保证训练数据和测试数据具有相同的one-hot encodi

本文链接：https://www.haomeiwen.com/subject/lbzrfqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

如何保证训练数据和测试数据具有相同的one-hot encodi

如果喜欢，就给个赞👍吧！谢谢！！！

相关文章