在机器学习中如何去除重复的数据

作者: 崔吉龙 | 来源:发表于2019-03-08 11:11 被阅读0次

在机器学习中如何去除重复的数据
iOS开发 - NSArray 去除重复数据的方法
iOS去除数组中重复数据的四种方法
去除数组中重复数据的几种方法
关于iOS去除数组中重复数据的几种方法
IOS 数组去重处理
关于iOS去除数组中重复数据的几种方法
iOS去除数组中重复数据的几种方法
[数析学院]记录查重与去重
机器学习入坑指南（二）：数据预处理

问题描述

在机器学习中，重复的数据会对结果有不利的影响，我们最好是可以去除重复的数据。

导入数据库

import pandas as pd
from lxml import objectify
import numpy as np

实际操作

首先把xml文件导入成为结构化的数据DataFrame

xml = objectify.parse(open("XMLData.xml"))
datalist = []
root = xml.getroot()

for child in root.getchildren():
    str = []
    for obj in child.getchildren():
        str.append(obj.text)
    datalist.append(str)

data = pd.DataFrame(
    datalist, columns=['Number','String','Boolean'])
print(data)

可以看出原始的数据如下

  Number  String Boolean
0      1   First    True
1      1   First    True
2      2  Second   False
3      3   Third   False
4      4  Fourth   False

其次，把找到重复的item，并且显示出来，本步骤不是必须的，只是为了展示

     # 首先判断是否有重复
     search = pd.DataFrame.duplicated(data)
     print(search[==True])

显示结果如下，意思就是说，第1项是重复的数据。

1    True
dtype: bool

最后一步开始真正的移除重复的数据

    data_clean = data.drop_duplicates()
    print(data_clean)

结果显示为，可以看出第1项数据被移除了。

  Number  String Boolean
0      1   First    True
2      2  Second   False
3      3   Third   False
4      4  Fourth   False

网友评论

本文标题：在机器学习中如何去除重复的数据

本文链接：https://www.haomeiwen.com/subject/uhbreqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

在机器学习中如何去除重复的数据

问题描述

导入数据库

实际操作

相关文章

在机器学习中如何去除重复的数据

iOS开发 - NSArray 去除重复数据的方法

iOS去除数组中重复数据的四种方法

去除数组中重复数据的几种方法

关于iOS去除数组中重复数据的几种方法

IOS 数组去重处理

关于iOS去除数组中重复数据的几种方法

iOS去除数组中重复数据的几种方法

[数析学院]记录查重与去重

机器学习入坑指南（二）：数据预处理

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读