美文网首页
当我们在谈论数据时我们应该谈些什么?

当我们在谈论数据时我们应该谈些什么?

作者: 鸣人吃土豆 | 来源:发表于2017-12-16 22:26 被阅读47次

我们在做数据分析或者建模的过程时,分析和建模结果往往很受数据的影响,所以我们有必要了解一些关于数据的知识


数据.png

1.数据类型

我们常碰到的数据被称为数据集。数据集是数据对象的集合。数据对象在不同的情况下有不同的叫法:记录、样本、向量、事件、案例、观测等。来描述数据集基本特性的是属性,也叫变量、特征、字段、维等。

1.1属性的类型(测量标度的类型)

  • 标称
  • 序数
  • 区间
  • 比率


    数据属性类型.png
用值的个数描述属性
  • 离散数据
    具有有限个值或无限可数个值。可以是分类的,如邮政编码,也可以是数值的。通常,离散型数据用整数变量表示。二元属性是离散型数据的特殊情况,用布尔变量表示,或只取两个值0或1的整数变量表示
  • 连续数据
    连续属性是取实数值的属性,通常用浮点数表示

通常,标称
和序数属性是二元的或离散的,而区间和比率属性是连续的,但是计数属性是离散的,也是连续的

  • 非对称的属性
    只有非零值才重要的二元属性

1.2数据集的类型

1.2.1数据集的一般特性
  • 维度
    数据集的属性的数目。维度的大小对于机器学习来讲很重要,高纬度有时候会导致维灾难,所以在数据预处理的过程中会进行维归约
  • 稀疏性
    比如具有非对称特征的数据集,一个对象的大部分属性上的值都为0.许多情况下,非零项还不到1%。有些数据挖掘算法仅适合处理稀疏数据
  • 分辨率
    例如气象变化是几小时记录一下,但是如果是以月为单位进行记录,我们很难进行天气的实时变化
1.2.2数据集的类型:记录数据

最常见的是存储在数据库中的数据

  • 事务数据或购物篮数据
    特殊的记录数据,顾客一次所购买的商品的集合构成一个事务,而购买的商品是项。多个项构成一个事务,多个事务构成记录数据集。数据集属性常常是二元的,表示是否购买,也有是离散的或者连续的,比如购买的商品数量或者金额
  • 数据矩阵
    所有数据对象的属性值都是数值
  • 稀疏数据矩阵
    属性类型相同且是非对称的
1.2.3数据集的类型:图形数据

图形数据暂不讨论

1.2.4数据集的类型:有序数据

属性具有涉及时间或者空间序的联系的数据


有序数据.png

2.数据质量

现实工作当中的数据 并不如实验设计或调查得来的数据具有较高的质量,所以在用于机器学习之前要进行数据处理

2.1测量误差和数据收集错误

对于连续属性,测量值与实际值的差称为误差

2.2噪声和伪像

噪声:测量误差的随机部分。常见于包含时间或空间分量的数据


噪声
2.3准确率

指数据对象的测量值与实际值之间的接近度

2.4离群点

与数据集中大部分数据对象或与某属性下的典型值不太一样,离群点可以是合法的数据对象或属性,比如在欺诈中,我们就是要找出异常点出来


异常点处理方法.jpg
2.5缺失值

我们在处理缺失值的时候常用以下几种方案:

  • 删除数据对象或属性
    如果缺失值太多,可以在业务允许下进行删除,但是如果缺失值不多,则可以选择保留下来。

  • 估计遗漏值


    估计方法.jpg
  • 不处理

2.6不一致的值

比如同一个人,在两个不同的表中,他们的名字记录方式不一致

2.7重复值

有些重复是符合逻辑的

3.数据预处理

  • 聚集
    将两个或多个对象合并成单个对象
    数据规约可以减少数据量,对于数据挖掘算法来讲可以提升效率。但也有坏处,即可能会丢失细节
  • 抽样
    简单随机抽样,分词抽样
  • 维归约
  • 特征子集选择

相关文章

网友评论

      本文标题:当我们在谈论数据时我们应该谈些什么?

      本文链接:https://www.haomeiwen.com/subject/wipewxtx.html