我们在做数据分析或者建模的过程时,分析和建模结果往往很受数据的影响,所以我们有必要了解一些关于数据的知识

1.数据类型
我们常碰到的数据被称为数据集。数据集是数据对象的集合。数据对象在不同的情况下有不同的叫法:记录、样本、向量、事件、案例、观测等。来描述数据集基本特性的是属性,也叫变量、特征、字段、维等。
1.1属性的类型(测量标度的类型)
- 标称
- 序数
- 区间
-
比率
数据属性类型.png
用值的个数描述属性
- 离散数据
具有有限个值或无限可数个值。可以是分类的,如邮政编码,也可以是数值的。通常,离散型数据用整数变量表示。二元属性是离散型数据的特殊情况,用布尔变量表示,或只取两个值0或1的整数变量表示 - 连续数据
连续属性是取实数值的属性,通常用浮点数表示
通常,标称
和序数属性是二元的或离散的,而区间和比率属性是连续的,但是计数属性是离散的,也是连续的
- 非对称的属性
只有非零值才重要的二元属性
1.2数据集的类型
1.2.1数据集的一般特性
- 维度
数据集的属性的数目。维度的大小对于机器学习来讲很重要,高纬度有时候会导致维灾难,所以在数据预处理的过程中会进行维归约 - 稀疏性
比如具有非对称特征的数据集,一个对象的大部分属性上的值都为0.许多情况下,非零项还不到1%。有些数据挖掘算法仅适合处理稀疏数据 - 分辨率
例如气象变化是几小时记录一下,但是如果是以月为单位进行记录,我们很难进行天气的实时变化
1.2.2数据集的类型:记录数据
最常见的是存储在数据库中的数据
- 事务数据或购物篮数据
特殊的记录数据,顾客一次所购买的商品的集合构成一个事务,而购买的商品是项。多个项构成一个事务,多个事务构成记录数据集。数据集属性常常是二元的,表示是否购买,也有是离散的或者连续的,比如购买的商品数量或者金额 - 数据矩阵
所有数据对象的属性值都是数值 - 稀疏数据矩阵
属性类型相同且是非对称的
1.2.3数据集的类型:图形数据
图形数据暂不讨论
1.2.4数据集的类型:有序数据
属性具有涉及时间或者空间序的联系的数据

2.数据质量
现实工作当中的数据 并不如实验设计或调查得来的数据具有较高的质量,所以在用于机器学习之前要进行数据处理
2.1测量误差和数据收集错误
对于连续属性,测量值与实际值的差称为误差
2.2噪声和伪像
噪声:测量误差的随机部分。常见于包含时间或空间分量的数据

2.3准确率
指数据对象的测量值与实际值之间的接近度
2.4离群点
与数据集中大部分数据对象或与某属性下的典型值不太一样,离群点可以是合法的数据对象或属性,比如在欺诈中,我们就是要找出异常点出来

2.5缺失值
我们在处理缺失值的时候常用以下几种方案:
-
删除数据对象或属性
如果缺失值太多,可以在业务允许下进行删除,但是如果缺失值不多,则可以选择保留下来。 -
估计遗漏值
估计方法.jpg
-
不处理
2.6不一致的值
比如同一个人,在两个不同的表中,他们的名字记录方式不一致
2.7重复值
有些重复是符合逻辑的
3.数据预处理
- 聚集
将两个或多个对象合并成单个对象
数据规约可以减少数据量,对于数据挖掘算法来讲可以提升效率。但也有坏处,即可能会丢失细节 - 抽样
简单随机抽样,分词抽样 - 维归约
- 特征子集选择
网友评论