美文网首页
data mining 1

data mining 1

作者: SeanC52111 | 来源:发表于2019-05-21 23:38 被阅读0次

数据挖掘中的数据

属性的不同类别

  • nominal:ID号码,眼睛的颜色,zip code
  • ordinal: rankings,grades,height
  • interval:日历上的日期,摄氏或华氏温度
  • ratio:开尔文温度,长度,时间,计数counts

属性的类别取决于它支持一下哪些类别:

  • Distinctness: = ,neq

  • Order: < >

  • Addition: + -

  • Multiplication: * /

  • Nominal attribute: distinctness

  • Ordinal attribute: distinctness & order

  • Interval attribute: distinctness, order & addition

  • Ratio attribute: all 4 properties

image.png
image.png

离散和连续属性

离散的数据用的最多的方法是二进制矩阵方法。比如文本聚类,单词出现就是1,否则就是0. 数学方法处理二进制矩阵十分方便。但二进制方法又会损失一些信息,比如单词多次重复出现。
一些方法仅仅支持离散数据而并不支持连续数据。比如决策树方法,就无法很好地对连续数据进行处理。为了实现这样的连续型数据,可以简单的进行离散化。

非对称性属性
一个属性比另外一个属性更重要(比如1比0重要)。商场买东西的情况,买东西比没买东西更重要。

数据的表达方式
常用的是矩阵。网络数据可以被图模型所表示。空间数据(spatial data,mobile data)

相关文章

网友评论

      本文标题:data mining 1

      本文链接:https://www.haomeiwen.com/subject/nezduqtx.html