数据挖掘方法入门——关联分析

作者: 周小米同学 | 来源:发表于2017-08-20 21:40 被阅读151次

1.什么是关联分析?

自然界中,某件事情发生时,其他事件也会发生,这种联系称为关联。关联分析就是为了寻找事物之间的一些有趣的关联关系。

最让人熟知的就是购物篮分析,商场在分析用户经常同时购买“啤酒、尿布“、“篮球”、“篮球服”等商品组合,于是将其放在一起以促进销售。这种关联关系的分析,不仅应用与网站设计者可以根据访客日志数据,发现访客浏览习惯和网站页面间的关系。

2.如何评价关联规则是否有用?

拿某个商场的交易数据中进行分析,数据集中有限的项目经过排列组合以后可以产生大量的关联规则,但是,只有一小部分的规则会是用户感兴趣的,因此需要引入一个“兴趣度”的概念帮助用户评估得到的关联规则。

而与兴趣度评估相关的度量包括:简洁性、正确性、实用性、新颖性

1)简洁性:太复杂的规则会让用户的兴趣度降低,也难以解释和理解

2)正确性:令人信服的程度有多高。

正确性的判断指标是置信度,表示这个规则正确的概率有多大。即在某一项x出现的前提下,另外一项y出现的频率是多少。

置信度confident(x=>y)=p(y|x)

3)实用性:判断该规则再次出现的可能性有多大,即这个指标的覆盖率。

实用性的判断指标是支持度,支持度越大说明规则应用越广泛,即xy同时出现的频率.

支持度support(x=>y)= p(x U y)

4)新颖性:判断规则是否已经被导出的另外一个规则作蕴含。

在这4个指标中,置信度和实用性是用来评判一条规则是强关联规则的依据。

强关联规则:同时满足用户定义的最小支持度阈值和最小置信度阈值的关联规则

弱关联规则:不满足最小支持度阈值和最小置信度阈值的关联规则

5)改善度:

期望可信度是在x没有影响的作用下y出现的频率,p(i)

改善度则是评估x的出现对y的出现的影响性。p(y|x)/p(x)越大,则改善度越高,说明x的出现对y的可能影响就越大。

3.关联规则的分类

1)布尔规则和量化规则

(1)布尔规则:性别=女=》职业=老师

(2)量化规则:性别=女=》平均收入=2300

量化关联规则可以直接对原始数据进行处理,或先对数值型属性进行分区间进行动态分割

2)单层规则和多层关联规则

在单层规则中,所有的项不考虑现实数据的多层性,而在实际应用中,涉及不同的抽象层发现的多层关联规则则是一种更有用的关联规则,因为属性之间存在一种层次关系。

(1)不涉及不同抽象层的项的规则称为单层关联规则

adidas篮球=》nike篮球服

(2)较高层次和较低层次之间规则称为多层关联规则

adidas篮球=》篮球服

3)单维规则和多维规则

(1)单维关联规则:处理同一个属性或维度内的联系。

adidas篮球=》nike篮球服

(2)多维关联规则:多个属性或维度之间的联系。

用户的年龄和购买物品

相关文章

  • 数据挖掘方法入门——关联分析

    1.什么是关联分析? 自然界中,某件事情发生时,其他事件也会发生,这种联系称为关联。关联分析就是为了寻找事物之间的...

  • 关联规则(二)

    参考:数据挖掘入门系列教程(五)之Apriori算法Python实现Python 极简关联分析(购物篮分析) 数据...

  • 电商数据挖掘常用到的方法

    大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等,这些方法从不同的角度对数...

  • 零售业的数据挖掘

    数据挖掘的任务和方法 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘 的任务主要是关联分析、...

  • [转]Spark购物篮分析:关联规则挖掘

    1、浅谈数据挖掘中的关联规则挖掘 2、Hadoop/MapReduce购物篮分析:关联规则挖掘 3、Spark购物...

  • 2019-01-13

    1. 关联 关联, 指的是关联分析, 这里引用百度百科的定义. 关联分析又称关联挖掘,就是在交易数据、关系数据或其...

  • 数据挖掘之---Apriori算法

    Apriori算法总结使用场景:关联分析,是一种挖掘数据集中关联关系的方法。比如 购物时,购买 尿不湿,和买啤酒的...

  • 数据挖掘——关联分析

    前言 关联规则是人类认知客观事物形成的一种认知模式。人们可以从庞大的事物个体中发现一个或者多个的关联。从而建立出关...

  • 典型关联分析(CCA)原理总结(转自刘建平Pinard)

    典型关联分析(Canonical Correlation Analysis,以下简称CCA)是最常用的挖掘数据关联...

  • Python数据挖掘012-关联规则

    关联规则挖掘是数据挖掘中第三个比较大的类别。 关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商...

网友评论

    本文标题:数据挖掘方法入门——关联分析

    本文链接:https://www.haomeiwen.com/subject/otfdcxtx.html