美文网首页
数据挖掘算法(二)

数据挖掘算法(二)

作者: 月关日斤 | 来源:发表于2018-03-15 17:19 被阅读0次

数据频繁模式分析

其最典型的一种应用在于超市的销售,通过频繁模式分析可以知道哪些商品经常被一起购买,便于摆放及促销。

从这部分开始,才真正算得上是对数据本身进行信息挖掘。首先给出两个定义,支持度S(support)以及信心度C(confidence)。我给他们通俗的解释是:在事物a对b时S代表(事物a和事物b一起出现的频率)C代表(有a和b的时候有b的频率)。对于一组数据,我们在这一部分感兴趣的是哪些属性经常一起出现(即频繁模式)。首先是先验准则算法,它的原理很简单,当一个母集频繁时,其子集一定频繁,反之,即当一个数据子集不频繁时,其母集必定不频繁。根据反推出的这点,有先验准则算法:

1、以1个事物为单位遍历数据集,去掉不频繁(S低于自己设定的阈值即可)的事物

2、接下来以2个事物一起(这时的2个事物不包括上面去掉的事物)为单位遍历数据集,去掉不频繁的事物

3、重复此操作至需要的频繁模式

然而,这个算法的代价是巨大的,因为它每次迭代都需要遍历一次数据集。为此,FP-Tree(频繁模式树)应运而生。仍记得老师在课堂上对这个算法的作者评价甚高。步骤:

1、将数据集中事物按单个频率排序,并去掉低于阈值的事物(遍历一次数据集)

2、构建FP树(遍历一次数据集)

3、构建FP条件树

4、分析频繁模式

FP树

下一步的所谓FP条件树则是从选定事物如g出发,由下往上统计其到达根部经历的所有事物,若出现次数高于阈值,则其与g可构成FP条件树

g的FP条件树

下一步根据FP条件树很容易找到各个频繁事物集了。

相关文章

  • 学习笔记--(移动数据挖掘引言)

    移动数据挖掘的定义 移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据算法需要更多地利用移动数据特性,挖掘与...

  • 数据挖掘算法(二)

    数据频繁模式分析 其最典型的一种应用在于超市的销售,通过频繁模式分析可以知道哪些商品经常被一起购买,便于摆放及促销...

  • 2018-10-20

    Python与数据挖掘(二)——逻辑回归 2、算法实现 import pandas as pdfrom sklea...

  • 频繁项集挖掘算法——Apriori算法实现初步

    基本概念 这周数据挖掘课上老师介绍了一种基础的数据挖掘算法——频繁项集挖掘算法。这种算法用一句话来总结就是要在数据...

  • 数据挖掘导论

    一、数据挖掘的定义 指通过从大量数据中通过算法搜索隐藏与其中信息的过程。其中机器学习是支撑数据挖掘的主要手段。 二...

  • 推荐系统第四周-基于频繁模式的推荐系统

    数据挖掘:关联规则挖掘 关联规则挖掘:Apriori算法 提高Apriori的效率 基于散列的算法基于FP tre...

  • 十大经典数据挖掘算法

    十大经典数据挖掘算法

  • 数据挖掘算法

    机器学习导论 机器学习的方法是基于数据产生的"模型"(model)的算法,也称"学习算法"(learning al...

  • Scala 强大的集合数据操作示例

    Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据...

  • Apriori算法

    Apriori算法 1.定义:一种用于关联规则挖掘的代表性算法 2.一些基本的概念: 2.1 数据挖掘可以视为数据...

网友评论

      本文标题:数据挖掘算法(二)

      本文链接:https://www.haomeiwen.com/subject/rxvhqftx.html