美文网首页
频繁项集和关联规则

频繁项集和关联规则

作者: georgeguo | 来源:发表于2018-12-02 09:22 被阅读63次

0 频繁项集与关联规则的关系

关联规则的发现的前提是先构建好关联规则。Apriori原理,如果某元素是不频繁的,那么包含该元素的超集也是不频繁的,所以就不需要考虑这些超集。

1 apriori算法

apriori算法一张图

apriori算法图解

apyori中apriori的参数总结

  • records, 输入的数据
  • min_support=0.0045, 最小支持度
  • min_confidence=0.2, 最小置信度
  • min_lift=3,
  • min_length=2,最小长度

apriori算法的缺点

  • 计算速度慢

2 FP-growth算法

FP-growth简介

FP-growth的来源《Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach, 2004》。FP-growth是基于Aprioir构建,只是在完成相同任务的时候,使用了不同的技术。通过将数据集存储在FP-Tree,然后在FP-Tree上发现频繁项集或频繁项对。

FP-growth发现频繁项集的过程

  • 步骤1:构建FP-tree
    • 第一遍扫描,对所有元素的出现次数进行计数;
    • 第二遍扫描,只考虑哪些频繁元素,基于频繁的元素构建FP-Tree
  • 步骤2:从FP-Tree中挖掘频繁项集
    • 第一步:从FP-Tree中获得条件模式基;(conditional pattern tree)
    • 第二步:利用条件模式基,构建一个条件FP-Tree;
    • 第三步:重复第一步和第二步,直到树包含一个元素项为止;

如何获取条件模式基?
条件模式基(conditional pattern base):以所查找元素项为结尾的路径集合。首先从获取的头指针表中的单个频繁元素项开始,对每个元素项获取其对应的条件模式基。每一条路径其实都是一条前缀路径,前缀路径就是介于所查找元素项与根节点之间的内容。每条前缀路径都与一个计数关联,该计数就起始元素的个数。前缀路径将被用于构建条件FP-Tree

如何创建条件FP-Tree?
和创建FP-Tree的逻辑是一样的,只是输入不一样。

FP-Tree,用于编码数据集的有效方式

FP-growth算法的优缺点

优点

  • 每次处理只遍历两次数据,处理速度快,速度明显优于apriori

缺点

  • 该算法虽然能够高效的发现频繁项集,但是不能用于发现关联规则。
  • 实现比较困难,在某些数据集上性能会下降。
  • fp-growth每次创建的树,可能还不一样

参考

相关文章

  • 关联规则

    关联规则:发现数据之间的关联性和强规则。支持度置信度频繁项集非频繁项集Apriori算法apriori在mlxte...

  • 频繁项集和关联规则

    0 频繁项集与关联规则的关系 关联规则的发现的前提是先构建好关联规则。Apriori原理,如果某元素是不频繁的,那...

  • Apriori算法

    关联分析概念: 关联分析是一种在大规模数据集中寻找有趣关系的任务;目标是发现频繁项集和发现关联规则; 频繁项集:是...

  • CPAR算法

    CPAR算法 1.关联规则分类的步骤 一般而言,关联规则分类包括以下步骤: 挖掘数据,得到频繁项集。 分析频繁项集...

  • 数据挖掘算法之关联规则挖掘

    关联规则挖掘的概念 在事务,关系数据库中的项集和对象中发现频繁模式,关联规则,相关性或者因果结构。 频繁模式:频繁...

  • 使用Apriori算法进行关联分析(二)

    从频繁项集中挖掘关联规则 频繁项集有其量化定义,即它满足最小支持度要求。对于关联规则,也有类似的量化方法,这种量化...

  • 第九章 数据关联规则分析算法——基于Apriori算法的关联项分

    9.1 基于Apriori算法的关联分析 Aprior算法是关联规则分析中较为经典的频繁项集算法。关联规则反映的是...

  • 关联规则异常点检测

    算法思路 利用Apriori算法,计算闭频繁项集,与频繁项集上满足置信度约束的关联规则 数据降维2.1 记产生的闭...

  • 关联分析之Apriori算法的Python实现

    关联规则 Apriori算法 购物篮: 相关概念 频繁项集:频繁项集是指那些经常出现在一起的商品集合,图中的集合{...

  • 频繁模式和关联规则

    频繁模式和关联规则 频繁模式是数据集中频繁出现的项集、序列或子结构。例如,在购物篮分析中,会分析哪些商品频繁的被客...

网友评论

      本文标题:频繁项集和关联规则

      本文链接:https://www.haomeiwen.com/subject/thauqqtx.html