美文网首页
决策树(ID3)

决策树(ID3)

作者: Felicia1993 | 来源:发表于2017-10-07 18:05 被阅读0次

在实际应用中,对于探测式的知识发现,决策树更加适用。

决策树:是一个树结构(可以是二叉树或非二叉树)。其中每个非叶结点表示一个特征属性上的测试,每隔分支代表这个特征属性在某个值域上的输出,而每个叶结点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相遇的特征属性,并按照其值选择输出分钟,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

构造决策树的关键步骤是分裂属性。分裂属性分为三种不同的情况:

1、属性是离散值且不要求生成二叉决策树,此时用属性的每一个划分作为一个分支。

2.属性是离散值且要求生成二叉决策树,此时使用属性划分的一个子集进行测试,按照属于此子集和不属于此子集分成两个子分支。

3.属性是连续值。此时确定一个值作为分裂点split_point,按照>split_point和<=split_point生成两个分支。

ID3算法

期望值越小,信息增益【熵:表示随机变量的不确定性 条件熵:在一个条件下,随机变量的不确定性 信息增益:熵-条件熵 在一个条件下,信息不确定性减少的程度 比如:X(明天下雨)是一个随机变量,X的熵可以算出来,Y(明天阴天)也是随机变量,在阴天的情况下雨的信息熵也可以计算出来,信息增益是两者相减】越大,从而纯度越高。

设D为用类别对训练元组进行的划分,则D的熵表示为:

其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量厨艺训练元组元素总数量作为估计值。熵的实际意义表示D中元组的类标号所需要的平均信息量。

相关文章

网友评论

      本文标题:决策树(ID3)

      本文链接:https://www.haomeiwen.com/subject/lfbryxtx.html