在实际应用中,对于探测式的知识发现,决策树更加适用。
决策树:是一个树结构(可以是二叉树或非二叉树)。其中每个非叶结点表示一个特征属性上的测试,每隔分支代表这个特征属性在某个值域上的输出,而每个叶结点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相遇的特征属性,并按照其值选择输出分钟,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
构造决策树的关键步骤是分裂属性。分裂属性分为三种不同的情况:
1、属性是离散值且不要求生成二叉决策树,此时用属性的每一个划分作为一个分支。
2.属性是离散值且要求生成二叉决策树,此时使用属性划分的一个子集进行测试,按照属于此子集和不属于此子集分成两个子分支。
3.属性是连续值。此时确定一个值作为分裂点split_point,按照>split_point和<=split_point生成两个分支。
ID3算法
期望值越小,信息增益【熵:表示随机变量的不确定性 条件熵:在一个条件下,随机变量的不确定性 信息增益:熵-条件熵 在一个条件下,信息不确定性减少的程度 比如:X(明天下雨)是一个随机变量,X的熵可以算出来,Y(明天阴天)也是随机变量,在阴天的情况下雨的信息熵也可以计算出来,信息增益是两者相减】越大,从而纯度越高。
设D为用类别对训练元组进行的划分,则D的熵表示为:
其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量厨艺训练元组元素总数量作为估计值。熵的实际意义表示D中元组的类标号所需要的平均信息量。












网友评论