决策树

作者: DestinyBaozi | 来源:发表于2018-10-15 20:28 被阅读57次

基本流程:

  略

划分选择:

  “信息熵”是度量样本集合纯度最常用的一项指标
  Ent(D)=-\sum_{k=1}p_{k}log_{2}p_{k}
  “信息增益”是度量某个属性对划分的增益
  Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v})
  \frac{|D^{v}|}{|D|}表示该属性的权重值

剪枝处理:

  剪枝是决策树学习算法对“过拟合”的主要手段,若不采取剪枝有时会造成决策树分支过多,导致过拟合。决策树剪枝的基本策略有“预剪枝”和“后剪枝”。

预剪枝:

  在决策树每个结点划分前进行估计,若划分不能带来决策树的泛化能力的提升,则停止划分并且将当前结点标记为叶结点。
  预剪枝使得部分分支没有“展开”,不仅降低了过拟合的风险还显著减少了决策树的训练时间开销和测试时间。但是预剪枝基于“贪心”的思想,给决策树带来了欠拟合的风险。

后剪枝:

  后剪枝先从生成完整决策树,然后对分支进行计算,若将分支替换为叶结点能提升泛化能力则替换。
  后剪枝一般比预剪枝保留了更多的分支,欠拟合的风险很小,泛化能力优于预剪枝,但是由于要生成完整的决策树且自底向上的对结点逐一考察,开销要大得多。

连续与缺失值:

连续值

  在连续值取件中选择一个划分点,一侧为正例另一侧为反例。

缺失值处理

  将属性A为缺失部分进行信息增益计算,然后乘以属性A未缺失值所占比例,为属性A的信息增益。

多变量决策树:

  显然决策树的每个属性结点在坐标轴中都是垂直于坐标轴的直线,由此在实际情况中较为复杂,因此采用多变量决策树。例如:
    0.3x+0.6y\leqslant0.7
  这样的属性结点在坐标上为非垂直于坐标轴的直线。

相关文章

  • 机器学习6-决策树

    一. 决策树概述 1.1 什么是决策树 决策树输入: 测试集决策树输出: 分类规则(决策树) 1.2 决策树算法概...

  • 决策树

    1、决策树 决策树学习通常包括3个步骤: 特征选择。 决策树生成。 决策树剪枝。 决策树的学习目标是:根据给定的训...

  • 决策树

    决策树 决策树模型与学习 特征选择 决策树的生成 决策树的剪枝 CART 算法 决策树模型呈树形结构,在分类问题中...

  • 决策树算法总结

    目录 一、决策树算法思想 二、决策树学习本质 三、总结 一、决策树(decision tree)算法思想: 决策树...

  • 机器学习 - 决策树算法[一]

    1 决策树模型与学习 1.1 决策树模型 决策树定义: 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由...

  • 机器学习系列(三十六)——回归决策树与决策树总结

    本篇主要内容:回归决策树原理、回归树学习曲线、决策树总结 回归决策树原理 回归决策树树是用于回归的决策树模型,回归...

  • [机器学习]决策树

    决策树 @(技术博客)[机器学习, 决策树, python] 学习决策树首先要搞清楚决策树是什么(what),在弄...

  • 经典机器学习系列之【决策树详解】

      这节我们来讲说一下决策树。介绍一下决策树的基础知识、决策树的基本算法、决策树中的问题以及决策树的理解和解释。 ...

  • 第5章 决策树

    内容 一、决策树内容简介 二、决策树的模型与学习 三、特征选择 四、决策树生成 五、决策树剪枝 六、CART算法 ...

  • 决策树与随机森林

    PART I 决策树 (Decision Tree) 决策树基本知识 决策树何时停止生长:(I) all leaf...

网友评论

    本文标题:决策树

    本文链接:https://www.haomeiwen.com/subject/qyhqzftx.html