ID3算法

作者: 苟且偷生小屁屁 | 来源:发表于2017-09-27 09:49 被阅读0次
  • 在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高.
  • ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂
  • 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。
  • 图片.png
  • 举个例子
    根据天气情况决定今天打球与否:


    Firefox_Screenshot_2017-09-26T13-27-38.839Z.png
  • 可以看出,一共14个样例,包括9个正例和5个负例。那么当前信息的熵计算如下:


    Firefox_Screenshot_2017-09-26T13-33-26.951Z.png
  • 在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。假设利用属性Outlook来分类,那么如下图:
    Firefox_Screenshot_2017-09-26T13-39-00.161Z.png
    划分后,数据被分为三部分了,那么各个分支的信息熵计算如下:
    Firefox_Screenshot_2017-09-26T13-40-33.327Z.png
    那么划分后的信息熵为:
    Paste_Image.png
  • 如果按照温度来划分
    1179285551.jpg
  • 如果按照湿度以及刮风来划分


    微信图片_20170926234931.jpg
  • 由此可以看出,属性“outlook”的信息增益最大,所以第一层利用“温度”来进行划分:
  • ID3算法可用于划分标准称型数据,但存在一些问题:
    1.只可以处理离散分布的数据特征
    2.信息增益的方法偏向选择具有大量值的属性,也就是说某个属性特征索取的不同值越多,那么越有可能作为分裂属性,这样是不合理的;
    3.没有剪枝过程,为了去除过渡数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点;

相关文章

  • 决策树简记

    具有不同划分准则的算法决策树原理剖析及实现(ID3)理解决策树算法(实例详解)-ID3算法与C4.5算法 ID3(...

  • 决策树和随机森林

    随机森林和GBDT算法的基础是决策树 而建立决策树的算法由很多,ID3,C4.5,CART等, ID3:ID3算法...

  • 「数据分类」14决策树分类之CART算法

    1.CART算法与ID3算法对比 (1)CART算法解决了ID3算法的不足,既能用于分类问题,又能用于回归问题。 ...

  • JS简单实现决策树(ID3算法)

    推荐阅读:ID3算法 wiki决策树算法及实现完整示例代码:JS简单实现决策树(ID3算法)_demo.html ...

  • 决策树Decision Tree

    决策树是一种解决分类问题的算法 。 常用的 决策树算法有: ID3 算法 ID3 是最早提出的决策树算法,他...

  • ID3

    基于信息增益(Information Gain)的ID3算法 ID3算法的核心是在各个结点上应用信息增益准则来进行...

  • c4.5

    C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进...

  • 分类决策树算法

    C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进...

  • 十大机器学习算法的优缺点

    C4.5算法 C4.5算法的核心思想是ID3算法,是ID3算法的改进: 用信息增益率来选择属性,克服了用信息增益来...

  • day10-决策树

    今天学了决策树的基本知识。 基于信息论的决策树算法有:ID3, CART, C4.5等算法。 ID3 算法是根...

网友评论

      本文标题:ID3算法

      本文链接:https://www.haomeiwen.com/subject/aufeextx.html