序 boosting是集成学习中的一个大家族,本次记录boosting的相关概念以及与bagging的区别。 bo...[作者空间]
序 集成学习模型的一大特点是可以输出特征重要性,特征重要性能够在一定程度上辅助我们对特征进行筛选,从而使得模型的鲁...[作者空间]
序 RF中有相应的缺失值处理方法,本次记录其两种缺失值处理技巧 暴力填补 Python中的na.roughfix包...[作者空间]
序 集成学习大类中常见的有两个子类:Bagging和Boosting。本次记录一下Bagging以及其代表模型Ra...[作者空间]
序 面试过程中经常会被问到关于方差和偏差的概念以及比对。 偏差 偏差度量了学习算法的期望预测值与真实结果间的偏离程...[作者空间]
序 本次以及后续几次博客将陆续记录关于集成学习模型的相关知识点。 Ensemble概述 集成学习 就是构造若干模型...[作者空间]
为何要剪枝 决策树递归地构建树,直到不能继续分裂下去为止,这样的树对于训练集可能拟合的较好,但对于训练集可能产生过...[作者空间]
序 其实不同的决策树学习算法只是它们选择特征的依据不同,决策树的生成过程都是一样的(根据当前环境对特征进行贪婪的选...[作者空间]
序 熵的概念中有信息熵、信息增益、信息增益比、基尼指数,这些统统作为决策树分裂的依据,其中,我们需要知道信息熵与基...[作者空间]
序 本次记录一下决策树的相关概念以及思想,后面博客再贴上具体的算法原理 一句话介绍 决策树是一种基本的分类与回归的...[作者空间]
序 本次记录朴素贝叶斯的相关原理,并上一张手写的面试级推导过程 朴素贝叶斯模型是什么? 朴素贝叶斯是基于贝叶斯定理...[作者空间]
序 本次记录:1、闵可夫斯基距离2、马氏距离3、内积4、汉明距离5、杰卡德距离6、编辑距离7、KL散度距离 闵可夫...[作者空间]
序 聚类模型的好坏如何评价,本次记录其中一种方法--兰德指数 兰德指数[作者空间]
层次聚类分支 1)分裂法从上到下对大类别进行分割2)凝聚法从下到上对小类别进行聚合 层次聚类优点 kmeans中需...[作者空间]
算法介绍 该聚类算法是具有噪声的基于密度可达关系的聚类方法,它将具有足够密度的区域划分为簇,并在具有噪声的空间数据...[作者空间]
一句话介绍KNN KNN是一种可用于分类和回归的方法。一般情况下用其进行分类任务。 KNN三要素 1)模型,即对特...[作者空间]
大体思路 注意点 实现过程的注意点:1、hadoop是不存在自己定义的全局变量的。所以上面定义一个全局变量存放质心...[作者空间]
序 为了解决传统kmeans需要随即初始化聚类中心带来的缺陷,引入kmeans++来做优化 基本思想 从上面的算法...[作者空间]
序 在面试过程中经常问到K值如何确定,很多人说需要尝试,的确没错,但是更多地需要讲出来对每次尝试的结果是如何进行评...[作者空间]