问题:如何划分训练集和验证集,从而保证验证集上的表现能代表模型的泛化能力。 1. 划分的基本准则 基本准则:保持训...[作者空间]
一、 基本指标 准确率:正确样本占总样本的比例 误差率:错误分类样本占总样本的比例 基于准确率和误差率,可以衍生出...[作者空间]
样本误差:衡量模型在一个样本上的预测准确性样本误差 = 样本预测值 - 样本实际值 最常用的评价指标:均误差方(M...[作者空间]
集成学习,即通过构建并结合多个模学习器来共同完成学习任务。集成学习的一般结构:先产生一组“个体学习器”,再用某种策...[作者空间]
超参数的搜索:提前设置好参数可以选择的候选值,然后根据不同参数组合对于模型泛化能力的贡献,选取最佳的超参数组合。 ...[作者空间]
一、CART回归树概述 决策树算法的关键在于选择最佳划分特征及特征重最佳划分点位置,即划分算法。ID3决策树的划分...[作者空间]
(由于之前做毕设时候没接触AdaBoost算法,而且个人精力有限,所以本文只做了一个简介和调用sklearn模块,...[作者空间]
一、KNN算法概述 KNN(k-Nearest Neighbor)算法,又称K近邻算法,是一个理论上比较成熟的方法...[作者空间]
数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工...[作者空间]
一、Apriori算法简介 1.1. 关联分析 在介绍Apriori算法之前我们需要先了解一下“关联分析”。关联分...[作者空间]
在数据分析中,拿到的原始数据,数值之间的差距可能会非常大,再做一些机器学习模型的建模时,比如SVM,对结果会有很大...[作者空间]
一、基于原型的聚类 基于原型的聚类,简称原型聚类。此类算法假设聚类结构能通过一组原型刻画,算法先对原型进行初始化,...[作者空间]
一、什么是朴素贝叶斯 相关名词 条件概率 贝叶斯准则 贝叶斯决策理论 极大似然估计 1.1 条件概率 在谈朴素贝叶...[作者空间]
一、K-Means聚类 1.1 大致概念 K-Means聚类,又称为K均值聚类,是一种常用的聚类算法,且为典型的基...[作者空间]
一、什么是决策树 相关名词 信息熵 信息增益和信息增益率 剪枝、预剪枝和后剪枝 过拟合 根节点和叶节点(关于这些名...[作者空间]
一、什么是降维以及为什么要降维 1.1 降维简介 为了在机器学习中拟合出满意的结果,训练中提供的训练样本数据需要足...[作者空间]
一、线性回归的概念 (小时候的我很喜欢“回”这个字,直到我上中学后学了线性回归=_=) 在统计学中,线性回归(Li...[作者空间]
1. Logistic回归的概念 1.1 简介 logistic回归又称logistic回归分析,是一种广义的线性...[作者空间]