美文网首页Artificial Intelligence
机器学习系统设计(二)

机器学习系统设计(二)

作者: SmallRookie | 来源:发表于2017-09-18 10:30 被阅读31次
偏斜类的误差度量

以预测肿瘤是否为恶性为例,我们使用逻辑回归模型,其假设函数hθ(x),当y = 1时,我们可以预测肿瘤为恶性肿瘤;当y = 0时,我们可以预测肿瘤为良性肿瘤。

现假设逻辑回归模型在测试集上的误差为1%,这看似该模型非常完美。但根据我们的资料发现在训练集中只有0.5%的患者确为恶性肿瘤,这时此前的1%的误差就不是那么完美了。(注:本人对此处有点不解,测试集上的误差为1%,而训练集上我们可以确定有0.5%的患者确为恶性肿瘤,这为什么可以做出判断在测试集上的1%的误差就不是那么完美?)

为了便于理解,我们先看如下代码:

function y = predictCancer(x)
    y = 0;     % ignore x!
return

该代码中,y始终为0,即始终对肿瘤的预测为良性,则在训练集上的误差为0.5%。逻辑回归模型与上述代码对比,其误差可能比上述代码要高,这就能说明逻辑回归模型比上述代码要差吗?

答案当然是不能的。对于正样本数量远大于负样本数量的情况,我们将其称为偏斜类。对于这种情况,分类误差或精度作为评估度量就不太适用了。因此,对于出现偏斜类这种情况,我们引入查准率(Precision)和召回率(Recall)。

我们仍以预测肿瘤是否为恶性肿瘤为例,y = 1表示肿瘤为恶性肿瘤:

对于查准率而言,其值越高越好,表示患者为恶性肿瘤的可能性就越大;对于召回率而言,其值也越高越好,其表示在所有实际患者为恶性肿瘤的中,模型成功预测的百分比。

这对于上述代码中y = 0的算法,其召回率为0,从而得知其算法是不好的。

查准率与召回率之间的权衡

在逻辑回归中,我们知道假设函数hθ(x)的取值范围为0~1,当hθ(x) ≥ 0.5时,我们可以预测y = 1;当hθ(x) < 0.5时,我们可以预测y = 0。

我们以预测肿瘤是否为恶性肿瘤为例,现假设我们只有在非常确定的情况下,我们才能将肿瘤预测为恶性肿瘤,即y = 1。

此时,我们将临界点(Threshold)修改为0.7,即当hθ(x) ≥ 0.7时,我们可以预测y = 1;当hθ(x) < 0.7时,我们可以预测y = 0。这对情况下,我们的查准率和召回率会发生相应变化,即此时表现为高查准率和低召回率。

又假设我们不想对已患有恶性肿瘤的患者错过治疗,因此我们将临界点修改为0.3,即当hθ(x) ≥ 0.3时,我们可以预测y = 1;当hθ(x) < 0.3时,我们可以预测y = 0。此时查准率和召回率表现为低查准率和高召回率。

在不同的临界点的情况下,查准率和召回率可有如下函数图:

其中,函数曲线取决于逻辑回归模型的具体算法。

那么在偏斜类的情况下,我们如何根据查准率和召回率判断模型的好坏?这里我们引入F1 值(F1 Score,也可称为F Score),其公式为:

其中,P表示查准率,R表示召回率。

对于上图,根据F1 值我们可知Algorithm 1为较好的算法。

相关文章

  • 机器学习系统设计(二)

    偏斜类的误差度量 以预测肿瘤是否为恶性为例,我们使用逻辑回归模型,其假设函数hθ(x),当y = 1时,我们可以预...

  • 吴恩达机器学习(六)

    机器学习系统设计 第九十三课:确定执行的优先级 当你在设计复杂的机器学习系统时所面临的主要问题,并会在如何制定一个...

  • 第四范式

    【岗位描述】: 1. 使用最先进的机器学习技术,针对性的设计方案,根据设计的方案部署实施整个机器学习系统,解决客户...

  • 机器学习系统设计(一)

    确定工作的优先级 以垃圾邮件分类器算法为例,要对垃圾邮件分类,我们首先要确定特征变量x,且其个数通常不超过100。...

  • 机器学习系统设计(三)

    机器学习的数据 假设特征变量x∈Rn+1,且有足够的信息可以测试精确地预测y的值。 在使用含有非常多的参数的学习算...

  • 机器学习系统的设计

    一、首先要做什么 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法。 绘制学习曲线,决定...

  • google第0天 2019-02-22

    跳槽:必须 目标:google上海 软件工程师 算法和系统设计工程师 机器学习待定 语言、算法、系统设计 能完全应...

  • 吴恩达机器学习笔记-机器学习系统设计

    确定执行的优先级 我们已经学习过一些机器学习的算法,那么如何设计一个机器学习系统呢,课程中举了一个垃圾邮件分类器的...

  • Stanford机器学习---第七讲. 机器学习系统设计

    原文:http://blog.csdn.net/abcjennifer/article/details/78342...

  • 机器学习系统的设计与调优

    本文以设计一个垃圾邮件过滤系统为例,谈谈如何设计一个机器学习系统。同时介绍查准率,召回率以及 F1Score 来评...

网友评论

    本文标题:机器学习系统设计(二)

    本文链接:https://www.haomeiwen.com/subject/ebemsxtx.html