美文网首页
数据集的划分&更改评估指标

数据集的划分&更改评估指标

作者: JPlino | 来源:发表于2017-09-12 20:26 被阅读0次

数据集划分为 训练集 开发集(交叉验证集) 测试集,最大化团队效率。

如何划分

将所有的数据随机洗牌,放入交叉验证集和测试集中。选择的交叉验证集和测试集要能够反映你未来得到的数据。要尝试收集多的数据,并随机分配。这样就能瞄准想要的目标,高效迭代地进入同一个目标。

训练集将会影响到达目标的速度有多快。

在小的数据集上面,70/30 或者 60/20/20 经验法则,无疑是更好的。
但是当你有1000000张图片的时候,98/1/1 会更加合理。

测试集可以帮助评估投产系统的性能,大量测试数据,带来更高的置信度在评估系统整体性能的时候。当不需要非常高的精确评估的时候,测试数据可以不用太大,同时不用测试数据也是可以的,条件是有比较大的验证集,但一般还是要有测试集的。

另一方面,要让验证和测试更能反映真实的使用场景。

修改评估指标(验证,测试,指标)

什么时候修改?

当当前的指标下训练测试表现比较后,但是在实际的表现中效果不好的时候,需要修改。就是评估指标不能衡量不同的训练算法之间的优劣排序时。

方法?

针对一个特殊的数据实例,可以增加权重项,使得对于特殊项识别错误加大惩罚的力度,有一个问题是 需要在数据上进行一些另外的标注,才能判断是不是一些特殊的项。

一个好的评估指标和数据集能更快的做出决策,最佳实践是,如果不能定义出一个很完美的评估指标和开发集,就快设立一个简单模型,驱动团队进行迭代,然后快速不断进行改进。

相关文章

  • 数据集的划分&更改评估指标

    数据集划分为 训练集 开发集(交叉验证集) 测试集,最大化团队效率。 如何划分 将所有的数据随机洗牌,放入交叉验证...

  • 5、sklearn模型建立及评估

    前置工作 填充数据 编码分类变量 划分数据集 模型搭建 模型评估 模型评估是为了知道模型的泛化能力,主要指标有:1...

  • 机器学习模型总结 之 模型评估

    模型评估 训练集和测试集划分 留出法:直接将数据划分为两个互斥的,注意保持在训练集和测试集要保证数据分布和原始数据...

  • 评估方法与性能度量

    模型评估方法 留出法(训练集2/3~4/5)交叉验证(数据量充足)自助法(数据集较小、难以有效划分训练/测试集) ...

  • sklearn数据集

    sklearn数据集的划分 训练集:用于训练,构建模型测试集:在模型检验时使用,用于评估模型是否有效 •sklea...

  • 第二十一天 交叉验证

    到目前为止,为了评估我们的监督模型,我们使用 train_test_split 函数将数据集划分为训练集和测试集,...

  • sklearn数据集的获取与划分

    划分数据集 获取sklearn本地的数据集 描述iris数据集 从网络获取数据集 网络获取 划分训练集和测试集 数...

  • 决策树(二)

    划分数据集 分类算法除了需要测量信息熵,还需要划分数据集,度量花费数据集的熵,以便判断当前是否正确地划分了数据集。...

  • 2018-04-25 第五周

    本周任务:按照标准的数据集划分,即训练集:2 测试集:1的比例划分数据,测试模型效果。 首先,划分...

  • 决策树算法

    原理 通过选择最好的特征来划分数据集,对数据子集继续划分,直到数据子集中是相同的类别;划分数据集的特征可以通过计算...

网友评论

      本文标题:数据集的划分&更改评估指标

      本文链接:https://www.haomeiwen.com/subject/nikcsxtx.html