数据处理之不平衡处理(欠采样）

作者: LiBiscuit | 来源:发表于2023-06-14 10:26 被阅读0次

分类不平衡问题
R常用的基本函数
深度学习 | 分类任务中类别不均衡解决策略（附代码）
[转]视音频数据处理入门：PCM音频采样数据处理
如何解决类别不平衡问题？
重采样和插值的异同2019-11-15
PCM音频采样数据处理
不平衡数据的处理
机器学习-分类不平衡数据集-过采样-欠采样
视音频数据处理入门：PCM音频采样数据处理

六月啦好快
小李刚结束备考是很久没有来更新了
最近在写课设报告，刚好记录一些数据处理的知识。

数据不平衡

概念解释：
对于二分类问题，如果两个类别的样本数目差距很大即呈现不平衡现象，那么将会影响模型的训练结果。以猫狗图片分类为例，假设猫的图片有990张，狗的图片有10张，这时候模型只需要把所有输入样本都预测成猫就可以获得99%的识别率，但这样的分类器没有任何价值，它无法预测出狗。
通常数据不平衡即指类别不平衡（class-imbalance），是分类任务中正负样本数目差距很大的情况。生活中有很多类别不平衡的例子，如工业产品次品检测，次品样本数目远小于正品样本；欺诈问题，欺诈类观测在样本集中也只占据少数。

数据不平衡的处理办法主要包含过采样和欠采样两大类。