2019年1月10日
阅读内容:12.2 Computer Version,12.3 Speech Recognition
介绍DeepLearning在计算视觉和语音识别两个领域的应用情况和技巧;
小结:
- NN擅长学习输入值存在不同方向上的差异(通过调节weight),而不擅长学习数据在同方向不同distances上的差异(需要对应不同的bias),因此做normalization将减轻NN数据处理负担;
- CV中对数据的预处理非常重要,需要做normalization使得数据取值范围一致,介绍了两种对比度归一化(Contrast Normalization)方法:GCN、LCN,两者的区别在于归一化时考虑的数据范围不同(全局global或者局部local)
- Dataset Augmentation(数据集扩充)可提高模型的泛化性能,方式为将原有样本拷贝多份并对其输入内容做(不影响输出结果的)调整(如平移、反转、调色);
- 语音识别领域长期占据核心地位的是GMM-HMM等模型,尤其是在2009-2012年间;该领域是最早使用NN技术的领域之一(早至1980s),但早期仅用于为HMM等模型做feature learning等辅助功能;近年larger and deeper model的使用显著提高了NN模型的准确率,从2009年NN模型开始在SR领域受到重视和广泛使用;
- TIMIT corpus [Garofolo, 1993]:是音素识别(phoneme recognition)任务的benchmark;就如MNIST是CV领域中object recognition任务的benchmark;
遗留问题:
- GCN与L2-norm的区别
- GCN与sphering的区别
详细内容
Global Contrast Normalization (GCN)
目标:将数据点归一化到相同scale,以减轻学习算法的负担;
contrast: 整个图片上各点数据值的标准差(用于在GCN中作为分母)

GCN: 基于contrast,对图片上各点数据值进行归一化,使得数据的分布以0为均值,s为方差(s通常取1);
为避免除0现象为避免contrast为0导致的除0现象(zero-contrast image,即图片标准差为0情况,发生在整个图片各点取值完全相同时),可做以下调整(两者二选一):
- 引入
参数:考虑到contrast值取非零小值时的图片通常携带非常少量的信息,将zero-contrast调整为一个非零小值
- 引入
参数:过小的contrast值一律调节为
于是,最终得到通过GCN处理后的新值为:
GCN
优点:
- 相当于将数据归一化到一致的scale,为NN的学习减轻负担;
缺点:
- 缺乏对特殊feature的考虑(fail to highlight image features we would like to stand out);(因此提出LCN)

Local Contrast Normalization (LCN)
不同于GCN考虑整个图片的数据点来计算contrast,LCN仅考虑当前值所在局部区域(窗口)内的值用于normalize;
LCN有多种变种,考虑的区域的形式不同、计算方式不同等;
具体实现方法: separable convolution

优点:
- 关注轮廓信息
缺点:
- 当normalization kernel带宽过大时,将丢失细节信息;
网友评论