Fbank特征提取关键参数
waveform:大小为(c, n)的音频张量,其中c在[0,2]范围内
blackman_coeff :广义Blackman窗口的常系数。(默认值:0.42)
channel : (-1-> expect mono, 0-> left, 1-> right)(默认值:.-1)
dither :抖动常数(0.0表示没有抖动)。如果您关闭这个,您应该设置energy_floor选项,例如设置为1.0或0.1(默认值:0.0 )
energy_floor:频谱图计算中能量的地板(绝对的,而不是相对的)。注意:这一层应用于第零分量,代表信号总能量。单个谱图元素上的地板固定在std::numeric_limits<float)::
epsilon:帧长度,单位是毫秒(默认:25.0)
frame_shift :帧移位,单位为毫秒(默认值:10.0)
high_freq :mel bins的高截断频率(如果<= 0,从Nyquist偏移)(默认值:.0.0)
htk_compat :如果为真,把能量放在最后。(需要更改其他参数)。(默认值:False)
low_freq:mel bins的低截止频率(默认为20.0)
min_duration :需要处理的段的最小持续时间(秒)。(默认:“0.0)
num_mel_bins :滤波器的数量(默认:“23 ,这里改为了40)
preemphasis_coefficient:用于信号预修正系数(默认值:0.97)
raw_energy :如果这是真的,计算能量之前预加重和窗口(默认值:True )
remove_dc_offset :在每一帧(默认减去平均波形真正的)
round_to_power_ofwo :如果为真,则将窗口大小舍入到2的次方乘以零填充输入到FFT。(默认为真)
sample_frequency :波形数据采样频率(默认指定16000.0)
snip_edges :如果为True,结束效果将只输出完全适合文件的帧,帧的数量取决于frame_length。
subtract_mean:减去每个特征文件的平均值;不建议这样做这种方式。(默认值:False)
use_energy:在FBANK输出中添加一个额外的维度。(默认值:False)
use_log fbank:如果为真,产生log-filterbank,否则产生线性。(默认值:. true)
use_power :如果为真值,则使用power值,否则使用大小值。(默认为真)
vtln_high:默认:"-500.0
vtInlow:VtIn扭曲因子(默认:"1.0)
window_type :窗口类型(' hamming' ' hanning' 'povey' '矩形' ' blackman'(默认:'povey')
patch_size改为8,vocab_size=4200,结果不好
patch_size改为16,vocab_size=4200,结果很好
测试还是不能测太多
测了25个就是极限了
接下来准备每25个测一下










网友评论