第四章基于模式匹配方式的语音识别技术41语音的端点检测
411语音端点检测的困难性语音端点检测是指从包含语音的一段信号中确定出该语音的起始点及终止点。有效的端点检测不仅能减少语音识别的处理时间(减少处理帧数),而且还能排除静息语音段背景噪声的干扰,从而保证了处理质量。然而,端点检测的困难在于静息语音段背景噪声或发声前后人为的呼吸等原因所产生的杂音,它使得语音的端点比较模糊。当端点处是弱摩擦音或弱爆破音,以及终点处是鼻音或振幅较小的有声语音时,端点检测将成为困难。下面,介绍一种综合利用短时平均能量和过零数来进行语音端点检测的方法。412采用能量及过零数参数的检测法图41给出了采用能量和过零数参数进行语音端点检测的示意图。这种方法的具体算法为如下所示:(1)计算所有帧10ms的语音短时平均能量Ej能和平均过零数Zj(j为帧的编号,1≤j≤L,量EjL为帧数)(2)设前S帧为静息语音段,统计下列参数:ETUZN:噪声平均过零数ETLZN∑ZjS1≤j≤S
j
aZN:ZN的方差aZN∑ZjZN2S1≤j≤S
j
N’1
N1
N2时间
过零数
EN:噪声能量EN∑EjS1≤j≤S
j
Zj
(3)求最大能量值EMAX和最小值EMINEMAXmaxEj1≤j≤L
j
ZT
N125
NB
NE时间
EMINmi
Ej1≤j≤L
j
图41采用能量和过零数参数的语音端点检测法
(4)确定门限双能量门限ETLmi
L0EMAXEMINENL1EN,(式中L0、L1为经验值L0L1)ETUU0ETL,(式中U0为经验值)过零数门限ZTmi
IEZN2aZN,(式中IE为经验值)(5)先用能量门限取出作为候补用的语音端点N1N2即如图41所示,当Ej超过ETL,且后续几帧的短时能量不小于ETL并超过ETU时,就将超过ETL时的帧作为语音起始点的候补N1。由图41可见,由于N’1点不满足这一条件,故就不将其作为起始候补点。若将时间轴作逆转考虑,便可用同样的处理方法来确定语音终端的候补N2。
24
f(6)再利用过零数门限加以修正并获得最终端点NBNE。,并按时间轴方向,在即如图41所示,从N1起向左延伸一个语音段(如25帧)此区间内累记Zj超过门限ZT的次数,当该次数大于3时,最初超过ZT时的帧就作为语音的起点NB。终点NE的确定也可作同样的处理。
42失真测度
421距离测度与失真测度在语音识别中,一般采用反映频谱特征的参数来构成特征矢量的模式。这时,参考模式与输入模式的类似程度是根据构成两者的帧之间的失真测度来决定的。即失真测度是反映信号频谱之间差异的度量,r