并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术,应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。
2
f22特征参数的提取对于特征参数的选取,我们使用mfcc的方法来提取。MFCC参数是基于人的
听觉特性利用人听觉的屏蔽效应,在Mel标度频率域提取出来的倒谱特征参数。MFCC参数的提取过程如下:1对输入的语音信号进行分帧、加窗,然后作离散傅立叶变换,获得频谱
分布信息。设语音信号的DFT为:
Xak
N1
x
e
j2
kN
0
k
N
1(1)
1
其中式中x
为输入的语音信号,N表示傅立叶变换的点数。2再求频谱幅度的平方,得到能量谱。
3将能量谱通过一组Mel尺度的三角形滤波器组。
我们定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为fmm123,M本系统取M100。
4计算每个滤波器组输出的对数能量。
N1
Sml
Xak2Hmkk1
0mM1
(2)
其中Hmk为三角滤波器的频率响应。
5经过离散弦变换(DCT)得到MFCC系数。
M1
C
Smcos
m05m3m0
0
N1
MFCC系数个数通常取2030,常常不用0阶倒谱系数,因为它反映的是频谱能量,故在一般识别系统中,将称为能量系数,并不作为倒谱系数,本系统选取20阶倒谱系数。
23用矢量量化聚类法生成码本
我们将每个待识的说话人看作是一个信源,用一个码本来表征。码本是从该说话人的训练序列中提取的MFCC特征矢量聚类而生成。只要训练的序列足够长,可认为这个码本有效地包含了说话人的个人特征,而与讲话的内容无关。
本系统采用基于分裂的LBG的算法设计VQ码本,Xkk12K为训练序
列,B为码本。具体实现过程如下:1取提取出来的所有帧的特征矢量的型心均值作为第一个码字矢量B1。2将当前的码本Bm根据以下规则分裂,形成2m个码字。
3
fBmBm1BmBm1
(4)
其中m从1变化到当前的码本的码字数,ε是分裂时的参数,本文ε001。
3根据得到的码本把所有的训练序列特征矢量进行分类,然后按照下面
两个公式计算训练矢量量化失真量的总和D
以及相对失真
为迭代次数,初始
0r