态扩展和动态扩展算法。
另外,其他的模式识别方法如基于人工神经网络对语音进行识别,其主要用来配合HMM以达到较高的性能。
2声纹识别
人类语言的产生是语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官:舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的发声特征都有差异。个体的声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。声纹识别是一套利用人的个性语音特征对话语者进行区分的技术,它本身与说话内容无关,同时与语种也无关。
说话人识别过程包括了预处理、特征提取、分段聚类、识别分类和得分规整。预处理模块用于去掉音频流中的非语音成分,采用基于能量判断去除静音,基于模型分类去掉彩铃。特征提取有助于说话人分类的样本信息,主要技术采用Mel频率倒谱系数(MFCC)和其长时移动差分变换。分段聚类切分话单中不同说话人段落,并将同一个人的片段聚合到一起,主要采用层次聚类技术(每次寻找最近的段落聚合。识别分类模块通过学习注册人样本语音,对测试语音进行打分,主要技术包括高斯混合模型和支持向量机模型。得分规整模块用于缩小冒认者的得分方差,尽量和目标人拉开距离主要技术包括T规整和Z规整。
3语种识别
语音的自动语言辨识技术(La
guageIde
tificatio
,LID)就是计算机能够识别出语音段所属的语言的过程。它是从语音信号中自动提取信息的几个过程之一。
自动语言辨识同其他模式识别一样,主要包括三个方面:特征提取、模型建立和判决规则。特征提取用到的技术有倒谱特征提取和短时和长时差分变。分类器模型包括支持向量机分类(SVM)和人工神经网络分类(NN)。另外还涉及了有效语音检测(VAD)、谱规整和得分规整、线性鉴别分析(LDA)和信道因子分析(LFA)等鲁棒技术。当前很多系统都通过线性和非线性融合来提高系统的准确率。
(二)语音合成技术
语音合成技术最为常见的就是TTS(TexttoSpeech,文本语音转换)的应用,TTS最新的语音合成引擎(连接技术和合成算法的结合),其应用范围非常广,如文本的有声校对、语音应答系统、信息库查询系统、残疾人辅助发音系统等。
f龙源期刊网httpwwwqika
comc
(三)应用分析
智能语音技术有相当广泛的应用场景,不但在传统呼叫中心有广泛应用,随着智能设备的不断发展,它也逐步向这些领域开始进军。
(四)人机交互
传统人机交互都采用专用输入r