全球旧事资料 分类
体数据库中的语音数据检索所谓基于内容检索就是从语音媒体数据中提取出特定的信息线索然后根据这些线索从大量存储在数据库中的语音媒体中进行查找检索出具有相似特征的语音数据。语音的音调、含义等是难以用符号化方法描述的信息线索。人能够理解语音的含义但要利用这些语义线索对语音数据库进行检索就不得不在建立数据库时就事先输入并与媒体数据一起存储对应的字符信息对这些语音的语义进行描述。在检索时由人把这些语义再转换为相应的字符根据字符的匹配查找相应的媒体息。很显然这个转换过程妨碍了有效地交互被称为“转换障碍”很难满足用户的各种需求。对设计者来说给语音数据赋予能够表示全部语义特征的关键词也非常困难这与个人的经验、知识和对语音信息的理解程度相关而且也并不是所有对象的所有特征都能用字符来描述。基于内容检索就是要从媒体中直接地提取媒体的语义线索根据这些语义线索进行检索。这就把检索过程与语义的提取直接地联系到了一起使得检索过程更加有效和适应性更强。基于内容的语音检索是一种集成综合技术不仅要确定是否能够找到而且还要确定相应的输入输出方法、存储方法、媒体间的组织方法等。它建立新的媒体数据表示方法和数据模型采用有效和可靠的查询处理算法使用户可以在智能化的查询接口的辅助下完成查询检索工作。基于内容的语音检索技术一般用于多媒体数据库中也可以单独的建立应用系统如语音库系统。该检索系统一般包括插入系统特征提取子系统数据库查询子系统。其中特征提取子系统其基本原理在时间轴上对模拟话音按一定的速率抽样然后将幅度样本分层量化并用代码表示。对于比特速率较高的编码信号波形编码技术能够提供相当好的话音质量但对于低速率语音编码信号波形编码的话音质量显著下降。参量编码是将信源信号在频率域或其它正交变换域提取特征参量并将其变换为数字代码进行传输。它是以发音机制的模型作为基础用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个编码。这种编码技术能实现低速率语音编码。下面将要重点介绍的线性预测编码LPC和它的各种改进型都属于参量编码。混合编码是近年来提出的它将波形编码和参量编码结合起来力图保持波形编码的高质量和参量编码的低速率的优点。它既包括若干语音特征参量又包括部分波形编码信息。
f预加重
DFT、FFT
MEL频率滤波器组
Log
DCT求倒谱
LPCC如果声道特性HZ用式14所示的全极点模r
好听全球资料 返回顶部