《语音识别分析的关键技术分析》1900字_第1页
《语音识别分析的关键技术分析》1900字_第2页
《语音识别分析的关键技术分析》1900字_第3页
《语音识别分析的关键技术分析》1900字_第4页
《语音识别分析的关键技术分析》1900字_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别分析的关键技术分析综述1.1语音前端信号处理所谓的语音前端信号处理就是对原始的语言数据进行相关的处理,其目的就在于将源头的前端语音信号进行更加清晰的细化和相关特征的提取。其核心处理关键点有:语音活动的检测:语音活动的检测它们的作用是通过一个特定的模块、检测到语音信号在一起点位置、把自身需要的语音添加到那里,而不必对这些添加到那里进行删减和去除。所谓非语音是指静态或者噪音。降噪:降噪就是将生活中一些提取目标之外的声音通过降噪比的手段方式,让目标声音更加的清晰明了,从而提高识别效率。常用的降噪为自适应LMS和维纳滤波等。消除回声:一些空旷或山涧等地方,声音的传播会受到物体的碰撞,从而造成回声,因此要考虑回声对其影响。自适应算法是一种可以调节滤波器的参数,来模拟由于这种滤波而产生的信道环境。计算得到回波信号的形态和其路线是否被去掉。混响抵消:一般混响抵消方法主要有:逆滤波法、以及声波的波束的进一步深度研究等。声音定位:这是关键点的重要核心部分,麦克风阵列用于犯罪嫌疑人对话的大致的位置,并为其下一识别阶段做准备。1.2声学模型的建立所谓的声学模型就是把语音信号进行简单的语音特征与之相关的句子相关联起来。例如有一段音频数据,需要识别出该音频数据对应的文字一样,这里的音频数据就是观测变量,而文字就是隐藏变量。这就是我们通常所说的隐马尔可夫模型,用来解决发音和文本之间的关系。我们常用到的声学模型就是隐马尔可夫模型,如图1所示。其作用就是为公安识别声音的精准度打好了铺垫。图1隐马尔科夫模型HMM声学模型一般被应用于语音识别系统,如图3:图3GMM-HMM的声学模型换句话说,GMHMM语音识别只是停留在语音学习浅层的一面,而无法深入其本质特征。它也不能获得其它信息之间的高阶算法的关联性。DNNHMM运用DNN强大的学习能力以改善识别度。如图4:图4DNN-HMMGMMHMM模型的优点是具有较强的计算能力和处理能力。DNNHMM模型大大提高了识别率,但它需要更高的硬件计算能力。因此,选型时可结合实际情况进行相关处理和应用调整。1.3语音识别特征提取方法在语音识别中其特征的相关参数有其自身的要求在里面,其具体的要求有:可以将语音信号转换成语音特征向量,并由计算机处理。同时,语音识别特征提取的结果能够满足听觉感知的要求范围和相应的特性,它可以增强语音信号,在一定程度上减少噪声等因素的干扰常用的特征提取方法如下:1.3.1线性预测分析(LPC)它的基本原理就是利用说话者的声音发声特点,再通过其它的参考模型进行自身信号的检测与分析从而进一步推导出下一步。说白了就是用一个模型来表示被分析的信号,也就是把信号看成一个模型的输出,这样就可以用模型参数来描述信号。通常模型只包含有限不为零的极点。1.3.2感知线性预测系数(PLP)所谓的感知线性预测系数的特征提取方法就是通过电脑的计算从而运用到频谱分析当中去,将原有的地信息语音信号经过处理之后可以用人耳听觉模型从而利于抗噪语音相应的特征提取等,其可以带入到公安业务中,运用到相应环境中的抗噪处理后可以大大的缩短了犯罪语音证据的提取。从而推动侦查破案率的提升。1.3.3Tandem特征和Bottleneck特征序列性和全局性特征是利用神经网络提取手段来获得特征值的两种途径。特征提取以点对点输出模式模型为基础,及对神经网络对输出层中所有相应类型节点之间的后概率矢量进行降阶,并与MFCC或PLP功能拼接。后者通过一种独立的神经网络结构来实现,它们可以被称为特异性提取器。但是一个隐藏层中的节点数量比其他隐藏层中的节点数量少得多。因此称为瓶颈层,输出特征是其主要特征之一。对神经网络提取的输出节点和相应的隐含层分析进行了进一步的分析和应用。1.3.4基于滤波器组的FBANK特征(MFSC)它也被称为MFSC。FBANK特征提取法,这类似于MFCC去除离散余弦变换的操作。与MFCC特征相比,FBANK特性保留了较为多元化的原始语音信号。MFCC是基于FBANK的,因此MFCC的计算量比较大。FBANK特征它具有很高的关联性,MFCC特征具有很好的识别能力,其被广泛的使用在语音的相关的学术期刊或论文当中。MFCC代替FBANK被广泛使用的原因1.3.5梅尔频率倒谱系数(MFCC)它是由DAVISMERMELSTEIN在1980年开发的。人类听觉感知的各类实验数据表明,一个人的听觉感知只会关注自己所感兴趣的声音,对于其自己觉得不重要的声音会自动过滤消除。但Mel频点分析则基于对人的听觉实验。换言之,它只能允许某些特殊频率信号流经,而忽视了一些它不希望被接收的频率信号。然而,这些滤波器在频率轴上分布并不均衡不,而是在低频区域许多滤波器都是是密集分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论