实验2010应用-12完成作品语音识别_第1页
实验2010应用-12完成作品语音识别_第2页
实验2010应用-12完成作品语音识别_第3页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章语音信号预处§1.1A/D分析人声频谱规律可以发现,语音信号中浊音的频谱在4Hk以上会快速,清音正好相4kHz8Hk频段都会出现上升。而正常语音在一般情况下都包含有清音、浊音。所以在进行信号分析时4kHz以上频段仍属于处理范围。另一方面,现实环境中原始语音信号不50Hz的市电工频干扰,通常会设置一个反混叠滤波器来消除工频等无用信号的干扰。这个滤波100Hk3.4kHz的带通滤波器。fsfm两倍时,原始信号中的信息一般得以较好保留。在实际应5~10倍。采样后对信号进行离散化,这一过程中会给信号§1.2理特性语音信号的平均功率在经过声门和口鼻辐射后高频部分大800Hz以上按6dB/倍频§1.3 图1- 1-21-2§1.4、目的是将语音段与非语音段区分开来方便后续的压缩和分析提高系统效率研究表明,、 Energy音信号,指信号波形通过时间轴;对于离散时间语音信号,则相邻两个采样点的代数符号,x(n)ZnZn定义为: 清音由于声带不振动,仅靠空气在口腔中摩擦,冲击或来,能量较小。MtMn,En(法称为双门限算法。经典双门限算法的检验步骤如图1-3所示:1-3首先设定一个短时能量阈值Et(或短时平均幅度阈值Mt,En(或Mn)高于这个阈值的信Zt的交点对应的语音帧作为语音段最终的端点。 实验在自然环境下利用Windows自带“机”程序原始语音信号。对信号进行分帧,20ms。由于短时能量和短时平均幅度的作用类似,在仿真实验中仅采用短时能10§1.5第2章语音特征参数提(MFCC§2.1 线性预测倒谱系数LPCC系数是线性预测系数(LPC)在倒谱中的表示,它主要反映了声道发音模型。语音信预测当前或未来的采样值。即第k点或k+n点的采样值通过之前的N个采样值线性组合来近 .美尔倒谱系数与线性倒系L反映模型同美e谱系数重于描人耳对音的非线知特性实验表,人耳不同频的音感知能是不同。以100z为标,低于100Hz000Hzel()就是建立在elel美尔倒谱系数() LPCCMFCC用于对实时性要求较高的语音信号处理系统。另外,LPCC参数假设模型为全极点模型,这对元音有较好的描述能力。但对于辅音,全极点模型假设并不贴切,故LPCC参数对辅音的描述效果不甚理想。另一方面,由于LPCC参数的线性特性,对语音信号高频部分的噪音干扰抗性很LPCC参数的使用。MFCCMel频标,这符合语音信号的特性,使得信号低频部分得以力。并且,MFCCLPCC§2.2 奇异值分解法本个数;降维之后是r250的特征矩阵,r为降维之后的每一个样本的特征维度数。 主成分分析法主成分分析(principalcomponentysis,PCA)是将多个变量通过线性变换以选出较少个DN,所以减少计算量,第(1)X1N

XT

的特征值和特征向量。设该矩阵特征值i对应的特征值为vi,可以证明iCXXvi 独立分量分析法(ICAICA的目的是通过线性变换把观察到的数据X,sWx,而独立分量满足统计d,iiwi,0kg 利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论