语音信号处理第4版课件第5章：语音信号特征提取技术

上传人：h*** IP属地：山东上传时间：2024-10-18 格式：PPTX 页数：26 大小：1.16MB 积分：15 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京邮电大学

通信与信息工程学院

第5章语音信号特征提取技术端点检测基音周期估计共振峰估计5.1端点检测—概述端点检测：从一段语音信号中准确找出语音信号的起始点和结束点。目的：为了使有效的语音信号和无用的噪声信号得以分离，在语音识别、语音增强、语音编码等系统中得到了广泛应用。主要方法：（1）基于阈值的方法：根据语音信号和噪声信号的不同特征，提取每一段语音信号的特征，然后把这些特征值和设定的阈值进行比较，已到达检测目的。（2）基于模式识别的方法：需要估计语音信号和噪声信号的模型参数来检测。本章主要探讨基于阈值的方法。5.1端点检测—双门限法复习：短时能量与短时过零率双门限法的基本思想：根据语音的统计特性，可以把语音段分为清音、浊音、静音（包括背景噪声）；短时能量可以较好地区分浊音和清音。对于清音，由于其能量较小，在短时能量检测中会因为低于能量门限而被误判为静音；短时过零率则可以从语音中区分静音和清音。将两者结合起来，就可以检测出语音段（清音和浊音）及静音段。首先为短时能量和过零率分别确定两个门限，一个为较低门限，对信号的变化比较敏感，另一个是较高门限。当低门限被超过时，很可能是由于很小的噪声引起的，未必是语音的开始，当高门限被超过并且在接下来的时间段内一直超过低门限时，则意味着语音信号的开始。5.1端点检测—双门限法双门限法的步骤：（1）计算信号的短时能量和短时平均过零率；（2）根据语音能量的轮廓选取一个较高的门限T2，语音信号的能量大部分都在此门限之上，可进行一次初判。语音起止点位于该门限与短时能量包络交点N3和N4所对应的时间间隔之外。5.1端点检测—双门限法双门限法的步骤：（3）根据背景噪声的能量确定一个较低的门限T1，并从初判起点往左，从初判终点往右搜索，分别找到语音轮廓与门限T1相交的两个点N2和N5；（4）以短时平均过零率为准，从N2点往左和N5点往右搜索，找到短时平均过零率低于某个阈值T3的两个点N1和N6

，作为语音段的起止点。需要注意门限的选取方法5.1端点检测—自相关法自相关的步骤：（1）计算语音信号的短时自相关函数（2）将自相关函数进行归一化处理：（3）由于语音和噪声两种信号的自相关函数存在极大差异，可以利用这种差异来提取语音端点：根据噪声的情况，设置阈值T1和T2，当相关函数最大值大于T2时，判断为语音；当相关函数最大值大于或小于T1时，判定为语音信号端点。噪声信号及其自相关函数含噪语音及其自相关函数5.1端点检测—谱熵法熵：衡量信息的有序程度。一个信息源发出的信号以信息熵来作为信息选择和不确定性的度量。语音的熵和噪声的熵存在较大差异，二者在整个信号段中的分布概率不同。谱熵法端点检测就是通过检测谱的平坦程度，达到语音端点检测的目的。谱熵的特点：（1）语音与噪声的谱熵不同；（2）语音谱熵随语音随机性而变化，与能量特征相比，谱熵变化较小；（3）谱熵对噪声具有一定的稳健性。同一语音信号当信噪比降低时，语音信号的谱熵值的形状大体保持不变；（4）语音谱熵只与语音信号随机性有关，而与语音信号的幅度无关。5.1端点检测—谱熵法谱熵的定义：设加窗分帧处理后的第n帧语音信号为xn(m)，其FFT表示为Xn(k)，其中k表示为第k条谱线。该语音帧在频域中的短时能量为：而对于某一谱线k的能量谱为，则每个频率分量的归一化谱概率密度函数定义为：该语音帧的短时谱熵定义为5.1端点检测—谱熵法谱熵法的步骤：（1）对语音信号进行分帧加窗，取FFT点数；（2）计算每一帧的谱的能量；（3）计算每一帧中每个样本点的概率密度函数；（4）计算每一帧的谱熵值；（5）设置判决门限；（6）根据各帧的谱熵值进行端点检测。每一帧的谱熵值为：H(i)计算是基于谱的能量变化而不是谱的能量。端点检测基音周期估计共振峰估计5.2基音周期估计概述：基音：发浊音时声带振动所引起的周期性；基音周期：声带振动频率的倒数；声调：基音的变化模式，携带具有辨意作用的信息；人的声道易变性及其声道特征因人而异，基音周期的范围宽，同一个人在不同情态下发音的基音周期也不同，基音周期受单词发音音调影响。基音周期的提取存在困难：（1）声门激励信号不是一个完全周期的序列，有些清音和浊音的过渡帧很难判断其周期性；（2）声道共振峰会严重影响激励信号的谐波结构，因而从语音中直接取出仅和声带振动有关的激励信号并不容易；（3）语音信号本身是准周期性的（音调有变化），其波形的峰值点或过零点受共振峰的结构、噪声等影响；（4）基音周期变化范围大，从老年男性的50Hz到儿童和女性的450Hz。5.2基音周期估计—自相关法自相关：其部位0的范围为k=(-N+1)~(N-1)，且为偶函数。自相关法的基本思想：浊音信号的自相关函数在基音周期的整数倍位置上出现峰值；而清音的自相关函数没有明显的峰值出现。因此，检测是否有峰值就可以判断是清音还是浊音，检测峰值的位置就可以提取基音周期值。利用自相关函数估计基音周期时需要考虑的两个问题：（1）窗函数的选取问题：窗的类型，窗的长度（至少大于两个基音周期）（2）共振峰的影响问题：与声道特性相关。当基音周期与共振峰的周期性混叠在一起时，被检测出来的峰值会偏离原来峰值的真实位置（共振峰对基音周期造成“干扰”）；此外，某些浊音的第一共振峰频率可能会等于或低于基音频率，会给基音周期检测带来误差。5.2基音周期估计—自相关法克服共振峰干扰问题的方法：（1）用带宽为60~900Hz的带通滤波器对语音信号进行滤波，去除共振峰影响，并利用滤波后的信号的自相关函数进行基音估计（因为共振峰频率相对较高）。--频域方法（2）对语音信号进行非线性变换后再求自相关函数。中心削波：消去语音信号的低幅度部分（含有大量的共振峰信息），保留高幅度部分（包含大量的基音信息）--时域方法5.2基音周期估计—自相关法克服共振峰干扰问题的方法：三电平削波由于削波后信号取值只有-1,0,1三种情况，不需要作乘法只需简单的组合逻辑，解决了中心削波的计算量大的问题。5.2基音周期估计—平均幅度差函数法平均幅度差函数法：短时平均幅度差函数（AMDF）的定义：对于周期性的浊音，Fn(k)呈现与浊音语音周期相一致的周期特性，在周期的各个整数倍点上具有谷值特性。对于清音信号，Fn(k)无周期特性。利用该特性可以判断一段语音是浊音还是清音，并估计出浊音的基音周期。利用AMDF法估计基音周期，同样面临窗函数和共振峰影响两个问题。（1）要求窗长足够长；（2）可采用LPC逆滤波和中心削波等方法减少输入语音中的声道特性或共振峰的影响。5.2基音周期估计—平均幅度差函数法平均幅度差函数法：修正处理方法(P89)5.2基音周期估计—倒谱法倒谱法原理：利用语音信号的倒谱特征，检测出表征声门激励周期的基音信息。语音是由声门脉冲激励e(n)经声道v(n)滤波得到，，则三者倒谱之间的关系为因此，含有基音信息的声脉冲倒谱可与声道响应倒谱分类，因此从倒谱域分离

后恢复出e(n)，可从中求出基音周期。实际中的问题：（1）反映基音信息的倒谱峰，在过渡音和含噪语音中将会变得不清晰甚至完全消失（过渡音中的周期激励信号能量降低，含噪语音中的噪声干扰）；（2）对于浊音的倒谱，其倒谱域中的基音信息与声道信息并非完全分离，在周期激励信号能量较低时，声道响应（特别是共振峰）对基音倒谱峰的影响不能忽略。解决方法：（1）去除语音中的声道响应信息，对类噪激励和噪声加以抑制。5.2基音周期估计—倒谱法去除语音信号中的声道响应的方法：采用线性预测方法（LPC），步骤如下：（1）在LPC中，语音信号s(n)可以表示为：（2）对输入语音进行LPC分析获得预测系数ai，并由此构成逆滤波器A(z)（3）再将原始语音通过A(z)进行逆滤波，则可以获得预测余量信号该余量信号不包含声道响应信息，但包含完整的激励信息。（4）对余量信号进行倒谱分析，可获得更为清晰准确的基音信息。5.2基音周期估计—倒谱法抑制噪声干扰的方法：由于语音基音频率低于500Hz，一般对原始语音或预测余量信号进行低通滤波处理。在倒谱分析中，可以直接将傅里叶逆变换之前的频域信号高频分量置0。这样既可以实现类似低通滤波的处理，又可以滤去噪声和激励源中的高频分量，降噪。5.2基音周期估计—简化逆滤波法&后处理简化逆滤波法的基本思想：先对语音信号进行LPC分析和逆滤波，获得语音信号的预测残差，然后将残差信号通过自相关滤波器滤波，再做峰值检测，进而获得基音周期。步骤如下：基音检测的后处理：原因：求得的基音周期轨迹中有偏离正常轨迹的基音周期估计值。方法：中值平滑、线性平滑、组合平滑。端点检测基音周期估计共振峰估计5.3共振峰估计共振峰的定义：当准周期脉冲激励进入声道时会引起共振特性，产生的一组共振频率。共振峰参数：共振峰频率和频带宽度；共振峰信息包含在语音频谱包络中，因此共振峰参数提取的关键是估计自然语音的频谱包络，并认为谱包络中的最大值就是共振峰。精准的共振峰估计遇到的困难：（1）虚假峰值：非线性预测分析方法的频谱包络估计器中容易出现；（2）共振峰合并：相邻共振峰的频率可能靠的太近难以分辨；（3）高音调语音：容易离开真实位置。5.3共振峰估计—带通滤波器组法带通滤波器组法：滤波器中心频率的选取：（1）等间距的分布在分析频段上，即，所有带通滤波器带宽相同，保证各通道的群时延相同；（2）非均匀分布，低频端间距小，高频端间距大，带宽也随之增加。5.3共振峰估计—倒谱法倒谱法的原理：为了消除基频谐波对于共振峰测定的影响，可采用同态解卷技术，将基音的各次谐波和声道的频谱包络分离开来。（1）对语音加窗，得到x(n)；（2）求取x(n)的倒谱c(n)；（3）用低时窗l(n)从c(n)中截取出h(n)；（4）h(n)经过DFT得到（5）检测出频谱包络的最大值，作为共振峰。5.3共振峰估计—线性预测法线性预测法的基本思想：用线性预测对语音信号进行解卷，即把激励分量归入预测残差中，得到声道响应的H(z)的分量以及参数ai，从而去除了激励分量的影响，此时求出H(z)的谱峰，即为共振峰。常用的求H(z)谱峰的方法：（1）求

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理第4版课件第5章：语音信号特征提取技术

文档简介

温馨提示

最新文档

评论

语音信号处理 第4版 课件 第5章：语音信号特征提取技术

文档简介

温馨提示

最新文档

评论

相关文档

语音信号处理第4版课件第5章：语音信号特征提取技术