版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学
通信与信息工程学院
第4章语音信号分析4.0概述短时分析技术虽然语音信号具有时变特性,但在一个短时间范围内(10~30ms),其特性基本保持不变,即相对稳定(由于口腔肌肉运动相对缓慢)——短时平稳性。短时分析:将语音分为一段一段来分析其特征参数,其中每一段称为一帧(10~30ms)。对于整体语音而言,分析处的是由每一帧特征参数所组成的特征参数时间序列。分析方法(根据分析出的参数性质不同):时域分析、频域分析、倒谱域分析、线性预测分析。语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.1语音分帧帧移与帧长的比值一般取0~1/2;分帧的实现:用可移动的有限长度窗口进行加权:4.1语音分帧矩形窗的谱平滑特性好,但由于主瓣宽度小,加窗后的语音损失了高频成分;汉明窗正好相反。窗的选择(1)窗函数的选择标准:在时域需要减小时间窗两端的坡度,使截取得到的语音波形缓慢降为0,减小语音帧的截断效应;在频域要有较宽的3dB带宽以及较小的边带最大值。(2)窗口长度的选择:N与时间分辨率、频率分辨率之间的关系(N越大,频域带宽越小,语音信号加窗后反应波形细节的高频部分被阻碍,短时能量随时间变化小,不能真实反应语音幅度变;反之亦然);N的数值:保证在一个语音帧里包含1~7个基音周期。语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.2语音信号的时域分析时域分析的特点(1)语音信号直观表示、物理意义明确;(2)实现简单、运算量小;(3)可以得到语音的一些重要参数;(4)只使用示波器等通用设备,使用简单。典型的时域分析(1)短时能量和短时平均幅度分析(2)短时过零率分析(3)短时相关分析4.2语音信号的时域分析—短时能量短时能量、短时平均幅度对高电平敏感!用途:(1)区分浊音段和清音段;(2)区分声母和韵母的分界、无声与有声的分界等。4.2语音信号的时域分析—短时过零率短时过零率:一帧语音中信号波形横穿零电平的次数符号函数对于浊音,其语音能量集中在3kHz以下低频段,过零率也低;清音多数能量出现在较高频率上,过零率相对较高。用途:从背景噪声中找出语音信号,用于判断寂静无声段和有声段的起点和终点位置。背景噪声较小时用平均能量较为有效,而背景噪声较大时用平均过零率更有效。4.2语音信号的时域分析—短时过零率无声(S),清音(U),浊音(V)的短时平均幅度以及短时过零率的概率分布浊音:短时平均幅度最高,短时过零率最低;清音:短时平均幅度居中,短时过零率最高;无声:短时平均幅度最低,短时过零率居中。可基于概率论,通过短时平均幅度和短时过零率,来判别语音中的浊音/清音/无声类别。4.2语音信号的时域分析—短时相关分析短时相关分析:用于求浊音语音的基音周期,用于线性预测分析短时自相关函数:K为最大延迟点数性质:(1)如果
是周期的(周期为Np),则自相关函数是同周期的周期函数,(2)是偶函数,即,(3)当k=0时,自相关函数具有最大值,即,,并且等于确定性信号序列的能量或随机序列的平均功率。4.2语音信号的时域分析—短时相关分析修正的短时相关分析:传统短时自相关函数的缺点:(1)随着延迟k的增加,进行乘积和的项数在减少,导致自相关函数的幅度值随着k的增加而下降;(2)如果窗长不够,包含的周期数不够多,会给周期计算带来麻烦。4.2语音信号的时域分析—短时相关分析修正的短时相关分析:用两个长度不同的窗口,截取两个不等长的序列进行乘积和,两个窗口长度始终相差最大的延迟点数K。这样可以始终保持乘积和的项数不变,始终为短窗的长度。4.2语音信号的时域分析—短时相关分析短时幅度差函数:计算自相关函数的运算量很大(有乘法运算)。如果信号是完全的周期信号,则相距为周期的整数倍的样点上的幅值是相等的,差值为0(实际语音信号差值很小,极小值出现在整数倍周期的位置上)定义:浊音(a)(b)和清音(c)的短时平均幅度差函数语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.3语音信号的频域分析利用短时傅里叶变换求语音短时谱第n帧语音信号的离散傅里叶变换:窗类型的选择以及窗口宽度的选择(与时域分析结论相同!)4.3语音信号的频域分析利用短时傅里叶变换求语音短时谱令角频率,则得到离散短时傅里叶变换:在语音信号的数字处理中都是采用上式来作为频谱,可以采用FFT完成将时域语音变换到频域。语音的功率谱:功率谱是短时自相关函数的傅里叶变换4.3语音信号的频域分析语音短时谱的临界带特征目的:把线性频谱转化为临界带频谱,更符合人耳的听觉特性;步骤:(1)求取各帧加窗语音的功率谱;(2)确定若干个临界带频率分割点;(3)计算各个临界带中功率谱之和,将其作为临界带特征矢量,用于后续语音处理任务。语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.4语音信号的倒谱分析—同态信号处理同态信号处理:将卷积关系(非线性关系)变成求和关系(线性关系),从而将语音信号的声门激励信息及声道响应信息分离开来,求得声道共振特征和基音周期,用于语音编码、合成、识别等任务。4.4语音信号的倒谱分析—同态信号处理子系统1:将卷积信号转化为加性信号:子系统2:对进行线性处理得到;子系统3:对进行逆变换,得到恢复信号。如果处于不同的位置并且互不交替,那么适当设计线性系统,便可将二者分离开来。4.4语音信号的倒谱分析—复倒谱和倒谱复倒谱:为的复倒谱。倒谱:如果只考虑上式的实部,则:4.4语音信号的倒谱分析—复倒谱和倒谱复倒谱和倒谱的关系:(1)复倒谱要进行复对数运算,倒谱只进行实对数运算;(2)由于在计算过程中相位信息丢失,在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身;(3)倒谱和复倒谱一样,是把两个信号卷积转换成求和;(4)已知实序列的复倒谱,可以求出其倒谱。(5)在复倒谱满足一定条件时,也可以由倒谱求得复倒谱。4.4语音信号的倒谱分析—Mel频率倒谱系数Mel频率倒谱系数:Mel频率与实际频率呈对数分布关系,MFCC也着眼于人耳的听觉特性;在1000Hz以下,大致呈线性分布,带宽为100Hz左右;在1000Hz以上,呈对数增长。类似于临界频带的划分,可以将语音频率划分为一系列三角形的滤波器序列(Mel滤波器组)4.4语音信号的倒谱分析—Mel频率倒谱系数Mel频率倒谱系数的求法:取每个三角形滤波器频率带宽内所有信号的幅度加权和作为某个带通滤波器的输出,然后对所有滤波器输出做对数运算,再进一步做离散余弦变换即得到MFCC。步骤:(1)将实际频率尺度转换为Mel频率尺度;(2)在Mel频率轴上配置L个通道的三角形滤波器组,相邻之间截止频率关系:(3)根据语音信号的幅度谱求每个三角形滤波器的输出:(4)对所有滤波器输出做对数运算,再做离散余弦变换得到MFCC语音分帧语音信号的时域分析语音信号的频域分析语音信号的倒谱分析语音信号的线性预测分析4.5语音信号的线性预测分析—基本原理线性预测分析的基本思想:由于语音样点之间存在相关性,可以用过去的样点值来预测现在或未来的样点值。即,一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过实际语音抽样
和线性预测抽样之间的误差在某个准则下达到最小值,来决定唯一的预测系数。这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。4.5语音信号的线性预测分析—基本原理语音模型:系统的输入e(n)是语音激励,s(n)是输出语音,模型的系统参数H(z)可写成有理分式:H(z)可以分为自回归—滑动平均模型(ARMA),自回归模型(AR),滑动平均模型(MA)三种形式;实际语音信号处理中最常用的是AR模型(全极点模型):(1)除了鼻音和摩擦音,语音的声道传递函数就是一个全极点模型;对于鼻音摩擦音,也可以用全极点模型来近似;(2)由于全极点模型的参数估计是对线性方程组的求解,所以可以用线性预测的方法来求解。4.5语音信号的线性预测分析—基本原理采用全极点模型后,传递函数H(z)为:语音抽样s(n)和e(n)之间的关系为:对于浊音,激励e(n)是以基音周期重复的单位冲激;对于清音,e(n)是白噪声。线性预测模型建立的本质:是由语音信号来估计模型参数的过程。线性预测器:时域表达式:频域系统函数:逆滤波器:预测误差:4.5语音信号的线性预测分析—基本原理线性预测方程的推导(选用最小均方误差准则)令某一帧内的短时平均预测误差为:为使最小,对ai求偏导数,并令其为0,有:上式表明,预测误差与过去的语音样点正交。实际中需要分帧处理,设一帧从n时刻开窗选取的N个样点的语音段为sn,记
为,则有求解过程:先计算出,再求解上述方程组。最后计算最小军方预测误差:4.5语音信号的线性预测分析—方程组求解线性预测方程组的求解:设n时刻开窗选取N个样点的语音段sn,即用个语音样点来分析该帧的预测系数ai。对于该语音段,其自相关函数为:由于上述自相关函数为偶函数并且只与j和i的相对大小有关,因此,则线性预测方程为:4.5语音信号的线性预测分析—方程组求解线性预测方程组的求解:写成矩阵的形式:该方程为Yule-Walker方程,方程左边的矩阵称为托普利兹矩阵,是以主对角线对称的,并且沿着主对角线平行方向各轴向的元素值都相等。上述矩阵可采用莱文逊—杜宾算法来求解。4.5语音信号的线性预测分析—方程组求解线性预测方程组的求解:算法过程:通过对上式进行递推求解,可获得最终解为:
其中确保Ep随着迭代而缩小4.5语音信号的线性预测分析—LPC谱估计LPC谱估计:当求出一组预测器系数后,就可以得到语音产生模型的频率响应:用表示模型H(z)的频率响应,表示语音信号s(n)的傅里叶变换,则
为语音信号s(n)的功率谱。如果s(n)是一个严格的p阶AR模型,则实际中,语音信号用ARMA模型表示更为精确,可用一个无限长的AR模型逼近(p的值要选的很大,实际中p一般在8~14之间)。LPC谱估计的特点:在信号能量较大的区域(接近谱的峰值处),LPC谱和信号谱很接近;而在信号能量较低的区域(接近谱的谷底处),相差比较大。原因:由最小均方误差引起。4.5语音信号的线性预测分析—LPC谱估计LPC复倒谱(另一种表示方法)设表示为h(n)的复倒谱,则有将H(z)表达式代入,并对求导,令上式左右两边的常数项和各幂次的系数分别相等,从而可由ak求出4.5语音信号的线性预测分析—LPC复倒谱LPC复倒谱(另一种表示方法)优点:(1)由于利用了线性预测中声道系统函数H(z)的最小相位特性,避免了相位卷绕;(2)LPC复倒谱的运算量小;(3)由于当p趋近于无穷大时,语音信号的短时复频谱满足因而可以认为包含了语音信号频谱的包络信息,可以近似把当作s(n)的短时复倒谱来估计语音短时谱包络和声门激励参数。(4)在实时语音识别中也经常采用LPC复倒谱作为特征矢量。4.5语音信号的线性预测分析—LPC
Mel倒谱系数LPCCMCC求得复倒谱之后,可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四塔吊设备购置与销售专项合同范本3篇
- 二零二四年家电销售顾问聘用与售后服务合同3篇
- 二零二五版出租车承包合同绿色出行推广合作2篇
- 二零二五版豪华度假酒店承包经营合同规范范本3篇
- 二零二五版公益劳动服务基地共建与社区公共服务拓展合同3篇
- 年度营养型输液竞争策略分析报告
- 年度智能儿童成长仪市场分析及竞争策略分析报告
- 2024年钢材交易:居间代理全套合同
- 二零二五版水利工程承包居间代理服务合同2篇
- 2025年变压器智能化升级采购及技术支持合同3篇
- 安徽省合肥市包河区2023-2024学年九年级上学期期末化学试题
- 《酸碱罐区设计规范》编制说明
- PMC主管年终总结报告
- 售楼部保安管理培训
- 仓储培训课件模板
- 2025届高考地理一轮复习第七讲水循环与洋流自主练含解析
- GB/T 44914-2024和田玉分级
- 2024年度企业入驻跨境电商孵化基地合作协议3篇
- 《形势与政策》课程标准
- 2023年海南省公务员录用考试《行测》真题卷及答案解析
- 桥梁监测监控实施方案
评论
0/150
提交评论