版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音信号的短时分析技术v分析是处理的前提和基础;v分析的目的是提取需要的信息,获取特征表示参数;v可分为时域分析、频域分析、同态分析等;模型分析与非模型分析等;v分析技术:短时分析1030ms相对平稳(550ms,20200ms)v分析帧长一般为20msv常用的短时分析技术有:短时能量短时平均幅度短时过零率短时自相关函数短时平均幅度差函数短时频谱短时功率谱预滤波v预滤波的目的防止混叠干扰抑制50Hz的电源干扰预滤波实际上是一个带通滤波器,其上下截止频率分别为fH和fL 。对于绝大多数语音编码器而言,要求fH=3400Hz, fL=60100Hz, fs=8KHz.对于语音识别系统而言,用于电话
2、用户时要求技术指标与语音编码器相同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz帧和加窗的概念v短时分析将语音流分为一段一段来处理,每一段称为一“帧”;v帧长:1030ms,20ms常见;(帧率)帧移:01/2帧长,帧与帧之间的平滑过渡;v为了减小语音帧的截断效应,需要加窗处理;)()()(nwnsnsw10, 1)(Nnnw10),12cos(46. 054. 0)(NnNnnw10),12cos(1 (5 . 0)(NnNnnw矩形窗HammingHannv不同的窗口选择(形状、长度),将决定短时平均能量的性质。什么样的窗口,
3、其短时平均能量才能更好的反映语音信号的振幅变化哪?v首先是窗口的形状,窗口有多种形状,他们都是中心对称的。v其次是窗口的长度,无论什么形状的窗口,窗口序列的长度N将起决定性的作用。N选得太大,滤波器的通带变窄,波形的振幅变化细节就看不出来,反之,如果N太小,则滤波器的通带变宽,信号得不到足够的平均。v所谓窗口长度的长短,都是相对于语音信号的基调周期而言的。通常认为在一个语音帧内,应含有17个基调周期为好。可是人的语音的基调周期值是变化的,从女性小孩的2ms到老年男子的14ms(即基调频率为500Hz至70Hz),所以N的选择是比较困难的。通常折衷的选择N为100200点为宜。若采用频率为10K
4、Hz,则相当于每帧的长度(即窗口序列的长度)约为1020ms为宜。若采样频率为8KHz,200点相当于25ms,40帧/s;120点相当于15ms,66帧/s.窗函数及其比较三种窗函数都有低通特性,通过分析三种窗的频率响应幅度特性可以发现:矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,哈明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。v窗口的形状和长度对分析影响很大,不同的分析方法对窗函数的要求不尽一样;10203040506000.81SamplesAmplitudeTime domain00.8-100-80
5、-60-40-2002040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHamming10203040506000.81SamplesAmplitudeTime domain00.8-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain10203040506000.81SamplesAmplitudeTime domain00.8-20-1
6、0010203040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHann矩形窗语音信号的短时能量(语音信号强度的度量参数)v如果窗的起点是n=0,短时能量为v如果窗的起点为n=m,短时能量为:)(1020nSENnw)(12mnSEmNmnwm不同窗口宽度的短时能量函数示意图短时平均能量的主要用途可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多;可以用来区别声母和韵母的分界、无声和有声的分界等最为一种超音段信息,用于语音识别中。语音信号的短时平均幅度v如果窗的起点是n=0,短
7、时平均幅度为v如果窗的起点为n=m,短时平均幅度为:1)(mNmnwmmnSM100)(NnwnSMv短时过零率v波形穿过横轴(零电平)的次数|)1(sgn)(sgn|210nsnsZww短时过零可以看作信号频率的简单度量0, 10, 1)sgn(xxx语音信号的短时过零率Zv过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。v对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。v如果窗的起点是n=0,短时过零率Z为100)1()(21Nnw
8、wnSSgnnSSgnZ将Z应用于语音信号分析中v发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低于3KHz的频率范围内。v发清音时声带不振动,声道某部分阻塞产生类白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内。v浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。浊音和清音情况下典型的平均过零率的直方图。直方图的分布形状与高斯分布很吻合,而且浊音时的短时平均过零率的均值为14过零/10ms,清音时短时过零率的均值为47过零/10ms。注意到浊音和清音有一个交叠区域,此时很难分
9、清是浊音还是清音,尽管如此,平均过零率仍可以粗略的判断清音和浊音。v短时平均能量和短时平均过零率两个参数,也都可以用于语音识别中。主要用于识别无声段和语音段的起点和终点的位置。v在背景噪声比较小的时候用平均能量来识别比较有效,在背景噪声比较大的时候用平均过零率来识别比较有效,但是通常情况是两个参数联合进行识别。vE、M、Z的条件概率密度函数浊音、清音、无声的短时特性S(无声)U(清音)V(浊音)三种情况下短时平均幅度的条件概率密度的示意图。可以看出,浊音的短时平均幅度最大,无声的短时平均幅度最小。清音的短时过零率最大,无声居中,浊音的短时过零率最小。语音有声和无声v在许多语音处理技术中需要判断
10、一段输入信号中哪些是语音段,哪些是无声段(只有背景噪声)v在语音识别中正确的决定所要识别语音的起点、终点对于提高识别率往往是重要的。v对于数字移动通信的手持机编译码器,在较长的无声段应降低发射功率以节约其电池的消耗。语音有声和无声v对于已经判定为语音段的部分,尚需决定其清音或浊音,无论对于语音识别还是低速语音编译码器这都是很重要的。这些问题可以概括为无声/有声判决以及更细致的S/U/V判决。v能够实现这些判决的依据在于不同性质的语音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有一致的语音特性,它们不会在 S、U、V之间跳来跳去。判断语音信号的起点和终点v在独立词(字)语音识别系
11、统中需正确判定每一个输入语音的起点和终点,利用短时平均幅度和短时过零率可以做到这一点。v首先,可根据浊语音情况下短时平均幅度M的概率密度函数P(M/V)确定一个阈值参数MH, MH的值定得比较高。当一帧输入信号的M值超过MH时,就可以十分肯定该帧语音信号不是无声,而有相当大的可能性是浊音。判断语音信号的起点和终点v根据MH可判定输入语音中的前后两个点N1和N2, N1和N2之间肯定是语音段,但是语音的精确起点、终点还要在N1之前和N2之后仔细查找。为此在设置一个低阈值参数ML ,由N1向前找,当短时平均幅度M由大到小减至ML时可以确定点N1 。类似由N2向后找,可以确定N2 。在N1和N2之间
12、仍能肯定是语音段。判断语音信号的起点和终点v由N1向前和N2向后继续用短时过零率Z进行搜索。根据无声情况下短时过零率Z的均值,设置一个参数Z0,如果由N1向前搜索时Z始终大于Z0的3倍,则认为这些信号仍属于语音段,直至Z突然下降到低于3Z0值时,这时可以确定语音的精确起点(为了保证可靠,由N1 向前搜索时间不超过25ms)。对终点做同样的处理。采取这一算法的原因在于, N1以前可能是一段清辅音段(如f,s),它的能量相当弱,依靠能量不可能把他们与无声段区别开,而他们的过零率明显高于无声,因而能用这个参数来精确的判断二者的分割点,也就是语音真正的起点。判断语音信号的起点和终点v另一种判断的方法是
13、如果能够求出S、U、V三种情况下短时平均幅度M和短时过零率Z的条件联合概率密度函数P(M、 Z/S), P(M、Z/U), P(M、Z/V),那么就可以采用统计学中的最大似然算法,根据一帧信号的M和Z值来判断它的S/U/V。就是计算后验概率:vP(X/M,Z)=P(M,Z/X)P(X)/P(M,Z)v其中,X=S或U或V。后验概率最大者即作为判决结果。v事实上,仅依靠M和Z两个参数还是不够的,通常要选择更多的参数,如相关函数等。v短时自相关函数10)()()(kNnwwwknsnskR1、是偶函数;2、s(n)是周期的,那么R(k)也是周期的;3、可用于基音周期估计和线性预测分析;语音信号的短
14、时自相关函数假设 一段加窗语音信号,非零区间为n=0N-1, 的自相关函数称为语音信号的短时自相关函数,)(nsw 1, 1)()()()()(10NNllnSnSlnSnSlRnlNnwwwww可以证明,自相关函数是偶函数,且在l=0处取得最大值,且值为短时能量)(nswv修正的自相关函数KkknsnskRNnwww0, )()()(10)()()(nwnsnswKNnnw10, 1)(短时自相关函数的特点浊音是周期信号,浊音的短时自相关函数也呈现明显的周期性,自相关函数的周期就是浊音信号的周期。清音接近于随机噪声,请音的短时自相关函数不具有周期性,且随着l的增大迅速减小。根据这个性质可以判
15、断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。语音信号的短时频谱)(nsw的离散时域付里叶变换)(exp( jwSw称为语音信号的短时频谱10)exp()()(exp(NnwwjwnnsjwS2)(exp(jwSw称为语音信号的短时功率谱语音信号的短时频谱窗函数w(n)语音信号S(n)加窗语音信号Sw(n)DTFTS(exp(jw)DTFTW(exp(jw)DTFTSw(exp(jw)计算短时频谱一般采用哈明窗)(exp()(exp()(exp(jwWjwSjwSw)()()(nwnsnswv短时平均幅度差函数(AMDF)Average Magnitude Difference Fu
16、nctionRoss等人于1974年提出的 10| )()(|)(lNnwwwnslnslD050100150200250300350-4000-20000200040006000Voiced Frame. The pitch is about 42.05010015020025030035002468x 105AMDF Fun050100150200250300350400450-4000-2000020004000(a) A Voiced Speech Segment05010015020025030035040045002468x 105(b) AMDF for the Speech S
17、egment( + local minima )050100150200250300350400450-2000020004000A: Speech Segment05010015020025000.511.522.5x 105B: Modified AMDF( + local minima )短时基音周期估计v基于短时自相关函数的基音周期估计最大峰与基音周期不一致,要求帧长大于两个基音周期;受共振峰的干扰,可以采取滤波或中心消波预处理。v基于短时AMDF的基音周期估计需进行谷值点清晰度检查、比较复杂的阈值判决;预处理可以改善效果;对幅度变化比较敏感。基于短时自相关函数的基音周期估计方法v短时
18、自相关函数在基音周期的各个整数倍点上取得最大值,只要能找到第一最大峰值点的位置并计算它与l=0点的间隔,便能估计出基音周期。v实际上,第一最大峰值点的位置有时不能与基音周期相吻合。因此很多时候并不是计算l=0点的距离作为基音周期。产生这种情况的原因:与窗的选取长度有关,窗口过长或过短都会导致不一致。通常认为窗长至少应大于两个基音周期,语音信号中最长的基音周期约为20ms,因此在基音周期估计时窗长应选的大于40ms。与声道特性的影响有,有时窗长足够长,但是第一最大值与基音周期仍不一致,这是主要由声道的共振峰特性造成的干扰。(1、60900Hz的带通滤波器滤波,并用滤波信号的自相关函数进行基音周期
19、的估计; 2、对语音信号进行非线性变换后求自相关函数,一种有效的非线性变换是中心削波,削波后基音周期的峰起更尖锐) 语音信号的短时平均幅度差函数(AMDF)为了求基音周期,还可以采用短时平均幅度差函数10)()()(lNnwwwnslnslr对于周期语音信号,其短时平均幅度差函数也是周期性的。在估计基音周期时,不论计算短时自相关函数还是短时平均幅度差函数,一般都采用矩形窗基于短时平均幅度差函数的基音周期估计方法的特点v基音周期的谷点锐度比峰点的锐度要尖锐,估计的精度更高v计算短时平均幅度差函数不用乘法,计算量小v可以通过对语音信号进行谱平滑(去除共振峰的影响)和中心削波处理来改善基音周期估计的效果v短时平均幅度差函数对于语音信号的快速变化比较敏感。对基音周期轨迹的平滑v中值滤波 平滑点附近左右各取L个点,将2L+1个点按大小排列,取队列中间值作为平滑器的输出v线性滤波 通过一个低通滤
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西省吕梁市临县城区2023-2024学年六年级上学期期中英语试卷
- 陕西省咸阳市彬州市2024-2025学年九年级上学期期中考检测化学试卷(含答案)
- 食品经营户食品安全培训
- 手术衣产业深度调研及未来发展现状趋势
- 喷色机皮革工业用产业运行及前景预测报告
- 去死皮剪产业深度调研及未来发展现状趋势
- 女靴产业规划专项研究报告
- 绿色数据中心UPS设计方案
- 凸版印刷机产业规划专项研究报告
- 2025年全国青少年禁毒知识竞赛题库附答案
- 中国绿电制氢行业投资分析、市场运行态势、未来前景预测报告
- DL-T5710-2014电力建设土建工程施工技术检验规范
- 2024年春季国开《学前教育科研方法》期末大作业(参考答案)
- 储能技术系统安全评估与风险控制
- (高清版)JTGT 5440-2018 公路隧道加固技术规范
- 牙周病学考试模拟题+答案
- 样衣制作办单
- 物理与文化智慧树知到期末考试答案章节答案2024年山东大学
- 《精神科保护性约束实施及解除专家共识》解读
- 友善教育主题班会省公开课一等奖全国示范课微课金奖课件
- 医院岗前法律法规培训
评论
0/150
提交评论