版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数字语音处理总复习语音信号处理的实质学科基础
以语音语言学和数字信号处理为基础而形成的一门涉及面很广的学科,与语言学、声学、认知科学、心理学、生理学、计算机科学、通信与信息科学、模式识别和人工智能等学科均有密切的关系。用数字化的方法进行语音的传送、存储、合成、识别和增强等技术是整个数字化通信网中最重要最基本的组成部分。
语音信号的数字处理方法语音信号的特点—短时平稳性短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算短时频域分析—短时傅立叶分析线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数倒谱和同态分析、矢量量化和隐马尔可夫模型语音压缩和编码—语音通信数字化;语音合成—自动报站、自动报时、自动警告、电话自动查询和语音提示等;语音识别—声控应用、自动口语翻译;说话人识别—安全加密、银行信息电话查询服务以及破案和法庭取证;语音增强—通常作为语音处理的前端。语音信号处理技术的应用5Goldwave (audioeditor)EspsXwaves (routines+visual.)Praat (speechanalysis)Wavesurfer (speecheditor)Transcriber (annotationtool)Matlab (generalpurposesoft)OGIspeechtools (routines+app.dev.)…winpitch,pitchworks,phonedit,cooledit,Cooledit,SFS,Nerowaveedit…..一些常用的语音波形分析与处理的软件语音信号处理基础知识肺声带声道直流气流声音嘴唇声压波速度波能源激励源谐振源辐射源交流气流语音产生过程2.语音产生过程语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。浊音(Voicedsounds):声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o;清音(UnvoicedorFricativesounds):声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d;爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放,如b,p。能被人耳听到,它的振动频率在20~20000Hz之间
2.语音产生过程语音的两个重要声学特性:浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80~500Hz左右。共振峰(Fn,n=1,2,...):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要,越多越精确。语音信号产生的数字模型在研究了发声器官和语音的产生过程以后,便可以建立一个离散时域的语音信号产生的数字模型,它将是我们将数字信号处理技术应用于语音信号的基础。下图是一个完整的语音信号产生的数字模型:数字语音信号表示(RepresentationsofSpeechSignals)(1)激励模型由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型激励模型根据发浊音和发清音的机理又分为:(a)浊音激励(b)清音激励(a)浊音激励由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。由于人类语音的频率范围主要集中在300Hz~3400Hz,数字模型中的信号取样率一般为8KHz。3、语音信号产生的数字模型(1)激励模型由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有G(z)=1/(1-g1z-1)(1-g2z-1)如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式E(z)=AV/(1-z-1)(2-5)所以整个激励模型可表示为U(z)=G(z)E(z)=AV/(1-z-1)·1/(1-g1z-1)(1-g2z-1)(2-6)(1)激励模型(b)清音激励发清音时声道被阻碍形成湍流,所以可把清音激励模拟成随机白噪声。此处用均值为0方差为1并在幅值上为平稳分布的序列,具体实现时可采用随机噪声发生器来产生此序列。(1)激励模型(2)声道模型两种建模方法:(a)声管模型(b)共振峰模型共振峰模型将声道视为一个谐振腔,按此原则导出。基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型:(a)级联型(b)并联型(c)混合型(2)声道模型(a)级联型:适用于一般单元音,认为声道是一组串联的二阶谐振器:这是一个全极点模型,极点就是这个多项式的根:若P为偶数,解其根会得到共扼复数(conjugatecomplex)的根,表示成:(2)声道模型F=1/T--取样频率
i/--共振峰的频宽。Fi是--共振峰(formant)的中心频率这样分解则每一个二阶因式均对应一个共振峰,其幅频特性是典型的二阶谐振特性,谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性。(2)声道模型(b)并联型适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型:通常P>R,假设分子与分母无公因子且分母无重根,则此式可分解为以下部分分式之和的形式:这就是并联型共振峰模型,每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。(2)声道模型前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5级。级联型结构较为简单,并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。(2)声道模型在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个一阶的数字高通滤波器拟这个现象,这个滤波器又叫做辐射模型(radiationmodel),其数学式如下完整的数字模型的系统函数由激励模型、声道模型和辐射模型的级联来表示:(3)辐射模型(c)混合型我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为AB,这是专为一些频谱特性较为平坦的音素如[f]、[p]、[b]而考虑的,以增强反谐振特性。(2)声道模型人类的听觉功能掩蔽效应(maskingeffect)当一个声音存在时,它会将另一个声音的感知临界值提高,也就是说当某一频率的声音,有一特定音强存在时,另一个不同频率的声音要将音强提高才会被听到,这就是听觉掩蔽效应。
同时存在的声音,常常是低频的声音倾向于掩蔽掉高频的声音,这是一种频率掩蔽(frequencymasking)的现象。某一段时间存在一个声音,在此声音刚结束的一小段时间内,其它的声音会听不见这种掩蔽现象叫做时间掩蔽(temporalmasking)。这个现象也会发生在此存在声音之前,这是由于声音在听觉器官中传递时延迟所造成的。短时分析技术:语音信号有时变特性,是一个非平稳的随机过程。但在一个短时间范围内其特性基本保持不变。即语音的“短时平稳性”。“短时分析”,即对语音信号流采用分段处理。将其分为一段一段来分析,其中每一段称为一“帧”,由于语音通常在10~30ms之内是保持相对平稳的,因而帧长一般取为10~30ms。注:对于某些要求较高的研究领域或应用场合(如语音识别),应该考虑语音信号是时变或非平稳的,此时应采用“隐马尔可夫模型”3.1语音信号的短时处理方法
加窗取语音帧对于一段语音的离散时间信号x(m),用一个固定长度的窗口(window)套上去,只看窗口内的信号,对这些信号做计算,用以求出在这窗口内的语音特征(speechfeatures)。这样的处理方式,就叫加窗(windowing),而套上去的这一段语音即称为语音帧(frame)。通常窗口的长度是取10~40毫秒(ms),这样一段语音信号,足以计算出语音的特征参数(featureparameters)。窗口的移动距离,大约会取5~20ms,让前后的语音帧有部分重叠,这样能观察到语音特征改变的延续性以保证分析的准确性。3.1语音信号的短时处理方法
加窗取语音帧3.1语音信号的短时处理方法
加窗取语音帧假设加窗的长度为N,在时域中可以写成(3-13)将窗函数w(m)乘在语音信号中的某一个时间点上,(3-14)n是加窗位置标示,可以看出只有当m在n-N+1<m<n之间,才不会是0,也就是x(m)在n-N+1<m<n这一时段中被取出,作为一个语音帧。常用短时分析技术短时能量短时平均幅度短时过零率短时自相关函数短时平均幅度差函数短时频谱短时功率谱3.2短时能量和短时平均幅度振幅越大则能量越大,通常用以下方式计算语音能量短时平均能量函数 -变换T[]是指平方和运算; -两种计算方法:(3-17)
3.2短时能量和短时平均幅度振幅越大则能量越大,通常用以下方式计算语音能量短时平均能量函数 -变换T[]是指平方和运算; -两种计算方法:
(3-18)
-h(n)是无限冲激响应滤波器时,短时能量可递推计算得到
3.2短时能量和短时平均幅度 短时平均幅度 -变换T[]是取绝对值求和运算; -两种计算方法:
或
3.3短时平均过零率计算一个语音帧内单位时间越过零线的平均次数,可以得出其短时平均过零率(zerocrossingrate)或短时平均过零数。声带振动时,是在发浊音,所以过零率低,声带不振动时,是在发清音,所以过零率就高,没有声音时若有噪音存在,也会有较高的过零率。过零:信号波形穿越时间轴或零值线;对于离散时间信号而言就是相邻的取样值符号改变。平均过零率:单位时间(或单位样本)内过零的次数。3.3短时平均过零率变换T[]相当于平均过零率计算;短时平均过零率的计算方法:3.3短时平均过零率实际应用——区分清、浊音3.4短时自相关函数相关分析:1)自相关2)互相关语音信号处理的相关分析:短时自相关函数短时自相关函数应用: 分析语音信号的同步性和周期性。回顾确定性信号序列自相关函数:3.4短时自相关函数序列自相关函数的性质:1)若此序列是周期的(周期为Np),则R(k)=R(k+Np)2)R(k)=R(-k)3)R(0)≥│R(k)│4)R(0)等于确定性信号序列的能量或随机序列的平均功率由性质1)、3)可知浊音的自相关函数周期性出现峰值点,且周期为基音周期。3.4短时自相关函数短时自相关函数的定义计算方法:
-优点:在只需计算少数几个滞后时间的自相关值时;窗函数选择适当时,可得到递推计算方法Rn(k)==[x(n)x(n-k)]*hk(n)短时自相关函数可看做序列[x(n)x(n-k)]通过单位函数响应为hk(n)的数字滤波器的输出3.4短时自相关函数3.4短时自相关函数由图3-18(a)、(b)可见:对应于浊音语音的自相关函数,具有一定的周期性。在相隔一定的取样后,自相关函数达到最大值。图3-18(c)上自相关函数没有很强的周期峰值,表明在信号中缺乏周期性,这种清音语音的自相关函数有一个类似噪声的高频波形,有点像清音信号。3.4短时自相关函数4.2.1短时傅立叶变换--定义定义:短时傅立叶变换也叫短时谱(加窗的方式)短时谱的特点:1)时变性:既是角频率ω的函数又是时间n的函数2)周期性:是关于ω的周期函数,周期为2π短时傅立叶变换主要用于语音分析合成系统,由其逆变换可以精确地恢复语音波形;短时傅里叶变换是窗选语音信号的标准傅里叶变换。下标n区别于标准的傅里叶变换。w(n-m)是窗口函数序列。不同的窗口函数序列,将得到不同的傅里叶变换的结果。短时傅里叶变换有两个自变量:n和ω,所以它既是关于时间n的离散函数,又是关于角频率ω的连续函数。与离散傅里叶变换和连续傅里叶变换的关系一样,若令ω=2πk/N,则得离散的短时傅里叶变换,它实际上是在频域的取样。4.2.1短时傅立叶变换--定义这两个公式都有两种解释:①当n固定不变时,它们是序列w(n-m)x(m)(-∞<m<∞)的标准傅里叶变换或标准的离散傅里叶变换。此时与标准傅里叶变换具有相同的性质,而Xn(k)与标准的离散傅里叶变换具有相同的特性。②当ω或k固定时,和Xn(k)看做是时间n的函数。它们是信号序列和窗口函数序列的卷积,此时窗口的作用相当于一个滤波器。4.2.1短时傅立叶变换--定义4.2.1短时傅立叶变换--定义频率分辨率Δf、取样周期T、加窗宽度N三者关系:窗形状对短时傅立叶变换的影响 -矩形窗——主瓣窄,衰减慢; -汉明窗——主瓣宽,衰减快;窗宽对短时频谱的影响-窗宽长——频率分辨率高,能看到频谱快变化;-窗宽短——频率分辨率低,看不到频谱的快变化;结论:窗口宽度与短时傅里叶变换特性之间的关系用窄窗可得到好的时间分辨率用宽窗可以得到好的频率分辨率。但由于采用窗的目的是要限制分析的时间以使其中波形的特性没有显著变化,因而要折衷考虑。
4.2.2短时傅立叶变换--标准傅里叶变换的解释语谱图实际上是一种动态的频谱。语谱图的纵轴为频率,横轴为时间。任一给定频率成分在给定时刻的强弱用点的黑白度来表示,频谱值大则记录得浓黑一些,反之则浅淡一些。用语谱图分析语音又称为语谱分析,记录语谱图的仪器就是语谱仪。语谱仪实际上是使一个带通滤滤器的中心频率发生连续变化,来进行语音的频率分析。带通滤波器有两种带宽:窄带为45Hz,宽带为300Hz。窄带语谱图有良好的频率分辨率及较差的时间分辨率;而宽带语谱图具有良好的时间分辨率及较差的频率分辨率。窄带语谱图中的时间座标方向表示的是基音及其各次谐波;而宽带语谱图给出语音的共振峰频率及清辅音的能量汇集区;这里,共振峰呈现为黑色的条纹。4.5语谱图所有元音的特征都是强度变化的规则的垂直条纹。条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音周期。条纹越密表示基音频率越高,例如“Ten”中的[ε]音;而基音周期在“the”字中[e]音时达到最大。4.5语谱图声道的共振峰表示基音脉冲的某些频率成分被加强,这在语谱图上呈现为条纹区更宽更黑。摩擦音如[s]、[z]呈现不规则的条纹,主要在2.5kHz以上;这些条纹表示存在宽带噪声。“suburbs”开始的[s]音明显表示它有最大的能量和最高的频率成分,而结尾部分的[zs]的能量和频率仅次于[s]。4.5语谱图同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理。为了分离加性组合信号,常采用线性滤波方法。为了分离非加性组合(如乘积性或卷积性组合)信号,常采用同态滤波技术。同态滤波是一种非线性滤波,但它服从广义叠加原理。对语音信号进行同态分析后将得到其倒谱参数,所以同态分析也称为倒谱分析。由于对语音信号分析是以帧为单位进行的,所以得到的是短时倒谱参数。无论是对于语音通信、语音合成还是语音识别倒谱参数优点:所含的信息比其他参数多,也就是说语音质量好、识别正确率高;倒谱参数缺点:是运算量较大。尽管如此,倒谱分析仍是一种有效的语音信号分析方法。5.1概述5.2同态信号处理的基本原理卷积特征子系统:图5-2同态系统的组成5.2同态信号处理的基本原理加性信号的Z变换或逆Z变换仍然是加性信号,因而这种时域信号可以用线性系统处理。5.2同态信号处理的基本原理
线性系统
5.2同态信号处理的基本原理卷积逆特征子系统:经过线性处理后,若将其恢复为卷积性信号,可以通过逆特征系统,它是特征系统的逆变换。线性预测分析的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别、语音合成等。语音信号数学模型:
语音信号可以看成准周期脉冲或白噪声激励一个线性时不变系统所产生的输出。H(z)u(n)s(n)信号s(n)的模型化s(n)为模型的输出。当s(n)为确定信号时,u(n)采用单位冲激序列;当s(n)为随机信号,u(n)是为白噪声序列6.2线性预测分析的基本原理模型系统函数H(z)
语音信号产生:线性预测分析就是根据已知信号s(n)对各参数和增益G进行估计。在这里为线性预测系数这里采用的是全极点模型又称“AR模型”,各系数和增益G为模型参数。这样信号就可以用有限数目的参数构成的信号模型来表示。
线性预测模型采用全极点模型的原因:全极点模型容易计算,对全极点模型做参数估计是对线性方程组的求解过程,而含有有限零点则是解非线性方程。6.3语音信号的线性预测分析冲激串发生器随机噪声发生器基音周期时变数字滤波器浊音/清音开关声道参数Gs(n)u(n)1.语音信号模型注:语音产生模型里,辐射、声道以及声门激励的全部效应简化为一个时变数字滤波器等效。系统函数其中p为预测阶数,G为声道滤波器增益。由此有上述语音抽样s(n)和激励信号u(n)之间的差分关系式线性预测原理:当前语音信号s(n),可以用过去p个语音信号s(n-i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《政府绩效管理》课程教学大纲
- 《办公自动化》课程教学大纲
- 2024年低首付汽车售卖合同范本
- 2024年代理投标协议合同范本
- 山东省济南市商河县2024-2025学年上学期七年级期中考试数学试题(无答案)
- 2024-2025学年江苏省盐城市七校联考高二上学期11月期中考试数学试题(含答案)
- 医疗战略分析
- 一次性使用医疗用品管理制度
- 便秘患者的护理方案
- 医院管理年中活动方案
- 《学前教育法》是学前教育工作者的新征程
- 2024冷冻仓储服务协议
- 【初中语文】《我的白鸽》课件+2024-2025学年统编版语文七年级上册
- 节能减排知识培训
- 食堂监督检查制度
- 2024年大型游乐设施维修(Y1)特种作业考试题库(浓缩500题)
- 民宿管家基础课程设计
- 人力资源管理:基于创新创业视角学习通超星期末考试答案章节答案2024年
- 风电场护栏网施工方案
- 足球校本课程开发方案
- 《地方导游基础知识》1.4 山西地方导游基础知识-题库及答案
评论
0/150
提交评论