数字语音处理课件_第1页
数字语音处理课件_第2页
数字语音处理课件_第3页
数字语音处理课件_第4页
数字语音处理课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数字语音处理数字语音处理数字语音处理数字语音处理数字语音处理教学大纲教学大纲n课程名称:数字语音处理n课程英文名称:DIGITAL SPEECH PROCESSINGn总学时:32 n讲课学时:32n学 分:2n开课单位:信息学部通信工程系n授课对象:电子信息工程专业及通信工程专业 n先修课程:信号与系统 数字信号处理基础数字语音处理数字语音处理数字语音处理教学大纲教学大纲n教材:数字语音处理,姚天任编,华中科技大学出版社,1992n教学参考书:n语音信号数字处理,杨行峻、迟惠生编,电子工业出版社n语音信号处理,易克初等编,国防工业出版社,2000n教学目的:本课程作为本科生的一门选修课,主要

2、向学生系统地介绍语音信号处理中的基本理论、方法,包括:语音信号的编码压缩技术、语音识别技术、语音合成技术。通过本课程的学习使学生掌握本课程的基本方法,开阔视野,为今后从事相关的研究开发工作奠定基础。 数字语音处理学时安排学时安排n第一章 绪论(共1学时)语音信号处理的发展历史,语音信号处理的分类,语音识别技术的分类。n第二章 语音信号产生的数字模型(共2学时)发音器官的生理、语音信号的产生模型n第三章 语音波形的数字编码(共4学时)语音编码的基本方法, 子带编码。n第四章 短时时域处理技术(共4学时)短时能量、短时平均幅度、短时平均过零率、短时自相关函数数字语音处理学时安排学时安排n第五章 短

3、时傅里叶分析(共4学时)n第六章 语音信号的线性预测(共3学时)线性预测分析基本原理,基于自相关的线性预测分析。n第七章 语音信号的同态预测和倒谱分析(共4学时)n第八章 矢量量化(共4学时)矢量量化的基本原理、特征矢量及畸变准则的选择,LBG算法。n第九章 隐马尔科夫模型(共4学时)n第十章数字语音处理的应用(共2学时) 数字语音处理考核方式n方式1:n平时:小测验4次,占总成绩的70%-80%n期末:总结报告,占总成绩的20%-30%n方式2:n平时:报告1份,占总成绩的20%-30%n期末:闭卷考试,总成绩的70%-80%数字语音处理1.绪论n语音信号处理的研究内容n语音信号处理的发展历

4、史n讲授内容数字语音处理语音信号处理的研究内容n语音信号的数字表示方法n波形表示:n参数表示:n语音信号处理的方法和技术n时域、频域和变换域n语音信号处理的应用n识别、合成、压缩、增强数字语音处理语音信号的数字表示方法n如何选择表示方法?n保存消息内容n便于传输和贮存n便于变换和处理n不能严重损害消息内容数字语音处理波形表示法n波形表示法取样数字语音处理波形表示法量化后的波形数字语音处理参数表示法n参数表示法:语音信号看成是某个模型在一定激励作用下产生的输出,而激励源和模型的参数便作为语音信号的表示。W=f(A,B) A激励,B模型参数例:产生“信息学部”的语音信号W=f(信息学部,140)数

5、字语音处理语音信号处理的方法和技术n时域(时变信号,但短时平稳)n短时处理技术n短时能量n短时平均过零率n短时自相关n频域n短时傅里叶分析n变换域n小波变换数字语音处理语音信号处理的应用n语音压缩和编码:语音通信数字化;n语音合成:自动报站、自动报时、自动警告、电话自动查询和语音提示等;n语音识别:声控应用、自动口语翻译;n说话认识别:安全加密、银行信息电话查询服务以及破案和法庭取证;n语音增强:通常作为语音处理的前端。 数字语音处理n1874年电话的发明,贝尔(Bell);n1939年声码器的研制成功语音是由人的声带振动而产生的声源(载波)受到运动的声道控制(调制)产生的;语音处理的发展历史

6、(1)数字语音处理语音处理的发展历史(2)n1947年贝尔实验室发明语谱图仪语音信号研究的开始;一男性说“欢迎光临”的宽带语谱图数字语音处理语音处理的发展历史(3)n50年代第一台口授打字机和英语单词语音识别器;n60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;n70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;n80、90年代语音处理技术产品化IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。CMU语音组研制成功SPHINX系统(997,95

7、.8%);n国内,清华大学、中科院声学所和中科院自动化所在汉语听写机汉语听写机研究方面有一定成果。数字语音处理讲授内容n语音信号产生的数字模型n语音信号处理方法n语音波形编码方法n短时处理方法(时频域)n线性预测、倒谱、矢量量化n隐含马尔科夫模型(HMM)n语音信号处理的应用n语音压缩、合成、识别、增强数字语音处理2.语音信号产生的数字模型n人类语音的产生n过程复杂n信息丰富多样n至今尚未找到理想模型来描述语音产生过程nFant于1960年提出的线性模型是模拟语音主要特征的比较成功的模型之一n人类发音的生理过程n语音信号的声学特性数字语音处理2.1人类的语言器官n人体发音器官肺、气管、肺、气管

8、、喉(包括声带)和声道喉(包括声带)和声道n肺肺是语音产生的能源所在;n声带声带为产生语音提供主要的激励源;声道是指声门至嘴唇的所有器官:n咽、鼻腔咽、鼻腔 、口腔、口腔等,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)的作用。鼻齿龈上唇牙齿下唇下颚骨舌骨甲状软骨气管鼻咽软腭口腔小舌舌根会厌喉管声带环状软骨食道鼻腔硬腭舌尖部舌中部舌后部数字语音处理 人类的语言器官 (a)闭合状态 浊音 (b)张开状态清音甲状腺软骨数字语音处理2.2语音产生过程(1)n浊音产生机理n浊音声带绷紧,气流使声带产生张弛振动,即声带将周期性的启开和闭合。例如: a,o,e。n声带开启:气流从声门喷射出来,形成

9、脉冲。 n声带闭合:对应于脉冲序列的间隙期。开启闭合数字语音处理2.2语音产生过程(2)n清音和爆破音产生机理n清音声带完全舒展,声道某个部位收缩形成的狭窄通道,气流被迫以高速通过,并在附近产生空气的湍流,形成摩擦音(清音),例如:s、x。n爆破音声带完全舒展,声道某个部位完全闭合,气流遇阻产生压力,一旦闭合点突然开启便会让气压快速释放,形成爆破音,例如:b、p。数字语音处理2.2语音产生过程(3)n语音:空气流激励声道产生激励源声道气流数字语音处理2.2语音产生过程(4)n激励源n浊音:位于声门处的准周期脉冲,由声带振动形成。n脉冲周期、脉冲宽度以及脉冲形状与声带的长度、厚度及张力等参数有关

10、。n声带越短、厚度越薄、张力越大,听起来的感觉的音调越高。n清音:位于声道的某个收缩区的声音湍流(类似于噪声)n爆破音:位于声道某个闭合点处建立起来的气压及其突然释放。数字语音处理2.2声道n声道:一根具有非均匀截面的声管,在发音时起着共鸣器的作用。数字语音处理2.2共振峰(formant): n声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。n声道具有一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。n实际应用

11、中,头三个共振峰最重要。数字语音处理2.2共振峰与语谱图一男性说“欢迎光临”的宽带语谱图数字语音处理2.2共振峰的计算 理想状态下共振峰的计算:假设声道截面是均匀的(此时可把声道看作一个粗细均匀的圆筒),从喉到唇的距离L=17 cm,音速c=340 m/s,则共振峰将发生在:HzLccFHzLccFHzLccF前三个共振峰:n为第n个共振峰的波长LcncFnnn250045,150043500101743404, 2 , 1)(4123322211计算)(数字语音处理2.3 语音信号的线性产生模型在研究了发声器官和语音的产生过程以后,便可以建立一个离散时域的语音信号产生的数字模型数字模型,它将

12、是我们将数字信号处理技术应用于语音信号的基础基础。下图是一个完整的语音信号产生的数字模型:数字语音处理2.3 语音信号的线性产生模型由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:(1)激励模型(2)声道模型(3)辐射模型数字语音处理2.3.1 激励模型n浊音浊音激励模型: 发浊音时声带绷紧,声带不断张开和关闭产生的脉冲波,类似于斜三角波斜三角波n清音清音激励模型:声带处于松弛状态,不发生振动,气流通过声门直接进入声道,气流被阻碍形成湍流,相当于随机白噪声 数字语音处理2.3.1 激励模型(a)浊音激励 数字模型中可用周期为T0单

13、位取样序列串作为声门脉冲模型g(n)的输入输入,其输出就是浊音浊音激励激励。 由于人类语音的频率范围主要集中在300Hz3400Hz,数字模型中的信号取样率一般为8KHz。数字语音处理2.3.1 激励模型otherwiseKnLLKLnLnLnng, 0,)(2)(cos0),cos1 (21)( )GunL为三角波斜上升时间,K为斜三角波下降时间,两者均为整数则 激励激励为: 是一个以基音周期T0为周期的斜三角波脉冲串序列。( )( )( )GvunA x ng n声门脉冲模型声门脉冲模型数字语音处理2.3.1 激励模型由左边的频谱图可知声门脉冲模型是一个低通滤波器,一个二级点模型。量的参数

14、是调节浊音的幅值或能vvAzAzE,1)(1)1)(1 (11)()()(1,)1)(1 (1)(12111211211zgzgzAzEzGzUggzgzgzGv都接近数字语音处理2.3.1 激励模型(b)清音激励清音激励 在发清音时,声带处于松弛状态,不发生振动,气流通过声门直接进入声道,所有的清辅音都属于这种情况。无论是擦音还是塞音,声道都被阻碍形成湍流,所以激励信号相当于随机白噪声。实际上可以用均值为0,均方差为1并在幅值上为平稳分布的序列,具体实现时可采用随随机噪声发生器机噪声发生器来产生此序列。数字语音处理激励模型n应该指出,单纯的将语音信号分成受周期脉冲激励和受噪音激励两种情况,与

15、实际情况不完全相符。有时即便将两种激励情况按照一定比例叠加,也不能刻画某些语音,如浊擦音。n模型的内部结构并不和语音产生的物理过程一致,这种模型和真实模型只是在输出处等效。n模型是“短时的”,其中G(Z)和R(Z)不变,而基音频率、清浊开关、增益、声道参数ak都是时变的;声道参数在1030ms的范围内近似不变;激励参数在5ms左右近似不变。n语音信号处理的两个基本问题:语音分析与合成,都是基于这个模型来实现的。n还有更复杂更精细的模型。数字语音处理2.3.2 声道模型两种建模方法:(a)声管模型声管模型(b)共振峰模型共振峰模型共振峰模型将声道视为一个谐振腔,基于各种音素发音的不同谐振特点可建

16、立起三种实用的共振峰模型:(a)级联型 (b)并联型 (c)混合型由于人耳听觉的柯蒂氏器官的毛细胞是按照频率感受来排列其位置的,所以共振峰模型共振峰模型很有效,经常被使用。数字语音处理2.3.2 声道模型共振峰模型1、级联型:、级联型:适用于一般单元音,认为声道是一组串联的二阶谐振器:PkkkzaGzV11)(这是一个全极点模型,极点就是这个多项式的根:011Pkkkza若P为偶数,解其根会得到共扼复数(conjugate complex)的根,表示成:2/11*1)1)(1 (Piiizpzp数字语音处理2.3.2 声道模型共振峰模型2/1212/111)()(PiiiPiizczbGzVG

17、zV上式中,P是全极点滤波器的阶,一般在8-12范围内取值,它的每一对极点对应一个共振峰。a为声道模型参数,它随声道的调音运动而不断变化。数字语音处理2.3.2 声道模型共振峰模型2、并联型并联型适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型:2/1212/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常PR,假设分子与分母无公因子且分母无重根,则此式可分解为以下部分分式之和的形式:这就是并联型共振峰模型,每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。数字语音

18、处理数字语音处理2.3.2 声道模型共振峰模型 前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5级。 级联型结构较为简单,并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。数字语音处理混合型共振峰模型并联部分,从第一到第五共振峰的幅度都可以独立的进行控制和调节,用来模拟辅音频谱特性中的能量集中区。此外,在并联部分还有一条直通路径,其幅度为控制因子AB,这是专门为一些频谱特性比较平坦的音素(如f,p,b等)而考虑的。数字语音处理2.3.3 辐射模型 在发音腔道内形成的气流经由嘴唇端辐射出

19、来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波高通滤波的特性。 常用一个一阶的数字高通滤波器数字高通滤波器模拟这个现象,这个滤波器又叫做辐射模型辐射模型(radiation model):1, 1),1 ()(1rrrzzR数字语音处理完整的数字模型的系统函数:)()()()(zRzVzUzH激励模型激励模型声道模型声道模型辐射模型辐射模型数字语音处理2.3 语音信号的线性产生模型小结1. 语音产生的线性模型并非最完备的模型,因为它对一些音是不适用的如浊音中的摩擦音,这种音要有发浊音和清音的两种激励,而不是简单的叠加关系,对这些音我们可用更精确的模型来模拟。 2. 语音产生的数字模

20、型中增益控制(对Av或AN)代表了输出语音的音响强度;时变线性系统主要用来模拟声道的特性;3. 数字语音处理中两个基本问题,语音分析和语音合语音分析和语音合成成,都是基于这个模型来实现的;4. 线性产生模型的特点:n系统参数固定不变短时分析;n全极点性质零点可由多个极点逼近;n激励源和声道互相独立适用于大多数数字语音处理。数字语音处理2.4 语音信号的特性语音学和语言学概要语音的声学特性语音的时间波形和频谱特性语音信号的统计特性数字语音处理2.4.1语言学和语音学概要对语音学和语言学的详尽讨论对我们来讲离题太远,但是对语音信号加以处理以改善或提取信息时,如果我们对语音信号的结构(信号中信息编码

21、的方法)有尽可能多的知识则是很有帮助的。 1. 语言学:是以人类的语言为研究对象的一门科学,主要对控制语音中各个音的排列规则及其含义进行研究。语言(Language)是从千百万个人的言语(Speech)中概括总结出来的规律性的符号系统。所以,研究语言首先要了解一下人的言语(说话)过程。数字语音处理2.4.1语言学和语音学概要人的说话过程分为五个阶段(1)想说阶段:人的说话首先是客观现实在大脑中的反映,经大脑的决策产生了说话的动机;接着讲话神经中枢选择恰当的单词、短语以及按语法规则的组合,以表达他想说的内容和情感。这个阶段与大脑中枢的活动有关。(2)说出阶段:由上阶段中枢的决策,以脉冲形式向发音

22、器官发出指令,使它们各自相关的肌肉协调地动作发出声音来。另外还开动另一个“反馈系统”即讲话者的听觉系统,来帮助修正语音。(3)传送阶段:说出来的话语是一连串的声波,凭借空气为媒介传到听话者耳中。(4)接收阶段:听话者从外耳收集到的声波信息,经过中耳的放大作用,到达内耳,经内耳基底内膜振动转化为耳蜗内的毛细胞的电位变化,由听觉神经传给大脑。(5)理解阶段:讲话者大脑听觉神经中枢收到脉冲信息后,辨认出说话的人及其所说的信息,从而听懂讲话者的话。数字语音处理2.4.1语言学和语音学概要 从五个阶段来看,言语的过程包含着相当复杂的因素,其中有心理的、生理的、物理的以及个人的和社会的因素。这里,个人的因

23、素还指讲话者的口音和用词造句的特色以及听话者的听音和理解能力;社会的因素则是指讲话者和听话音对用于进行交际的手段有共同的理解的社会基础。 语言是从言语中概括出来的一个符号系统。包括形式和内容两个方面,即语音的形式和语义的内容。将这两个基本要素相结合起来,可以构成语言的语素、词、短语和句子等的不同层次的单位;这个构成规则就是语法。目前我们可以利用语法和语义信息减小语音识别中搜索匹配范围,提高语音识别率。数字语音处理2.4.1语言学和语音学概要2.语音学:研究语音中各个音的物理特征和分类的学科。从某种意义上讲,语音学与语音信号处理这门学科联系更紧密。 大多数语言包括汉语在内可以用一组不同的音即音素

24、来加以描述。对于汉语来说约有六十个音素,包括元音、复合元音和辅音。研究语音学的途径有很多种,例如语言学家研究音素的不同特性或特征。而对我们来讲,只要研究不同的声学特征就够了,这包括发音的部位、姿态、波形和这些声音的频谱即语谱特征。本章后面几个话题均以语音学为基础。数字语音处理2.4.2语音的声学特性1. 物理属性音色、音调、音强和音长;音色:也叫音质,是一种声音区别于另一种声音的基本特征,是由声道的位置和形状决定。音调:声音的高低,决定于声波的频率的高低,而声波频率的高低又由语音的基音频率F0所决定。F0高则音调高,低则音调低。一般说来,老年男性音调偏低,小孩和青年女性音调偏高。音强:声音的强

25、弱,由声波的振幅所决定。音长:声音的长短,取决于发音时间的长短。数字语音处理2.4.2 语音的声学特性2. 语音的构成音节(syllable) 、音素音素(phoneme):语音发音的最小单位。分类:(1)国际标准分类清音:发清音时声带不振动。浊音:发浊音时声带振动。(2)我国传统分类元音(韵母):是当声带振动发出的声音气流在声道中不受阻碍,这种情况下产生的语音称为元音。元音属于浊音。辅音(声母):从声门呼出的声音气流,在声道通路中某一部分封闭起来或受到阻碍不能畅通,为克服发音器官的这种阻碍而产生的语音称为辅音。数字语音处理2.4.2 语音的声学特性音节:说话时一次发出的,具有一个响亮的中心,

26、并被明显感觉到的语音片段。一个音节可由一个音素或几个音素构成。音节最典型的结构,就是以一个元音或双元音(diphthong)为主体,其前面或后面可能连接一个或多个辅音。3. 汉语语音的特点声、韵、调,音节在汉语中占有主要地位,它是由声母、韵母和声调按一定的方式构成的,是语言的最小使用单位;音节结构简单,与其它语言相比汉语语音音节和音素都很少。数字语音处理2.4.2 语音的声学特性4. 语义:语音总是和一定的意义相联系着,一定的语音要表达一定的思想和意义;另外,语音还能表达出一定的语气、情感,甚至表达许多“言外之意”。5.元音的共振峰特性:元音构成一个音节的主干,无论从发音长度还是从能量看,元音

27、在音节中都占主要部分。所以有必要在此研究一下元音的共振峰特性或者说研究其频谱特性。数字语音处理2.4.2 语音的声学特性影响元音共振峰特性的发音机制:(1)舌头的形状卷舌音(e)、平舌音(2)舌头在口腔中的位置,简称舌位;(3)嘴唇的形状,即口形;其中由舌位的高低前后位置改变,可以发出不同的音素,也就是说舌位与元音的共振峰特性有密切关系。男人男人 60200Hz女人女人150300 Hz小孩小孩 200400数字语音处理2.4.2 语音的声学特性图4-1 汉语单元音舌位梯形图(1)F1与舌位高低有关,舌位越高F1越低;由于舌位越低嘴张得越大,也称舌位高 低 为 开 口 度 。(2)F2与舌位前

28、后密切相关,舌位越靠前F2就越高。(3)F1、F2和嘴唇的圆展程度有关,嘴唇越圆,F1、F2越低。(4)F3与舌位关系不密切,但受舌尖活动影响;舌尖抬高卷起时F3就明显下降。数字语音处理1、语音信号的时频特性数字语音处理波形特性n语音信号幅度动态范围一般最大为动态范围一般最大为40分贝分贝,实际由于说话人的差别可以达到6070分贝。n元音幅度较大,有准周期性;清辅音幅度小,和噪声特性相元音幅度较大,有准周期性;清辅音幅度小,和噪声特性相似似。n在长时间的语音信号中有相当多的无信号区间,即所谓的语语音寂静区间音寂静区间。 n幅度概率密度函数以零幅和近似零幅的概率高,而幅度非常高的情况概率很小。n

29、长时平均幅度长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽玛(Gamma)分布逼近。n对于短时幅度短时幅度概率密度用高斯分布逼近就够了。 数字语音处理n语音信号波形是语音声波经过声-电转换器得到的连续时间函数;波形图是语音幅度随时间变化的二维图。n波形以振幅随时间变化为特征,综合的表达了语音的全部信息:包括语音的内容、音调、音质、相对音量变化等;数字语音处理长时平均幅度的概率密度分布n伽玛函数逼近的效果最好,其次是拉普拉斯函数,而高斯分布逼近效果最差。n语音信号的振幅通常都趋向于集中在低电平范围内。数字语音处理语音信号相邻样值之间存在很大的相关性n短时自相关函数短时自相关函数和长时自相关函数长时自相关函数可以用来描述语音的幅度特性n语音信号的相邻取样值之间的相关性是很大的;n相关性随着取样值之间的间隔的加大而迅速减弱;数字语音处理频率特性n带宽有限一般为203400Hz ,有限的带宽特性决定了可以用有限的奈奎斯特取样速率,把语音信号离散化 n功率谱密度n语音中不同频谱分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论