版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于语音信号产生的数字模型第1页,讲稿共59页,2023年5月2日,星期三§2.1人类的语言器官和语音产生过程
人类的语音是由人体发音器官在大脑控制下的生理运动产生的。发音器官包括:肺,喉,声道等。空气由肺部排入喉部,经过声带进入声道,最后由嘴或鼻辐射出声波,形成了语音。鼻腔口腔声带声门第2页,讲稿共59页,2023年5月2日,星期三MuscleforcelungVocalcords
NoseoutputMouthoutputVelumNasalcavityMouthcavityThecompletephysiologicalmechanismofspeechproduction
声道excitationspeech第3页,讲稿共59页,2023年5月2日,星期三喉的生理结构
喉位于气管的上端,实际上是气管末端一圈软骨构成的一个框架,前方稍高处的软骨称为甲状软骨,前后方环成一圈的称为喉部环形软骨,喉中两片肌肉称为声带,声带之间的空隙为声门。当声带张开时,声门打开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭。甲状软骨声门声带环形软骨人的前方喉第4页,讲稿共59页,2023年5月2日,星期三
当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝,当气流通过窄缝时压力减小,外界压力大,从而两片声带完全闭合使得气流不能通过,当气流阻断时压力恢复正常,推开两片声带,声门再次打开,气流再次流过。声带靠拢Tp基音周期
声带的开启和闭合称为振动。这一振动过程周而复始,形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的[a]、[i]、[u]和[o]等。第5页,讲稿共59页,2023年5月2日,星期三GlottalClosureinstant
T第6页,讲稿共59页,2023年5月2日,星期三女声汉语拼音a的时域波形第7页,讲稿共59页,2023年5月2日,星期三Tp基音周期fundamentalperiodVoicedexcitationUnvoicedexcitation(声带不振动,声门开启)第8页,讲稿共59页,2023年5月2日,星期三男声汉语拼音声母s的时域波形第9页,讲稿共59页,2023年5月2日,星期三
气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。
讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。声道第10页,讲稿共59页,2023年5月2日,星期三发音的三种方式-excitation浊音(voicedsounds)声带开启和闭合,在声门处产生一个准周期性脉冲序列。(quasi-periodicsequence)清音(unvoicedsounds)声带完全舒展开来,声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生空气的湍流,类似于白噪声。(whitenoise)爆破音(plosive/stopsounds)声带完全舒展开来,声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,一旦闭合点突然开启便会让气压快速释放,实际上也是一种空气的湍流。(whitenoise)第11页,讲稿共59页,2023年5月2日,星期三
☆
F0=1/Tp,基音频率,由声带的质量来决定。
☆
F0的大小决定了声音的高低,称为音高。
☆
男性的F0大致分布在:50~250Hz
☆
女性和儿童的F0大致分布在:100~500Hz基音频率(FundamentalFrequency-pitch)F0第12页,讲稿共59页,2023年5月2日,星期三鼻端嘴唇17cm8.5cm13cm声道的无损模型声道的谐振频率formatfrequency谐振频率发生在:Fn=(声道的横截面是均匀的,发元音e时,声道近似是均匀的。)L=17cm,声道的长度n=1,2,3…称为第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz,…c=340m/s2n-14Lc第13页,讲稿共59页,2023年5月2日,星期三基音频率输出气流的频率共振峰频率女声英文a的频谱第14页,讲稿共59页,2023年5月2日,星期三男声汉语拼音声母s的频谱第15页,讲稿共59页,2023年5月2日,星期三
一种声道形状对应一套共振峰
不同人的声道大小不同,共振峰不同
同一人,发不同音,共振峰也不同总结前三个共振峰的大致范围(Hz)
共振峰
成年男子
成年女子
带宽f1200~800250~100040~70f2600~2800700~330050~90f31300~34001500~400060~180第16页,讲稿共59页,2023年5月2日,星期三
时域波形:幅度-时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。女声汉语拼音a的时域波形第17页,讲稿共59页,2023年5月2日,星期三
频谱特性:幅度谱图。得出基音周期、共振峰频率及其位置。女声英文a的频谱第18页,讲稿共59页,2023年5月2日,星期三鼻腔的作用
在软腭的帮助下,可使空气经过鼻腔排除人体外,由此产生的语音称为鼻音。如[n]、[ng]为鼻音韵母,[m]、[n]、[l]为鼻音声母。鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的。第19页,讲稿共59页,2023年5月2日,星期三MuscleforcelungVocalcords
NoseoutputMouthoutputVelumNasalcavityMouthcavityThecompletephysiologicalmechanismofspeechproduction
声道excitationspeech第20页,讲稿共59页,2023年5月2日,星期三uG(n)Av冲激序列发生器声门脉冲模型G(z)随机噪声发生器基音周期TPAu清/浊音开关浊音激励清音激励§2.3语音信号产生的数字模型一、激励模型第21页,讲稿共59页,2023年5月2日,星期三声门脉冲滤波器N1N2第22页,讲稿共59页,2023年5月2日,星期三二、声道模型(共振峰模型)短时线性系统声道V(z)1.级联型(元音)V1V2V3V4V5
声道是一组串连的二阶谐振器(一个谐振腔对应1个共振峰频率)。第23页,讲稿共59页,2023年5月2日,星期三
每个传输函数是一个全极点的IIR滤波器,这些极点确定了声管的共振峰。若N取偶数,V(z)一般有N/2对共轭极点,rkexp(±j2FkT),k=1~N/2。各个wk值分别与语音的共振峰相互对应。N的取值一般为8~12。aiz-1z-1bici第24页,讲稿共59页,2023年5月2日,星期三传输函数N为极点个数,G是增益参数,ak为常系数。T为采样周期第25页,讲稿共59页,2023年5月2日,星期三2.并联型(大部分辅音)传输函数,零极点IIR滤波器V1V2V3V4V5
零极点IIR滤波器总是可以用全极点IIR滤波器来代替。因此可以用全极点模型来表示任何语音。第26页,讲稿共59页,2023年5月2日,星期三三、辐射模型R(z)=R0(1-z-1)
唇端辐射损耗在高频端较为显著,而在低频端影响较小,R(z)应具有高通特性。对高频提升大约为每倍频程6dB。第27页,讲稿共59页,2023年5月2日,星期三四、完整的语音信号的数字模型Av冲激序列发生器声门脉冲模型G(z)随机噪声发生器基音周期TPAN线性系统声道V(z)辐射模型R(z)清/浊音开关传输函数第28页,讲稿共59页,2023年5月2日,星期三传输函数的具体表达式:第29页,讲稿共59页,2023年5月2日,星期三模型的特点
在这个模型中,TP、Av、AN、清/浊音开关的位置以及声道滤波器的参数都是随时间而变化,在10-30ms的时间间隔内是保持不变的。这种特性称为短时性。对于激励信号而言,大部分情况下,这一结论也是正确的,但有些音变化速度特别快,爆破音,取5ms比较更为恰当。
第30页,讲稿共59页,2023年5月2日,星期三§2.4语音信号的特性一、语音的声学特性
语音是发声器官发出的一种声波,具有一定的音色、音调和音强和音长。●音色:又称为音质,是一种声音区别于另一种声音的基本特性。●音调:声音的高低,取决于声波的频率●音强:声音的强弱,它由声波的振动幅度所决定●音长:发音时间的长短第31页,讲稿共59页,2023年5月2日,星期三(1)音系简单,在汉语中一个字就是一个音节,由一般为2~3个音素组成,而且具有音素少、音节少。英语中一个单词由若干个音节组成,一般为2~3个,一个音节由若干个音素组成,一般为1~4个。(2)清辅音多,在听感上有清亮、高扬和舒服、柔和的感觉。(3)有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。汉语语音的特点第32页,讲稿共59页,2023年5月2日,星期三
在汉语中,由元音和辅音构成声母和韵母。二、汉语的拼音方法
声母:一个音节开始的辅音,声母完全由辅音充当,但辅音不等于声母,因为辅音还可以作为韵尾放在音节的末尾。b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r第33页,讲稿共59页,2023年5月2日,星期三
韵母:在音节中占主要部分,音节中除了头上的声母以外的部分,由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。
a、o、e、i、u、ü、ê单韵母(元音)
ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei、üe复韵母
an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、üan、ün鼻韵母i表示3个韵母,即韵母、舌尖前韵母和舌尖后韵母。第34页,讲稿共59页,2023年5月2日,星期三
韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式,它们是区别不同韵母的重要参数。区别不同韵母的重要参数第35页,讲稿共59页,2023年5月2日,星期三
声母、韵母和声调是汉语语音的三要素。汉语语音的一个不同于其他语言的是它具有声调(音调)。声调是1个音节在念法上的高低升降的变化,汉语中有4个声调,即阴平(-)、阳平(′)、上声()、和去声(‵)。三、汉语音节的一般结构第36页,讲稿共59页,2023年5月2日,星期三
声调的变化就是浊音基音周期的变化,为了将调值描写地具体一些,一般采用“五度标记法”,用一条竖线表示声音的高低,从上而下用1、2、3、4、5依次表示低、半低、中、半高、高。5高4半高3中2半低1低阴平阳平上声去声调类阴平阳平上声去声调值553521451第37页,讲稿共59页,2023年5月2日,星期三四、语音信号的统计特性
语音信号振幅分布的概率密度有两种逼近方法:修正伽玛(Gamma)分布概率密度函数:拉谱拉斯(Laplace)分布概率密度函数:第38页,讲稿共59页,2023年5月2日,星期三第39页,讲稿共59页,2023年5月2日,星期三
人类接收语音由人耳来完成,空气振动由耳廓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室中的空气和听骨链也发生振动,听骨链的振动经前庭窗(卵圆窗)激励前庭淋巴,变为液波,液波使位于基底膜上的螺旋器受到刺激,将神经冲动经听神经传到中枢而产生听觉。§2.5人类的听觉功能第40页,讲稿共59页,2023年5月2日,星期三
正常人的听觉系统是极为灵敏的,可听声的范围为20Hz-20kHz。可听声的最小声压级(dB)称为听阈。-5~130dB,对低频和高频是不敏感的,听阈为60dB,在1kHz附近最敏感。第41页,讲稿共59页,2023年5月2日,星期三
如果信号是一个多频率的信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度,从这个意义上讲,耳蜗就像一个频谱分析仪,将复杂信号分解成各种频率分量,这种作用称为人耳的时频分析特性。耳蜗在语音接收过程起着重要的作用。耳蜗对声信号的时频分析特性第42页,讲稿共59页,2023年5月2日,星期三
人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官,把声音转换成编码的电信号传入内耳耳蜗,刺激分布在那里的听神经,再由大脑产生听觉。
人工耳蜗第43页,讲稿共59页,2023年5月2日,星期三
麦克风接收声音,并通过导线将其传至言语处理器;言语处理器对声音进行数字化、滤波编码等处理,并将编码信号经导线传至传输线圈;传输线圈将编码信号通过耦合传至皮下的接收器;接收器对编码信号进行解码;按信号选择一定位置的电极,刺激耳蜗内的听神经纤维,使其产生兴奋,将信号传入大脑,产生听觉。人工耳蜗的工作原理第44页,讲稿共59页,2023年5月2日,星期三人耳的掩蔽效应
人耳的掩蔽(maskingphenomenon)效应:在一个强信号附近弱信号将变得不可闻,被掩蔽掉了。第45页,讲稿共59页,2023年5月2日,星期三掩蔽阈值
被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值(maskingthreshold),在这个掩蔽阈值以下的声音将被掩蔽掉。
掩蔽效应分为同时掩蔽(频域掩蔽)和短时掩蔽(时域掩蔽)。同时掩蔽是指存在一个弱信号和一个强信号,当其频率接近时,强信号会提高弱信号的阈值,就会导致弱信号变得不可闻。第46页,讲稿共59页,2023年5月2日,星期三1kHz的听阈1dB20dB4dB可闻声3dB不可闻声图形描述第47页,讲稿共59页,2023年5月2日,星期三
同时出现的A声和B声,若原来A声的阈值为50dB,由于另一个频率不同的B声的存在使得A声的阈值提高了68dB,则B声称为掩蔽声,A声称为被掩蔽声。掩蔽量为68dB-50dB=18dB。数学描述第48页,讲稿共59页,2023年5月2日,星期三
掩蔽效应的作用
当只有A声时,必须将声压级在50dB以上的声音信号传送出去,50dB以下的声音是听不到的。当同时出现了B声,由于掩蔽效应,使得A声中的68dB以下的声音是听不到了,可以不予传送,只是传送50dB以上的信号。
同时掩蔽时,掩蔽声越强,掩蔽作用越大;掩蔽声和被掩蔽声的频率越接近,掩蔽效果越明显,当频率相同时,掩蔽效果最大。第49页,讲稿共59页,2023年5月2日,星期三
前向掩蔽:若被掩蔽声A出现后,相隔(0.05s,2s)之内出现了掩蔽声B,对A起掩蔽作用,因为A声尚未被人所反应接收而强大的B声已来临。短时掩蔽前向掩蔽和后向掩蔽
后向掩蔽:掩蔽声B即使消失后,其掩蔽作用仍将持续一段时间,约(0.5s,2s),这时由于人耳的存储效应所致。第50页,讲稿共59页,2023年5月2日,星期三语谱图(Spectrogram)
语音的时域分析和频域分析是语音分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国安防电子行业市场供需趋势发展战略分析报告
- 2024年塔吊司机承包项目劳务合同3篇
- 2024-2030年中国太阳能发电系统设备商业计划书
- 2024-2030年中国地面通信导航定向设备行业当前经济形势及投资建议研究报告
- 茅台学院《图形图像信息处理进阶》2023-2024学年第一学期期末试卷
- 2024年权益保障:合同与财务制度
- 茅台学院《电子测量原理》2023-2024学年第一学期期末试卷
- 马鞍山师范高等专科学校《中外基础教育比较》2023-2024学年第一学期期末试卷
- 2024年在线教育平台软件定制委托开发合同2篇
- 2024三轮汽车驾驶培训学校合作经营协议3篇
- 2024年低压电工复审取证考试题库附答案(通用版)
- 新管径流速流量对照表
- 咯血病人做介入手术后的护理
- 境外投资环境分析报告
- 《压力平衡式旋塞阀》课件
- 物联网与人工智能技术融合发展年度报告
- 妇产科医生医患沟通技巧
- 内科学糖尿病教案
- 《高尿酸血症》课件
- 微量泵的操作及报警处置课件查房
- 人教版小学数学四年级上册5 1《平行与垂直》练习
评论
0/150
提交评论