语音信号处理基础课件_第1页
语音信号处理基础课件_第2页
语音信号处理基础课件_第3页
语音信号处理基础课件_第4页
语音信号处理基础课件_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章语音信号处理基础.语音信号的产生1语音信号的特性2语音信号产生的数字模型3语音感知4语音的产生声音是一种波形:振动频率在20-20KHz,如乐器声、雷声、风声、雨声等;语音是声音的一种,由人发音器官发出,具有一定的语法和语义,语音的最高频率可达15KHz,一般可听的语音频率为80Hz~3.5KHz;音乐(音频)也是声音的一种,由人发音器官及乐器混合发出,具有一定的语法和语义,一般可听的音频频率为20Hz~22KHz;语音的产生人的说话过程分为5个阶段:1)想说阶段:客观现实→大脑反映→说话动机→神经中枢→想表达内容和情感;2)说出阶段:神经中枢→发出指令→各器官协调→发音(机能效果)→反馈→修正;3)传送阶段(物理过程):语音(声波)→媒介(空气)→听者(可能会产生失真或损耗)语音的产生发音器官模型语音的产生人类的发音器官语音的产生语音信号的产生过程语音的产生元音的分类根据舌位來分

舌位前后–Front前–Central中央–Back后舌位高低(嘴开的大小)–High,(close)–Mid,(closemid,openmid)–Low,(open)

上述共有9种组合。口唇开放程度

9种组合加口唇开放程度就可发10多个不同的单元音。语音的产生汉语语音知识汉语音节:一个音节(syllable)就是一个字的音,字是独立的发音单位,由声母和韵母构成。词:由音节构成。句子:由词构成。音素:声母是一个音素,而韵母则较复杂。声调:音调在发一个音节中的变化。汉语特点:音素少、音节少,64个音素、400多个音节语音信号的特性语音信号的特性声学特性语音信号的时域波形和频谱特性语音信号的统计特性语音信号的特性浊音的特性:基音频率浊音的声带振动频率称为基本频率又称基音频率,用F0表示,发音时,各个元音段的F0都随时间而变,F0的变化产生了音调,F0随的变化轨迹称为声调轨迹,声调反映了语音的韵律。基音频率(简称基频)的范围为:男性偏低一般为50Hz≤F0≤200Hz;

女性、小孩偏高一般为200Hz≤F0≤450Hz;基音频率的倒数称为基音周期(pitchperiod)。语音信号的特性浊音的特性:共振峰共振峰(Formant):指谐振频率。声道可看成是一根具有非均匀截面的声管,发音时起共鸣作用,当激励进入声道时会引起共振特性,产生一组共振频率。共振峰与声道的形状和大小有关共振峰有多个,从低频到高频排列F1,F2,F3,…,一般的浊音中可以辨别的共振峰有5个,其中前面3个对于区别不同语音至关重要;语音信号的特性浊音的特性:共振峰频谱最大值与共振蜂相对应F1F2F4F3语音信号的特性语音波形语音:人的发声器官发出的一种声波,语音一定具有音色、音高、音强和音长四要素;音色,就是声音的个性、特色。它是一个音区别于另一个音的基本特征;音高指声音的高低,取决于频率;音强(音量,又称响度)决定声音的强弱,由声波的振动决定;音长指发音时间的长短。语音信号的特性声音波形及其频谱频谱最大值与共振蜂相对应F1F2F4F3语音信号产生的数字模型语音信号的数学模型是如何得到的?建立数学模型又有什么意义呢?语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型语音信号产生的数字模型激励模型声道模型辐射模型语音信号产生的数字模型激励模型一般分为浊音激励和清音激励来讨论。浊音:浊音时,激励信号由一个周期脉冲发生器产生,产生的序列是一个频率等于基音频率的冲激序列。为了使浊音的激励信号具有声门脉冲的实际波形,还需要使冲激序列通过一个声门脉冲模型滤波器G(z)。对声门波形的频谱分析表明,其幅度谱按12dB/倍频程的速度衰减。语音信号产生的数字模型声道模型声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。关于声道的数学建模有两种观点:1)将其视为多个不同的管子串联,由此导出声管模型;2)视为谐振腔,由此导出共振蜂模型。语音信号产生的数字模型声道模型(1)声管模型“短时”间声道是一个形状稳定的级联管道语音信号产生的数字模型完整模型:可用三个模型的级联表示V(z)=AE(z)H(z)

在浊音情况下,E(z)是一个周期冲激序列,且A=Av,H(z)=

G(z)V(z)

R(z)在清音情况下,E(z)是一个随机噪声,且A=Au,H(z)=

V(z)

R(z)语音信号产生的数字模型在这个模型中,除了G(z)和R(z)保持不变以外,基音频率、Av、Au、清/浊开关的位置以及声道模型中的参数都是随时间变化而变化的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数而言,在10~30ms的时间间隔内可以认为它们保持不变,因此语音的短时分析帧长一般取为10~30ms。

需注意的是:把激励简单分为周期脉冲激励和噪声激励是与实际情况不完全符合。如果将模型的激励源改为上述两种激励按任何比例相叠加,这更加接近于实际情况。这个模型的传输函数不包含有限传输零点,而像鼻音、擦音这样一些音的声道传输函数中包含有限零点的。解决方法就是适当提高阶数p,使得全极点模型更好得逼近具有零点的传输函数。语音感知语音感知-声音三要素任何声音可用声强(或声压)的三个物理量表示:即幅度、频率、相位。对应人的感知,可用另外三要素描述:即响度、音调和音色。音色:亦称音质,反映声音属性。每个人声音具有特殊的音色,人根据音色在主观感觉上区别具有相同响度和音调的两个声音。响度:测量声音强弱的物理量为声强,单位为W/m2(瓦/米2);主观感受声音强弱的单位是宋:sone。语音感知响度当声音的强度小到人耳刚刚能够听见时,称为听阈。听阈是随频率变化而变化的。如果加大声音的强度,使它大到人耳感到疼痛,这个阈值称为痛阈。听阈和痛阈之间是人耳的范围,为0~120dB声强级(1012倍以上)。人耳对2k~4kHz声音的音强的感觉最灵敏。语音感知音调:亦称音高,与频率有关,单位为美尔(Mel)。频率低的声音听起来感觉它的音调低,频率高的音调高。但是音调与频率不成正比,它还与声音的强度及波形有关。音调与频率的关系近似为:语音感知掩蔽效应掩蔽效应是一种常见的心理声学现象。当两个响度不同的声音作用与人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。1)同时掩蔽和异时掩蔽同时掩蔽:发生在掩蔽者和被掩蔽者同时存在时,亦称频率掩蔽,声音能否听到取决于频率和强度。语音感知异时掩蔽:发生在掩蔽者和被掩蔽者不同时存在时,亦称时域掩蔽。有两类:前掩蔽(pre-masking):发生在掩蔽者开始之前的一段时间,一般可持续20ms。后掩蔽(post-masking):发生在掩蔽者结束之后的一段时间,一般可持续100ms。掩蔽阈值取决于掩蔽者的音调、频率、声压级和持续时间。语音感知各种不同的掩蔽效果掩蔽者有三种类型:纯音调、宽带噪声和窄带噪声,掩蔽者和被掩蔽者组合后产生不同的掩蔽效果。纯音调信号间的掩蔽宽带噪声对纯音调的掩蔽:掩蔽者为宽带噪声,被掩蔽者为纯音调信号。窄带噪声对纯音调的掩蔽:掩蔽者为窄带噪声,被掩蔽者为纯音调信号。是一种比较复杂的掩蔽效应。语音感知临界带宽:为了描述窄带噪声对纯音调信号的掩蔽效应,引入临界带宽概念。一个纯音可被以它为中心频率,且具有一定宽带的连续噪声所掩蔽,若在这一频带内噪声功率等于纯音的功率,则该纯音处于刚好能被听到的临界状态,即称带宽为临界带宽。临界频带的位置不固定,以任何频率为中心都有一个临界频带。连续的临界带序号记为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论