语音识别基础讲义02_第1页
语音识别基础讲义02_第2页
语音识别基础讲义02_第3页
语音识别基础讲义02_第4页
语音识别基础讲义02_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章语音的特征2.1发音的生理机构与过程2.1.1发音的生理机构人的发音生理机构见图2.1。如图所示,发音器官主要由以下三个部分所构成:(1)主声道:一般将声门(声带开口处)以上,经咽喉、口腔(舌、唇、腭、小舌)的管道称为主声道。(2)鼻道:经小舌和鼻的管道称为鼻道。鼻道只有在发音时通过小舌下才被打开。小舌上抬时鼻道将被关闭。(3)次声门系统:经肺、支气管和气管的管道称为次声门系统。图2.1发音器官示意图2.1.2语音的产生过程语音的产生过程可分为音源产生、声道调音和向外辐射三个阶段。音源可分为声带音源和非声带音源两大类,非声带音源又可分为噪声音源和爆破音源。声带振动周期称为基本周期(FundamentalPeriod),其倒数称为基本频率(FundamentalFrequency)。男性的基本频率一般为50〜250Hz,女性的基本频率一般为100〜500Hz。当发音的基本周期随时间变化时,便可感知重音和语调Intonation)。音源波由基波及其谐波成分构成。声道调音(Articulation)指为了发出各种各样的声音,需要诸如舌、口唇、腭等的器官对声道形状进行的调整。有了不同的声道形状,就能给出声道的不同的传递特性,并由于声道腔的共鸣作用,使得语音能量按频率发生强弱变化。声道腔共鸣特性反映在其频率特性上,便有一系列共振峰的出现,这些共振峰所对应的频率称为共振峰频率(Formant)。根据产生的音源不同大致可形成以下三种语音:(1) 浊音(V:Voicedspeech)的产生音源是位于声门处的准周期空气脉冲序列。空气从肺部排出形成空气流,空气流经过声带时,如果声带是绷紧的,则将在声门处产生出一个准周期性脉冲气流。即声带产生弛张振动,形成周期性地开启和闭合。声带启开时空气流从声门喷射出来,形成一个脉冲,声门闭合时相应于脉冲序列的间隙。该空气脉冲流通过声道后最终从嘴唇辐射出声波,这便是浊音语音。(2) 清音(U:Unvoicedspeech)的产生音源是位于声道的某个收缩区的湍流(类似噪音)。如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气通过声门后,如果声道某个部位发生了收缩,形成了一个狭窄的通道,则当空气流到达此处时将被迫以高速气流冲过收缩区,并在附近产生出空气湍流。这种湍流空气通过声道后便形成所谓的清音(也称摩擦音)。(3) 爆破音(P:Plosivespeech)的产生音源是位于声道某个闭合点处建立起来的气压,其具有突然释放的特性。声带状态同湍流音源一样,但当空气通过声门后,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,一旦闭合点突然开启便会让气压快速释放,经过声道后便形成所谓的爆破音。2.1.3语音分类按主声道、鼻道可以将语音分为以下两种类型:(1)口音:指在发音时气流不经过鼻腔的音,即通过主声道发出的音。(2)鼻音:指在发音时气流经过鼻腔的音。按音源的激励形式可以将语音分为以下三种类型:(1)浊音:发音时声带振动使气流产生准周期的脉冲,这一空气脉冲激励声道而得到的音(也称有声语音)。(2)清音:发音时声带不振动,仅以类似于宽带噪声音源输出的湍流气流高速冲过某处收缩的声道而产生的音(也称无声语音)。(4)爆破音:由声道在完全闭合的情况下突然释放而产生的音。2.2语音的基本特性2.2.1语音的物理属性语音既然是人的发音器官发出来的一种声波,它就和其它各种声音一样,也具有声音的物理属性。这就是说,每种音都具有一定的音色、音调、音强和音长。音色是一种声音区别于其它声音的基本特征。音色因以下三个音素而不同,①发音体(声带)振动发出的音与声带不振动而由别的发音器官发出的音的音色不同;②虽然应用相同的发音器官,但采用送气的方法与不送气的方法发出的音的音色不同;③声道形状和尺寸的不同发出的音的音色不同。音调是指声音的高低,它取决于声波的频率(也称语音基频),而声波频率又与发音体的长短、厚薄以及松紧程度有关。音强是指声音的强弱,它是由声波振动幅度所决定的。音长是指声音的长短,它取决与发音持续时间的长短。2.2.2汉语语音基础及其特性任何语言的语音都有元音(Vowel)和辅音(Consonant)两种音素(Phoneme),它们是按音素的发音特征来分类的。音素:根据语言学(音韵论)的定义,声音的最小基本单位称为“音素”,采用音韵符号/a/表示。元音:其特征是由声带振动而发音并且声道比较畅通。元音最重要的特色是由于声道中发生谐振的结果使声音具有音色。也就是说,每个元音的特点是由声道的形状和尺寸来决定的。辅音:其特征是声道受阻,有无音响还在其次。辅音最重要的特色是语音流中有湍流和其它间断。发辅音时,如果声带不振动,发出的辅音称为清辅音(也称噪音),如果声带振则称为浊辅音。形成受阻的部位和发音方法的不同,发出的辅音也就不同。声母和韵母是按汉语字音的结构来分类的。在我国,传统的音韵学对语音的分析,是采用音、韵、调系统的分析方法。每个“字音”分析为“声母”和“韵母”两部分,每个“字音”又有阴平、阳平、上声、去声四种声调。声母:声母可以由辅音来充当,但辅音不一定就是声母。汉语普通话中共有22个辅音,除ng以外的21个可以作为声母(参见表2.1)。韵母:韵母可以由元音来充当。它包括单韵母(一个元音)、复韵母(两个或两个以上

的元音)和带声韵母(元音和辅音、即用“n”或“ng”收尾的韵母)。汉语普通话中有10个元音组成38个韵母。表2.2列举了35个韵母,另外“i资”、“i知”、“er”、“ 为4个特殊韵母。在汉语中一个字对应与一个音节(Syllable),所以它是由声母、韵母和声调按一定的方式构成的,它是语言的最小使用单位。一般韵母又可分为韵头、韵腹和韵尾,韵头只能是“i”、“u”、“U”,韵腹是主要部分,其发音较强,韵尾只能是“i”、“u”、“n”和“ng”,前两者可作为韵母独立存在。表2.1汉语辅音表发音部位发音方法双唇音唇齿曰舌尖前音舌尖中音舌尖后音舌面前音舌根音塞清不送气bdg送气Ptk塞擦清不送气zzhj送气cchq擦清 音fsshxh浊 音r鼻音浊 音mnng边音浊 音l表2.2汉语韵母表单韵母a啊o喔e鹅i衣u 乌u迂ia呀ie耶ua蛙uo窝ue约复韵母ai哀ei诶ao熬ou欧iao腰iou优uai歪uei威带声韵母an安en恩ang昂eng亨的韵母ong轰的韵母ian烟in因iang央ing英iong雍uan弯uen温uang汪ueng翁uan冤un晕54321阴平^'高54321阴平^'高 半高 中…半低 低图2.2汉语四声位置图在汉语普通话中,并不是任何声母和韵母都能组合拼成音节的,21个声母和35个韵母共约配合成400个音节,再加上四个声调组成1600个左右的带调音节。2.2.2语音的波形特征语音可以直接用它的时间波形来表示。根据时间波形可以看出语音信号的一些重要特征。图2.3给出了一个音节字为“沙地(shaldi4)”的波形。从中可观察到以下几种类型的波形区间:静息波区间(S:Silencespeech):这是语音未发声区间,反映在语音信号的始端、音节之间的间隙和语音信号的终端。在波形上是由背景噪声所构成的一条细线。准周期波区间(V:Voicedspeech):这是元音“a”和“i”的波形,具有比较明显的周期性,各个元音的波形是不同的。在充分短(5ms〜30ms)的时间区间(也称短时区间)内,可观察到语音信号的变化非常缓慢,故可近似地认为在短时区间内语音信号的特性基本上是不变的。对汉语语音,还可以从其周期性变化趋势推断出声调变化等。另外,还能从波形推断出其能量主要集中在低频成分。噪声波区间(U:Unvoicedspeech):这是辅音“sh(清擦音)”的波形,其振幅小于准周期波的振幅。从波形推断出其能量主要集中在高频成分。脉冲波区间:这是辅音“d(塞音)”的起始阶段波形。过渡区间:这是辅音与(或称转接)元音、元音与元音之间的过渡区间。图2.3汉语波形特征2.2.3语音的频谱特性语音还可以通过频谱表现(spectralrepresentation)来描述其音素的特性。常用的有语谱图(soundspectrogram)。语谱图是一种用二维图形,用来描述语音能量在连续频率轴上随时间的变化规律。即其纵轴对应于频率,横轴对应于时间,图像浓黑程度正比于语音信号的能量。图2.4表示普通话的语谱图。语谱仪的带通滤波器为宽带(300Hz)时,便可得到宽带语谱仪。这时由于时间分辨率高,因而可以明显看出时间波形的每个周期(纵向细线层)。但是,由于频率分辨率不高,不足以分辨激励所形成的细微结构(横向细线层)。宽带语谱仪能够清晰地显示出共振峰随时间的变化情况(参见图2.4(a))。窄带语谱仪(50Hz),因频率分辨率高,能显示出激励信号的基频及其各个谐波(参见图2.4(b))。但是,由于时间分辨率的下降,不能明显看出共振峰的变化。图2.4普通话语音(shaldi4)的语谱图(上图为宽带,下图为窄带)另外,在分析音素特性时,常用到振幅频谱图(或对数振幅谱)。对元音而言,在其频谱图上能清楚地看出浊音的基音及其谐波频率。此外,还能看到3〜4个能量集中的区域,这就是对应的几个共振峰频率,从低到高分别称为Fl、F2、F3等。表2.3给出了普通话七个韵母的共振峰频率。从表中可以看到,各韵母音色上的差异可用斗三个共振峰频率(F1、F2、F3)来表征,F1主要分布在290Hz至1KHz范围内,F2分布在500Hz至2.5KHz范围内,而F3分布在205Hz至4KHz范围内。图2.4给出了普通话六个韵母语音的频谱图2.2.4语音的音律特性汉语的音律特性,主要是指语音的音高、音强和音长等方面所显示出来的抑扬顿挫的特性。音高即对应了声调。从语音信号处理的角度讲,声调一般可用基频随时间变化的曲线来表征。音强指的是语音的轻重问题。一般存在三种重音,即正常重音、对比重音和轻音。正常重音的声学特点是,声调的完整性和音长的加长,而不是音强的加强。轻音首先失去了原有的声调,其次是音长大大缩短。对比重音不同于正常重音的地方是,它的音高范围大,音长更长,音强也往往有所增加。音强一般可用信号的能量、持续时间来表征。语音的韵律特性还有待于进一步研究。

表2.3汉语拼音七个韵母的共振峰频率(Hz)\性别共振峰i衣u乌U迂a啊o喔e鹅er儿男2903802901000530540540F1女3204203201230720750730童3905604001190850880750男23604402160116067010401600F2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论