版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音信号处理基础知识演示文稿第一页,共五十九页。优选语音信号处理基础知识第二页,共五十九页。语音中包含的信息语言(文字)说话人信息:身份、性别、年龄方言:认老乡的主要依据情感(情绪)语种:国外找“亲人”的主要信息来源说话方式(快、慢、耳语)语音品质(口语、朗诵、流畅性、动听度)健康状况:特别是发音器官病变第三页,共五十九页。重要概念语音音节元音、辅音清音、浊音声母、韵母共振峰、音色语谱图、声纹第四页,共五十九页。2.1概述2.2语音和语言2.3汉语语音学2.4语音生成系统和语音感知系统2.5语音信号生成的数学模型2.6语音信号的特性分析第2章语音信号处理的基础知识第五页,共五十九页。
2.2语音和语言语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。一种声音区别于另一种声音的基本特征声音的高低,它取决于声波的频率声音的强弱,声波的振动幅度决定声音的长短叫音长,它取决于发音时间的长短第六页,共五十九页。语音语音(Speech)=声音(Acoustic)+语言(Language),是二者的组合体语音是由一连串的音组成语言的声音第七页,共五十九页。语言是从人们的话语中概括总结出来的规律性的符号系统。2.2语音和语言2.2语音和语言2.2语音和语言不同层次的单位:语素、词、短语和句子语法和语义内容:词法、句法、文脉第八页,共五十九页。2.2语音和语言人的说话的过程:第九页,共五十九页。语音学(Phonetics)是研究言语过程的一门科学。它考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。
现代语音学发展成为三个主要分支:
发音语音学
声学语音学
听觉语音学第十页,共五十九页。2.2语音和语言第十一页,共五十九页。2.2语音和语言
当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音。
第十二页,共五十九页。
2.2语音和语言呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音。发辅音时由声带是否振动引起浊音和清音的区别,声带振动的是浊音,声带不振动的是清音。(b/p)第十三页,共五十九页。
2.2语音和语言决定元音音色的主要因素是舌头的形状及其在口腔中的位置(简称舌位)、嘴唇的形状(简称口形)等。元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(FormantFrequency)的位置和频带宽度(FormantBandwidth)。
一般地说,女声和童声的基频高于男声,但是实验表明:区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。
第十四页,共五十九页。
2.2语音和语言发音器官产生元音的三条件①声道受到声带振动的激励引起共振;②在语音流的持续过程中,声道不发生极端的狭窄,并维持较稳定的形状;③和鼻腔不发生偶合,声音只从口腔辐射出去。这三个条件中,只要缺少其中之一,则该语音就是辅音。辅音没有明确的共振峰结构。辅音发音时的阻碍的位置叫调音点(PlaceofArticulation)、阻碍的方法叫调音方式(MannerofArticulation)第十五页,共五十九页。
2.2语音和语言调音方式等的不同可以把辅音分成如下几类:塞音、摩擦音、塞擦音、鼻音、边音、颤音、通音。根据发辅音时声带有无振动,可以把辅音分类成浊辅音和清辅音。根据辅音除阻后是否紧跟着送出一股气来,可以把辅音分类成送气辅音和不送气辅音。第十六页,共五十九页。2.1概述2.2语音和语言2.3汉语语音学2.4语音生成系统和语音感知系统2.5语音信号生成的数学模型2.6语音信号的特性分析第2章语音信号处理的基础知识第十七页,共五十九页。
2.3汉语语音学汉语语音的特点:
音系简单。这是指音素少、音节少。音节的结构也比较简单。
由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。
有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。
第十八页,共五十九页。
汉语的拼音方法汉语由音素构成声母或韵母。有时,将含有声调(汉语通常认为有五个声调)的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词(其中主要是两音节字构成的两字词,约占74%),最后再由词构成句子。国际上,都是用音标来描述拼音过程的。汉语也不例外。汉语拼音的音标包括:声母表、韵母表和声调符号等。
第十九页,共五十九页。汉语音节的一般结构
汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字每个汉字是一个音节,如将同音字合一处理,则汉语中共有1332个有调音节,其中可以单念的有1268个。汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻声。如果不考虑声调,则汉语中无调音节共有407个。
汉语音节的一般结构,由9个部分组成。其中1~4段属于声母(辅音),6~9段属于韵母(元音),第5段是二者的过渡段。一个音节可能只包含里面的某几段,但是第7段(主要元音段)是每个音节是具有的。
第二十页,共五十九页。汉语音节的一般结构第二十一页,共五十九页。汉语声母的结构
普通话中的22个声母可分为六大类:擦音塞音塞擦音边音鼻音零声母除零声母之外,其他所有的声母全部都是单辅音。
第二十二页,共五十九页。汉语韵母的结构
普通话的38个韵母大致可以分为三类8个单韵母,如[a]、[i]、[u]等14个复韵母,如[ai]、[ao]等16个鼻韵母如[an]、[uang]等在这38个韵母中有三个(-i、er、ê)是特殊韵母。应该注意,元音并不等于韵母。元音、辅音是按音素的发音特征分类的;而声母、韵母则是按音节结构分类的。这是两种不同的概念,尽管它们之间有一定的联系。
第二十三页,共五十九页。声母和韵母的相互作用——音征互载
在普通话里,声母和韵母的音征并不总是在各自的音段之内,而且又可能跨越两者的边界,即声母里可能会带有韵母的信息,韵母里也可能带有声母的信息,如辅音音渡。如果把韵母从元音起始就开始算起的话,那么音渡就是韵母中载带的辅音音征,对于某些辅音来说,如不送气塞音[b]、[d],元音里的音渡正是它们之间相互区别的主要音征。而韵母中的某些音征有声带载带的现象,最典型的就是介音的实现方式。第二十四页,共五十九页。汉语的声调汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的汉字。汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声”等五种声调。声调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段中基音周期随时间的变化产生了声调,变化的轨迹称为声调曲线。
第二十五页,共五十九页。汉语的声调汉语普通话四种声调的典型曲线:
第二十六页,共五十九页。2.1概述2.2语音和语言2.3汉语语音学2.4语音生成系统和语音感知系统2.5语音信号生成的数学模型2.6语音信号的特性分析第2章语音信号处理的基础知识第二十七页,共五十九页。2.4语音生成系统和语音感知系统语音发音系统
人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道(VocalTract)。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变,而发出不同的语音。
第二十八页,共五十九页。语音听觉系统人耳由内耳、中耳和外耳三部分组成。外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换,即将中耳两端的声阻抗匹配起来,同时对内耳起着保护的作用。内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器,把声音通过机械变换产生神经发放信号。
第二十九页,共五十九页。语音听觉系统人的听觉系统
第三十页,共五十九页。语音听觉系统人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。时间掩蔽:同时掩蔽和短时掩蔽频率掩蔽第三十一页,共五十九页。2.1概述2.2语音和语言2.3汉语语音学2.4语音生成系统和语音感知系统2.5语音信号生成的数学模型2.6语音信号的特性分析第2章语音信号处理的基础知识第三十二页,共五十九页。
2.5语音信号生成的数学模型所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。建立语音信号的数字模型,才能用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。
第三十三页,共五十九页。
2.5语音信号生成的数学模型理想的模型是线性的和时不变的。语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。
第三十四页,共五十九页。激励模型激励模型一般分成浊音激励和清音激励来讨论。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下:
N1为斜三角波上升部分的时间,N2为其下降部分的时间。第三十五页,共五十九页。喉内窥镜图像声门波曲线声门及声门波第三十六页,共五十九页。激励模型单个斜三角波波形的频谱的图形如图2-18所示。由图可见,它是一个低通滤波器。它的变换的全极模型的形式是:c是一个常数。显然,上式表示斜三角波形可描述为一个二极点的模型。因此,斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。第三十七页,共五十九页。激励模型单位脉冲串及幅值因子则可表示成下面的z变换形式:所以,整个浊音激励模型可表示为:也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。第三十八页,共五十九页。
声道模型目前最常用的有两种:声管模型、共振峰模型声管模型:把声道视为由多个等长的不同截面积的管子串联而成的系统。共振峰模型:把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。
第三十九页,共五十九页。声道模型级联型这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。传输函数可分解表示为多个二阶极点的网络的串联:
第四十页,共五十九页。声道模型级联型第四十一页,共五十九页。声道模型并联型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下:
通常,N>R,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。如图2-21所示(M=5)。第四十二页,共五十九页。声道模型并联型第四十三页,共五十九页。声道模型混合型上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。
第四十四页,共五十九页。声道模型混合型共振峰模型
第四十五页,共五十九页。辐射模型从声道模型输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。当然,从理论上推导这个阻抗是有困难的。但是如果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下:式中,,这里,是口唇张开时的开口半径,是声波传播速度。图2-24显示了辐射阻抗的实部和虚部的频率响应曲线。由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型是一阶类高通滤波器。
第四十六页,共五十九页。语音信号的数学模型
综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。如图所示:
它的传输函数可以表示为:第四十七页,共五十九页。语音信号的数学模型这里,U(z)是激励信号,浊音时U(z)是声门脉冲即斜三角形脉冲序列的z变换;在清音的情况下,U(z)是一个随机噪声的z变换。V(z)是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。实际上就是全极点模型:上式所示模型的内部结构并不和语音产生的物理过程相一致,但这种模型和真实模型在输出处是等效的。第四十八页,共五十九页。2.1概述2.2语音和语言2.3汉语语音学2.4语音生成系统和语音感知系统2.5语音信号生成的数学模型2.6语音信号的特性分析第2章语音信号处理的基础知识第四十九页,共五十九页。2.6语音信号的特性分析语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以及语音信号的统计特性等。在时间域里,语音信号可以直接用它的时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。第五十页,共五十九页。语音信号的时域波形
下图是汉语拼音“souke”的时间波形。表示这段语音波形时采用的采样频率是8kHz,量化精度是16bit。从B点开始的音节[OU]从D点开始的音节[e]元音具有明显的周期性,且振幅较大清辅音的波形类似于白噪声,振幅很小,没有明显的周期性从A点开始的音节[s]从C点开始的音节[k]第五十一页,共五十九页。Waveformfor“Kaimen”第五十二页,共五十九页。元音的准平稳特征长约200ms的元音“a”的波形图长约45ms的元音“a”的波形图长约15ms的元音“a”的波形图第五十三页,共五十九页。背景噪音辅音辅音和背景噪声的波形第五十四页,共五十九页。语音信号的频谱特性语音信号属于短时平稳
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 变更离婚协议书样本
- 2023房屋租赁合同协议书模板七篇
- 2025变更离婚协议书范本
- 蝶骨脑膜瘤的眼眶病变病因介绍
- (2024)智慧冷链物流产业园项目可行性研究报告写作模板(一)
- 2023年电子浆料金浆、银浆、银铂浆项目融资计划书
- 2023年制药用水设备项目融资计划书
- 热工基础习题库含答案
- 《膝关节幻灯》课件
- 养老院老人生日庆祝活动制度
- 安全生产培训课件
- 《人力资源招聘体系》课件
- FOCUS-PDCA改善案例-提高术前手术部位皮肤准备合格率医院品质管理成果汇报
- 期末(试题)-2024-2025学年人教PEP版英语六年级上册
- 专题07:回忆性散文阅读(考点串讲)
- 2024年云南省昆明滇中新区公开招聘20人历年(高频重点复习提升训练)共500题附带答案详解
- 医院检验科实验室生物安全程序文件SOP
- 学问海鲜智慧树知到期末考试答案2024年
- 教你成为歌唱达人智慧树知到期末考试答案2024年
- 供应商调查评价表(简易版)
- 写字楼保洁服务投标方案
评论
0/150
提交评论