语音信号处理绪论课件_第1页
语音信号处理绪论课件_第2页
语音信号处理绪论课件_第3页
语音信号处理绪论课件_第4页
语音信号处理绪论课件_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音信号处理石 钧2009.09第一章 绪论数字语音处理研究的内容语音处理的发展历史语音信息的重要性 人类从大自然获取信息的分布图数字语音处理研究的内容语音信号处理的实质语音信号的数字表示语音信号数字处理的方法和技术数字语音处理的应用返回1.语音信号处理的实质1.实质:是研究用数字信号处理技术对语音信号进行处理的一门学科2.目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。通过对语音信号进行某种运算以达到某种要求。1.语音信号处理的实质3.学科基础:以语音语言学和数字信号处理为基础而形成的一门涉及面很广的学科,与心理学、生理学、计算机科学、通信与信息

2、科学、模式识别和人工智能等学科均有密切的关系。 返回2. 语音信号的数字表示语音表示方法的选择要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,有用信息更易于被提取;2. 语音信号数字表示的优点数字技术能完成许多很复杂的信号处理工作;语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;2. 语音信号的表示数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务;数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。语音信号的数字表示方法波形表示采样和量化,保持波形参数表示激励源和模型参数(第二章)3.

3、语音信号的数字处理方法语音信号的特点短时平稳性短时时域处理方法短时能量、短时平均过零率以及短时自相关函数计算短时频域分析短时傅立叶分析线性预测技术本质上属于时域分析方法,但其结果可以是频域参数倒谱和同态分析、矢量量化和隐马尔可夫模型语音信号数字处理基本过程 以降低语音发音速率的处理过程为例4. 数字语音处理的应用语音压缩和编码语音通信数字化;语音合成自动报站、自动报时、自动警告、电话自动查询和语音提示等;语音识别声控应用、自动口语翻译;说话人识别安全加密、银行信息电话查询服务以及破案和法庭取证;语音增强通常作为语音处理的前端。 各种语音产品返回语音处理的发展历史1876年电话的发明,贝尔(Be

4、ll);1939年声码器的研制成功声源声道;1947年贝尔实验室发明语谱图仪语音识别研究的开始;50年代第一台口授打字机和英语单词语音识别器;60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;语音处理的发展历史70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;80、90年代语音处理技术产品化IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。CMU语音组研制成功SPHINX系统(997,95.8%);国内,清华大学、中科院声学所和中科院自动化所在汉

5、语听写机研究方面有一定成果。返回语音信号处理的概念语音信号处理简称语音处理,是以语音学和数字信号处理为基础而形成的一门综合性学科.处理的目的:是要得到一些语音参数,以便高效的传输或存储,或者通过处理的某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。它包括语音编码、语音合成、语音识别和说话人识别四大分支。语音的定义语音是人类发音器官发出的、具有一定意义的、能起社会交际作用的声音。能够代表一定的意义,这是语言的声音同自然界其他一切声音的本质区别。人体外的声音自不必说(如钟声、风声、动物叫声、机器声),就是人的发音器官发出的声音,也并非都是语言。语音的定义如打喷嚏、

6、打嗝儿、打哈欠、咳嗽等等,虽然也传递出了某种信息病了,饱了,困了或是醒了,但声音的发出不是为了交际,而是人体本能的生理反映;又如吹口哨、口技演员的表演、哭、笑等等,这些声音的发出是有目的的,是一定的心理活动的表现,不是单纯的生理现象,但声音同意义之间没有固定的结合关系,不能成为代表意义的声音符号,只能表示情绪,展示技巧。以上这些声音都不是语言。语音的定义语言的声音同它所代表的意义是相互依存的统一体,一方面,发音器官发出的声音必须同意义紧密结合、成为一定意义的代表,才能成为语音;另一方面,意义必须借助声音才能成为可被人感知、被人接受的东西,没有声音,意义便无法表达出来。语音的定义语音是一种具有多

7、重属性的声音。首先,它同自然界其他声音一样,是由物体振动产生声波而形成的一种自然现象,所以它具有物理的属性方面的自然属性。语言又是人类的生理现象,发音是人体器官的动作。因此,它同时具有生理属性。作为语言这一特殊社会现象的物质基础,语音又具有社会属性,这是语音的本质属性。我们在分析语音现象的时候,这三种属性都会涉及到。 语音学语音学是研究语音过程的科学,包括发音语音学、声学语音学和听觉语音学三大分支。发音语音学研究发音器官在发音过程中的运动和语音的音位特征;声学语音学研究语音的物理属性,如语音声波的频率、振幅以及频谱特性等;听觉语音学研究听觉和语音感知。语音的属性物理属性 物体由于某种外力的作用

8、发生振动,并引起周围空气或其他媒介物质的振动,产生了振动波 声波,声波作用于耳鼓膜,使之产生同样的振动,刺激听觉神经,人就感觉到了声音。语音也是这样产生、传递与接收的。物理声学认为声波具有音高、音强、音长、音色四种要素,语音同样是这四种要素的统一体。 声波示意(L. A. Rowe )压缩稀薄时间幅度正弦波声波频率声压变化可以是周期性的和非周期性频率概念循环(cycle)- 压缩/稀薄过程频率(frequency):每秒cycle数,单位 hertz (Hz)周期 cycle的持续时间 (1/frequency)声音信号一般由许多频率不同的信号组成,称为复合信号;而单一频率的信号称为分量信号频

9、率范围频率小于20Hz 一般称为次声波(subsonic)人的听觉器官能感知的声音频率范围约为20Hz20kHz的信号称为音频(Audio)信号人发音器官发声频率约是803400Hz,但人说话的信号频率约为3003000Hz,即话音(speech)信号高于20kHz的信号称为超声波 (ultrasonic)超声波及次声波一般不能引起人听觉器官的感觉,但可借助一些仪器设备进行观察和测量语音的物理属性音高 音高指声音的高低,它取决于发音体振动的快慢。发音体振动越快,发出的声音越高,反之声音则低。物体每秒钟振动的次数叫频率,声学把频率作为测定物体振动快慢与声音高低的标准。说声音的频率高就是说发音体在

10、单位时间里振动次数多,它振动得快,发出的声音高,而频率低也就表示声音低。语音的物理属性音高 频率的高低是由物体自身的质量、松紧度、长短等项因素决定的,大而沉、粗而厚、长而松的物体振动慢,音低;小而轻、细而薄、短而紧的物体振动快,音高。语音的高低则与声带的长短、厚薄、松紧有关。通常,儿童和一般妇女的声带比成年男子的声带短而薄,所以声音高;而声音低的人声带相对说长而厚,如成年男子,女中、低音声乐演员,老人等。同一个人发出的声音有高低变化,则是靠控制声带的松紧来调节的。 典型声门脉冲波形Tp为基音周期,倒数为基音频率,用fp表示,取决于声带的尺寸和特性男性说话者的fp大致分布在60-200Hz范围内

11、女性说话者和小孩的fp值在200-450Hz范围内同一个人所发出的声音有高低变化,是靠控制声带的松紧来调节的。语音的物理属性音强 音强是指声音的强弱,它取决于发音体振动幅度的大小。物体振动的幅度叫振幅,振幅大,发出的声音强度就大,振幅小,声音就弱。振幅的大小是由引起物体振动的外力的大小决定的。语音的强弱同发音时呼出气流量的大小和说话人用力的大小有关。发音时用力大,冲击声带或其他发音部位的气流强,语音就强。语音的物理属性音长 音长指声音的长短,也就是声波延续的长度,它取决于发音体振动持续的时间。在语音中,再长的音实际上也很短,音长一般决定于发音动作持续的时间。 语音的物理属性音长 在四要素中,音

12、高音强音色总是随着音波在时间上的延续表现出来的,音长的变化往往会影响到音质音高和音强,语音中就常会出现这种情况。发音,头发如普通话的轻声,读轻声的字,声韵母的音质、声调的音高、音节的强度都可能与读它的本调时不同,但造成轻的决定性因素是音长缩短,轻声字音节的长度只有重读音节长度的一半左右,这使得声韵调原有的音高音强音质来不及完全表现,因而出现变化。 语音的物理属性音质 音质又叫音色,是一个声音能区别于其他声音的本质特点。声波的振动方式与共鸣器的共振作用,都决定着音质的差别。 世界上的声音很少是只有一种单纯频率的纯音,绝大多数声音都是由许多个频率和振幅不同的音波组成的复合音。复合音的各成分波之间频

13、率和振幅相互影响,形成了特定的波形,产生出特定的音质。 语音的物理属性音质 乐音则由若干规则的纯音组成,形成的复合音波有周期性,很有规律,这样的声音听起来和谐、悦耳,歌声、乐声和语音中的元音,都是这样的声音。 语音的物理属性音质 从波形上看,音质可分为两类噪音与乐音。噪音是由许多无规则的音波合成的,它们的音高和强度随时在变化,相互之间没有一定的关系,合成的波形杂乱而无规律。这种声音听起来刺耳、嘈杂。如刹车声,电锯锯木声,马路上车驰笛鸣的喧闹声等等。语音中也有不少噪音成分,如辅声中的塞音、擦音、塞擦音等等。 语音的物理属性音质从音波的产生上看,造成不同音质的发音条件有三种:发音体不一样,口琴和笛

14、子的音质不同,因为口琴的发音体是金属簧片,笛子的发音体是竹膜。发音方法不一样,拍手掌发出的是“啪啪”声,两手掌来回搓发出的是“擦擦”声。在语音中,用阻碍气流的方法发出的是辅音,用不阻碍气流的方法发出是就是元音。语音的物理属性音质共鸣器形状不同。共鸣器有自己的振动频率,它会同跟自己频率相同或相近的音波产生共振,把它加强,其它频率的音波就会被抑制或消耗。不同形状的共鸣器频率不一样,即使是对同一束复合音波,产生的共振结果也不一样。对于语音来说,口鼻腔就是共鸣器,一个人不断改变口形就会发出不同的音。语音的物理属性音质共鸣器形状对语音音质的区分还有另一方面的意义。倘若男女老少四人来发一个a音,他们的声带

15、长短厚薄及韧性等各有差异,产生的音波肯定是不同形式的,但我们除了听出是四个人的声音外,总还是听到了同一个韵母的音质。语音的物理属性音质原因还在共鸣器的形状。不同的人发同一个音时,口鼻腔形状虽然不会绝对相同,但其形状的基本特点是一致的,比如发a时都要把舌面压低,口腔开大,舌根后部的咽腔相对窄小。现在就是四束复合波与同一个形状的共鸣器发生共振了,每人被共振加强的音波在绝对频率上虽不见得一样,但共振频率分布的位置却有共性,这使我们听出了同样的元音。在元音的识别中,音质并不决定于声波的振动形式,而决定于共鸣器形状对共振频率的选择。语音的物理属性音质3.这也说明了在语音传递过程中,准确的发音动作有多么重

16、要,共鸣器形状正是靠发音动作来调节的。 语音的生理属性 人体没有专门用来发音的器官,起发音作用的是呼吸器官和消化器官的一部分,它们的协同动作产生了语音。了解这部分器官的构造、活动方式及对语音的作用,是正确发音、辨音的基础。 语音的生理属性发音器官 发音器官可分三部分。 1 肺和气管肺部呼吸产生的气流是发音的动力,气流通过气管送到喉头,冲击声带或其他发音器官,使之振动,发出声音。 肺本身不能自由扩张收缩,是依靠胸部腹部肌肉群的活动来进行呼吸的。这些肌肉群的活动还可以控制肺部吸入气流量的大小、呼出气流量的强弱及持续时间,影响声音的强弱与长短。 语音的生理属性发音器官 发音器官可分三部分。 2 喉头

17、和声带气管的顶端接着喉头。喉头由几块软骨及它们相连的肌肉、韧带组成,是个能活动的管腔体,声带就长在喉头中间。 声带是一对唇形的韧带,边缘很薄,富有弹性。它一端合并固定在甲状软骨上,不能分开;另一端分别附在两块杓状软骨上。 杓状软骨小而灵活,能在肌肉牵引下转动,使声带拉紧或放松,闭合或打开。 声带中间的空隙叫声门,声门有四种常见状态,语音的生理属性发音器官 发音器官可分三部分。 2 喉头和声带 声带中间的空隙叫声门,声门有四种常见状态,正常呼吸状态,声门敞开,略呈三角形;深呼吸状态,声门大开呈菱形;耳语状,声带前半闭合后半接近,杓状软骨之间形成三角形空隙,叫气声门,气流从这里擦出,基本不触及声带

18、;发音状态,杓状软骨转动向一起合,声带也并拢,声门关闭 语音的生理属性发音器官发声状态时声门下的气流受阻,压力增加,气流冲击声带,声带被冲开又合上,再被冲开,再合上,这样不停地开闭,形成有节奏的颤动。气流从声带间一喷一喷地冲出来,产生了规律的周期波,这就是原始的声带音。声带音只是一种微弱的蜂鸣声,我们是听不见的,经过咽腔、口腔、鼻腔的共鸣作用放大,我们才听到响亮的乐音。声带的颤动是语音中乐音成分的声源。语音的生理属性发音器官声带还同语音的高低有密切关系。杓状软骨的转动可以调节声带的松紧,声带绷紧时和放松时颤动的频率是不一样的,发出的声音高低也不一样。汉语中声调的高低升降变化,就是通过控制声带松

19、紧来实现的。语音的生理属性发音器官3 口腔、鼻腔、咽腔 这一部分器官既是声带音的共鸣器,又是语音中噪音成分的声源。 喉头到小舌之间的条状空间就是咽腔,这是人类特有的。一般动物的声门位置很高,声门与口腔间几乎没有空腔。人的声门位置较低,喉头和口腔间距离拉长,形成了咽腔。有了它,舌头和软腭有了充分的活动空间,可以做出灵活多变的动作,发出动物发不出的复杂声音。同时它还是口腔的延伸,是整个共鸣器的一部分。语音的生理属性发音器官口腔是发音器官中活动最复杂的部分,除牙齿、牙龈、硬腭外,其余部位都可以活动。双唇可做出开闭拢放各种动作,下唇还可以收回同上齿接触。上腭后半部分的软腭与小舌可以上升或下垂,它们的主

20、要作用是改变气流方向。它们上升时,小舌抵住咽壁,挡住鼻腔通道,气流进入口腔;下垂时,鼻腔通道打开,气流可进入鼻腔。 语音的生理属性发音器官舌头是口腔中最活跃的部件,它柔软而灵活,不仅整个舌头可以前后上下移动,它的各部分(舌尖、舌面、舌根)都可以独立活动。舌头多变的动作是口腔形状能出现丰富变化的重要条件。鼻腔不像口腔那样可以变动,它是个形状固定的共鸣腔,但当它与口腔连通时,口腔动作的改变也可以发出不同的鼻音。语音的生理属性发音器官这部分器官通过复杂的动作不断改变共鸣腔的形状,用不同的共振把原始的声带音变成了我们听见的各种声音。口腔还有一部分动作是由某些部位靠近或闭合,阻挡了气流,气流必须发力冲破

21、阻挡或从窄小的通道挤过去,才能到达口鼻腔外。在打通通道的同时,气流就冲击了阻挡它的部位,产生出不规则振动的噪声波。这也就是语音中许多辅音的来源。语音处理研究的基本内容说的是什么内容?是谁在说话?计算机去说话?怎么把话说好?语音识别声纹识别文语转换说话水平评估说的是什么语言?语种识别语音信号处理的内容介绍一下语音学的基本知识语音产生模型清音、浊音的产生机理及特性语音的短时分析特性同态分析和线性预测分析目的:求得一组可以逼近声道的特征矢量和相应的激励信号序列话音编译码器A/D话音编码信道编码信道信道译码话音译码D/A语音合成(Text To Speech)定义:语音合成技术是指将文本信息转换为语音

22、数据,然后以语音的方式播放出来语音合成的应用:电话查询业务、语音信箱、语音聊天室,公共汽车或电车的自动报站等语音合成与传统的数字录音技术不同数字录音技术需要人工录音,语音合成可以利用有限的系统资源将大量的、无限的文本信息转换为语音。就工作量而言,录音需要大量的人力,语音合成的大部分工作由计算机完成,只需要给出文本信息即可语音合成与传统的数字录音技术不同对于一些动态特别是要求实时性的信息,语音合成能够进行实时转换录音信息的存储、查询、维护、修改不如语音合成方便。语音识别(Automatic Speech Recognition)定义:语音识别是指将人们说话的语音信号转换为可以被计算机程序识别的文

23、字信息,从而识别说话人的语音指令以及文字内容应用:自动订票系统,电话查询等语音识别的过程计算机语音识别的目的是让计算机能够听懂人的话语音识别实际上是一个模式识别匹配的过程。首先根据人的语言特征建立语音模型,对输入的语音信号进行分析,抽取相应的特征,建立所需要的模板,在识别过程中,将计算机中存放的语音模板与输入的语音信号特征进行比较。语音识别的例子英国的Webflorists网上花站利用互联网和语音识别技术接收和处理鲜花订单。北京中科院研究一种将语音识别技术应用于电视,控制电视的开关和转换频道说话人识别技术(Speaker Recognition)定义:说话人识别技术是以话音对说话人进行区分,从

24、而进行身份鉴别与认证的技术,通过说话人识别可以利用人本身的生物特征进行身份鉴别。应用领域:公安部门进行语音验证,为一般的用户提供防盗门开启功能,语音拨号,电话银行,电话购物,语音E-mail,信息服务等说话认识别的基本原理通过分析人的发声和听觉,为每个人建立一个数学模型,然后由计算机对模型和实际输入的语音进行精确的匹配,根据匹配的结果便人说话人是谁。语音的基本单位Phoneme (abstract, smallest)音素:清音,浊音 Morpheme 词素 Syllable 音节:元音和辅音构成;(声母和韵母) Word 单词 Phrase 短语 Sentence 句子 Paragraph 段落 Topics, Articles, Stories 主题文章 研究的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论