语音信号处理概况_第1页
语音信号处理概况_第2页
语音信号处理概况_第3页
语音信号处理概况_第4页
语音信号处理概况_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音信号处理

郑能恒nhzheng@人与人之间、人与机器之间的语音信息处理过程(人)行动意图说话方收听方○语言形成发音收听认识·理解传输系统(编码、解码)空间传播文本解析语音合成语音识别文章输入(机器)语音理解计算机处理应答文生成Ⅰ:第一类人机语音通信问题Ⅱ:第二类人机语音通信问题○Ⅰ人与人之间的语音通信Ⅱ语音信号处理的目标就是实现人-人以及人-机间的无障碍信息流通Youcandoit!课程目标初级目标:了解语音信号产生的基本机理;了解数字音频数据(包括语音)的常见格式及应用;掌握语音信号分析的基本原理、语音编码、语音识别、说话人识别、语音合成的原理及其实现过程。高级目标:能够利用所学知识进行语音信号分析与处理进阶目标:能够完成小型语音应用系统的设计开发考核方式:考核方式和评分:考核形式次数评分比例考核时间平时作业240第6~8、11~14周课堂专题讨论1第11~14周期末综合性大作业160第15-18周学习要求:培养学生自主学习的能力。学生应在老师课堂教授的基础上,结合项目作业锻炼自己的资料查找与分析、信号采集与分析、简单系统设计、小组合作以及口头报告等综合能力。辅助分析软件工具:MATLABWaveSurferhttp://www.speech.kth.se/wavesurfer/VoiceBoxhttp://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html语音识别系统开发工具绪论:语音信号处理的一些基本概念什么是语音信号处理?语音信号处理简称语音处理,是以语音学和数字信号处理为基础而形成的一门综合性学科,处理的目的是要得到一些语音参数以便高效的传输或存储,或者通过信号处理以达到某种特定用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。语音的定义语音是人类发音器官发出的、具有一定意义的、能起社会交际作用的声音。能够代表一定的意义,这是语言的声音(语音)同自然界其他一切声音的本质区别。语音同它所代表的语义是相互依存的统一体,一方面,发音器官发出的声音必须同语义紧密结合、成为一定意义的代表,才能成为语音;另一方面,意义必须借助声音才能成为可被人感知、被人接受的东西,没有声音,意义便无法表达出来。语音是一种具有多重属性的声音。首先,它同自然界其他声音一样,是由物体振动产生声波而形成的一种自然现象,所以它具有自然(物理)属性;语音又是人类的生理现象,发音是人体器官的动作,因此,它同时具有生理属性;作为语言这一特殊社会现象的物质基础,语音又具有社会属性,这是语音的本质属性。我们在分析语音现象的时候,这三种属性都会涉及到。语音学语音学是研究语音过程的科学,包括发音语音学、声学语音学和听觉语音学三大分支。发音语音学研究发音器官在发音过程中的运动和语音的音位特征;声学语音学研究语音的物理属性,如语音声波的频率、振幅以及频谱特性等;听觉语音学研究听觉和语音感知。语音的属性—物理(声学)属性

物体由于某种外力的作用发生振动,并引起周围空气或其他媒介物质的振动,产生了振动波─声波,声波作用于耳鼓膜,使之产生同样的振动,刺激听觉神经,人就感觉到了声音。语音也是这样产生、传递与接收的。物理声学认为声波具有音高、音强、音长、音色四种要素,语音同样是这四种要素的统一体。

GO例:音高、音强、音长声波频率声压变化可以是周期性的和非周期性频率概念循环(cycle)-压缩/稀薄过程频率(frequency):每秒cycle数,单位hertz(Hz)周期–

cycle的持续时间(1/frequency)声音信号一般由许多频率不同的信号组成,称为复合信号;而单一频率的信号称为纯音信号。频率范围音频(Audio)信号----人的听觉器官能感知的声音,频率范围约为20Hz~20000Hz;一般认为,语音信号中对于听音辨义最有用的频率成分在60-4000Hz之间,一般电话语音的频带在300-3400Hz之间。次声波(subsonic)----频率低于20Hz的信号;超声波(ultrasonic)----频率高于20kHz的信号。超声波及次声波一般不能引起人听觉器官的感觉,但可借助一些仪器设备进行观察和测量语音的物理属性—音高

音高指声音的高低,它取决于发音体振动的快慢(频率)。发音体振动越快,发出的声音越高,反之声音则低。频率的高低是由物体自身的质量、松紧度、长短等项因素决定的,大而沉、粗而厚、长而松的物体振动慢,声音低;小而轻、细而薄、短而紧的物体振动快,声音高。语音的高低则与声带的长短、厚薄、松紧有关。通常,儿童和一般妇女的声带比成年男子的声带短而薄,所以声音高;而声音低的人的声带相对来说长而厚,如成年男子,女中、低音声乐演员,老人等。同一个人发出的声音有高低变化,则是靠控制声带的松紧来调节的。

跟音高对应的物理量是频率(基频)语音的物理属性—音强

音强是指声音的强弱,它取决于发音体振动幅度的大小。振幅大,发出的声音强度就大,振幅小,声音就弱。振幅的大小由引起物体振动的外力的大小决定。语音的强弱同发音时呼出气流量的大小和说话人用力的大小有关。发音时用力大,冲击声带或其他发音部位的气流强,语音就强。跟音强对应的物理量是能量语音的物理属性—音质(音色)

音质又叫音色,是一个声音能区别于其他声音的本质特点。声波的振动方式与共鸣器的共振作用,都决定着音质的差别。

世界上的声音很少是只有一种单纯频率的纯音,绝大多数声音都是由许多个频率和振幅不同的声波组成的复合音。复合音的各成分声波之间频率和振幅相互影响,形成了特定的波形,产生出特定的音质。

从波形上看,音质可分为两类──噪音与乐音。噪音由许多无规则的音波合成,它们的音高和强度随时在变化,相互之间没有一定的关系,合成的波形杂乱而无规律。这种声音听起来刺耳、嘈杂,如刹车声,电锯锯木声,马路上车驰笛鸣的喧闹声等等。语音中也有不少噪音成分,如辅声中的塞音、擦音、塞擦音等等。

乐音由若干规则的纯音组成,形成的复合音波有周期性,很有规律,这样的声音听起来和谐、悦耳,歌声、乐声和语音中的元音,都是这样的声音。

语音的物理属性—音质从语音的产生上看,造成不同音质的发音条件有三种:发音体不一样,口琴和笛子的音质不同,因为口琴的发音体是金属簧片,笛子的发音体是竹膜。发音方法不一样,拍手掌发出的是“啪啪”声,两手掌来回搓发出的是“擦擦”声。在语音中,用阻碍气流的方法发出的是辅音,用不阻碍气流的方法发出是就是元音。共鸣器形状不同。共鸣器有自己的振动频率,它会同跟自己频率相同或相近的音波产生共振,把它加强,其它频率的音波就会被抑制或消耗。不同形状的共鸣器频率不一样,产生的共振结果也不一样。对于语音来说,口鼻腔就是共鸣器,一个人不断改变口形就会发出不同的音。共鸣器形状对语音音质的区分还有另一方面的意义。倘若男女老少四人来发一个a音,他们的声带长短厚薄及韧性等各有差异,产生的音波肯定是不同形式的,但我们除了听出是四个人的声音外,总还是听到了同一个韵母的音质。语音的物理属性—音长

音长指声音的长短,也就是声波延续的时间长度,它取决于发音体振动持续的时间。在语音中,再长的音实际上也很短,音长一般决定于发音动作持续的时间。

在四要素中,音高、音强、音色总是随着声波

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论