第1章语音信号处理绪论_第1页
第1章语音信号处理绪论_第2页
第1章语音信号处理绪论_第3页
第1章语音信号处理绪论_第4页
第1章语音信号处理绪论_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 语音信号处理语音信号处理Speech Signal Processing主讲:莫秉戈主讲:莫秉戈 学时:学时:32学时(理论学时(理论26+实验实验6) 学分:学分:2学分学分广东海洋大学广东海洋大学 信息学院信息学院语音信号处理语音信号处理联系方式o姓名:莫秉戈姓名:莫秉戈o电话电话Email:bingge_ 教科书教科书语音信号处理语音信号处理赵力编著,语音信号处理赵力编著,语音信号处理M,机械工业出版社机械工业出版社,2009课程情况及要求:课程情况及要求:o 地位:是电子、通信工程专业的方向模块课地位:是电子、通信工程专业的方向模块课n 基本要求:基本要求:

2、1) 掌握语音信号处理的基本理论、基本分析方法;掌握语音信号处理的基本理论、基本分析方法;2) 了解在语音信号处理领域中相关研究热点;了解在语音信号处理领域中相关研究热点;3) 激发对语音处理相关研究方向中的有关兴趣;激发对语音处理相关研究方向中的有关兴趣;4) 结合结合MATLAB,实践性掌握相关分析方法。,实践性掌握相关分析方法。n 学习方法:学习方法:1)理论学习:还包括多种形式的自主学习,如网上学习、理论学习:还包括多种形式的自主学习,如网上学习、课外阅读、主题调查、读书报告、分组讨论等。课外阅读、主题调查、读书报告、分组讨论等。2)实验学习:结合理论学习,开展自主学习和自主研究实验学

3、习:结合理论学习,开展自主学习和自主研究设计型实验。设计型实验。主要内容与学时主要内容与学时o4学时学时o第一篇:语音信号处理基础第一篇:语音信号处理基础o共共10学时学时o第二篇:语音信号分析第二篇:语音信号分析o共共12学时学时o第三篇:语音信号处理技术与应用第三篇:语音信号处理技术与应用o 先修课程先修课程o 数字信号处理、概率论与数理统计和随数字信号处理、概率论与数理统计和随机过程、信号与系统、机过程、信号与系统、Matlab等,本课等,本课程主要是介绍语音信号处理的基础理论程主要是介绍语音信号处理的基础理论和基本算法,另外,本课程与实践联系和基本算法,另外,本课程与实践联系紧密,要掌

4、握一定的编程方法和能力。紧密,要掌握一定的编程方法和能力。能够独立完成相应的算法程序。能够独立完成相应的算法程序。1. 1.胡航胡航 编著编著,语音信号处理语音信号处理,哈尔滨工业大哈尔滨工业大学出版社学出版社 2000年年3月月2.王炳锡王炳锡 编著编著,语音编码语音编码,西安电子科技西安电子科技大学出版社大学出版社 2002年年6月月3.杨行峻杨行峻 等编著等编著,语音信号数字处理语音信号数字处理 电子电子工业出版社工业出版社,1995年年8月月4.易克初易克初 田斌等田斌等 编著编著,语音信号处理语音信号处理, 国防工业出版社国防工业出版社 2000年年6月月参考网站参考网站o 1 ht

5、tp:/ 百思论坛百思论坛南大学生刘靖康破解周鸿炜手机号码,李开复发求贤邀请南大学生刘靖康破解周鸿炜手机号码,李开复发求贤邀请李开复简介李开复简介 李开复(李开复(1961年年12月月3日)是一日)是一位信息产业公司的执行官和计算机科学位信息产业公司的执行官和计算机科学的研究学者。的研究学者。1998年,李开复加盟微年,李开复加盟微软公司,并随后创立了微软中国研究院软公司,并随后创立了微软中国研究院(现微软亚洲研究院)。(现微软亚洲研究院)。2005年年7月加月加入入Google(谷歌)公司,并担任(谷歌)公司,并担任Google(谷歌)全球副总裁兼中国区(谷歌)全球副总裁兼中国区总裁一职。总

6、裁一职。2009年年9月宣布离职并创办月宣布离职并创办创新工场任董事长兼首席执行官。创新工场任董事长兼首席执行官。创新工厂创新工厂 创新工场(英文创新工场(英文Innovation Works)由李开)由李开复博士创办于复博士创办于2009年年9月,是一家致力于早期阶段投月,是一家致力于早期阶段投资,并提供全方位创业培育的投资机构。创新工场是资,并提供全方位创业培育的投资机构。创新工场是一个全方位的创业平台,旨在培育创新人才和新一代一个全方位的创业平台,旨在培育创新人才和新一代高科技企业。创新工场通过针对早期创业者需求的资高科技企业。创新工场通过针对早期创业者需求的资金、商业、技术、市场、人力

7、、法律、培训等提供一金、商业、技术、市场、人力、法律、培训等提供一揽子服务,揽子服务, 帮助早期阶段的创业公司顺利启动和快速帮助早期阶段的创业公司顺利启动和快速成长。同时帮助创业者开创出一批最有市场价值和商成长。同时帮助创业者开创出一批最有市场价值和商业潜力的产品。创新工场的投资方向将立足信息产业业潜力的产品。创新工场的投资方向将立足信息产业最热门领域:移动互联网、消费互联网、电子商务和最热门领域:移动互联网、消费互联网、电子商务和云计算云计算Siri系统系统o Siri是苹果公司在其产品是苹果公司在其产品iphone 4S上应用的上应用的一项语音控制功能。一项语音控制功能。Siri可以令可以

8、令iPhone4S变身变身为一台智能化机器人,利用为一台智能化机器人,利用Siri用户可以通过手用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟机读短信、介绍餐厅、询问天气、语音设置闹钟等。等。Siri可以支持自然语言输入,并且可以调用可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话用。还能够不断学习新的声音和语调,提供对话式的应答。式的应答。Siri十大功用十大功用o 1.Siri 变身闹钟变身闹钟o 2.用用 Siri 寻找咖啡厅寻找咖啡厅o 3.想去哪,想去哪,Siri

9、 告诉你告诉你o 4.用用 Siri 播放随机音乐播放随机音乐o 5.发送短信,发送短信,Siri 代劳代劳o 6.天气预报,天气预报,Siri 知道知道o 7.用用Siri提醒日程安排提醒日程安排o 8.用用 Siri 提醒地点提醒地点o 9.Siri 为你答疑解惑为你答疑解惑o 10.用用 Siri 发推特发推特绪论绪论前言前言1) 听说读写听说读写;耳聪目明耳聪目明;2)语音和图像语音和图像重要的感知媒体重要的感知媒体3)对语音和图像的分析处理对语音和图像的分析处理媒体计算的主要研究对象和内容媒体计算的主要研究对象和内容4)语音:新一代自然人机交互的关键之一语音:新一代自然人机交互的关键

10、之一5)信号处理信号处理模式识别模式识别人工智能人工智能1.语音与语言语音与语言1)语言(语言(Language)人与人间的沟通工具人与人间的沟通工具组成组成PhonemeWord formationGrammarText2)语音语音o语音是带有语言信息的声音,是语音是带有语言信息的声音,是Acoustic(声音声音)和)和Language(语言语言)的组合体。)的组合体。o语音的功能是区别不同的语言符号。语音的功能是区别不同的语言符号。我国的语音我国的语音我国普通话以北京语音为标准音,以北方话为基础方言,以典范我国普通话以北京语音为标准音,以北方话为基础方言,以典范的白话文著作为语法规范的现

11、代汉民族共同语言。八大方言的白话文著作为语法规范的现代汉民族共同语言。八大方言:1)北方方言(以黄河流域为中心,分布在东北、长江流域中部、北方方言(以黄河流域为中心,分布在东北、长江流域中部、西南);西南);2)吴方言(上海地区、江苏省东南部、浙江省大部分地区);吴方言(上海地区、江苏省东南部、浙江省大部分地区);3)湘方言(湖南省);湘方言(湖南省);4)客家方言(福建、广东、广西);客家方言(福建、广东、广西);5)闽北方言(福建北部、台湾);闽北方言(福建北部、台湾);6)闽南方言(福建南部、广东、潮汕、海南岛);闽南方言(福建南部、广东、潮汕、海南岛);7)粤方言(广东中部、广西中南部

12、)。粤方言(广东中部、广西中南部)。8)赣方言(江西省);赣方言(江西省);问题问题什么样的声什么样的声音是语音?音是语音?2.语音与声音(一)语音与声音(一)语音是人类发音器官发出的、具有一定意义的、能起社语音是人类发音器官发出的、具有一定意义的、能起社会交际作用的声音。会交际作用的声音。能够代表一定的意义,这是语能够代表一定的意义,这是语言的声音同自然界其他一切声音的本质区别言的声音同自然界其他一切声音的本质区别。1)1)钟声、风声、动物叫声、机器声钟声、风声、动物叫声、机器声? ?2)2)打喷嚏、打嗝儿、打哈欠、咳嗽打喷嚏、打嗝儿、打哈欠、咳嗽? ?3)3)吹口哨、口技演员的表演、哭、笑

13、吹口哨、口技演员的表演、哭、笑? ?虽然也传递出了虽然也传递出了某种信息某种信息病了,病了,饱了,困了或是饱了,困了或是醒了,但声音的醒了,但声音的发出不是为了交发出不是为了交际,而是人体本际,而是人体本能的生理反映;能的生理反映;这些声音的发出是有目的的,是一这些声音的发出是有目的的,是一定的心理活动的表现,但声音同意定的心理活动的表现,但声音同意义之间没有固定的结合关系,不能义之间没有固定的结合关系,不能成为代表意义的声音符号,只能表成为代表意义的声音符号,只能表示情绪,展示技巧。以上这些声音示情绪,展示技巧。以上这些声音都不是语言。都不是语言。语音与声音(二)语音与声音(二)o语言的声音

14、同它所代表的意义是相互依存的语言的声音同它所代表的意义是相互依存的统一体,统一体,一方面,发音器官发出的声音必须一方面,发音器官发出的声音必须同意义紧密结合、成为一定意义的代表,才同意义紧密结合、成为一定意义的代表,才能成为语音;另一方面,意义必须借助声音能成为语音;另一方面,意义必须借助声音才能成为可被人感知、被人接受的东西,没才能成为可被人感知、被人接受的东西,没有声音,意义便无法表达出来。有声音,意义便无法表达出来。o语音是一种具有多重属性的声音。语音是一种具有多重属性的声音。1)1)自然属性自然属性; ;2)2)生理属性生理属性;3);3)社会属性社会属性3.语音频率范围语音频率范围1

15、)频率小于频率小于20Hz 一般称为次声波(一般称为次声波(subsonic)2)人的听觉器官能感知的声音频率范围约为人的听觉器官能感知的声音频率范围约为20Hz20kHz的信号称为音频的信号称为音频(Audio)信号信号n 人发音器官发声频率约是人发音器官发声频率约是803400Hz,但,但人说话的信号频率约为人说话的信号频率约为3003000Hz,即,即话音话音(speech)信号信号3)高于高于20kHz的信号称为超声波的信号称为超声波 (ultrasonic)超声波及次声波一般不能引起人听觉器官的感超声波及次声波一般不能引起人听觉器官的感觉,但可借助一些仪器设备进行观察和测量觉,但可借

16、助一些仪器设备进行观察和测量4.语音信号处理语音信号处理o 语音信号处理:语音信号处理:简称语音处理,是与数字信简称语音处理,是与数字信号处理、语言学、心理学、计算机科学、模号处理、语言学、心理学、计算机科学、模式识别和人工智能等相结合的交叉学科。式识别和人工智能等相结合的交叉学科。o 处理的目的:处理的目的:是要得到一些语音参数以便高是要得到一些语音参数以便高效的传输或存储,或者通过处理的某种运算效的传输或存储,或者通过处理的某种运算以达到某种用途的要求,例如人工合成出语以达到某种用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。音,辨识出说话者,识别讲话的内容等。它包括语音编

17、码、语音合成、语音识别和说话它包括语音编码、语音合成、语音识别和说话人识别四大分支。人识别四大分支。o 说的是什么内容?说的是什么内容?o 是谁在说话?是谁在说话?o 计算机去说话?计算机去说话?o 怎么把话说好?怎么把话说好?语音识别语音识别声纹识别声纹识别语音合成语音合成说话水平评估说话水平评估o 说的是什么语言?说的是什么语言?语种识别语种识别语音处理研究的基本内容语音处理研究的基本内容4.1 语音编译码器语音编译码器A/D语音编码信道编码信道信道译码语音译码D/A4.2 语音合成语音合成(Speech synthesis)o 定义:语音合成技术是指将文本信息转定义:语音合成技术是指将文

18、本信息转换为语音数据,然后以语音的方式播放换为语音数据,然后以语音的方式播放出来。出来。o 文字转语音文字转语音(Text-to-speech)将任将任意文字转换成语音的系统,意文字转换成语音的系统,即让机器说即让机器说话话语音合成的应用:电话查询业务、语音信箱、语音合成的应用:电话查询业务、语音信箱、银行报号器、语音聊天室,公共汽车或电车的银行报号器、语音聊天室,公共汽车或电车的自动报站等自动报站等4.3 语音识别语音识别( Speech Recognition)o 定义:计算机语音识别的目的是让计算机能够定义:计算机语音识别的目的是让计算机能够听懂人的话。听懂人的话。o 语音识别实际上是一

19、个语音识别实际上是一个模式识别匹配模式识别匹配的过程。的过程。首先根据人的语言特征建立语音模型,对输入首先根据人的语言特征建立语音模型,对输入的语音信号进行分析,抽取相应的特征,建立的语音信号进行分析,抽取相应的特征,建立模板,在识别过程中,将计算机中存放的语音模板,在识别过程中,将计算机中存放的语音模板与输入的语音信号特征进行比较。从而识模板与输入的语音信号特征进行比较。从而识别说话人的语音指令以及文字内容别说话人的语音指令以及文字内容如:英国的如:英国的WebfloristsWebflorists网上花站利用互联网和语音识别网上花站利用互联网和语音识别技术接收和处理鲜花订单。技术接收和处理

20、鲜花订单。北京中科院研究一种将语音识别技术应用于电视,控制电北京中科院研究一种将语音识别技术应用于电视,控制电视的开关和转换频道。视的开关和转换频道。4.4 说话人识别技术说话人识别技术(Speaker Recognition)o 定义:说话人识别技术是以话音对说话人进行定义:说话人识别技术是以话音对说话人进行区分,从而进行身份鉴别与认证的技术,通过区分,从而进行身份鉴别与认证的技术,通过说话人识别可以利用人本身的生物特征进行身说话人识别可以利用人本身的生物特征进行身份鉴别。份鉴别。o 通过分析人的发声和听觉,为每个人建立一个通过分析人的发声和听觉,为每个人建立一个数学模型,然后由计算机对模型

21、和实际输入的数学模型,然后由计算机对模型和实际输入的语音进行精确的匹配,根据匹配的结果便人说语音进行精确的匹配,根据匹配的结果便人说话人是谁。话人是谁。应用:公安部门进行语音验证,为一般的用户提供应用:公安部门进行语音验证,为一般的用户提供防盗门开启功能,语音拨号,电话银行,电话购物,防盗门开启功能,语音拨号,电话银行,电话购物,语音语音E-mail,信息服务等,信息服务等.语音分析工具: MATLAB, PRAAT, SFSSFS:Speech Filing System 5.语音信号处理技术的发展(一)语音信号处理技术的发展(一) 语音信号处理是许多信息领域应用语音信号处理是许多信息领域应

22、用的核心技术之一,是目前发展最为迅速的核心技术之一,是目前发展最为迅速的信息科学研究领域中的一个。语音信的信息科学研究领域中的一个。语音信号处理是目前极为活跃和热门的研究领号处理是目前极为活跃和热门的研究领域,其研究涉及一系列前沿科研课题,域,其研究涉及一系列前沿科研课题,且处于迅速发展之中;其研究成果具有且处于迅速发展之中;其研究成果具有重要的学术及应用价值。重要的学术及应用价值。5.语音信号处理技术的发展(二)语音信号处理技术的发展(二)o 1940年前后年前后Duley的声码器和的声码器和Potter等人的可见等人的可见语音开始;语音开始;o 1952贝尔实验室首次研制成功能识别是个英语

23、数字贝尔实验室首次研制成功能识别是个英语数字的实验装置;的实验装置;o 1956年年Olson等采用等采用8个带通滤波器组提取频谱参个带通滤波器组提取频谱参数作为语音的特征,研制成一台简单的语音打字机;数作为语音的特征,研制成一台简单的语音打字机;o 20世纪世纪60年代,年代,Faut等奠定了语音生成的理论基等奠定了语音生成的理论基础,在此基础上语音合成的研究得到了扎实的进展;础,在此基础上语音合成的研究得到了扎实的进展;o 20世纪世纪60年代数字信号处理技术的发展成为语音信年代数字信号处理技术的发展成为语音信号处理理论和技术基础;号处理理论和技术基础;语音信号处理技术的发展(二)语音信号

24、处理技术的发展(二)o 1970年单词识别机装置开始实用化;声纹年单词识别机装置开始实用化;声纹识别及说话人识别的研究开展起来;识别及说话人识别的研究开展起来;o 1971年美国年美国ARPR主导的主导的“语音理解系统语音理解系统”的研究计划开始起步;的研究计划开始起步;o 20世纪世纪70年代中期年代中期LPC(线性预测技术)(线性预测技术)和和HMM(隐马尔可夫法)应用于语音信号(隐马尔可夫法)应用于语音信号处理;处理;o 20世纪世纪70年代末矢量量化技术用于语音编年代末矢量量化技术用于语音编码获得了成功;码获得了成功;语音信号处理技术的发展(三)语音信号处理技术的发展(三)o 20世纪

25、世纪80年代,矢量量化、隐马尔可夫模型、人年代,矢量量化、隐马尔可夫模型、人工神经网络等相继被用于语音信号处理,使得语音工神经网络等相继被用于语音信号处理,使得语音信号处理技术产生了突破性的进展;信号处理技术产生了突破性的进展;o 20世纪世纪90年代,语音识别逐渐由实验室走向实用年代,语音识别逐渐由实验室走向实用化;语音合成已在自动报时、报警、报站、电话查化;语音合成已在自动报时、报警、报站、电话查询服务等方面得到了广泛应用;语音编码取得了迅询服务等方面得到了广泛应用;语音编码取得了迅速发展;说话人识别和语种辨识研究的重点装箱参速发展;说话人识别和语种辨识研究的重点装箱参数处理和新的模式匹配

26、方法上;语音信号的情感信数处理和新的模式匹配方法上;语音信号的情感信息的计算机处理,是息的计算机处理,是90年代兴起的一个新的语音年代兴起的一个新的语音信号处理研究领域;抗噪声技术取得了新的进展;信号处理研究领域;抗噪声技术取得了新的进展;6. 语音信号处理的应用及新方向语音信号处理的应用及新方向1 1)语音识别(传统方向)语音识别(传统方向)基本任务:语音基本任务:语音文本或命令文本或命令应用前景:应用前景:A A、声控应用,计算机识别语音内容,并实施相应的动作。典型、声控应用,计算机识别语音内容,并实施相应的动作。典型系统:声控电话转换、声控语音拨号、声控智能玩具、信息系统:声控电话转换、

27、声控语音拨号、声控智能玩具、信息网络查询、银行、家庭服务等;网络查询、银行、家庭服务等;B B、听写系统,以口授方式将文字输入计算机;、听写系统,以口授方式将文字输入计算机;C C、自动口语翻译,将一种语言翻译成另一种语言,如中科院开、自动口语翻译,将一种语言翻译成另一种语言,如中科院开展的展的CSTARCSTAR计划;计划;D D、人机交互;、人机交互;E E、移动计算设备语音输入;、移动计算设备语音输入;F F、说话人识别,安全加密、法庭取证、银行信息电话查询、公、说话人识别,安全加密、法庭取证、银行信息电话查询、公安机关破案等。安机关破案等。语音信号处理的应用及新方向(续)语音信号处理的

28、应用及新方向(续)2)语音合成(传统方向)语音合成(传统方向)应用:公共交通自动报站,各种场合的自动报时、自应用:公共交通自动报站,各种场合的自动报时、自动告警等,文本校对中的语音提示,电话查询服务;动告警等,文本校对中的语音提示,电话查询服务;应用新领域:与应用新领域:与Internet结合,有声结合,有声EMAIL,网上,网上信息的有声获取、语音聊天等;与机器翻译技术结信息的有声获取、语音聊天等;与机器翻译技术结合的语音翻译;与图象、视频技术结合的视觉合的语音翻译;与图象、视频技术结合的视觉(visual speech) 语音。语音。研究方向:高质量、高清晰度自然语音合成,以及表研究方向:高质量、高清晰度自然语音合成,以及表达人类的情感语音。达人类的情感

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论