语音信号处理绪论课件_第1页
语音信号处理绪论课件_第2页
语音信号处理绪论课件_第3页
语音信号处理绪论课件_第4页
语音信号处理绪论课件_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.1概述1.2语音识别发展概况1.3语音编码发展概况1.4语音合成发展概况1.5语音处理的其他分支第1章绪论噪声环境下语音处理系统性能急剧下降说话人发音方式、口音变化等将导致系统性能下降

训练和测试数据差异较大时,系统性能将下降……车载语音:汽车导航、空调、车窗、影音等的语音控制呼叫中心:交互式语音应答的补充、服务质量评估、增强安全性等

移动终端:语音秘书、语音播报、语音输入法、语音听写系统 教育和娱乐:语音教具、语音(普通话)评测、智能语音家电和玩具公共安全及服务:语音监听与跟踪、家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等卡耐基梅隆大学、剑桥大学、爱丁堡大学、华盛顿大学、清华大学、中科大、中科院等一直从事语音处理研究

2011年苹果公司推出Siri(Iphone4S的语音控制功能)2010年科大讯飞推出新一代“语音云”平台2011年腾讯公司推出QQ云语音面板Nuance,Google,微软,IBM,百度,盛大,华为等也投入巨资第1章绪论为什么要学习和研究语音信号处理技术?

1.1概述语音是最自然、最有效、最方便的人机(人与人)交互手段

国内外各大公司(研究机构)一直从事语音信号处理研究

语音信号处理技术用途非常广泛

语音信号处理技术远未成熟,需进一步改进语音信号处理技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展比如:机器学习、小波分析、模式识别、神经网络、人工智能等人的言语过程

想说说出传输接收理解语音合成语音编码语音识别说话人识别计算机第1章绪论1.1概述语音识别和语音合成是实现人机语音通信,建立一个有听和说能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。第1章绪论1.1概述语音信号处理的主要分支

语音识别SpeechRecognition语音合成SpeechSynthesis语音编码SpeechCoding

对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并进行数字传输。分为波形编码、参量编码(音源编码)和混合编码。利用计算机和一些专门装置模拟人,制造语音的技术。TTS(文语转换)技术隶属于语音合成。语音识别原理框图让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。主要包括特征提取、模式匹配及模型训练技术。语音信号处理发展概况:起步很早、尚未完全成熟1791年,WolfgangvonKempelen构建了语音机器1835年,CharlesWheatstone改进了语音机器B.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognition–ABriefHistoryoftheTechnologyDevelopment,2004第1章绪论1.1概述1870年代,电话发明之争第1章绪论1.1概述安东尼奥·梅乌奇AntonioMeucci

(1808–1889)亚历山大·格拉汉姆·贝尔AlexanderGrahamBell(1847-1922)伊莱沙·格雷ElishaGray1835-1901对于大多数人来说,每当提到电话的发明,一定会联想到贝尔。然而,一个叫伊莱沙·格雷的人就曾与贝尔展开过关于电话专利权的法律诉讼。格雷与贝尔在同一天申报了专利,由于比贝尔晚一点申报(只晚了2个小时左右),最终败诉。事实上,梅乌奇于1860年代就已对电话机进行了原创性的发明创造,比贝尔和格雷早10多年。由于经济困窘等原因,19世纪70年代,梅乌奇并没有赢得与贝尔的电话机专利争夺战。在其逝世113年后,美国议会认定梅乌奇为电话机的发明者。真理得以昭然,梅乌奇实至名归。谁是电话的真正发明者?AblockschematicofHomerDudley’sVODERB.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognition–ABriefHistoryoftheTechnologyDevelopment,2004第1章绪论1.1概述1939年,H.Dudley研制成功第一个声码器打破了以前的“波形原则”,提出了一种全新的语音通信技术,即提取参数加以传输,在收端重新合成语音。其后,产生“语音参数模型”的思想1942年,Bell实验室发明了语谱仪1948年,美国Haskin实验室研制成功“语图回放机”1952年,Bell实验室研制成识别十个英语数字识别器1956年,Olson和Belar等人研制出语音打字机1960年代以后,随着计算机技术的发展,语音信号处理技术获得了长足的进步,计算机模拟实验取代了硬件研制的传统做法。各种突破性的思想不断涌现第1章绪论1.1概述1960年,Denes等人用计算机实现自动语音识别,引入了时间归正算法改进匹配性能1970年代起,人工智能技术开始引入到语音识别中。美国国防部ARPA组织了有CMU等五个单位参加的一项大规模语音识别和理解研究计划1970年代中,日本学者Sakoe提出的动态时间弯折算法对小词表的研究获得了成功,从而掀起了语音识别的研究热潮第1章绪论1.2语音识别发展概况谁先提出动态时间弯折(DTW)算法?

1960年代末期,苏联学者Vintsyuk提出了采用动态规划方法解决两个语音的时间对准问题其研究不为学术界的广大研究者所知道1980年代,学术界才知道Vintsyuk当初的工作;而DTW已广为人知第1章绪论1.2语音识别发展概况1970年代末,基于矢量量化码本生成的LBG算法被提出,矢量量化技术广泛应用于语音识别、语音编码和说话人识别中1970年代末至80年代初,Baker等将隐马尔可夫模型(HiddenMarkovModel)技术应用到语音识别中1985年IBM公司研制了5000词英语听写机Tangora-5,80年代末完成的Tangora-20能识别的词汇达到了20000,识别率达到了94.6%第1章绪论1.2语音识别发展概况1990年代初,CMU的LeeKaifu完成的非特定人连续语音识别系统SPHINX是最有代表性的,它能识别997个词汇的连续语音,识别率达到95.8%1997年,IBM推出的汉语听写机Viavoice为语音识别在汉字输入方面的实际应用开辟了新的道路1999年,Intel推出语音识别软件开发包Spark3.0MicrosoftVoice及基于.net的语音识别引擎目前,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展第1章绪论1.2语音识别发展概况1988年,李开复获卡内基梅隆大学计算机学博士学位。他的博士论文是世界上第一个“非特定人连续语音识别系统”。1988年,《商业周刊》授予该系统“最重要科学创新奖”。在校期间,李开复还开发了“奥赛罗”(黑白棋)人机对弈系统,因为1988年击败了世界团体冠军美国队的一名成员而名噪一时。1970年代起,国外就开始研究计算机网络上的语音通信,主要是基于ARPANET网络平台进行研究1974年,首次分组语音实验是在美国西海岸南加州大学和东海岸的林肯实验室间进行,数码率为9.6kb/s

1975年1月,美国实现使用LPC声码器的分组语音电话会议1980年代,集中在局域网上的语音通信,最早的实验是由英国剑桥大学于1982年在10Mb/s的剑桥环形网上进行的第1章绪论1.3语音编码发展概况1988年,美国公布了一个4.8kb/s的码激励线性预测编码(CELP)语音编码标准算法进入1990年代,随着Internet的兴起和语音编码技术的发展,IP分组语音通信技术获得了突破性的进展。如网络游戏,语音聊天,IP电话技术1990年代中期,出现了很多被广泛使用的语音编码国际标准,如数码率为5.3/6.4kb/s的G.723.1、数码率为8kb/s的G.729等目前,主要集中在4kbit/s码率以下的高音质、低延迟的声码器,提高在噪声信道中低码率编码器的性能第1章绪论1.3语音编码发展概况第1章绪论1.4语音合成发展概况1939年,贝尔实验室利用共振峰原理制作出第一个电子语音合成器1960年,G.Fant系统地阐述了语音产生的理论,推动了语音合成技术的进步1968年,第一个完整的TTS系统得以实现1980年,D.Klatt设计出串/并联混合型共振峰合成器1980年代,基音同步叠加的波形拼接方法PSOLA被提出第1章绪论1.4语音合成发展概况20世纪末,提出了可训练的语音合成方法——基于HMM的合成方法目前,语音合成系统具有了很高的可懂度,但自然度还不尽人意说话人识别说话人日志语种辨识语音转换语音隐藏语音情感识别语音增强语音搜索SpeakerRecognition,又称声纹识别、话者识别。通过对语音信号的分析和处理,提取代表说话人个性信息的特征,计算机就能够自动地鉴别说话人的身份。主要分为:SpeakerIdentification和SpeakerVerification。SpeechRetrieval,一种新颖的搜索技术,代替原来的键盘或手写输入,用户可以使用语音进行检索和查询。SpeechHiding,利用语音信号中存在的冗余及人类感知系统的特性,在不影响原始语音信息感知质量的前提下,把额外的信息隐藏到原始语音中的一种技术。EmotionRecognition,计算机对语音信号进行分析和处理,从而得出说话人的情感状态(愤怒、悲伤、高兴、恐惧等)。VoiceConversion,将A话者的语音转换为具有B话者发音特征的语音,且保持语音内容不变。Spee

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论