《语音信息处理》PPT课件.ppt_第1页
《语音信息处理》PPT课件.ppt_第2页
《语音信息处理》PPT课件.ppt_第3页
《语音信息处理》PPT课件.ppt_第4页
《语音信息处理》PPT课件.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音信号处理Speech Signal Processing,金赟 江苏师范大学物电学院,第一讲 绪论,1.语音信号处理的概念 2.语音信号处理的学科基础 3.语音信号处理的分支和应用 4.语音信号处理的发展历史 5.本课程的内容和特点 6.参考书目 7.学习要求,1.语音信号处理的概念,语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。,2.语音信号处理的学科基础,3.语音信号处理的分支和应用,语音识别 语音合成 语音编码 说话人识别,3.1 语音识别,(1)语音识别研究的目的就是研究出一种具有听觉功能的机器,能直接接受人口呼的命令,理解人的意图,并做出相应的反应。,语音识别

2、的应用,语音识别技术在信息处理领域的首要的巨大应用将在于提供了一种全新的人机交互形式。 苹果的Siri。 Siri恶搞,国人Siri,Siri惊魂,Siri日式英语。 语音输入法。,语音识别的分类,针对说话人:特定说话人语音识别和非特定说话人语音识别 针对词汇量:小词汇量、中词汇量和大词汇量的识别 针对说话方式:孤立词识别和连续语音识别 针对识别环境:实验室环境语音识别、电话语音识别和广播语音识别,语音信号和自然语言的多变性和复杂性,(1) 连续语音词与词之间没有明显的停顿,词与词之间的 分割比较困难; (2) 每一个基本的声学识别基元(如音素)受前后音素发 音方式的影响(协同发音)使特征变得

3、不稳定 (3) 不同人、不同心理和生理以及在不同的说话环境下说 同一词时,声学信号特征会发生变化; (4) 一个词的读音不仅包含了词义特征,而且还包含了说 话人性别、年龄、情绪等大量与词义无关的信息,而 这些信息的分离是不容易的。 (5) 自然语言的多变性难以借助于一些基本语法规则进行 描述,因而使计算机编程变得困难。 (6)语音信号往往受到其他信号的干扰和信道的影响。,3.2 语音合成,语音合成是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。 (让电脑说话),语音合成的应用,1海量信息查询类业务 大部分海量信息如考试查分、征婚启事、人才信息、电话广告等,由

4、于其内容庞大,往往无法在短期内完成录音,即使可以事先录音,也需要很长的制作周期,而且在量大的时候肯定会出现人为错误;采用语音合成技术可以节约大量人力,缩短开发周期,而且能够完全保证了所有信息100正确。 2动态信息查询类业务 声讯节目逐渐地由现在娱乐型节目为主的节目构成转向以应用型的节目为主,而多数的应用类节目对实时性要求比较高,如证券行情、订票、订房等,上述应用中动态信息不可能事先录音,需要实时地从数据库中读取,动态进行语音合成,保证信息的实时性。,自动报时、报警、公共汽车或电车自动报站 打印出版过程中的文本校对。 电子函件及各种电子出版物的语音阅读。 列车惊魂,语音合成配音 Tom猫咆哮体

5、 马丁路德金演讲 大脑扫描,语音合成,语音合成的例子(霍金),不能说话和做手势,如何演讲写字? 在霍金的眼镜上,约距右颊一英寸处,安装了负责侦测肌肉活动的红外线发射器及侦测器,譬如他想打招呼,说声你好,他先以眼球控制红外线感应器,选定在屏幕上轮流出现的英文字母,当计算机出现他想要的H时,霍金再动眼球,这样计算机就会不断显示以H为字头的英文字,当HELLO出现时,他又动一下以选定这个字,当他造句完毕后,才把句子传至合成器发声。因此霍金要说一句话,就要逐字逐句输入计算机,再由语音合成器将文字化成声音,一分钟只能处理3-5个字。,科大讯飞语音合成在线演示,3.3 语音编码,语音编码的研究目的是如何在

6、尽量减少失真的情况下高效率地对模拟语音信号进行数字表达。,VOIP (Voice Over Internet Protocol),语音编码的应用,数字通信系统 移动无线通信 保密语音通信,3.4 说话人识别,说话人识别(声纹识别)可分为两种: 说话人辨认 说话人确认,目前,声纹识别已经在证券交易、银行交易、身份证、信用卡的认证等领域均有应用。在国外,声纹识别技术已经取得了较为广泛的应用。美国已把声纹识别用到保险、银行等行业,迪拜在交通管理上使用声纹验证来确认驾驶员身份,戴尔公司已经实施了声纹认证用于网上订购,菲律宾政府的养老金系统现在也可以通过声纹识别来完成身份认证。 在国内,声纹识别技术目前

7、已广泛应用于嵌入式系统,同时其他方面的应用也逐渐兴起,如招商银行已经于2008年8月开始与以色列的PerSay公司进行声纹识别方面的项目合作。,声纹识别已成功应用在司法鉴定领域。利用声纹识别技术确定犯罪证据,如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法,已在一些刑事案件的侦破中得到应用。美国在1971年就公开认可使用声纹鉴定。 在国内,随着各种录音设备的普及,声音材料的留存十分方便,因此一些案件就可以借助声纹鉴定来协助案件的侦查和审理。声纹鉴定已经成为国内司法鉴定机构的一种重要技术手段,其在司法活动的某些方面已然发挥出显著的作用。,声纹识别的应用,还杰克逊一个“清白”。爆炸新闻

8、 拉登之死。 车臣总统杜达耶夫。,4.语音信号处理的发展历史,国外发展历史 人们在19世纪就已经发现,元音主要是靠第一共振峰和第二共振峰来区别,声母的感知主要靠共振峰的弯曲方向和力度。但是,真正的语音识别却是始于1952 年,当时贝尔实验室Davis等人通过提取语音的第一、第二共振峰作为语音特征参数,采用专用硬件实现了一台10个英文数字的语音识别系统Audry System。,国外发展历史,20世纪50年代末60年代初,集成电路出现,语音信号终端系统从模拟方式演变为全数字系统方式,语音数字信号处理从此开始。最早从事此项重要技术变革的 实验室有贝尔电话实验室、麻省理工学院林肯实验室、IBM Th

9、omas Watson研究实验室、BBN语音研究小组和得克萨斯仪器公司,以及一些著名的大学研究小组。 1959年,美国林肯实验室的J.W.Rogie和 C.D.Forgie首次用数字计算机识别出了英语元音和以摩擦音开头的孤立字,标志着计算机语音识别时代的开始。,国外发展历史,20世纪60年代,快速傅立叶变换(FFT)技术被广泛地采用来进行频谱分析,采用其逆变换,还可以反求源信号。在傅立叶分析的帮助下,人们开始研究自然语音产生的内在机制和本质特征。 瑞典的G.Fant的博士论文语音产生的声学理论就是这个时期的代表作,对以后的语音处理的研究工作产生了深刻的影 响。,国外发展历史,20世纪60年代末

10、70年代初Baum等人首次系统地阐述了马尔可夫模型(HMM,Hidden Markov Model),并把它引入语音识别。目前,HMM模型是语音识别的最好算法,它也广泛应用于经济学上的预测问题。 与此同时,语音识别的线性预测参数LPC首次被提出来,采用线性预测进行研究的实践开始。以后的低速率语音编码技术,很大程度上都是依靠线性预测进行来实现的。,国外发展历史,同时,动态时间弯曲DTW技术出现,有效的解决了语音识别过程中,不等音长的匹配问题。此时的许多系统,都是建立在LPC参数和DTW匹配技术基础上的孤立词识别系统。 美国国防部高级计划研究局(ARPAR)的语音识别和理解研究计划,产生了HAPP

11、Y,HEARSAY-II和DRAGON等典型的语音识别理解系统,提出了具有深远意义的知识源黑板模型,扩充转移网络(ATN)算法等。,国外发展历史,20世纪80年代贝尔实验室 Rabiner等人对HMM模型进行了深入浅出的介绍,从此以后HMM模型在语音识别领域里确立了不可替代的地位,成为目前世界各国从事语音处理的最有效 的方法。 矢量量化法VQ也在此时开始应用到语音识别中。1987年,IBM公司采用VQ/HMM方案实现了一个具有2000个孤立字的特定人语音识别模型系统Tangora-2000。1988年CMU同样采用VQ/HMM实现了一个具有977个词,并且能构成4200个句子的非特定人连续语音

12、识别系统 SPHINX。,国外发展历史,20世界90年代,语音识别开始从实验室走向市场。CMU、BBN、IBM和AT&T都推出自己的语音识别产品。Microsoft、 Apple、Toshiba、Philips和Intel不甘落后,也开始致力于语音识别系统开发。语音识别朝着大词汇量、非特定人、自然连续语音方向发 展。目前,Microsoft Office XP以上版本已经集成了语音识别功能,可以采用语音输入法输入汉字。,国外主要的研究单位: 美国的CMU(卡内基梅隆大学)、MIT(麻省理工学院)、IBM、美国电报电话公司AT&T 英国的Cambridge (剑桥大学),国内发展历史,20世界5

13、0年代,中科院声学所开始进行语音识别研究。1972年,俞铁城先生最早在计算机上研究语音识别。中国语音识别的真正的开端应该是1978年,中科院声学所实现的采用带通滤波器组参数为特征的语音识别系统RTSRS(01)的产生。,国内发展历史,20世界80年代,针对汉语单音节的特点,清华大学、中国科学院、北方交通大学、东南大学等开发了汉语特定人孤立字全音节语音识别系统。 清华大学王作英教授提出了DDBHMM模型。 1986年,国家863项目语音方向设立,俞铁城先生受命筹备此项研究计划。,国内发展历史,目前,我国语音识别队伍主要有北大、清华、中科院等。其中中科院声学所的人员大部分是原Intel资深的工程师

14、,因此在国内的语音识别领域一直遥遥领先。 国内一些大公司,例如诺基亚、摩托罗拉、松下电器等, 也致力于语音识别领域的研究。社科院长期进行实验语音学方面的研究。,国内发展历史,目前,国际和国内在实验室条件下的识别正确率均在90以上。实验室条件一般是采用高保真的Sennheiser麦克风录制的语音信号,信道扭曲非常小,几乎没有任何背景噪音。标准的数据库有TIMIT数据库等。1991年2月NIST(National Institute Of Standards And Technology)的测试报告结果,如果不考虑语法约束,识别正确率为80多;考虑语法约束后,识别率提高到90以上。这些都是非常喜人

15、的成果。 然而,这些结果都是在高质量的实验条件下获得的。实验证明,当语音数据简单地通过电话线传播后,识别正确率将会直线下跌。,国内发展历史,1995年,林肯实验室将TIMIT数据库(实验室条件)和NTIMIT数据库(TIMIT数据库通过电话传输录音)作了一次说话人识别的对比,结果表 明,当实验对象简单经过电话信道传输后,识别正确率由原先接近100急速下降到60多。如何在自然环境下令人满意的进行语音识别,依旧是国内外语音学家一个艰巨的任务。,国内发展历史,2003年,从世界主要语音识别机构电话对话录音识别率基本是保持在70-80之间。,国内发展历史,2004年,我国863评测(评测结果可以看86

16、3评测网站)小组对国内主要机构再次进行评测,测试集取样于马路边嘈杂环境,最低信噪比大约5分贝。在如此恶劣条件下,在内容识别方面,中科院声学所和自动化所均取得了约74的正确率,清华大学取得约50的正确率,其他院校最差的取得9的正确率。 其中,中科院的识别水平已经比较接近国际先进水平,清华北大距离国际先进水平还有一定距离,多数高校则远远未达到实用的要求。,国内主要研究机构,中科院声学所 中科院自动化所 清华大学 哈尔滨工业大学 中国科技大学 东南大学,5.本课程的内容和特点,绪论 语音信号处理的基础知识 语音信号分析 矢量量化技术 隐马尔可夫模型 语音编码 语音合成 语音识别 语音增强,本课程的特

17、点 内容不断更新 涉及的前沿知识较多,基础知识也广泛。,6.参考书目,语音信号处理易克初、田斌、付强编著.国防工业出版社,2000 语音信号处理胡航编著.哈尔滨工业大学出版社,2000 语音信号处理韩纪庆,张磊,郑铁然,清华大学出版社2004 语音信号数字处理作者:杨行峻,迟惠生著,电子工业出版社,1995 Lawrence Rabiner, Bing-Hwang Juang:“FUNDAMENTALS OF SPEECH RECOGNITION”,(影印版)清华大学出版社,1999,7.学习要求,掌握书中基本内容 会查阅资料 会看文献 会研究问题,教材、杂志、会议论文 硕、博论文库、学术期刊网 、elsivier .hk 专著、专利、内部技术报告 国内杂志:声学学报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论