




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第_章绪论1.1语音识别的重要性1.1.1语音信息处理与语音识别人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息, 这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人 与机器之间也每时每刻都需要进行大量的信息交换。人类在利用语音进行信息交流时,说话 人大脑产生思想,通过语言转换,再由发声器官发出相应的语音;语音的声波经由空气传播 到达听话人的耳朵,通过听觉器官将语音传送到大脑,由此理解该语音所表达的语言意义。 这是人类进行信息交流与处理的过程。用计算机来模拟人类的这一交流信息的过程,包括以 下几个部分:(1)将大脑产生的思想转换成语言;(
2、2)将语言转换成相应的语音;(3)识别表达语言的语音内容;(4)理解语音所表达的语言意义。上述(1)与(4)的部分属于自然语言生成和理解的研究范围,(2)的部分属于语音合 成的研究范围;(3)的部分则属于语音识别的研究范围。图1.1为人与人之间、人与机器之 间的语音信息处理流程的示意图。(人)(机器)说话方人与人之间的语音通信收听方(人)(机器)说话方人与人之间的语音通信收听方图1.1人与人之间、人与机器之间的语音信息处理流程图1.1.2语音识别的重要性计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机 的人机界面,从而对计算机的发展以及推广应用产生深远的影响。基于电
3、话的语音识别技术, 使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能,进而成为电 子商务进展中的重要一环(Voice-Commerce)0其次,语音识别技术作为声控产业,必将对编 辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言, 语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。这是一项 具有巨大应用推广前景的工程。正是由于这一点,一些主要先进国家都把此工程列为国家级 研究项目。面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用。微软:让计算机能说会听在1997年秋季COMDEX世界计算机博览会上,
4、语音识别和文本至语音的转换(Speech to Text)系统已是引人注目的技术之一。在主题演讲大会上,微软Bill Gates在描绘IT事业 的发展宏图时,率先指出下一代操作系统和应用程序的用户界面将是语音识别。并提醒大家: “工业界应对语音识别领域的重大突破做好充分准备,因为那将是一场席卷全球的另一次热 潮”。展览会上,微软与其合作伙伴将原语音指令和控制程序与连续语音识别技术结合在一 起联合推出了语音识别产品VoiceExpress0 1998年11月5日,微软中国研究院在北京成立, 该中心的任务是重点研究计算机在中文环境下的易用性。IBM: ViaVDice 仍居主流IBM公司潜心研究语
5、音识别技术迄今已达30年之久,投资超过2亿美元。IBM公司于 1995年在北京成立了中国研究中心,中文语音信息处理成了该中心三大研究领域之一,并 于1997年9月4日,在北京推出了中文连续语音识别产品ViaVoiceoIntel :做语音技术倡导者1998年,英特尔公司也宣布致力于推广语音识别技术,除了在北京举办首届语音技术 国际论坛之外,还在北京、上海、成都、广州等地展开了 “基于英特尔框架的语音识别技术” 的宣传活动,并联合了七家世界著名学术机构(中科院自动化所、清华大学、香港科技大学、 香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学)成立了 “国际语音技 术研究组织”,
6、致力于计算机语音技术的基础研究,以加速中文语音识别技术的发展,由此 可见英特尔公司对语音识别技术的重视程度非同一般。1.2语音识别的定义、原理及分类1.2.1语音识别的定义语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有 意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。显然,有意义、有 内容的信息是构成语音音韵特性、即语音的共性特征之基础,因此也可将其称为音韵信息。 从广义上讲,语音识别也包括了对说话人的识别(Speaker Recognition),其主要内容是提取语 音信号中有关个人特征的信息、即语音的个性特征(如:音律特性等),在这里专指有意义
7、、 有内容的识别。语音识别所涉及的学科领域相当广泛,如:信号处理、物理学(声学)、模式匹配、通 信及信息理论、语言语音学、生理学、计算机科学(研究软硬件算法以便有效地实现用于识 别系统中的各种方法)、心理学等。1.2.2语音识别的基本原理语音识别的原理框图如图1.2所示。如图所示,识别有意义、有内容的语音信息的基本 方法是:预先分析出语音特征,按照要求送给机器储存起来,这个语音参数库中的语音参数 称为“模板(Template-based Approach)”,而这一过程称为“训练(Training)”。接着,送来识 别的语音(又称待识语音)经过与训练时相同的分析,得到语音参数,将它与库中的参考
8、模 板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果,这一过程就称 为“识别(Recognition)。当然,在进行比较时要有个标准,这就是计量语音参数矢量之间 的“失真测度(Distortion Measures)”。即:失真最小的那个模板所代表的内容就是识别的结 果。目前,常用的语音识别算法有:基于模式匹配的动态时间规正法(DTW: Dynamic Time Warping)、基于统计模型的隐马尔柯夫模型法(HMM: Hidden Markov Model)以及基于神经网络的识别法(DNN、NPN、TDNN)等。噪声滤波器识别噪声滤波器识别结果构词规则同音字判决语法语义背
9、景知识图1.2语音识别原理图1.2.3语音识别的分类语音识别可以从三个方面进行分类。(1)按语音识别器的类型孤立单词识别(Isolated Word Recognition)对汉语语音来说,识别的单元为字、词或短语,它们组成识别的词汇表(Vocabulary), 对它们中的每一个通过训练建立标准模板或模型。待识别的语音是这些字、词或短语中 的某一个。连续语 音识别(Continuous Speech Recognition)连续单词识别(Connected Word Recognition)以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准样板或模型 也是字、词或短语,但识别时可以是
10、它们中间几个的连续,其中典型的有:词汇表中 包括“0”到“9”十个数字,识别时可以说“3”、“27”、“659”等等。连续言语识别与理解(Conversational Speech Recognition)以多数词汇为对象,待识的语音是一些完整的句子。虽然不能完全准确识别每个 单词,但是能够理解其意义,连续言语识别也称会话语音识别。理解是在识别了语音 之后,根据语言学知识来推断语音的含义内容的。(2)按语音识别器对使用者的适用情况特定人语音识别(Speaker-Dependent)语音识别的标准模板或模型只适应于某个人,实际上,该模板或模型就是该人通 过输入词汇表中的每个字、词或短语的语音建立
11、起来的(称为训练:Training)。其他人 使用时,需同样建立自己的标准模板或模型。非特定人语音识别(Speaker-Independent)语音识别的标准模板或模型适应于指定的某一范畴的说话人(如说标准普通话), 标准模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人(圈 内人)使用,也可供未参加训练的同一范畴的发音人(圈外人)使用。(3)按语音词汇表的大小有限词汇识别按词汇表中字、词或短句个数的多少,大致分为:100以下为小词汇;1001000为中词汇;1000以上为大词汇。无限词汇识别(全音节识别)当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全音节语音识
12、 别(音节字表:Lexicon)。全音节语音识别是实现无限词汇或中文文本输入的基础。1.3本课程的内容与要求本课程的设置目的是试图通过对最有望的语音识别系统的基本原理的介绍,然后为大家 提供一种能促使语音识别研究向前发展的框架。本课程的内容由以下八章构成:第一章绪论第二章语音的特征第三章用于语音识别的信号处理及分析方法第四章基于模式匹配方式的语音识别技术第五章基于统计模型(HMM)方式的语音识别技术第六章孤立字(词)语音识别系统第七章连续语音识别系统第八章语音识别的应用及展望通过本课程的学习,要求大家掌握语音识别的基本概念及原理,了解语音识别的基本技 术和相关课题。参考书:(1)胡光锐:“语音
13、处理与识别”,上海科学技术出版社,1994。(2)陈永彬:“语音信号处理”,上海交通大学出版社,1990。(3)陈永斌,王仁华:“语言信号处理”,中国科学技术大学出版社,1990。(4)姚天任:“数字语音处理”,华中理工大学出版社,1992。(5)古井贞熙(朱家新,张国海,易武秀译):“数字声音处理”,人民邮电出版社,1993。(6)Lawrence Rabiner, Biing-Hwang Juang : FUNDAMENTALS OF SPEECH RECOGNITION”,PTR Prentice-Hall,Inc,1993。1.4语音识别的历史回顾1.4.1国外语音识别研究的历史对机器
14、识别语音的研究,可以追溯到50年代。1952年贝尔研究所Davis等人研究成功 了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功 了第一个计算机语音识别系统,从此开始了计算机语音识别研究的阶段。大规模的语音识别研究是在进入了 70年代以后,这一时期取得了许多实质性的进展, 特别是在小词汇量、孤立词的识别方面。这一时期的语音识别方法基本上是采用传统的模式 识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在美国的板 仓等人的研究工作最具有代表性。苏联的研究为模式识别应用于语音识别这一领域奠定了基 础;日本的研究则展示了如
15、何利用动态规划(Dynamic Programming)技术在待识语音模式与 标准语音模式之间进行非线性时间匹配的方法;而板仓的研究提出了如何将线性预测分析技 术(LPC)加以扩展,使之用于语音信号的特征抽取的方法。另外,值得一提的是,目前在大 词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开始了它的大词汇语 音识别研究工作的。AT&A的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这 一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。进入80年代以后,语音识别研究更加活跃。这一时期,研究的重点逐渐转向大词汇量、 非特定人连续语音识别。而且,
16、在研究思路上也发生了重大变化,即由传统的基于标准模板 匹配的技术思路开始转向基于统计模型、特别是隐马尔柯夫模HMM)的技术思路。此外, 再次提出了将神经网络技术引入语音识别问题的技术思路。这一时期所取得的重大进展有:(1)隐码尔柯夫模型(HMM)技术的成熟和不断完善成为语音识别的主流方法。(2)以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识 别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等 的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基 于统计概率的语言模型。(3)人工神经网络(ANN)在语音识别中的应用研究的兴
17、起。在这些研究中,大部分采用基 于反向传播法(BP算法)的多层感知网络。ANN具有区分复杂的分类边界的能力, 显然它十分有助于模式划分。进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识 别技术的应用及产品化方面出现了很大的进展。特别是在电话语音识别方面,由于其有着广 泛的应用前景,成了当前语音识别应用的一个热点。另外,面向个人用途的连续语音听写机 技术也日趋完善。这方面,最具代表性的是IBM的VTD(VoiceTypeDictation)和Dragon公司 的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训 练,便可在使用
18、中不断提高识别率。DARPA(Defense Advanced Research Projects Agency是 在 70 年代由美国国防部远景研究 计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作CMU (卡内基梅 龙大学)、MIT (麻省理工学院)、IBM、AT&T等都参与了这一计划的开发工作。该计划执 行的结果是1976年推出了 HARPY(CMU)系统。虽然,这是有限词汇和限定领域的识别系 统,但改变了原来只利用声学信息的状况,开始应用高层次语言学知识(如构词、句法、语 义、对话背景等)。在这为期10年的阶段中尽管所有的研究计划均未能达到预期目标,但它 对语音识别和理
19、解研究的发展起了重要的推动作用。通过这一阶段的研究使人们认识到语音 识别任务的艰巨性,总结出许多有意义的经验教训,并且从此对语音识别提出了许多基础性 的研究课题。这些课题主要涉及到语音信号和自然语言的多变性和复杂性。所谓多变性和复 杂性大致包括以下几个方面:(1)连续语音词与词之间没有明显的停顿,词与词之间的分割比较困难;(2)每一个基本的声学识别基元(如音素)受前后音素发音方式的影响(协同发音) 使特征变得不稳定;(3)不同人、不同心理和生理以及在不同的说话环境下说同一词时,声学信号特征会 发生变化;(4)一个词的读音不仅包含了词义特征,而且还包含了说话人性别、年龄、情绪等大 量与词义无关的
20、信息,而这些信息的分离是不容易的;(5)自然语言的多变性难以借助于一些基本语法规则进行描述,因而使计算机编程变 得困难。到了 80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划, 其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为(1000单词)连续 语音数据库管理”。到了 90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识 别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏 伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。 1987年起,日本又拟出新的国家项目-高级人机口语接口和自动电话翻译系统。日本在开 展研究工作时的特点是:建立全国的合作体系、分派任务、避免重复;共享通用语音资料、尽可能采用标准化设备和分析技术,交流研究结果和经验。1.4.2我国语音识别研究的历史我国的语音识别研究起始于1958年,由中国科学院声学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度短期劳务合同(社区服务工作者)
- Unit 3 Writing Home Lesson 18 Little Zeke Sends an Email同步练习(含答案含听力原文无音频)
- 二零二五年度酒店管理分公司合作经营合同
- 二零二五年度海外网络安全与数据科学留学合同
- 二零二五年度制造业生产线劳务派遣服务协议
- 低油价发言稿
- 2025年梅州货物运输驾驶员从业资格考试系统
- 2025年成都货运从业资格证模拟考试题库
- 哪吒开学心理调适(初三)课件
- 农业产业化技术支持方案
- 2025年湖北幼儿师范高等专科学校单招职业技能测试题库含答案
- 2025年广东生态工程职业学院单招职业适应性测试题库完美版
- 模具转移合同协议书
- 政治-贵州省贵阳市2025年高三年级适应性考试(一)(贵阳一模)试题和答案
- 公司副总经理英文简历
- DeepSeek学习科普专题
- 2025浙江杭州地铁运营分公司校园招聘665人易考易错模拟试题(共500题)试卷后附参考答案
- 2025四川省小金县事业单位招聘362人历年高频重点模拟试卷提升(共500题附带答案详解)
- 2022泛海三江消防ZX900液晶手动控制盘使用手册
- 广西壮族自治区柳州市2025年中考物理模拟考试卷三套附答案
- 第11课《山地回忆》说课稿 2024-2025学年统编版语文七年级下册
评论
0/150
提交评论