语音人机交互资料课件_第1页
语音人机交互资料课件_第2页
语音人机交互资料课件_第3页
语音人机交互资料课件_第4页
语音人机交互资料课件_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音人机交互应用程序语音合成语音输入语音输出语音人机交互语音识别自然语言处理自然语言生成交互管理语音识别技术定义:语音识别是机器自动语音识别(AutomaticSpeechRecognitionbyMachine)的简称。语音识别是一种将人讲话发出的语音通信声波识别(转换)成为一种能够表达通信消息的符号序列。这些符号可以是识别系统的词汇本身,也可以是识别系统词汇的组成单元,在专业文献中常常称为识别系统的基元或子词基元。国外语音识别研究的历史

语音识别的研究工作大约开始于五十年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统—Audry系统。六十一年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),而后者较好地解决了语音信号模型的问题,对语音识别的发展产生了深远影响。七十年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间规整技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统.我国的语音识别技术的发展(1)在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。(2)现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色。-在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。-在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语---汉语语音翻译演示系统。-在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。

语音识别系统的分类方式及依据

根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

语音识别的几种基本方法一般来说,语音识别的方法有三种:(1)基于声道模型和语音知识的方法(2)模式匹配方法(3)人工神经网络方法基于声道模型和语音知识的方法

基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。模式匹配方法

模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ);统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)网络,径向基函数网络(RBF)及新兴的小波网络。人工神经网络

关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用Bp网和RBF网等前向神经网络来实现。语音识别系统的结构一个完整的基于统计的语音识别系统可大致分为三部分:

(1)语音信号预处理与特征提取;

(2)声学模型与模式匹配;

(3)语言模型与语言处理语音识别所面临的问题1、就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。2.就自适应方面而言,语音识别技术也有待进一步改进。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。3.就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。4、多语言混合识别以及无限词汇识别方面:简单地说,目前使用的声学模型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。语音识别技术的应用和前景预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。语音合成语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术让机器说话可以通过录音/重放,或语音合成实现文语转换是语音合成的一种应用形式文语转换是连续语音识别的逆过程孤立词/音段阶段,注重音色(音质,音品)语音合成的最早研究始于1779年Kratzensten的研究.他用一些材料制成具有各种特殊形状的共鸣腔,目的是研究如何用管形器官模型来模拟5个单元音A、E、I、0、U1791年,VonKempelen制成了一种能说话的机器1939年,BELLLAB的H.Dudley应用共振峰原理制作了第一个电子合成器VODER(VOiceDEmonstratoR).20世纪70年代,线性预测技术用于语音合成语句阶段,注重韵律1980年,MIT的D.Klatt设计制造了著名的共振峰语音合成器1986年,E.Moulines和F.Charpentier提出了基于时域波形修改的语音合成算法PSOLA2000s,Unit-selection,N.Campbell&A.Black国外语音合成的发展

按照人类语言功能的不同层次,语音合成可分为三个层次:(1)从文字到语音的合成(Text-to-Speech)(2)从概念到语音的合成(Concept-to-Speech)(3)从意向到语音的合成(Intention-to-Speech)语音合成的层次文本文本分析输出语音语音合成语音库韵律分析字典/词库分词规则文语转换系统组成多音字库儿化音库语音合成技术语言学处理规则协同发音/韵律规则语音合成系统的三个主要组成部分:文本分析模块韵律分析模块语音生成模块文本分析主要功能使计算机从这些文本中能够认识文字,从而知道要发什么音、怎么发音(声调),并将发音的方式告诉计算机,另外还要让计算机知道文本中,哪些是词,哪些是短语、句子,发音时到哪应该停顿,停顿多长等等文本规整多音字处理声调判定特殊声调调整特殊符号停顿处理语音处理自动分词系统词库多音字词库变调规则库特殊声调规则文本分析的任务(1)文本规整将输入的文本规范化。在这个过程中,要查找拼写错误,处理缩略语与外文字词等,同时分析文本中出现的数字、特殊字符、专有词语,并将文本中出现的一些不规范或无法发音的字符过滤掉。(2)词的切分和词法分析分析文本中词或短语的边界,确定文字的读音,以及各种多音字的读音方式。文本分析的主要工作步骤(3)语法和语义分析根据文本的结构、组成和不同位置上出现的标点符号,确定语气的变换以及不同音的轻重方式,即语言学处理。确定停顿位置,长短,语调升降,语法重音等(4)输出文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。文本分析的主要工作步骤文本分析的主要方法/词的切分方法(1)基于规则的方法(2)基于统计的方法(3)人工神经网络的方法

基于规则(Rule-based)的方法正向最大匹配法、反向最大匹配法、逐词遍历法.最佳匹配法、二次扫描法等等。基于规则方法的特点优点:结构较为简单、直观,易于实现。缺点:需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的相应的背景知识。应用:这些方法能够取得较好的分析效果,直到目前,这些方法依然被广泛的使用。基于统计与人工神经网络的方法(连续语音识别的逆过程,语言模型部分)基于数据驱动的文本分析方法具有代表性的有:二元文法法(Di—GrammarMethod)、三元文法法(Tri-GrammarMethod)、隐马儿可夫模型法和神经网络法等等。韵律分析任何人说话都有韵律特征,比如汉语中,人说话有语调、节奏、重音等变化,反映出不同的语气、不同的发音长短、不同的停顿方式等.韵律参数包括了能影响这些特征的声学参数,如:基频、音长、音强等.为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。

韵律生成有基于规则和基于语料库的数据驱动两种方法(1)基于规则的方法音高规则变调规则轻声规则协同发音音长规则能量规则(2)基于数据驱动的韵律模型(人工神经网络方法,统计方法)

基于大规模语料库的韵律建模:

通过神经网络或统计驱动的方法进行韵律生成,其实现步骤是首先设计或收集包含大量语音和文本信息的数据,然后建立一个训练模型,用数据库中提取出的韵律参数对模型进行训练,通过训练而得到最终的韵律模型。语音生成根据韵律建模的结果,从原始音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。语音生成主要方法

规则合成按韵律规则,缩减规则等,将预先存好的语音单元拼接起来.需要对文本理解,有些复杂.参数合成(1)共振峰合成(PitchSynchronousOverLapAdd)(2)LPC(线性预测编码)合成(3)其它如LSP和LMA合成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论