语音信息处理及相关的语言信息处理_第1页
语音信息处理及相关的语言信息处理_第2页
语音信息处理及相关的语言信息处理_第3页
语音信息处理及相关的语言信息处理_第4页
语音信息处理及相关的语言信息处理_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音信息处理及相关的语言信息处理第1页,共39页,2023年,2月20日,星期日语音信息处理

及相关的语言信息处理语音信息处理是人机交互的重要组成部分。主要包括语音合成和语音识别。语音合成是将文字转换成语音;语音识别是将识别语音转写成文字。2第2页,共39页,2023年,2月20日,星期日演示ChineseTTVSVoicemasker3第3页,共39页,2023年,2月20日,星期日什么是语音合成?

语音合成就是让计算机象人那样讲话。语音合成的研究目标是:可懂、清晰、自然、具有表现力。某人问你:你愿意和我一起去看电影吗?你的回答可能是:“是的,我很高兴和你一起去看电影。”(肯定,高兴)“抱歉,我不能和你一起去看电影,因为我要去开会。”(无可奈何)“不去,还是你自己去看吧。”(否定)人们用语言进行交流时,用声音来表达事实,也表达意向、情感。计算机也应该像人那样讲话。4第4页,共39页,2023年,2月20日,星期日语音合成系统的发展讲话机(Wolfgang

)1791年1990年代数据驱动拼接合成(Festival)1980年代规则驱动共振峰合成(DecTalk)合成语音可懂与清晰目前高表现力的语音合成合成语音自然且表现丰富高表现力的合成可懂度、清晰度高自然度较好,语调平缓表现力(情感、风格、个性化)欠佳自然语音计算机生成语音合成算法韵律表现5第5页,共39页,2023年,2月20日,星期日文语转换(TTS)是语音合成技术的延伸,它能把计算机内的文本转换成连续自然的语声流。TextToSpeechsynthesisinvolvesthecomputationofaspeechsignalfrominputtext.文字-语音转换(TextToSpeech)6第6页,共39页,2023年,2月20日,星期日什么是语音识别?语音识别就是让计算机听懂人的讲话。语音识别的研究目标是:听懂连续自然、非特定人。7第7页,共39页,2023年,2月20日,星期日语音信息处理

及相关的语言信息处理语音是语言的外壳,文字是语言的转写。韵律、语法和语义均为语言信息处理的内容。它们相互联系、相互制约,共同构成语言理解的基础。然而对上述语言信息的分析和研究是独立展开的。介绍语音信息处理的基本组成和原理,特别关注语音信息处理中与文字相关的问题。8第8页,共39页,2023年,2月20日,星期日预处理语言学处理波形拼接合成语音学处理文本语音语音数据库TTS的系统结构文本分析韵律生成语音合成9第9页,共39页,2023年,2月20日,星期日

TTS的系统结构文本分析合成算法基元选取10第10页,共39页,2023年,2月20日,星期日文本分析模块流程语句切分文本规范化符号处理数字处理词典分词合并韵律词合并韵律短语变音处理参数生成12号的天气的确好。12号的天气的确好/。十二号的天气的确好十二/m号/q的/u天气/n的确/d好/a十二号的天气/的确好shi2er4hao4de5|tian1qi4/di2que4hao3//读音韵律信息文本11第11页,共39页,2023年,2月20日,星期日文本分析模块流程语句切分文本规范化符号处理数字处理词典分词根据回车、换行、或其他设置的分句符号进行句子的切分。后续的处理针对当前得到的句子12第12页,共39页,2023年,2月20日,星期日文本分析模块流程语句切分文本规范化符号处理数字处理词典分词将语句切分成一个一个的片段Piece,每个Piece具有相同的类别,如:数字、符号、英文字母串(Letter)、汉字等等患者|1.15万人,|并且|每年|又以|1500例的|速度|快速|大幅|增加。13第13页,共39页,2023年,2月20日,星期日文本分析模块流程语句切分文本规范化符号处理数字处理词典分词进行相关标点符号的处理数字中‘,’的处理12.3、166.111.68.142km、T等量词的处理年份1998/07/20、97-10-10、1999.07.05等等时间23:05:03、比值-5℃、电话中BP机呼号、区号、转分机等等、-5、80-100、减号等14第14页,共39页,2023年,2月20日,星期日文本分析模块流程语句切分文本规范化符号处理数字处理词典分词数字读法的处理比如年份、公元、日期、电话、电报等等15第15页,共39页,2023年,2月20日,星期日文本分析模块流程词典分词分词,标记词性合并韵律词合并韵律短语变音处理参数生成分词不准确|许多|年轻|人手|牵|五彩的|气球|合影|留念。分词单位太大自民党|领导人|日里诺斯基|1946年|4月|出生。发展中国家语法词与韵律词不等同我买了八本书。16第16页,共39页,2023年,2月20日,星期日文本分析模块流程词典分词合并韵律词合并韵律短语变音处理参数生成17第17页,共39页,2023年,2月20日,星期日广义的定义:广义地说,韵律结构应当包括重音、节奏和语调三个方面的结构。例如重音的位置分布及其等级差异,韵律边界的位置分布及其等级差异,语调的基本骨架及其跟声调和重音的关系。

主要讨论韵律切分问题。包括韵律词的组成与韵律短语切分等等,也就是说话时组词断句的模式,它属于语音的节奏方面的问题。

汉语的韵律结构的定义18第18页,共39页,2023年,2月20日,星期日韵律成分从小到大依次是莫拉、音节、音步、音系词(phonologicalword)、附着语素词组、音系短语(phonologicalphrase)、语调短语和韵律语句。一个较小的韵律成分包含在一个更大的韵律成分中。汉语的韵律成分19第19页,共39页,2023年,2月20日,星期日汉语的韵律成分

LevelTags012345BreakReducedsyllabicboundaryNormalsyllabicboundaryProsodicword(PW)Prosodicphrase(PPh)Breathgroup(BG)Prosodicgroup(PG)EmphasisReducedNormalmoderatestrong****SpeechRateveryslowslownormalquickveryquick**Volumeverylowlownormalhighveryhigh**Pitchverylowlownormalhighveryhigh**Rangeverysmallsmallnormallargeverylarge**20第20页,共39页,2023年,2月20日,星期日我永遠忘不了<B3/25ms>一張對日抗戰時的新聞照片,<B3/507ms>轟炸後的廢墟焦土上,<B3/272ms>一個衣不蔽體、<B3/384ms>滿身塵土灰煙的幼兒<B3/100ms>坐在地上<B3/75ms>無助的大哭著。<B5/1110ms>那是一再令我熱淚盈眶的鏡頭。<B3/507ms>新聞攝影中的戰爭傳真<B3/276ms>已不能只稱是照片了。<B5/802ms>口语语音的例子几处停顿?这句话是否结束?台湾:郑秋豫教授21第21页,共39页,2023年,2月20日,星期日韵律层级结构:韵律词(prosodicword):一般为三个音节以下的语法词或词组,内部不出现节奏边界

韵律短语(Prosodicphrase):由一个或几个韵律词组成,具有相对稳定的短语语调模式和短语重音配置模式语调短语(intonationphrase):长于韵律短语。在语法上相当于较短的句子或较长的短语,韵律短语之间有音高重设汉语的韵律结构的定义22第22页,共39页,2023年,2月20日,星期日三层韵律层级结构图U:语调短语,PP:韵律短语,PW:韵律词相应的语法结构图S:句子,NP:名词短语,VP:动词短语韵律结构是无递归的:韵律词的边界一般是语法词的边界,而韵律短语的边界一般是韵律词的边界韵律词、韵律短语、语调短语分别处于不同的层级上,一般没有嵌套关系的存在平均长度满足,Len(韵律词)<Len(韵律短语)<Len(语调短语)语法结构相对复杂:短语类型之间存在嵌套的包含关系,比如NP内部可以有更小的NP等

汉语的韵律结构与语法结构图23第23页,共39页,2023年,2月20日,星期日“语法词”--从句法学的角度定义;词典词的长度为1--13个汉字“韵律词”--从韵律学的角度来定义。韵律词一般是三音节以下的语法词或词组,属于一个音步的结构。韵律短语一般是四—九音节。如假定所有的语法词边界都是韵律词边界,正确率为42.99%;如果都是韵律短语边界,正确率仅为19.20%。韵律与句法24第24页,共39页,2023年,2月20日,星期日句法支配韵律:韵律边界以句法结构为基础;韵律边界层次总是倾向于同句法结构的层次保持某种程度的一致;句法边界不是设置韵律边界的必要条件。韵律与句法句法和韵律间有密切的联系和制约关系。《汉语韵律句法学》冯胜利25第25页,共39页,2023年,2月20日,星期日句法独立于语音!但是:“一衣/带水”(一条如衣带一样宽的河水)“而立/之年”(“而”是连词)“种植花”提拔高,浇灌花,阅读报,修改正,获得罪,超越轨“鞠了一个躬”“被攻”——〉“被祸害”(是韵律的产物)韵律与句法《汉语韵律句法学》冯胜利26第26页,共39页,2023年,2月20日,星期日韵律制约句法:韵律打乱句法原有的成分结构:“我被/老板/训了”

韵律可使一些非法句法合法化;韵律可制约一些合法的句法变成非法;“种植/花草”可以说,“种花草”也同样合法。

韵律可在句法不能运作的禁区发生效力;语流中语音分段首先服从韵律分界:狗咬/吕洞宾。吕洞宾/吃饭韵律与句法27第27页,共39页,2023年,2月20日,星期日韵律规则:相对轻重原则(一对轻重的组合体)音步二分法(必须至少有两个成分组成)音步的单核原则音节的轻重对立词汇的虚实与轻重韵律规则之间的协作与冲突:

韵律成分与节奏28第28页,共39页,2023年,2月20日,星期日轻重音可以消除歧义刘英要煎饼。(jian1bing3:指“把饼煎一煎”/jiang1bing5:指一种食品)他一个早晨就写了三封信。(“就”轻读时指效率高,能写三封信/“就”重读时指效率低,只写了三封信)韵律与句法29第29页,共39页,2023年,2月20日,星期日基于句法信息的韵律成分界定

选取更有效的句法特征则成为提高韵律成分界定正确率的重要保证。在实验中我们选取了词性、词语、词长、词频及句子长度等一些句法信息作为界定韵律成分的特征。

30第30页,共39页,2023年,2月20日,星期日韵律结构预测实际是一个分类问题:句子,令表示和的边界类型:{语法分词边界、韵律词边界、韵律短语边界}。

针对韵律词和韵律短语分别设计统计模型。综合所有特征的,计算出作为某类边界的总的概率频度值F,根据一定的原则及F的大小判断它属于的边界类型。

统计计算出每个特征取值的概率频度,基于概率频度的统计模型算法四个步骤:特征提取1.词法特征:语法词,词频…2.语法特征:词性…3.长度及位置特征:词长,句中的位置…样本训练构建概率频度统计模型郑敏31第31页,共39页,2023年,2月20日,星期日实验数据的准备 语料库I是实验室已有的标准语料库,共3167个句子,文本来自新闻、小说、散文等各个方面,由专业播音员用正常语速朗读。两名有经验的标注人员通过听录音和参照录音文本标上两级韵律边界信息,标注的一致率达到98.5%。该语料覆盖了汉语所有的有调音节和词性,总共有56446个汉字,37669个语法词。16194个韵律词边界和7231个韵律短语边界。

语料库I语料库II 文本全部来自人民日报,语料库总共包含5403个长句,17859个子句,总共有130265个汉字,52106个语法词,27917个韵律词边界和18148个韵律短语边界。32第32页,共39页,2023年,2月20日,星期日韵律结构预测的综合评价参数人工标注的类型预测得到的类型LWPWPPLWC00C01C02PWC10C11C12PPC20C21C22C12:人工标注类型为PW,被预测为PP的数目

韵律结构预测的分类混淆矩阵

语法词预测的正确率:

语法词预测的召回率:

韵律词预测的正确率:

韵律词预测的召回率:

韵律短语预测的召回率:

韵律短语预测的正确率:

综合评价参数:

韵律预测的综合参数:

33第33页,共39页,2023年,2月20日,星期日三种算法的实验结果比较

我们将C4.5归纳学习、TBL转换规则学习算法和基于概率频度的统计模型三种方法进行了比较实验。在这三种算法中提取了类似的词性、词语、词长、词频等特征,在相同的语料库I和II上作了两组比较实验。实验中选取语料库的前2/3作为训练数据,后1/3作为测试数据。

算法APWRPWMPWAPPRPPMPPC4.50.8220.8140.8180.8290.7120.766TBL0.8480.7820.8140.6130.8510.713统计模型0.9170.8810.8990.8520.8370.844表1统计模型、C4.5和TBL三种算法在语料库I上的比较结果算法APWRPWMPWAPPRPPMPPC4.50.8080.7760.7920.7210.6840.702TBL0.8230.7940.8080.6370.7220.677统计模型0.8950.8330.8630.8390.7800.808表2统计模型、C4.5和TBL三种算法在语料库II上的比较结果34第34页,共39页,2023年,2月20日,星期日文本分析模块流程变调:老虎,555,5599轻声:多音字重音?词典分词合并韵律词合并韵律短语变音处理参数生成35第35页,共39页,2023年,2月20日,星期日多音字现象存在多音字,多音词形式上相同,但具有不同语法,语义功能的词。250万字语料,多音字占8.95%举例如下:1.我们种了茄子动词,zhong42.一种新的算法量词,zhong33.你真有种 名词,zhong34.各种各样 包含在词的内部,zhong35.种小明刚刚毕业 作为姓氏,chong2(Xin,2001)主要利用了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论