第十五讲语音信号处理第8章_第1页
第十五讲语音信号处理第8章_第2页
第十五讲语音信号处理第8章_第3页
第十五讲语音信号处理第8章_第4页
第十五讲语音信号处理第8章_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、8.1 8.1 概述概述8.2 8.2 共振峰合成法共振峰合成法8.3 8.3 线性预测合成法线性预测合成法8.4 PSOLA8.4 PSOLA算法合成语音算法合成语音8.5 TTS8.5 TTS合成技术合成技术8.1 8.1 概述概述 一、语音合成定义一、语音合成定义二、语音合成技术的应用二、语音合成技术的应用三、语音合成的方法三、语音合成的方法四、语音合成系统介绍四、语音合成系统介绍一、语音合成定义一、语音合成定义 解决如何让机器像人说话的问题。其解决如何让机器像人说话的问题。其目的目的:能将:能将任意文本实时地转换为自然语音输出,且输出的语音任意文本实时地转换为自然语音输出,且输出的语音

2、清晰可懂。清晰可懂。1. 1. 电话查询系统电话查询系统 工商信息电话查询系统、银行电话查询系统、股票查询系统、工商信息电话查询系统、银行电话查询系统、股票查询系统、交通信息查询系统、考试成绩查询系统等。交通信息查询系统、考试成绩查询系统等。 二、语音合成技术的应用二、语音合成技术的应用 2. 2.教育与娱乐软件教育与娱乐软件 普通话教学软件是帮助想学普通话的用户普通话教学软件是帮助想学普通话的用户, , 以往的普通话以往的普通话教学软件只是将预先录好音的单词逐个读给用户听,有了语音教学软件只是将预先录好音的单词逐个读给用户听,有了语音合成技术,可以将任意文本中的整句话、整段话读给用户听,合成

3、技术,可以将任意文本中的整句话、整段话读给用户听,学习效率明显提高。学习效率明显提高。3.3.游戏软件游戏软件 现在计算机游戏中的人物,或者不会说话,或者只会现在计算机游戏中的人物,或者不会说话,或者只会“ 播放播放”已经录好的声音。利用语音合成,游戏中的人物可已经录好的声音。利用语音合成,游戏中的人物可以说出任意的话语,不同的人物可以通过选用不同的音库而形以说出任意的话语,不同的人物可以通过选用不同的音库而形成不同的说话风格。增加了游戏的趣味性和互动性。成不同的说话风格。增加了游戏的趣味性和互动性。1. 1. 语音信号的语音信号的波形合成波形合成(录音合成技术)(录音合成技术) 采用数字存储

4、技术存储基本的语音信息。采用数字存储技术存储基本的语音信息。 在在合成时采用恰当的技术手段挑选出所需的语音单元合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,生成高自然度的语句,这就是拼接起来,生成高自然度的语句,这就是波形拼接波形拼接的语音合成方法的语音合成方法。为了节省存储容量,在存入机器。为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。之前还可以对语音信号先进行数据压缩。三、语音合成的方法三、语音合成的方法 语音库语音库(语音单元语音单元)语音的波形语音的波形编码编码输入输入语音语音挑选挑选组合组合回放回放合成合成语音语音波形合成方法波形合成方法2. 2. 语音信号

5、的语音信号的参数合成参数合成 根据语音产生的数学模型,利用短时平稳性,提出根据语音产生的数学模型,利用短时平稳性,提出每帧语音信号的参数,这些参数经编码后组成一个语每帧语音信号的参数,这些参数经编码后组成一个语音参数库。音参数库。输出时,从语音参数库中取出相应的参数,输出时,从语音参数库中取出相应的参数,利用语音产生的数学模型恢复语音利用语音产生的数学模型恢复语音。共振峰合成共振峰合成和和线线性预测合成性预测合成是该类合成技术中的重要方法。是该类合成技术中的重要方法。3. 3. 语音信号的语音信号的规则合成规则合成 将任意文本转换成声音的系统。包括语言学和声学将任意文本转换成声音的系统。包括语

6、言学和声学处理。处理。合成的词汇不是事先确定。常见的是合成的词汇不是事先确定。常见的是文语转换文语转换合成技术合成技术 text-to-speech (TTS)text-to-speech (TTS)。 系统中存储的是系统中存储的是音素的声学参数音素的声学参数,以及由音素组,以及由音素组成音节、由音节组成词、由词组成句子的成音节、由音节组成词、由词组成句子的规则规则;控制;控制音调、轻重音等韵律的音调、轻重音等韵律的各种规则各种规则。 给出待合成的字母或文字后,根据语义规则和语给出待合成的字母或文字后,根据语义规则和语音规则,确定每个字的音素的组成和句子的低层结构。音规则,确定每个字的音素的组

7、成和句子的低层结构。为每一个词、每一个音节确定重音等级和语句结构及为每一个词、每一个音节确定重音等级和语句结构及语调,其中包括各种停顿等,这样文字串就变成了代语调,其中包括各种停顿等,这样文字串就变成了代码串。声学处理利用规则将代码串转换成连续语音波。码串。声学处理利用规则将代码串转换成连续语音波。 四、语音合成系统介绍四、语音合成系统介绍欢迎使用微软中国研究院中文语音合成系统欢迎使用微软中国研究院中文语音合成系统 采用采用TTSTTS技术合成语音技术合成语音http:/research.M 8.2 共振峰合成法共振峰合成法一、共振峰合成的原理一、共振峰合成的原理二、共振峰合成的方法二、共振峰

8、合成的方法A Av v冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周期T TP PA AN N线性系统线性系统声道声道V(z)V(z)辐射辐射模型模型R(z)R(z)清清/ /浊音浊音开关开关 语音的生成模型语音的生成模型一、共振峰合成的原理一、共振峰合成的原理A Av v冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周期T TP PA AN N共振峰滤波器共振峰滤波器清清/ /浊音浊音开关开关 利用语音信号的生成模型,将声道视为一个谐振腔,利用语音信号的生成模型,将声

9、道视为一个谐振腔,利用腔体的谐振特性,共振峰频率及其带宽,为此利用腔体的谐振特性,共振峰频率及其带宽,为此构造一个共振峰滤波器。对激励信号进行处理,可构造一个共振峰滤波器。对激励信号进行处理,可得到合成语音。得到合成语音。二、共振峰合成方法二、共振峰合成方法共振峰合成器的系统模型共振峰合成器的系统模型 8.3 8.3 线性预测合成法线性预测合成法 将语音生成模型简化,将辐射、声道和声门激励将语音生成模型简化,将辐射、声道和声门激励进行组合,用一个时变数字滤波器来表示。进行组合,用一个时变数字滤波器来表示。冲激冲激序列序列发生器发生器随机随机噪声噪声发生器发生器x(n)x(n)u(n)u(n)q

10、kkkzaGzH11)(线性线性预测预测分析分析基音频率基音频率清清/ /浊音判别浊音判别参数参数合成合成k k2 2k kp p 基音频率基音频率输入输入语音语音x(n)x(n)清清/ /浊音标志浊音标志G Gk k1 1格型滤波器语音合成技术框图格型滤波器语音合成技术框图合成合成语音语音反射系数反射系数8.4 PSOLA8.4 PSOLA算法合成语音算法合成语音v2020世纪世纪8080年代末,由年代末,由F.CharpentierF.Charpentier和和E.MoulinesE.Moulines等提出的等提出的的的基音同步叠加技术(基音同步叠加技术(PSOLAPSOLA)和早期的波形

11、编辑有原则性和早期的波形编辑有原则性的差别,它既能保持原始语音的主要音段特征,又能在音节的差别,它既能保持原始语音的主要音段特征,又能在音节拼接时灵活调整其基音、能量和音长等韵律特征,因而很适拼接时灵活调整其基音、能量和音长等韵律特征,因而很适合于汉语语音和规则合成。合于汉语语音和规则合成。 vPSOLAPSOLA是用于波形编辑合成语音技术中是用于波形编辑合成语音技术中对合成语音的韵律进对合成语音的韵律进行修改行修改的一种算法。决定语音波形韵律的主要时域参数包括的一种算法。决定语音波形韵律的主要时域参数包括:音长、音强、音高音长、音强、音高等。音长的调节对于稳定的波形段是比等。音长的调节对于稳

12、定的波形段是比较简单的,只需以基音周期为单位加较简单的,只需以基音周期为单位加/ /减即可。但对于语音减即可。但对于语音基元本身的复杂性,实际处理时采用特定的时长缩放法;音基元本身的复杂性,实际处理时采用特定的时长缩放法;音强改变只要加强波形即可。但对一些重音有变化的音节,有强改变只要加强波形即可。但对一些重音有变化的音节,有可能幅度包络也需改变;音高的大小对应于波形的基音周期可能幅度包络也需改变;音高的大小对应于波形的基音周期。对于大多数通用语言,音高仅代表语气的不同及话者的更。对于大多数通用语言,音高仅代表语气的不同及话者的更替。但汉语的音高曲线构成声调,声调有辩义作用,因此汉替。但汉语的

13、音高曲线构成声调,声调有辩义作用,因此汉语的音高修改比较复杂。语的音高修改比较复杂。 v下图是利用下图是利用PSOLAPSOLA算法的语音合成系统的基本结构。算法的语音合成系统的基本结构。vPSOLAPSOLA算法合成语音在计算复杂度、合成语音的清晰度、自算法合成语音在计算复杂度、合成语音的清晰度、自然度方面都具有明显优点,受到国内外很多学者的欢迎,国然度方面都具有明显优点,受到国内外很多学者的欢迎,国内外很多系统都有该算法的具体应用。内外很多系统都有该算法的具体应用。v PSOLA PSOLA的实现一般有三种方式:的实现一般有三种方式:时域基音同步叠加时域基音同步叠加(TD-TD-PSOLA

14、PSOLA););线性预测基音同步叠加线性预测基音同步叠加(LPC-PSOLALPC-PSOLA););频域基音频域基音同步叠加同步叠加(FD-PSOLAFD-PSOLA)。)。文本分析语音数据库韵律生成PSOLA合成文本驱动8.5 TTS8.5 TTS合成技术合成技术一、一、TTSTTS合成技术的应用合成技术的应用二、二、TTSTTS合成系统的构成合成系统的构成一、一、TTSTTS合成技术的应用合成技术的应用1.1.可以用于各种智能系统,如信息查询系统、自可以用于各种智能系统,如信息查询系统、自动售票系统或残疾人的辅助交流工具。动售票系统或残疾人的辅助交流工具。2.2.可以用于通信设备或一些

15、数字产品,这样传递可以用于通信设备或一些数字产品,这样传递的信息不是语音,而是文字,在通信设备的终端的信息不是语音,而是文字,在通信设备的终端将文字信息转换为语音即可,由于每个文字占用将文字信息转换为语音即可,由于每个文字占用两个字节,因而极具有价值两个字节,因而极具有价值文本文本文本分析文本分析韵律控制韵律控制合成模块合成模块语音数据库语音数据库输出输出二、二、TTSTTS系统的构成系统的构成对输入文本进行分析切割出字词以后,通过语音对输入文本进行分析切割出字词以后,通过语音合成方法把这些字词的发音合成出来,并串接起来,合成方法把这些字词的发音合成出来,并串接起来,通过韵律调整,就可以得到较

16、为自然的语句的发音。通过韵律调整,就可以得到较为自然的语句的发音。1.1.文本分析文本分析自动分词自动分词多音字处理多音字处理声调判断声调判断特殊声调调整特殊声调调整特殊符号特殊符号停顿处理停顿处理系统词库系统词库多音字词库多音字词库变调规则库变调规则库特殊声调特殊声调规则规则文本分析模块的基本框图文本分析模块的基本框图自动分词自动分词对句子以系统词库为模板用最大匹配的方法进行对句子以系统词库为模板用最大匹配的方法进行分词,从系统词库中提取相应的读音、声调和时长分词,从系统词库中提取相应的读音、声调和时长信息作为控制参数。信息作为控制参数。多音字处理多音字处理对自动分词处理后的句子中余下的字,

17、首先查找对自动分词处理后的句子中余下的字,首先查找多音字表,若不是多音字,则检索标准字库,取多音字表,若不是多音字,则检索标准字库,取得该字的读音和声调;若是多音字,则根据在多得该字的读音和声调;若是多音字,则根据在多音字库中得到的信息从特征词库中读取相应的信音字库中得到的信息从特征词库中读取相应的信息,选择恰当的读音和声调。息,选择恰当的读音和声调。声调调整声调调整根据变调规则库中的规则,对每个字的声调做一根据变调规则库中的规则,对每个字的声调做一些调整,在词与词之间加入适当的停顿信息。些调整,在词与词之间加入适当的停顿信息。文本分析的输出文本分析的输出将输入的文字转换成计算机能够处理的内部

18、参数将输入的文字转换成计算机能够处理的内部参数(每个词的发音声母韵母声调每个词的发音声母韵母声调),便于后续模块,便于后续模块进一步处理并生成相应的信息。进一步处理并生成相应的信息。常见的文本分析方法:二元文法、常见的文本分析方法:二元文法、HMM和神和神经网络法等。经网络法等。2. 2. 语音合成语音合成首先合成字的声母,再合成它的韵母,然后将韵首先合成字的声母,再合成它的韵母,然后将韵母的声调调整到所需要的声调上,然后将声母和母的声调调整到所需要的声调上,然后将声母和韵母连接起来得到最终合成的语音。韵母连接起来得到最终合成的语音。语音合成步骤语音合成步骤拼音信息拼音信息声母声母韵母韵母声调声调基音同步帧、基音同步帧、过渡音和鼻音库过渡音和鼻音库声调曲线库声调曲线库声母库声母库合成韵母合成韵母幅度调整幅度调整叠接叠接合成语音合成语音3.3.语音数据库语音数据库(2)(2)声母表:声母表:2222个声母的波形个声母的波形(3)(3)韵母表:韵母表:3838个韵母的波形(基音同步帧、过渡个韵母的波形(基音同步帧、过渡音和鼻音)音和鼻音) (4)(4)声调曲线:不同声调的声调曲线声

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论