版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数字语音处理及MATLAB仿真 张雪英编著 1 第九章第九章 语音合成语音合成 9.1 概述概述 1 9.2 语音合成的原理及分类语音合成的原理及分类 9.3 共振峰合成法共振峰合成法 3 9.4 线性预测参数合成法线性预测参数合成法 4 9.5 基音同步叠加法基音同步叠加法5 9.6 文语转换系统文语转换系统 6 2 数字语音处理及MATLAB仿真 张雪英编著 2 9.1 概述概述 语音合成是人机语声通信的一个重要组成部分,语音合成是人机语声通信的一个重要组成部分, 解决让机器像人那样说话的问题。解决让机器像人那样说话的问题。 最早的合成器是最早的合成器是1835年由年由W.von Kemp
2、elen发发 明,经明,经Weston改进的机械式会讲话的机器。而最改进的机械式会讲话的机器。而最 早的电子式语音合成器也是早的电子式语音合成器也是1939年年Homer Dudley 发明的声码器,它不是简单的模拟人的生理过程,发明的声码器,它不是简单的模拟人的生理过程, 而是通过电子线路来实现基于语音产生的源而是通过电子线路来实现基于语音产生的源-滤波滤波 器理论。器理论。 数字语音处理及MATLAB仿真 张雪英编著 3 在语音合成技术发展中,早期研究主要是采在语音合成技术发展中,早期研究主要是采 用参数合成方法。用参数合成方法。 1990年提出的基音同步叠加年提出的基音同步叠加PSOLA
3、方法,使方法,使 基于时域波形拼接方法合成的语音音色和自然度基于时域波形拼接方法合成的语音音色和自然度 大大提高。大大提高。 我国的汉语语音合成研究从我国的汉语语音合成研究从80年代初就基本年代初就基本 上与国际研究同步发展。大致也经历了共振峰合上与国际研究同步发展。大致也经历了共振峰合 成、成、LPC合成到应用合成到应用PSOLA技术的过程。技术的过程。 数字语音处理及MATLAB仿真 张雪英编著 4 9.2 语音合成的原理及分类语音合成的原理及分类 9.2.1 波形合成法波形合成法 波形编码合成法是一种波形合成法,类似于语波形编码合成法是一种波形合成法,类似于语 音编码中的波形编解码方法,
4、该方法直接把要合成音编码中的波形编解码方法,该方法直接把要合成 的语音的发音波形进行存储或者进行波形编码压缩的语音的发音波形进行存储或者进行波形编码压缩 后存储,合成重放时再解码组合输出。后存储,合成重放时再解码组合输出。 特点:所需的存储容量太大,词汇量不能很大;特点:所需的存储容量太大,词汇量不能很大; 相对简单,通常只能合成有限词汇的语音段。目前相对简单,通常只能合成有限词汇的语音段。目前 用于自动报时、报站和报警等。用于自动报时、报站和报警等。 数字语音处理及MATLAB仿真 张雪英编著 5 另一种波形合成法是波形编辑合成,它把波形另一种波形合成法是波形编辑合成,它把波形 编辑技术用于
5、语音合成,通过选取音库中采取自然编辑技术用于语音合成,通过选取音库中采取自然 语言的合成单元的波形,对这些波形进行编辑拼接语言的合成单元的波形,对这些波形进行编辑拼接 后输出。它采用语音编码技术,存储适当的语音基后输出。它采用语音编码技术,存储适当的语音基 元,合成时,经解码、波形编辑拼接、平滑处理等元,合成时,经解码、波形编辑拼接、平滑处理等 输出所需的短语、语句或段落。输出所需的短语、语句或段落。 数字语音处理及MATLAB仿真 张雪英编著 6 9.2.2 参数合成法参数合成法 参数合成法也称为分析合成法。参数合成法也称为分析合成法。 参数合成法有:发音器官参数合成和声道模型参数合成法有:
6、发音器官参数合成和声道模型 参数合成。参数合成。 发音器官参数合成法:发音器官参数合成法: 是对人的发音过程直接进行模拟。它定义了唇、是对人的发音过程直接进行模拟。它定义了唇、 舌、声带的相关参数,如唇开口度、舌高度、舌位舌、声带的相关参数,如唇开口度、舌高度、舌位 置、声带张力等,由发音参数估计声道截面积函数,置、声带张力等,由发音参数估计声道截面积函数, 进而计算声波。进而计算声波。 缺点:合成语音的质量不理想。缺点:合成语音的质量不理想。 数字语音处理及MATLAB仿真 张雪英编著 7 参数合成方法的参数合成方法的优点优点:音库一般较小,并且整:音库一般较小,并且整 个系统能适应的韵律特
7、征的范围较宽,这类合成器个系统能适应的韵律特征的范围较宽,这类合成器 比特率低,音质适中。比特率低,音质适中。 缺点缺点:算法复杂,参数多,并且在压缩比较大:算法复杂,参数多,并且在压缩比较大 时,信息丢失亦大,合成出的语音总是不够自然、时,信息丢失亦大,合成出的语音总是不够自然、 清晰。清晰。 为了改善音质,近几年发展了混合编码技术,为了改善音质,近几年发展了混合编码技术, 以改善激励信号的质量。以改善激励信号的质量。 数字语音处理及MATLAB仿真 张雪英编著 8 9.2.3 规则合成法规则合成法 规则合成方法:规则合成方法:一种高级的合成方法,通过一种高级的合成方法,通过 语音学规则产生
8、语音,可以合成无限词汇的语句。语音学规则产生语音,可以合成无限词汇的语句。 合成的词汇表不是事先确定,系统中存储的是最合成的词汇表不是事先确定,系统中存储的是最 小的语音单位的声学参数,以及由音素组成音节、小的语音单位的声学参数,以及由音素组成音节、 由音节组成词、由词组成句子和控制音调、轻重由音节组成词、由词组成句子和控制音调、轻重 音等韵律的各种规则。音等韵律的各种规则。 算法中,用于波形拼接和韵律控制的较有代算法中,用于波形拼接和韵律控制的较有代 表性的算法是基音同步叠加表性的算法是基音同步叠加PSOLA技术。技术。 数字语音处理及MATLAB仿真 张雪英编著 9 9.2.3 规则合成法
9、规则合成法 基音同步叠加基音同步叠加PSOLA技术技术主要特点:主要特点: 在语音波形片在语音波形片断拼接之前,首先根据语义,用断拼接之前,首先根据语义,用 PSOLA算法对拼接单元的韵律特征进行调整,使算法对拼接单元的韵律特征进行调整,使 合成波形既保持了原始语音基元的主要音段特征,合成波形既保持了原始语音基元的主要音段特征, 又使拼接单元的韵律特征符合语义,从而获得很高又使拼接单元的韵律特征符合语义,从而获得很高 的可懂度和自然度。的可懂度和自然度。 数字语音处理及MATLAB仿真 张雪英编著 10 项目项目波形合成方式波形合成方式参数合成方式参数合成方式按规则合成方式按规则合成方式 语音
10、语音 质量质量 可懂度可懂度高高高高中中 自然度自然度高高中中低低 词汇量词汇量小(小(500字以下)字以下)大(数千字)大(数千字)无限无限 合成方法合成方法PCM,ADPCMLPC,LSP,共振峰共振峰LPC,LSP共振峰共振峰 数码率数码率9.664kbit/s 2.49.6 kbit/s5075 kbit/s 1兆比特可合成兆比特可合成 的语音长度的语音长度 15秒秒100秒秒100秒秒7分分无限无限 合成基元合成基元 音节、词组、句音节、词组、句 子子 音节、词组、句子音节、词组、句子 音素、双音素、音音素、双音素、音 节节 装置装置简单简单比较复杂比较复杂复杂复杂 硬件主体硬件主体
11、存储器存储器存储器和处理器存储器和处理器处理器处理器 表表9.1 三种语音合成方式的比较三种语音合成方式的比较 数字语音处理及MATLAB仿真 张雪英编著 11 9.3 共振峰合成法共振峰合成法 共振峰合成理论中声道参数、声道谐振特性共振峰合成理论中声道参数、声道谐振特性 一直是研究的重点。一直是研究的重点。 共振峰合成模型是把声道视为一个谐振腔,共振峰合成模型是把声道视为一个谐振腔, 利用腔体的谐振特性,如共振峰频率及带宽,以利用腔体的谐振特性,如共振峰频率及带宽,以 此为参数构成一个共振峰滤波器。因为音色各异此为参数构成一个共振峰滤波器。因为音色各异 的语音有不同的共振峰模式,以每个共振峰
12、频率的语音有不同的共振峰模式,以每个共振峰频率 及其宽带为参数,可以构成一个共振峰滤波器。及其宽带为参数,可以构成一个共振峰滤波器。 数字语音处理及MATLAB仿真 张雪英编著 12 9.3 共振峰合成法共振峰合成法 共振峰语音合成器的构成原理:共振峰语音合成器的构成原理: 将多个共振峰滤波器组合起来模拟声道的传将多个共振峰滤波器组合起来模拟声道的传 输特性,对激励声源发生的信号进行调制,经过输特性,对激励声源发生的信号进行调制,经过 辐射得到合成语音。辐射得到合成语音。 基于共振峰的理论有三种实用模型。基于共振峰的理论有三种实用模型。 数字语音处理及MATLAB仿真 张雪英编著 13 9.3
13、.1 级联型共振峰模型级联型共振峰模型 在该模型中,声道被认为是一组串联的二阶谐在该模型中,声道被认为是一组串联的二阶谐 振器,共振峰滤波器首尾相接,其传递函数为各个共振器,共振峰滤波器首尾相接,其传递函数为各个共 振峰的传递函数相乘的结果。振峰的传递函数相乘的结果。 数字语音处理及MATLAB仿真 张雪英编著 14 激励源激励源 V1V2- V5辐射模型辐射模型 语音语音 G 一个五个极点的共振峰级联模型如下一个五个极点的共振峰级联模型如下 图图9.2 共振峰级联模型共振峰级联模型 五个极点的共振峰级联模型传递函数为:五个极点的共振峰级联模型传递函数为: 10 1 ( ) 1 k k k G
14、 z a z 55 12 11 1 ( )( ) 1 i ii ii zGzG b zc z 即:即: 式中,式中,G为增益因子。为增益因子。 数字语音处理及MATLAB仿真 张雪英编著 15 9.3.2 并联型共振峰模型并联型共振峰模型 在并联型模型中,输入信号先分别进行幅度在并联型模型中,输入信号先分别进行幅度 调节,再加到每一个共振峰滤波器上,然后将各调节,再加到每一个共振峰滤波器上,然后将各 路的输出叠加起来。路的输出叠加起来。 0 1 ( ) 1 R r r r p k k k b z v z a z 其传递函数为其传递函数为: 数字语音处理及MATLAB仿真 张雪英编著 16 上式
15、可分解成以下部分分式之和:上式可分解成以下部分分式之和: 其中其中Al为各路的增益因子。为各路的增益因子。 12 1 ( ) 1 M l l ll A z B zC z 0 1 ( ) 1 R r r r p k k k b z v z a z 数字语音处理及MATLAB仿真 张雪英编著 17 下图就是一个下图就是一个M=5的并联型共振峰模型。的并联型共振峰模型。 激励源激励源 + 辐射模型辐射模型 语音语音 1 A 2 A 5 A 1 2 5 图图9.3 并联型共振峰模型并联型共振峰模型 数字语音处理及MATLAB仿真 张雪英编著 18 9.3.3 混合型共振峰模型混合型共振峰模型 比较以上
16、两种模型,对于大多数的元音,级比较以上两种模型,对于大多数的元音,级 联型合乎语音产生的声学理论,并且无需为每一联型合乎语音产生的声学理论,并且无需为每一 个滤波器分设幅度调节;而对于大多数清擦音和个滤波器分设幅度调节;而对于大多数清擦音和 塞音,并联型则比较合适,但是其幅度调节很复塞音,并联型则比较合适,但是其幅度调节很复 杂。于是考虑将两者结合在一起,提出了混和型杂。于是考虑将两者结合在一起,提出了混和型 共振峰模型。共振峰模型。 数字语音处理及MATLAB仿真 张雪英编著 19 混和型共振峰模型如下图所示:混和型共振峰模型如下图所示: 图图9.4 混和型共振峰模型混和型共振峰模型 数字语
17、音处理及MATLAB仿真 张雪英编著 20 对于共振峰合成器的激励,简单地将其分为浊对于共振峰合成器的激励,简单地将其分为浊 音和清音两种类型是有缺陷的,为了得到高质量的音和清音两种类型是有缺陷的,为了得到高质量的 合成语音,激励源应具备多种选择,以适应不同的合成语音,激励源应具备多种选择,以适应不同的 发音情况。发音情况。 混和型共振峰模型中激励源有三种类型:合成混和型共振峰模型中激励源有三种类型:合成 浊音语音时用周期冲激序列;合成清音语音时用伪浊音语音时用周期冲激序列;合成清音语音时用伪 随机噪声;合成浊擦音语音时用周期冲激调制的噪随机噪声;合成浊擦音语音时用周期冲激调制的噪 声。声。
18、数字语音处理及MATLAB仿真 张雪英编著 21 共振峰合成技术弱点共振峰合成技术弱点: (1)由于它是建立在对声道的模拟上,因此,声道由于它是建立在对声道的模拟上,因此,声道 模型的不精确势必会影响其合成质量。模型的不精确势必会影响其合成质量。 (2 2)实际工作中共振峰模型并不能表征影响语音自)实际工作中共振峰模型并不能表征影响语音自 然度的其他许多细微的语音成分,从而影响了合成然度的其他许多细微的语音成分,从而影响了合成 语音的自然度。语音的自然度。 (3 3)共振峰合成器控制十分复杂,实现起来十分困)共振峰合成器控制十分复杂,实现起来十分困 难。难。 数字语音处理及MATLAB仿真 张
19、雪英编著 22 9.4 线性预测参数合成法线性预测参数合成法 是一种是一种“源滤波器源滤波器”模型,由白噪声序列和周模型,由白噪声序列和周 期脉冲序列构成的激励信号,经过选通、放大并通期脉冲序列构成的激励信号,经过选通、放大并通 过时变数字滤波器,就可以再获得原语音信号。过时变数字滤波器,就可以再获得原语音信号。 图图9.5 LPC语音合成器的框图语音合成器的框图 数字语音处理及MATLAB仿真 张雪英编著 23 线性预测合成的形式有两种:一种是直接用预线性预测合成的形式有两种:一种是直接用预 测器系数构成的递归型合成滤波器,用这种方法定测器系数构成的递归型合成滤波器,用这种方法定 期地改变激
20、励参数期地改变激励参数u(n)和预测系数,就能合成出语和预测系数,就能合成出语 音。它合成的语音样本由下式决定音。它合成的语音样本由下式决定: 其中:其中:ai为预测系数;为预测系数;G为模型增益;为模型增益;u(n)为激励;为激励; 合成样本为合成样本为s(n);p为预测器阶数。为预测器阶数。 p i i nGuinsans 1 )()()( 数字语音处理及MATLAB仿真 张雪英编著 24 1 a ap p i a 基音周期基音周期 冲激序列发生器冲激序列发生器 白噪声发生白噪声发生器器 浊音浊音/ /清音清音 控制控制 G u(n) 1 Z 1 Z 1 Z 图图9.6 直接用预测器系数直
21、接用预测器系数ai构成的合成滤波器构成的合成滤波器 数字语音处理及MATLAB仿真 张雪英编著 25 另一种合成的形式是采用反射系数构成的格型另一种合成的形式是采用反射系数构成的格型 合成滤波器。它的合成语音样本由下式决定合成滤波器。它的合成语音样本由下式决定: 1 1 ( )( )(1) p ii i s nGu nk bn 其中:其中:G为模型增益;为模型增益;u(n)为激励;为激励;ki为反射系数;为反射系数; bi(n)为后向预测误差;为后向预测误差;p为预测器阶数。为预测器阶数。 数字语音处理及MATLAB仿真 张雪英编著 26 LPC语音合成和共振峰语音合成比较:语音合成和共振峰语
22、音合成比较: (1)LPC语音合成有比较简单和完全自动的分析语音合成有比较简单和完全自动的分析 步骤,合成器结构也比较简单,采用格形滤波器时,步骤,合成器结构也比较简单,采用格形滤波器时, 量化特性和稳定性都比较好,硬件实现容易;而共量化特性和稳定性都比较好,硬件实现容易;而共 振峰合成需要较多的参数调整,合成器结构相对讲振峰合成需要较多的参数调整,合成器结构相对讲 要复杂些。要复杂些。 (2)共振峰合成原理和实际发声原理联系紧密,)共振峰合成原理和实际发声原理联系紧密, 它的模型控制参数对合成语音谱特性的影响比较直它的模型控制参数对合成语音谱特性的影响比较直 观。观。LPC合成中,控制合成中
23、,控制LPC系数的变化轨迹十分有系数的变化轨迹十分有 限。限。 数字语音处理及MATLAB仿真 张雪英编著 27 (3)共振峰语音合成比较灵活,允许简单地变换以)共振峰语音合成比较灵活,允许简单地变换以 模仿不同人的发音,通过共振峰频率的移动,容易模仿不同人的发音,通过共振峰频率的移动,容易 改变语声中和讲话人特征有关的部分;改变语声中和讲话人特征有关的部分;LPC合成较合成较 困难,只有将困难,只有将LPC的反射系数转变成极点的位置,的反射系数转变成极点的位置, 才有可能作类似的修正。才有可能作类似的修正。 (4)线性预测方法对谱包络谷点的模型要比峰点差)线性预测方法对谱包络谷点的模型要比峰
24、点差 得多,因此共振峰带宽的估计一般是不合适的;得多,因此共振峰带宽的估计一般是不合适的;共共 振峰合成方法中,共振峰的带宽还可以从离散傅里振峰合成方法中,共振峰的带宽还可以从离散傅里 叶变换谱来估计。叶变换谱来估计。 数字语音处理及MATLAB仿真 张雪英编著 28 (5)标准)标准LPC的全极点模型,对具有零点谱特性的的全极点模型,对具有零点谱特性的 那些音,特别是鼻音,效果比较差;共振峰合成方那些音,特别是鼻音,效果比较差;共振峰合成方 法则可以采用反谐振器来直接模拟鼻音中最重要的法则可以采用反谐振器来直接模拟鼻音中最重要的 频谱零点,使得合成语音音质得以提高。频谱零点,使得合成语音音质
25、得以提高。 (6)从总体上说,选择)从总体上说,选择LPC语音合成还是共振峰合语音合成还是共振峰合 成,基于二个因素的折衷;成,基于二个因素的折衷;LPC合成具有简单,可合成具有简单,可 自动进行系数分析的优点;而比较复杂的共振峰合自动进行系数分析的优点;而比较复杂的共振峰合 成可望产生较高质量的合成语音。成可望产生较高质量的合成语音。 数字语音处理及MATLAB仿真 张雪英编著 29 9.5 基音同步叠加法基音同步叠加法 基音同步叠加基音同步叠加PSOLA算法核心思想:直接对算法核心思想:直接对 存储于音库中的语音运用存储于音库中的语音运用PSOLA算法进行拼接,算法进行拼接, 从而整合成完
26、整的语音。从而整合成完整的语音。 该系统首先要在大量语音库中,选择最合适的该系统首先要在大量语音库中,选择最合适的 语音单元用于拼接,并且在选择语音单元的过程中语音单元用于拼接,并且在选择语音单元的过程中 往往采用多种复杂的技术,最后在拼接时,使用往往采用多种复杂的技术,最后在拼接时,使用 PSOLA算法,根据上下文的要求,对其合成语音算法,根据上下文的要求,对其合成语音 的韵律特征进行修改。的韵律特征进行修改。 数字语音处理及MATLAB仿真 张雪英编著 30 由于韵律修改所针对的侧面不同,由于韵律修改所针对的侧面不同,PSOLA算法算法 的实现目前有的实现目前有3种方式。分别为:种方式。分
27、别为: 时域基音同步叠加时域基音同步叠加TD-PSOLA 线性预测基音同步叠加线性预测基音同步叠加LPC-PSOLA 频域基音同步叠加频域基音同步叠加FD-PSOLA 其中其中TD-PSOLA算法计算效率较高,已被广泛应算法计算效率较高,已被广泛应 用,是一种经典算法,这里只介绍用,是一种经典算法,这里只介绍TD-PSOLA算法原算法原 理。理。 数字语音处理及MATLAB仿真 张雪英编著 31 9.5.1 基音同步叠加基音同步叠加PSOLA算法原理算法原理 信号信号x(n)的短时傅里叶变换为:的短时傅里叶变换为: 其中其中w(n)是长度为是长度为N的窗序列,的窗序列,Z表示全体整数集合。表示
28、全体整数集合。 是变量是变量n和和的二维时频函数,对于的二维时频函数,对于n的每个的每个 取值都对应有一个连续的频谱函数,显然存在较大取值都对应有一个连续的频谱函数,显然存在较大 的信息冗余,所以可以在时域每隔若干个(例如的信息冗余,所以可以在时域每隔若干个(例如R 个)样本取一个频谱函数来重构原信号个)样本取一个频谱函数来重构原信号x(n)。 ZnmnwmxX m m n )e()()(e jj )( j n eX 数字语音处理及MATLAB仿真 张雪英编著 32 令:令: 其傅里叶逆变换为:其傅里叶逆变换为: 然后将然后将 叠接相加便可得到:叠接相加便可得到: 通常选通常选w(n)是对称的
29、窗函数,所以有是对称的窗函数,所以有 w(rR-n)=w(n-rR) ZnreXeY rRn j n j r ,| )()( ZmdeeYmy mjj rr )( 2 1 )( )( j r ey ZmmrRwmxmrRwmxmymy rrr r )()()()()()( 数字语音处理及MATLAB仿真 张雪英编著 33 可以证明,对于汉明窗来说,当时,无论可以证明,对于汉明窗来说,当时,无论m为为 何值都有:何值都有: 所以所以 其中其中 为为w(n)的傅里叶变换。上式说明,用叠接的傅里叶变换。上式说明,用叠接 相加法重构的信号相加法重构的信号y(n)与原信号与原信号x(n)只相差一个常数只
30、相差一个常数 因子。因子。 r j R eW mrRw )( )( 0 R eW nxny j )( )()( 0 )( j eW 数字语音处理及MATLAB仿真 张雪英编著 34 这里采用原始信号谱与合成信号谱均方误差最小的这里采用原始信号谱与合成信号谱均方误差最小的 叠接相加合成公式。定义两信号叠接相加合成公式。定义两信号x(n)和和y(n)之间谱之间谱 距离测度:距离测度: 上式可改写为:上式可改写为: 2 1 ( ), ( )|()()| 2 mg g jj tt t D x n y nXeY ed 2 12 2 12 ( ), ( ) () ()() () () ()() ( ) g
31、 g mmmggg tn ggmg tn D x n y nw tntx ntw tnty nt w ntx nttw nty n (9-14) 数字语音处理及MATLAB仿真 张雪英编著 35 要求合成信号要求合成信号y(n)满足谱距离最小,可以令:满足谱距离最小,可以令: 解得:解得: 窗函数窗函数w1(n)和和w2(n)可以是两种不同的窗函数,长度可以是两种不同的窗函数,长度 也可以不相等。上式就是在谱均方误差最小意义下的也可以不相等。上式就是在谱均方误差最小意义下的 时域基音同步叠接相加合成公式。时域基音同步叠接相加合成公式。 ( ), ( ) 0 ( ) D x ny n y n 1
32、2 2 2 ()() () ( ) () g g gggm t g t w ntw ntx ntt y n w nt 数字语音处理及MATLAB仿真 张雪英编著 36 实际合成时实际合成时w1(n)和和w2(n)可以用完全相同的窗,可以用完全相同的窗, 分母可视为常数,而且可以加一个短时幅度因子分母可视为常数,而且可以加一个短时幅度因子 来调整短时能量,即:来调整短时能量,即: 基音同步叠接相加法优点:基音同步叠接相加法优点: 良好的韵律调整能力的;良好的韵律调整能力的; 缺点:缺点:基音频率修改过大时可能出现严重的谱基音频率修改过大时可能出现严重的谱 包络失真。包络失真。 g t 12 2
33、2 ()() () ( ) () g g g tgggm t g t w tn w tn x ntt y n w tn 数字语音处理及MATLAB仿真 张雪英编著 37 9.5.2 基音同步叠加基音同步叠加PSOLA算法实现步骤算法实现步骤 概括起来说,用概括起来说,用PSOLA算法实现语音合成时主算法实现语音合成时主 要有三个步骤。分别为基音同步分析、基音同步修要有三个步骤。分别为基音同步分析、基音同步修 改和基音同步合成。下面介绍这三个步骤。改和基音同步合成。下面介绍这三个步骤。 数字语音处理及MATLAB仿真 张雪英编著 38 1.基音同步分析基音同步分析 同步标记是与合成单元浊音段的基
34、音保持同步同步标记是与合成单元浊音段的基音保持同步 的一系列位置点,用它们来准确反映各基音周期的的一系列位置点,用它们来准确反映各基音周期的 起始位置。同步分析的功能主要是对语音合成单元起始位置。同步分析的功能主要是对语音合成单元 进行同步标记设置。进行同步标记设置。PSOLA技术中,短时信号的技术中,短时信号的 截取和叠加,时间长度的选择,均是依据同步标记截取和叠加,时间长度的选择,均是依据同步标记 进行的。对于浊音段有基音周期,而清音段信号则进行的。对于浊音段有基音周期,而清音段信号则 属于白噪声,所以这两种类型需要区别对待。属于白噪声,所以这两种类型需要区别对待。 数字语音处理及MATL
35、AB仿真 张雪英编著 39 2. 基音同步修改基音同步修改 同步修改通过对合成单元同步标记的插入、删同步修改通过对合成单元同步标记的插入、删 除来改变合成语音的时长;通过对合成单元标记间除来改变合成语音的时长;通过对合成单元标记间 隔的增加、减小来改变合成语音的基频等。隔的增加、减小来改变合成语音的基频等。 若短时分析信号为若短时分析信号为x(ta(s),n),短时合成信号为,短时合成信号为 x(ts(s),n),则有:,则有: ),(),(nstxnstx sa 式中式中ta(s)为分析基音标记,为分析基音标记,ts(s)为合成基音标记。为合成基音标记。 数字语音处理及MATLAB仿真 张雪
36、英编著 40 3. 基音同步合成基音同步合成 基音同步合成是利用短时合成信号进行叠加基音同步合成是利用短时合成信号进行叠加 合成。如果合成信号仅仅在时长上有变化,则增合成。如果合成信号仅仅在时长上有变化,则增 加或减少相应的短时合成信号;如果是基频上有加或减少相应的短时合成信号;如果是基频上有 变化,则首先将短时合成信号变换成符合要求的变化,则首先将短时合成信号变换成符合要求的 短时合成信号再进行合成。短时合成信号再进行合成。 数字语音处理及MATLAB仿真 张雪英编著 41 图图9.7 时域基频同步合成语音时域基频同步合成语音 a) 语音基频被降低语音基频被降低 b) 语音被延长但基频保持不
37、变语音被延长但基频保持不变 数字语音处理及MATLAB仿真 张雪英编著 42 9.6 文语转换系统文语转换系统 9.6.1 文语转换系统的组成文语转换系统的组成 在文语转换系统中,必须事先对文本进行分在文语转换系统中,必须事先对文本进行分 析,根据上下文的关系来确定每个字发音的声调应析,根据上下文的关系来确定每个字发音的声调应 如何变化,然后用这些声调变化参数去控制语音的如何变化,然后用这些声调变化参数去控制语音的 合成。合成。 数字语音处理及MATLAB仿真 张雪英编著 43 图图9.8 TTS系统基本框图系统基本框图 文本分析、韵律控制和语音合成这三个模块是文本分析、韵律控制和语音合成这三
38、个模块是 文语转换系统的三个核心部分。其结构如下图所示:文语转换系统的三个核心部分。其结构如下图所示: 9.6.1 文语转换系统的组成文语转换系统的组成 数字语音处理及MATLAB仿真 张雪英编著 44 1.文本分析文本分析 工作过程包括:工作过程包括: 将输入的文本规范化,并处理用户可能的拼写将输入的文本规范化,并处理用户可能的拼写 错误,将出现的不规范或无法发音的字符过滤掉;错误,将出现的不规范或无法发音的字符过滤掉; 分析文本中的词或短语的边界,确定文字的读分析文本中的词或短语的边界,确定文字的读 音,同时分析文本中出现的数字、姓氏、特殊字符音,同时分析文本中出现的数字、姓氏、特殊字符
39、以及各种多音字的读音方式;以及各种多音字的读音方式; 确定发音时语气的变换及不同音的轻重方式。确定发音时语气的变换及不同音的轻重方式。 最终,将输入的文字转换成计算机能够处理的内部最终,将输入的文字转换成计算机能够处理的内部 参数,便于后续模块进一步处理并生成相应的信息。参数,便于后续模块进一步处理并生成相应的信息。 数字语音处理及MATLAB仿真 张雪英编著 45 2.韵律控制韵律控制 任何人说话都有韵律特征,有不同的声调、任何人说话都有韵律特征,有不同的声调、 语气、停顿方式,发音长短也各不相同,这些都属语气、停顿方式,发音长短也各不相同,这些都属 于韵律特征。而韵律参数则包括了能影响这些
40、特征于韵律特征。而韵律参数则包括了能影响这些特征 的声学参数,如:基频、音长、音强等。最终系统的声学参数,如:基频、音长、音强等。最终系统 能够用来进行语音信号合成的具体韵律参数,还要能够用来进行语音信号合成的具体韵律参数,还要 靠韵律控制模块。靠韵律控制模块。 3.语音合成语音合成 文语转换系统的合成语音模块一般采用波形文语转换系统的合成语音模块一般采用波形 拼接来合成语音的方法,其中最具代表性的是前面拼接来合成语音的方法,其中最具代表性的是前面 介绍过的基音同步叠加法介绍过的基音同步叠加法PSOLA。 数字语音处理及MATLAB仿真 张雪英编著 46 9.6.2 汉语按规则合成汉语按规则合成 通过语音学规则产生语音,对于不同的语种,通过语音学规则产生语音,对于不同的语种, 其规则是完全不同的,这里仅讨论文语转换层次其规则是完全不同的,这里仅讨论文语转换层次 上的汉语按规则合成中有关韵律规则的几个基本上的汉语按规则合成中有关韵律规则的几个基本 问题。问题。 数字语音处理及MATLAB仿真 张雪英编著 47 1.重音规则重音规则 汉语的重音,是指说话或朗读时读的比较重汉语的重音,是指说话或朗读时读的比较重 的音节或词语。的音节或词语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 游泳馆勘察技术标投标
- 环保工程招投标委托书模板
- 农药原料招投标专员操作指南
- 本溪市供热服务用户体验优化
- 亲子活动中心租赁
- 新能源汽车项目保函策略
- 旅游服务提升工程中心管理办法
- 老旧小区改造评估师招聘协议
- 医疗资源区二手房买卖范本
- 交通运输枢纽站房租赁合同
- 咯血的介入治疗
- 教师专业成长概述教师专业发展途径PPT培训课件
- 球磨机安装专项施工方案
- 阀门压力等级对照表优质资料
- GMP质量管理体系文件 中药材干燥SOP
- YY/T 0874-2013牙科学旋转器械试验方法
- GB/T 25217.10-2019冲击地压测定、监测与防治方法第10部分:煤层钻孔卸压防治方法
- GB/T 21010-2007土地利用现状分类
- 下库大坝混凝土温控措施(二次修改)
- 医药代表初级培训课程课件
- SAT长篇阅读练习题精选14篇(附答案)
评论
0/150
提交评论