语音合成的原理及分类课件_第1页
语音合成的原理及分类课件_第2页
语音合成的原理及分类课件_第3页
语音合成的原理及分类课件_第4页
语音合成的原理及分类课件_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9.1概述

语音合成是人机语声通信的一个重要组成部分,解决让机器像人那样说话的问题。最早的合成器是1835年由W.vonKempelen发明,经Weston改进的机械式会讲话的机器。而最早的电子式语音合成器也是1939年HomerDudley发明的声码器,它不是简单的模拟人的生理过程,而是通过电子线路来实现基于语音产生的源-滤波器理论。9.1概述语音合成是人机语声通信1

在语音合成技术发展中,早期研究主要是采用参数合成方法。

1990年提出的基音同步叠加PSOLA方法,使基于时域波形拼接方法合成的语音音色和自然度大大提高。

我国的汉语语音合成研究从80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。在语音合成技术发展中,早期研究主要是29.2语音合成的原理及分类

9.2.1波形合成法波形编码合成法是一种波形合成法,类似于语音编码中的波形编解码方法,该方法直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储,合成重放时再解码组合输出。特点:所需的存储容量太大,词汇量不能很大;相对简单,通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。9.2语音合成的原理及分类9.2.1波形合成法3

另一种波形合成法是波形编辑合成,它把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。它采用语音编码技术,存储适当的语音基元,合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。

另一种波形合成法是波形编辑合成,它把49.2.2

参数合成法

参数合成法也称为分析合成法。参数合成法有:发音器官参数合成和声道模型参数合成。

发音器官参数合成法:是对人的发音过程直接进行模拟。它定义了唇、舌、声带的相关参数,如唇开口度、舌高度、舌位置、声带张力等,由发音参数估计声道截面积函数,进而计算声波。缺点:合成语音的质量不理想。9.2.2参数合成法参5

参数合成方法的优点:音库一般较小,并且整个系统能适应的韵律特征的范围较宽,这类合成器比特率低,音质适中。

缺点:算法复杂,参数多,并且在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然、清晰。为了改善音质,近几年发展了混合编码技术,以改善激励信号的质量。参数合成方法的优点:音库一般较小,并且69.2.3规则合成法

规则合成方法:一种高级的合成方法,通过语音学规则产生语音,可以合成无限词汇的语句。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。算法中,用于波形拼接和韵律控制的较有代表性的算法是基音同步叠加PSOLA技术。9.2.3规则合成法规则合成方79.2.3规则合成法

基音同步叠加PSOLA技术主要特点:在语音波形片断拼接之前,首先根据语义,用PSOLA算法对拼接单元的韵律特征进行调整,使合成波形既保持了原始语音基元的主要音段特征,又使拼接单元的韵律特征符合语义,从而获得很高的可懂度和自然度。9.2.3规则合成法8项目波形合成方式参数合成方式按规则合成方式语音质量可懂度高高中自然度高中低词汇量小(500字以下)大(数千字)无限合成方法PCM,ADPCMLPC,LSP,共振峰LPC,LSP共振峰数码率9.6~64kbit/s2.4~9.6kbit/s50~75kbit/s1兆比特可合成的语音长度15秒~100秒100秒~7分无限合成基元音节、词组、句子音节、词组、句子音素、双音素、音节装置简单比较复杂复杂硬件主体存储器存储器和处理器处理器表9.1三种语音合成方式的比较项目波形合成方式参数合成方式按规则合成方式语音可懂度高高中自99.3共振峰合成法

共振峰合成理论中声道参数、声道谐振特性一直是研究的重点。共振峰合成模型是把声道视为一个谐振腔,利用腔体的谐振特性,如共振峰频率及带宽,以此为参数构成一个共振峰滤波器。因为音色各异的语音有不同的共振峰模式,以每个共振峰频率及其宽带为参数,可以构成一个共振峰滤波器。

9.3共振峰合成法共振峰合成109.3共振峰合成法

共振峰语音合成器的构成原理:将多个共振峰滤波器组合起来模拟声道的传输特性,对激励声源发生的信号进行调制,经过辐射得到合成语音。基于共振峰的理论有三种实用模型。9.3共振峰合成法共振峰语音合成器119.3.1级联型共振峰模型

在该模型中,声道被认为是一组串联的二阶谐振器,共振峰滤波器首尾相接,其传递函数为各个共振峰的传递函数相乘的结果。9.3.1级联型共振峰模型在该模12激励源V1V2----V5辐射模型

语音G一个五个极点的共振峰级联模型如下图9.2共振峰级联模型五个极点的共振峰级联模型传递函数为:即:式中,G为增益因子。激励源V1V2----V5辐射模型语音G一个五个极点139.3.2并联型共振峰模型

在并联型模型中,输入信号先分别进行幅度调节,再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。其传递函数为:9.3.2并联型共振峰模型在并联14

上式可分解成以下部分分式之和:其中Al为各路的增益因子。上式可分解成以下部分分式之和:15下图就是一个M=5的并联型共振峰模型。激励源+辐射模型语音图9.3并联型共振峰模型下图就是一个M=5的并联型共振峰模型。激励源辐射模型语音图9169.3.3混合型共振峰模型

比较以上两种模型,对于大多数的元音,级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于大多数清擦音和塞音,并联型则比较合适,但是其幅度调节很复杂。于是考虑将两者结合在一起,提出了混和型共振峰模型。9.3.3混合型共振峰模型比较以上17混和型共振峰模型如下图所示:图9.4混和型共振峰模型混和型共振峰模型如下图所示:图9.4混和型共振峰18

对于共振峰合成器的激励,简单地将其分为浊音和清音两种类型是有缺陷的,为了得到高质量的合成语音,激励源应具备多种选择,以适应不同的发音情况。混和型共振峰模型中激励源有三种类型:合成浊音语音时用周期冲激序列;合成清音语音时用伪随机噪声;合成浊擦音语音时用周期冲激调制的噪声。对于共振峰合成器的激励,简单地将其19

共振峰合成技术弱点:(1)由于它是建立在对声道的模拟上,因此,声道模型的不精确势必会影响其合成质量。(2)实际工作中共振峰模型并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。(3)共振峰合成器控制十分复杂,实现起来十分困难。

共振峰合成技术弱点:209.4线性预测参数合成法

是一种“源滤波器”模型,由白噪声序列和周期脉冲序列构成的激励信号,经过选通、放大并通过时变数字滤波器,就可以再获得原语音信号。图9.5LPC语音合成器的框图9.4线性预测参数合成法是一21

线性预测合成的形式有两种:一种是直接用预测器系数构成的递归型合成滤波器,用这种方法定期地改变激励参数u(n)和预测系数,就能合成出语音。它合成的语音样本由下式决定:

其中:ai为预测系数;G为模型增益;u(n)为激励;合成样本为s(n);p为预测器阶数。线性预测合成的形式有两种:一种是直接22图9.6直接用预测器系数ai构成的合成滤波器图9.6直接用预测器系数ai构成的合成滤波器23

另一种合成的形式是采用反射系数构成的格型合成滤波器。它的合成语音样本由下式决定:

其中:G为模型增益;u(n)为激励;ki为反射系数;

bi(n)为后向预测误差;p为预测器阶数。其中:G为模型增益;u(n)为24

LPC语音合成和共振峰语音合成比较:(1)LPC语音合成有比较简单和完全自动的分析步骤,合成器结构也比较简单,采用格形滤波器时,量化特性和稳定性都比较好,硬件实现容易;而共振峰合成需要较多的参数调整,合成器结构相对讲要复杂些。(2)共振峰合成原理和实际发声原理联系紧密,它的模型控制参数对合成语音谱特性的影响比较直观。LPC合成中,控制LPC系数的变化轨迹十分有限。LPC语音合成和共振峰语音合成比较:25

(3)共振峰语音合成比较灵活,允许简单地变换以模仿不同人的发音,通过共振峰频率的移动,容易改变语声中和讲话人特征有关的部分;LPC合成较困难,只有将LPC的反射系数转变成极点的位置,才有可能作类似的修正。(4)线性预测方法对谱包络谷点的模型要比峰点差得多,因此共振峰带宽的估计一般是不合适的;共振峰合成方法中,共振峰的带宽还可以从离散傅里叶变换谱来估计。(3)共振峰语音合成比较灵活,允许简单地变换以模仿不26(5)标准LPC的全极点模型,对具有零点谱特性的那些音,特别是鼻音,效果比较差;共振峰合成方法则可以采用反谐振器来直接模拟鼻音中最重要的频谱零点,使得合成语音音质得以提高。(6)从总体上说,选择LPC语音合成还是共振峰合成,基于二个因素的折衷;LPC合成具有简单,可自动进行系数分析的优点;而比较复杂的共振峰合成可望产生较高质量的合成语音。(5)标准LPC的全极点模型,对具有零点谱特性的那些音,特别279.5基音同步叠加法

基音同步叠加PSOLA算法核心思想:直接对存储于音库中的语音运用PSOLA算法进行拼接,从而整合成完整的语音。该系统首先要在大量语音库中,选择最合适的语音单元用于拼接,并且在选择语音单元的过程中往往采用多种复杂的技术,最后在拼接时,使用PSOLA算法,根据上下文的要求,对其合成语音的韵律特征进行修改。9.5基音同步叠加法基音同28

由于韵律修改所针对的侧面不同,PSOLA算法的实现目前有3种方式。分别为:时域基音同步叠加TD-PSOLA

线性预测基音同步叠加LPC-PSOLA

频域基音同步叠加FD-PSOLA

其中TD-PSOLA算法计算效率较高,已被广泛应用,是一种经典算法,这里只介绍TD-PSOLA算法原理。由于韵律修改所针对的侧面不同,PSO29

9.5.1基音同步叠加PSOLA算法原理信号x(n)的短时傅里叶变换为:其中w(n)是长度为N的窗序列,Z表示全体整数集合。是变量n和ω的二维时频函数,对于n的每个取值都对应有一个连续的频谱函数,显然存在较大的信息冗余,所以可以在时域每隔若干个(例如R个)样本取一个频谱函数来重构原信号x(n)。9.5.1基音同步叠加PSOLA算法原理30令:其傅里叶逆变换为:然后将叠接相加便可得到:通常选w(n)是对称的窗函数,所以有w(rR-n)=w(n-rR)

令:31

可以证明,对于汉明窗来说,当时,无论m为何值都有:所以其中为w(n)的傅里叶变换。上式说明,用叠接相加法重构的信号y(n)与原信号x(n)只相差一个常数因子。可以证明,对于汉明窗来说,当时,无论32

这里采用原始信号谱与合成信号谱均方误差最小的叠接相加合成公式。定义两信号x(n)和y(n)之间谱距离测度:

上式可改写为:

(9-14)这里采用原始信号谱与合成信号谱均方误差最小的叠接相加33

要求合成信号y(n)满足谱距离最小,可以令:解得:

窗函数w1(n)和w2(n)可以是两种不同的窗函数,长度也可以不相等。上式就是在谱均方误差最小意义下的时域基音同步叠接相加合成公式。要求合成信号y(n)满足谱距离最小,可以令:34

实际合成时w1(n)和w2(n)可以用完全相同的窗,分母可视为常数,而且可以加一个短时幅度因子来调整短时能量,即:

基音同步叠接相加法优点:良好的韵律调整能力的;

缺点:基音频率修改过大时可能出现严重的谱包络失真。实际合成时w1(n)和w2(n)可以用完全相359.5.2基音同步叠加PSOLA算法实现步骤

概括起来说,用PSOLA算法实现语音合成时主要有三个步骤。分别为基音同步分析、基音同步修改和基音同步合成。下面介绍这三个步骤。

9.5.2基音同步叠加PSOLA算法实现步骤361.基音同步分析

同步标记是与合成单元浊音段的基音保持同步的一系列位置点,用它们来准确反映各基音周期的起始位置。同步分析的功能主要是对语音合成单元进行同步标记设置。PSOLA技术中,短时信号的截取和叠加,时间长度的选择,均是依据同步标记进行的。对于浊音段有基音周期,而清音段信号则属于白噪声,所以这两种类型需要区别对待。1.基音同步分析372.基音同步修改同步修改通过对合成单元同步标记的插入、删除来改变合成语音的时长;通过对合成单元标记间隔的增加、减小来改变合成语音的基频等。若短时分析信号为x(ta(s),n),短时合成信号为x(ts(s),n),则有:式中ta(s)为分析基音标记,ts(s)为合成基音标记。2.基音同步修改式中ta(s)为分析基音标记,ts38

3.基音同步合成

基音同步合成是利用短时合成信号进行叠加合成。如果合成信号仅仅在时长上有变化,则增加或减少相应的短时合成信号;如果是基频上有变化,则首先将短时合成信号变换成符合要求的短时合成信号再进行合成。

3.基音同步合成39图9.7时域基频同步合成语音a)语音基频被降低b)语音被延长但基频保持不变图9.7时域基频同步合成语音409.6文语转换系统

9.6.1文语转换系统的组成

在文语转换系统中,必须事先对文本进行分析,根据上下文的关系来确定每个字发音的声调应如何变化,然后用这些声调变化参数去控制语音的合成。9.6文语转换系统9.6.1文41图9.8TTS系统基本框图

文本分析、韵律控制和语音合成这三个模块是文语转换系统的三个核心部分。其结构如下图所示:9.6.1文语转换系统的组成图9.8TTS系统基本框图文本分析421.文本分析工作过程包括:①将输入的文本规范化,并处理用户可能的拼写错误,将出现的不规范或无法发音的字符过滤掉;②分析文本中的词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符以及各种多音字的读音方式;③确定发音时语气的变换及不同音的轻重方式。最终,将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。

1.文本分析432.韵律控制

任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同,这些都属于韵律特征。而韵律参数则包括了能影响这些特征的声学参数,如:基频、音长、音强等。最终系统能够用来进行语音信号合成的具体韵律参数,还要靠韵律控制模块。

3.语音合成

文语转换系统的合成语音模块一般采用波形拼接来合成语音的方法,其中最具代表性的是前面介绍过的基音同步叠加法PSOLA。2.韵律控制449.6.2汉语按规则合成

通过语音学规则产生语音,对于不同的语种,其规则是完全不同的,这里仅讨论文语转换层次上的汉语按规则合成中有关韵律规则的几个基本问题。

9.6.2汉语按规则合成通过语音45

1.重音规则

汉语的重音,是指说话或朗读时读的比较重的音节或词语。汉语重音分为:词重音和句重音两大类。词重音:指词的某个音节可分为重轻等级。音长特征是区分这个等级的主要标志,轻声的音长较短。另外一个重要的区分特征是声调域,轻声的声调域缩小,这就使轻声字所需的能量减少,但强度并不一定减弱。汉语重音的声学特征表现在音域加宽、音程加大,气流加强。1.重音规则462.转接与音渡规则

转接与音渡是音素序列转变成语音流时的动态变化规律。在汉语发音中,存在两种基本的过渡,即辅音与元音组合和元音与元音组合。前者出现在声母和韵母的拼接过程中,称为“转接”;后者出现在复合韵母内部,称为“音渡”。

2.转接与音渡规则47

转接是指前一个辅音对其后元音共振峰的影响。同一元音的共振峰特性受不同辅音的影响会有很大的变化,表现出来的转接现象不同;反之,同一辅音对不同元音的影响也是不同的。共振峰的转接现象比较复杂,至今尚没找到普遍的规律。

转接是指前一个辅音对其后元音共振峰483.声调与变调规则

汉语是一种“声调语音”,在用汉语相互交谈中,人们不但凭不同的声母、韵母(或元音,辅音)来辨别字和词的意义,还需要从不同的声调来区别它们,这就是“声调语音”的特点。汉语的声调具有辨义的功能,它和辅音、元音在语音的区别特征上同样重要。

3.声调与变调规则494.音长问题

音长也是语音的重要特征之一,对语音的可懂度、自然度都有一定的影响。汉语中音长主要体现在韵母的调型段长度上,调长和调型是密切相关的,通常认为,上声音节最长,阴平、阳平次之,去声最短。除音长外,音节之间的间隙也对合成语音效果有一定的影响,适当的间隙会使语言听起来更为生动。4.音长问题509.1概述

语音合成是人机语声通信的一个重要组成部分,解决让机器像人那样说话的问题。最早的合成器是1835年由W.vonKempelen发明,经Weston改进的机械式会讲话的机器。而最早的电子式语音合成器也是1939年HomerDudley发明的声码器,它不是简单的模拟人的生理过程,而是通过电子线路来实现基于语音产生的源-滤波器理论。9.1概述语音合成是人机语声通信51

在语音合成技术发展中,早期研究主要是采用参数合成方法。

1990年提出的基音同步叠加PSOLA方法,使基于时域波形拼接方法合成的语音音色和自然度大大提高。

我国的汉语语音合成研究从80年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA技术的过程。在语音合成技术发展中,早期研究主要是529.2语音合成的原理及分类

9.2.1波形合成法波形编码合成法是一种波形合成法,类似于语音编码中的波形编解码方法,该方法直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储,合成重放时再解码组合输出。特点:所需的存储容量太大,词汇量不能很大;相对简单,通常只能合成有限词汇的语音段。目前用于自动报时、报站和报警等。9.2语音合成的原理及分类9.2.1波形合成法53

另一种波形合成法是波形编辑合成,它把波形编辑技术用于语音合成,通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。它采用语音编码技术,存储适当的语音基元,合成时,经解码、波形编辑拼接、平滑处理等输出所需的短语、语句或段落。

另一种波形合成法是波形编辑合成,它把549.2.2

参数合成法

参数合成法也称为分析合成法。参数合成法有:发音器官参数合成和声道模型参数合成。

发音器官参数合成法:是对人的发音过程直接进行模拟。它定义了唇、舌、声带的相关参数,如唇开口度、舌高度、舌位置、声带张力等,由发音参数估计声道截面积函数,进而计算声波。缺点:合成语音的质量不理想。9.2.2参数合成法参55

参数合成方法的优点:音库一般较小,并且整个系统能适应的韵律特征的范围较宽,这类合成器比特率低,音质适中。

缺点:算法复杂,参数多,并且在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然、清晰。为了改善音质,近几年发展了混合编码技术,以改善激励信号的质量。参数合成方法的优点:音库一般较小,并且569.2.3规则合成法

规则合成方法:一种高级的合成方法,通过语音学规则产生语音,可以合成无限词汇的语句。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。算法中,用于波形拼接和韵律控制的较有代表性的算法是基音同步叠加PSOLA技术。9.2.3规则合成法规则合成方579.2.3规则合成法

基音同步叠加PSOLA技术主要特点:在语音波形片断拼接之前,首先根据语义,用PSOLA算法对拼接单元的韵律特征进行调整,使合成波形既保持了原始语音基元的主要音段特征,又使拼接单元的韵律特征符合语义,从而获得很高的可懂度和自然度。9.2.3规则合成法58项目波形合成方式参数合成方式按规则合成方式语音质量可懂度高高中自然度高中低词汇量小(500字以下)大(数千字)无限合成方法PCM,ADPCMLPC,LSP,共振峰LPC,LSP共振峰数码率9.6~64kbit/s2.4~9.6kbit/s50~75kbit/s1兆比特可合成的语音长度15秒~100秒100秒~7分无限合成基元音节、词组、句子音节、词组、句子音素、双音素、音节装置简单比较复杂复杂硬件主体存储器存储器和处理器处理器表9.1三种语音合成方式的比较项目波形合成方式参数合成方式按规则合成方式语音可懂度高高中自599.3共振峰合成法

共振峰合成理论中声道参数、声道谐振特性一直是研究的重点。共振峰合成模型是把声道视为一个谐振腔,利用腔体的谐振特性,如共振峰频率及带宽,以此为参数构成一个共振峰滤波器。因为音色各异的语音有不同的共振峰模式,以每个共振峰频率及其宽带为参数,可以构成一个共振峰滤波器。

9.3共振峰合成法共振峰合成609.3共振峰合成法

共振峰语音合成器的构成原理:将多个共振峰滤波器组合起来模拟声道的传输特性,对激励声源发生的信号进行调制,经过辐射得到合成语音。基于共振峰的理论有三种实用模型。9.3共振峰合成法共振峰语音合成器619.3.1级联型共振峰模型

在该模型中,声道被认为是一组串联的二阶谐振器,共振峰滤波器首尾相接,其传递函数为各个共振峰的传递函数相乘的结果。9.3.1级联型共振峰模型在该模62激励源V1V2----V5辐射模型

语音G一个五个极点的共振峰级联模型如下图9.2共振峰级联模型五个极点的共振峰级联模型传递函数为:即:式中,G为增益因子。激励源V1V2----V5辐射模型语音G一个五个极点639.3.2并联型共振峰模型

在并联型模型中,输入信号先分别进行幅度调节,再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。其传递函数为:9.3.2并联型共振峰模型在并联64

上式可分解成以下部分分式之和:其中Al为各路的增益因子。上式可分解成以下部分分式之和:65下图就是一个M=5的并联型共振峰模型。激励源+辐射模型语音图9.3并联型共振峰模型下图就是一个M=5的并联型共振峰模型。激励源辐射模型语音图9669.3.3混合型共振峰模型

比较以上两种模型,对于大多数的元音,级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于大多数清擦音和塞音,并联型则比较合适,但是其幅度调节很复杂。于是考虑将两者结合在一起,提出了混和型共振峰模型。9.3.3混合型共振峰模型比较以上67混和型共振峰模型如下图所示:图9.4混和型共振峰模型混和型共振峰模型如下图所示:图9.4混和型共振峰68

对于共振峰合成器的激励,简单地将其分为浊音和清音两种类型是有缺陷的,为了得到高质量的合成语音,激励源应具备多种选择,以适应不同的发音情况。混和型共振峰模型中激励源有三种类型:合成浊音语音时用周期冲激序列;合成清音语音时用伪随机噪声;合成浊擦音语音时用周期冲激调制的噪声。对于共振峰合成器的激励,简单地将其69

共振峰合成技术弱点:(1)由于它是建立在对声道的模拟上,因此,声道模型的不精确势必会影响其合成质量。(2)实际工作中共振峰模型并不能表征影响语音自然度的其他许多细微的语音成分,从而影响了合成语音的自然度。(3)共振峰合成器控制十分复杂,实现起来十分困难。

共振峰合成技术弱点:709.4线性预测参数合成法

是一种“源滤波器”模型,由白噪声序列和周期脉冲序列构成的激励信号,经过选通、放大并通过时变数字滤波器,就可以再获得原语音信号。图9.5LPC语音合成器的框图9.4线性预测参数合成法是一71

线性预测合成的形式有两种:一种是直接用预测器系数构成的递归型合成滤波器,用这种方法定期地改变激励参数u(n)和预测系数,就能合成出语音。它合成的语音样本由下式决定:

其中:ai为预测系数;G为模型增益;u(n)为激励;合成样本为s(n);p为预测器阶数。线性预测合成的形式有两种:一种是直接72图9.6直接用预测器系数ai构成的合成滤波器图9.6直接用预测器系数ai构成的合成滤波器73

另一种合成的形式是采用反射系数构成的格型合成滤波器。它的合成语音样本由下式决定:

其中:G为模型增益;u(n)为激励;ki为反射系数;

bi(n)为后向预测误差;p为预测器阶数。其中:G为模型增益;u(n)为74

LPC语音合成和共振峰语音合成比较:(1)LPC语音合成有比较简单和完全自动的分析步骤,合成器结构也比较简单,采用格形滤波器时,量化特性和稳定性都比较好,硬件实现容易;而共振峰合成需要较多的参数调整,合成器结构相对讲要复杂些。(2)共振峰合成原理和实际发声原理联系紧密,它的模型控制参数对合成语音谱特性的影响比较直观。LPC合成中,控制LPC系数的变化轨迹十分有限。LPC语音合成和共振峰语音合成比较:75

(3)共振峰语音合成比较灵活,允许简单地变换以模仿不同人的发音,通过共振峰频率的移动,容易改变语声中和讲话人特征有关的部分;LPC合成较困难,只有将LPC的反射系数转变成极点的位置,才有可能作类似的修正。(4)线性预测方法对谱包络谷点的模型要比峰点差得多,因此共振峰带宽的估计一般是不合适的;共振峰合成方法中,共振峰的带宽还可以从离散傅里叶变换谱来估计。(3)共振峰语音合成比较灵活,允许简单地变换以模仿不76(5)标准LPC的全极点模型,对具有零点谱特性的那些音,特别是鼻音,效果比较差;共振峰合成方法则可以采用反谐振器来直接模拟鼻音中最重要的频谱零点,使得合成语音音质得以提高。(6)从总体上说,选择LPC语音合成还是共振峰合成,基于二个因素的折衷;LPC合成具有简单,可自动进行系数分析的优点;而比较复杂的共振峰合成可望产生较高质量的合成语音。(5)标准LPC的全极点模型,对具有零点谱特性的那些音,特别779.5基音同步叠加法

基音同步叠加PSOLA算法核心思想:直接对存储于音库中的语音运用PSOLA算法进行拼接,从而整合成完整的语音。该系统首先要在大量语音库中,选择最合适的语音单元用于拼接,并且在选择语音单元的过程中往往采用多种复杂的技术,最后在拼接时,使用PSOLA算法,根据上下文的要求,对其合成语音的韵律特征进行修改。9.5基音同步叠加法基音同78

由于韵律修改所针对的侧面不同,PSOLA算法的实现目前有3种方式。分别为:时域基音同步叠加TD-PSOLA

线性预测基音同步叠加LPC-PSOLA

频域基音同步叠加FD-PSOLA

其中TD-PSOLA算法计算效率较高,已被广泛应用,是一种经典算法,这里只介绍TD-PSOLA算法原理。由于韵律修改所针对的侧面不同,PSO79

9.5.1基音同步叠加PSOLA算法原理信号x(n)的短时傅里叶变换为:其中w(n)是长度为N的窗序列,Z表示全体整数集合。是变量n和ω的二维时频函数,对于n的每个取值都对应有一个连续的频谱函数,显然存在较大的信息冗余,所以可以在时域每隔若干个(例如R个)样本取一个频谱函数来重构原信号x(n)。9.5.1基音同步叠加PSOLA算法原理80令:其傅里叶逆变换为:然后将叠接相加便可得到:通常选w(n)是对称的窗函数,所以有w(rR-n)=w(n-rR)

令:81

可以证明,对于汉明窗来说,当时,无论m为何值都有:所以其中为w(n)的傅里叶变换。上式说明,用叠接相加法重构的信号y(n)与原信号x(n)只相差一个常数因子。可以证明,对于汉明窗来说,当时,无论82

这里采用原始信号谱与合成信号谱均方误差最小的叠接相加合成公式。定义两信号x(n)和y(n)之间谱距离测度:

上式可改写为:

(9-14)这里采用原始信号谱与合成信号谱均方误差最小的叠接相加83

要求合成信号y(n)满足谱距离最小,可以令:解得:

窗函数w1(n)和w2(n)可以是两种不同的窗函数,长度也可以不相等。上式就是在谱均方误差最小意义下的时域基音同步叠接相加合成公式。要求合成信号y(n)满足谱距离最小,可以令:84

实际合成时w1(n)和w2(n)可以用完全相同的窗,分母可视为常数,而且可以加一个短时幅度因子来调整短时能量,即:

基音同步叠接相加法优点:良好的韵律调整能力的;

缺点:基音频率修改过大时可能出现严重的谱包络失真。实际合成时w1(n)和w2(n)可以用完全相859.5.2基音同步叠加PSOLA算法实现步骤

概括起来说,用PSOLA算法实现语音合成时主要有三个步骤。分别为基音同步分析、基音同步修改和基音同步合成。下面介绍这三个步骤。

9.5.2基音同步叠加PSOLA算法实现步骤861.基音同步分析

同步标记是与合成单元浊音段的基音保持同步的一系列位置点,用它们来准确反映各基音周期的起始位置。同步分析的功能主要是对语音合成单元进行同步标记设置。PSOLA技术中,短时信号的截取和叠加,时间长度的选择,均是依据同步标记进行的。对于浊音段有基音周期,而清音段信号则属于白噪声,所以这两种类型需要区别对待。1.基音同步分析872.基音同步修改同步修改通过对合成单元同步标记的插入、删除来改变合成语音的时长;通过对合成单元标记间隔的增加、减小来改变合成语音的基频等。若短时分析信号为x(ta(s),n),短时合成信号为x(ts(s),n),则有:式中ta(s)为分析基音标记,ts(s)为合成基音标记。2.基音同步修改式中ta(s)为分析基音标记,ts88

3.基音同步合成

基音同步合成是利用短时合成信号进行叠加合成。如果合成信号仅仅在时长上有变化,则增加或减少相应的短时合成信号;如果是基频上有变化,则首先将短时合成信号变换成符合要求的短时合成信号再进行合成。

3.基音同步合成89图9.7时域基频同步合成语音a)语音基频被降低b)语音被延长但基频保持不变图9.7时域基频同步合成语音909.6文语转换系统

9.6.1文语转换系统的组成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论