(信号与信息处理专业论文)可训练语音合成中的谱参数生成方法研究.pdf_第1页
(信号与信息处理专业论文)可训练语音合成中的谱参数生成方法研究.pdf_第2页
(信号与信息处理专业论文)可训练语音合成中的谱参数生成方法研究.pdf_第3页
(信号与信息处理专业论文)可训练语音合成中的谱参数生成方法研究.pdf_第4页
(信号与信息处理专业论文)可训练语音合成中的谱参数生成方法研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(信号与信息处理专业论文)可训练语音合成中的谱参数生成方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士论文 摘要 摘要 随着目前语音合成效果的逐步改善,用户对语音合成系统提出了更高的要 求,体现在合成系统的构建复杂度以及系统的音质。在这种背景下,一种能够在 短时间内通过自动训练的方式进行合成系统构建,而且能够获取比较好的音质的 语音合成系统,有着比较高的理论研究及使用价值。对此,本论文在基于h m m 的可训练语音合成( t r a i n a b l e t t s ) 基础上,提出了一种能够在不大量增加系统 负担的前提下有效的提高合成语音音质的方法。本论文具体的研究工作和研究成 果如下: 首先,对现有成熟的t r a i n a b l et t s 系统进行一个比较系统全面的介绍,介绍 其中的基础理论:隐马尔科夫模型( h m m ) 以及系统实现的一些关键技术,这 为下一阶段的工作提供了一个高效的平台系统。 其次,基于上面介绍的t r a i n a b l et t s 系统框架,针对此系统的合成语音中的 塞音比较模糊的现象进行分析,并且提出了用自然的塞音段频谱参数来替换对应 模型预测的频谱参数来进行参数生成,最后,结合自然的塞音波形和自然的塞音 频谱,用频谱替换和波形替换方法实现了一个塞音清晰化的系统。 最后,基于上面的自然塞音频谱参数替换的想法,提出了结合自然样本单元 挑选与参数生成相结合的方法来提高合成语音的音质,通过相关的试验可以证明 这种方法能有效的提高合成语音的音质:通过对频谱参数进行压缩,可以进一步 的减少参数的存储量,使其在受限领域的应用成为可能;进一步,为了完善此方 法下的参数生成算法,提出了新的参数生成算法,即把自然样本单元当作一个模 型约束来控制参数生成的过程;最后,验证了此方法在英文音库下的效果。 关键词:语音合成,隐马尔科夫模型,可训练语音合成,单元挑选 中国科学技术大学硕士论文 a b s t r a c t a b s t r a c t w i t ht h eg r a d u a li m p r o v e m e n to nt h eq u a l i t yo fs y n t h e t i cs p e e c h ,p e o p l eh a v e m o r er e q u i r e m e n t sf o rt h et e x t t o s p e e c h ( t t s ) s y s t e m ,e s p e c i a l l yt h ec o m p l i c a c ya n d t h es p e e c hq u a l i t yo ft h et t ss y s t e m d u et ot h i s i th a sh i g hr e s e a r c hv a l u ea n d a p p l i c a t i o nu s a g et os t u d yan e wm e t h o d ,w h i c hc a nc o n s t r u c tt h et t ss y s t e mw i t h s a t i s f a c t o r ys p e e c hq u a li t yi nas h o r tt i m eb yat r a i n a b l ew a y t h e r e f o r e ,b a s e do na h m m b a s e dt r a i n a b l et t ss y s t e m ,t h i st h e s i ss t u d i e sh o wt oi m p r o v et h es p e e c h q u a l i wo ft h es y s t e m t h ed e t a i l e dr e s e a r c hw o r k si nt h i st h e s i sa r ea sf o l l o w s f i r s t l y ,i n t r o d u c et h ef r a m e w o r ko ft h et r a i n a b l et t ss y s t e m ,i n c l u d i n gt h eb a s i c t h e o r y :h i d d e nm a r k o vm o d e la n ds o m eo ft h ek e yt e c h n i q u e so ft h es y s t e m ,t h i sc a n p r o v i d ea ne f f i c i e n tp l a t f o r mf o rt h ef o l l o w i n gw o r k s e c o n d l y ,t h ef r i c a t i o nv o i c eo ft h et r a i n a b l et t ss y s t e mi sn o tc l e a re n o u g h , b a s e do no u ra n a l y s i s ,i no r d e rt os o l v et h i sp r o b l e m ,w eu s et h en a t u r a lf r i c a t i v e s p e c t r u mp a r a m e t e r st or e p l a c et h ec o r r e s p o n d i n gs p e c t r u mp r e d i c t e db vt h em o d e l , a n dt h e ng e n e r a t et h ef i n a ls p e c t r u mp a r a m e t e r s ,f u r t h e rm o r e ,r e p l a c et h es y n t h e t i c f r i c a t i v ew a vb yt h en a t u r a lf r i c a t i v ew a vt og a i nam o r ec o n t e n tr e s u l t f i n a l l y ,b a s e do nt h ea b o v em e t h o d ,i no r d e rt oi m p r o v et h es y n t h e t i cs p e e c h q u a l i wo ft h et r a i n a b l et t ss y s t e m w ec o m b i n et h es e l e c t i o no ft h en a t u r a lu n i ta n d p a r a m e t e rg e n e r a t i o na l g o r i t h m ,t h i sh a sb e e np r o v e dt h a tc a ni m p r o v et h es y n t h e t i c s p e e c hq u a l i t y ,t h ec o d i n ge x p e r i m e n ts h o w st h i sm e t h o dc a nb eu s e di ns o m eo ft h e c o n s t r a i n e dc o n d i t i o n s ,m o r eo v e r , an e wp a r a m e t e rg e n e r a t i o na l g o r i t h mh a sb e e np u t f o r w a r d ,f i n a l l y ,t e s t i n gt h ee f f e c to ft h i sm e t h o di ne n g l i s hd a t a b a s e k e y w o r d s :s p e e c hs y n t h e s i s jh m m ,t r a i n a b l et t s ,u n i ts e l e c t i o n 中国科学技术大学硕士论文 第一章绪论 1 1 语音合成研究背景 1 1 1 概述 第一章绪论 语言合成概括地讲就是可以让计算机象人一样将要表达的信息以普通人可 以听懂的语音播放出来的技术,是一门典型的交叉学科【l 】【2 】【3 】。它涉及到 声学、语音学、语言学、语义学、信息论、信号处理、计算机、模式识别、人工 智能、心理学以及人类的大脑神经活动等众多学科的理论和技术。根据人类语言 功能的不同层次,语言合成可以分成三类层次,它们是:( 1 ) 按规则从文字到语 音的合成( t e x t t o s p e e c h ) 。( 2 ) 按规则从概念到语音的合成 ( c o n c e p t t o s p e e c h ) 。( 3 ) 按规则从意向到语音的合成( i n t e n t i o n t o - s p e e c h ) 。 从现有的语言合成的水平来说,可以解决的还是从文字到语音的合成这个阶段, 也就是文语转换( t t s ) ,后面所说的语音合成都是指文语转换。 图1 1 文语转换系统框图 图1 1 显示了一个完整的语音合成系统框图。这里我们将语音的合成过程看 成是一个层次化的分析过程,从文本信息到语音信息的文语转换过程可以看成在 不同的层次信息在不同的层面上进行分析处理的过程。在文本的层面上,先要在 语言层、语法层和语义层上进行分析,得到文本的层次信息( 包括词组、短语、 句子等信息) 。然后在层次化信息的基础上在语音层的基础上进行韵律分析,得 出语音层面上的韵律信息( 针对汉语来说就是超音段特征的生成,包括基频、时 长、能量的综合韵律曲线) ,然后根据生成的韵律特征,利用合成器生成或者从 语音库中挑选单元来完成语音数据的最后生成。 6 中国科学技术大学硕士论文 第一章绪论 在语言层、语法层、语义层的工作可以归结为前端的文本分析,而语音层面 上的韵律生成和声学层面上的按韵律合成语音单元或在音库中挑选单元可以说 后端的韵律合成。对于语音合成系统来说,前端的文本分析部分都是相同的,只 是由于要求的不同而有不同信息表达方式。而后端的韵律合成方面也可以层次化 的分为两个部分,一个就是按照前端给出的层次化文本信息生成合适的韵律,而 另一个就是按照生成的韵律来产生最后的合成语音,在产生韵律和合成语音的方 法上,各种方法不尽相同,甚至两个部分成为一个不可分割的整体,但是从思想 上来说,每个合成系统都包含这样两个方面。我们后面的工作介绍主要是围绕着 语音合成系统的后端进行的。 1 1 2 语音合成历史回顾 语音合成的研究历史可以回溯到1 8 世纪,k r a t z e n s t e i n 在1 7 7 9 年研制的机械 式语音合成器,这种会说话的机械,是用风箱模拟人的肺、簧片模拟声带、以皮 革制成的共振腔模拟声道,通过改变共振腔的形状,它可以合成出一些不同的元 音。1 9 3 9 年d u d l e y 第一次按照信号处理的原理设计出一个声音发生器【6 】。以 一些白噪音似的激励产生非浊音信号,以周期性的激励产生浊音信号。模拟声道 的共振器是通过一个1 0 阶的带通滤波器建模,模型的增益通过人来控制。 早期的机械式语音合成器反应了人们对语音产生机理了解的比较粗略,现代 语音合成的方法基本上都是采用一种语音模型来合成语音。总的说来,近期语音 合成的方法可以归结为三种:1 ) 物理机理语音合成;2 ) 源一滤波器语音合成: 3 ) 基于波形拼接技术的语音合成;其中源一滤波器的合成方法又可以分为l p c 合成和共振峰合成等:另外近些年,p s o l a ( p i t c h s y n c h r o n o u so v e r l a pa n da d d ) 【8 】方法被广泛的应用在基于波形拼接技术的语音合成系统中,这种方法可以 在一定范围内调节语音信号的基频和时长,而对语音音质的损伤很小。关于对早 期语音合成研究的历史和方法,在 4 1 【5 】【6 】【7 】【8 】中有详细介绍。下面 我们将简要介绍语音合成的几种方法。 1 2 语音合成方法 从整个语音合成研究的发展历史来看,早期的机械式语音合成器反应了人们 对语音产生机理了解的比较粗略,现代语音合成的方法基本上都是采用一种语音 模型来合成语音。总的说来,近期语音合成的方法可以归结为四种:1 ) 物理机 7 中国科学技术大学硕士论文 第一章绪论 理语音合成:2 ) 源一滤波器语音合成;3 ) 基于波形拼接技术的语音合成:4 ) 可训练的语音合成:其中基于波形拼接技术的合成包括基于小样本的波形拼接调 整合成以及基于大语料库的波形拼接合成方法。下面我们将简要介绍这几种语音 合成方法。 1 2 1 物理机理语音合成 物理机理语音合成是通过对人产生语音的物理结构进行建模,从而产生语 音,比如,对发音过程中嘴唇、牙齿、下巴等运动进行建模。t i t z e 曾经研究过 一个数学模型【l o l ,这个模型是对声带振动的过程进行建模。但是也有另外一 些研究是对通过声带的气流来建立模型。 近来,物理机理语音合成的研究受到了制约,因为难以将它在现阶段推向实 用。其原因主要在于两个方面:一是对语音产生过程中发声器官的运动和变化进 行度量非常困难,比如说如何精确记录舌位运动和口腔的变化。第二个原因是和 源一滤波器的语音合成模型相比,对通过声道气流特征和运动轨迹的数学建模也 非常复杂,以及这种模型的计算量非常大。但是目前,随着高性能计算机的出 现和对发音机理的深入了解,很多学者在推动这方面的研究。 最早的言语仿造者是k r a t z e n s t e i n ,他曾在1 7 7 9 年以发明声学共振器而获得 皇家学院的奖金。他发明了一套声学共振器,其形状大小有点跟人类的口腔相似。 它用一片模仿人类声带的振动簧片,切断气流,使共振器发出声音。据报道, c h r i s t i a n 的机器所模仿的五个元音a 、e 、i 、0 、u 还相当准确。 第一个试图用电气方法合成连续语言的机器叫v o d e r ( 语音合成仪 v o i c e o p e r a t i o nd e m o n s t r a t o r ) ,它曾经在1 9 3 9 年纽约世界博览会和次年旧金山 世界博览会上展出。v o d e r 有两个声源,一个是宽带的噪声源,一个是周期波 峰鸣振荡器。这两种声音通过“共振控制”箱( 即“声道”) 的时候,音色发生 改变。控制箱有l o 个相邻带通滤波器,包括正常语言的频率范围。带通滤波器 的输出通过l o 个子键的单独操纵,进行增益调整。还有三个附件操纵选择滤波 器作瞬时激励,模仿产生三组塞音:t - d ,p b ,k g 。操作人员用一条转柄来选择噪 音和蜂鸣声,用一个脚踏板控制蜂鸣振荡器的音高。经训练的操作人员,能够用 合成器相当熟练地奏出易懂的语言。 中国科学技术大学硕士论文 1 2 2 源滤波器语音合成 第一章绪论 源一滤波器的语音合成基于这样一种声学理论,这种理论认为声音由激励和 相应的滤波器形成。其中激励主要分为两种:一种是类似噪声的激励,主要形成 非浊音语音信号:另外一种是周期性的激励,主要产生浊音信号。这两种激励有 时也会共同使用,如产生某些浊辅音信号。在该方式里,音库中预先存放各种语 音合成单元的声道参数,这些参数根据控制规则的要求进行修正,以合成出各种 语言环境下的语音。其结构框图如图1 2 所示。 图1 2 源一滤波器合成方式结构框图 在基于源一滤波器的参数合成中,合成器的工作流程主要可分为三步: 1 ) 首先根据待合成音节的声调特性构造出相应的声门波激励源: 2 ) 然后再根据协同发音、速度变换( 时长参数) 等音变信息在原始声道的 基础上构造出新的声道参数模型: 3 ) 最后将声门波激励源送入新的声道模型中,其输出就是符合给定韵律特 性的合成语音。 共振峰合成和l p c ( 线性预测分析) 合成是上述源滤波器型结构的参数合 成器中最常用的两种方法。它们实现原理基本上类似,只是所用声道模型不同。 同时,针对声道模型的特性,在源的选取上略有差别。 1 2 3 基于波形拼接技术的语音合成 由于在模型的精确度方面的原因,以前的合成器都难以有效的合成高自然度 的语音,而基于原始语音库的波形拼接合成在实现高自然度的合成系统上,取得 了很大的进展。波形拼接合成方法的基本原理就是根据输入文本分析得到的信 9 中国科学技术大学硕士论文第一章绪论 息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整( 也可以 不进行调整) ,然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可 以是前端分析得到的韵律文本,也可以是生成的声学参数。、( 比如基频、时长和谱 参数) ,或者两者兼有。由于最终合成语音中的单元都是直接从音库中复制过来 的,其最大的优势就是在于保持了原始发音人的音质。 其实在单元拼接合成方法最初提出时【l l 】【1 2 ,由于受音库容量以及单元 调整算法的限制,其优势并不是很明显,主要是合成语音不连续,自然度不高, 而且单元调整过大时导致语音音质急剧下降。一般我们把这种原始音库比较小 ( 即拼接样本数比较少) 的合成系统,称之为基于小样本的波形拼接合成,而与 此对应的就是现在比较流行的基于大语料库的单元拼接合成【1 3 】。这种方法的 演变主要得益于近年来计算机的运算和存储能力的飞速增长,其音库由以前的 1 m b 变为1 0 0 m b ,甚至超过1 g b ,相应的单元挑选策略也越来越精细,使得挑 选出来的单元基本不需要调整,不仅保持了原始语音的音质,而且不连续现象也 得到很大的改善,自然度得到极大的提高。因此,基于大语料库的单元拼接合成 系统得到越来越广泛的应用【1 4 】【1 5 】。 为了方便,后面所称的大语料库合成系统指的就是大语料库的拼接合成系 统。在构建一个大语料库合成系统时,主要包括以下几个重要环节: 1 ) 单元尺度的选择:可以是音素、双音素、音节、词甚至短语等,对于中 文语音合成系统,比较常用的基本单元是声韵母和音节: 2 ) 语料库构建:首先是在保证单元覆盖率的前提下,根据特定的搜索策略 从原始文本语料中挑选出合适大小的语料:然后进行音库录制并对音库 进行标注,包括音段切分和韵律标注等: 3 ) 单元挑选算法设计和优化:大语料库合成系统的单元挑选算法一般分为 两步:首先是基于决策树或者其他索引方式的快速预选算法,得到一定 数目候选单元序列;然后再考虑候选单元的自身代价和连接代价进行精 细的单元打分,从而得到最优的拼接单元序列: 4 ) 单元拼接算法:主要包括韵律调整和单元平滑; 虽然大语料库合成系统的合成语音的音质和自然度都相当不错,尤其针对一 些特定领域的应用,包括新闻播报和信息查询等。但是,它也存在一些内在的缺 陷和不足,下面我们将一一介绍。 1 0 中国科学技术大学硕士论文 第一章绪论 一般而言,大语料库合成系统的合成效果都不是很稳定,对有些语句可以合 成的很好,而对有些语句则合成效果比较差,主要体现在虽然每个单元的音质都 很好,但是有些拼接单元之间有比较大的不连续,如果一个句子中出现多个不连 续的拼接点,整个句子听起来效果比较差。因此,大语料库合成系统更适合在受 限领域的应用,比如数字串合成、新闻合成、旅游信息合成等。而对于任意文本 合成,其合成效果还有待提高。 在大语料库合成系统中,一个非常重要的环节就是语料库的构建,具体包括 语料设计、音库录制以及音库制作,其中音库制作包括韵律和音段标注。由于现 在的音库越来越来( 超过1 g b ) ,使得音库制作的工作量非常大,而且周期也很 长,虽然可以采用些自动标注的技术来替代人工的方法,但是效果并不是很稳 定,所以现有的系统一般只构建少数几个发音人( 比如只有一个男声和一个女声) 的音库,导致合成系统的合成语音比较单一。 此外,现在很多大语料库合成系统的单元挑选算法都是通过经验总结,并在 具体环境( 包括语种、发音人、语料等) 下针对合成效果进行调试和优化得到的, 其鲁棒性不高。如果环境有一定的变动,比如换一个发音人甚至换一个语种,则 需要对单元挑选算法重新设计和优化。 1 2 4 可训练的语音合成 由上面的分析可以看出,虽然现在大语料库合成系统的效果不错,但是也存 在不少缺陷,比如:合成语音的效果不稳定,音库构建周期太长以及合成系统的 可扩展性太差等。这些缺陷明显限制了大语料库合成系统在多样化语音合成方面 的应用,因此,近年来可训练的语音合成( t r a i n a b l et t s ) 的概念被提出来并逐 渐得到越来越广泛的应用【1 6 1 【1 7 】【1 8 】。 t r a i n a b l et t s 的基本思想就是基于一套自动化的流程,根据输入的语音数据 进行训练,并形成一个相应的合成系统。一般而言,训练是针对模型或者参数进 行的,而在语音信号处理中,最普遍有效的建模方法就是隐马尔科夫模型 ( h m m ) 。它在语音识别中已经有非常成熟的应用,目前的t r a i n a b l et t s 技术 也都是基于h m m 进行参数建模。不过根据h m m 的应用层次和方式的不同,几 个不同的研究机构,包括n i t 【1 8 】,m i c r o s o f t 【1 7 】和i b m 【1 6 1 ,对t r a i n a b l e t t s 提出了几种不同的实现技术和方法,对于它们的相同点和各自的技术特点, 我们将会在后面作详细介绍。由于本论文的一系列关键技术研究都是围绕着n i t 中国科学技术大学硕士论文第一章绪论 的t r a i n a b l et t s 技术展开的,所以后面所称的t r a i n a b l et t s 般都是指n i t 的 t r a i n a b l et t s 技术。 在最初提出t r a i n a b l et t s 方法时,由于受模型训练算法的不匹配以及参数 合成器合成音质的限制,其合成效果与大语料库合成系统有比较大的差距,因此 并没有得到研究人员的重视。不过,经过对模型训练算法的改进以及s t r a i g h t 分析合成器的提出【2 2 ,其合成效果有明显的提高。总体而言,t r a i n a b l et t s 相对于现在大语料库系统的优势就在于,可以在短时间内,基本不需要人工干预 的情况下自动构建一个新的系统,因此对于不同发音人、不同发音风格、甚至不 同语种的依赖性非常小。而它的不足之处在于,由于采用模型来生成目标参数并 基于参数合成器来合成最终的语音,其合成效果与原始语音相比还是有不小的差 距。考虑到t r a i n a b l et t s 在合成时所需的存储和运算资源非常有限,因此特别 适合在嵌入式环境下的应用。 1 3 论文的研究目标和内容 基于上述的语音合成技术的研究背景和现状,以及存在的挑战性研究问题, 本文的研究目标是,基于t r a i n a b l et t s 技术框架进行优化改进,构建一个高音 质的语音合成系统。为了达到这些目标,本文首先通过对h m m 在频谱建模方面 的一些存在的一些不足进行分析,提出相应的改进方法,然后结合自然单元的挑 选与整个的t r a i n a b l e t t s 流程构建一个合成语音音质更加清晰的语音合成系统。 塞音模糊现象的改进 t r a i n a b l et t s 系统的合成语音中,塞音( 包括b 、p 、d 、t 、g 、k ) 比较模糊, 由于模型是对对象一个比较平均的描述,再加上塞音的时长比较短,这就导 致了合成的塞音比较模糊的现象,对此,本文在塞音参数生成时加入自然塞 音参数,进一步,用自然的塞音波形来替换合成的塞音波形,在一定程度上 可以改善塞音模糊的现象。 t r a i n a b l et t s 技术改进 由于基于t r a i n a b l et t s 的合成语音的音质不是很好,整体感觉很闷,这主要 是由于生成的参数非常平滑所导致的,于是有一些方法来提高合成语音的音 质,比如说对相邻阶差分参数进行调整即共振峰锐化,但是如果过度锐化会 导致最后出来的语音音色偏离发音人,而锐化不够又不能明显的使语音变亮。 1 2 中国科学技术大学硕士论文第一章绪论 所以为了在不大量增加计算负载( 这里指运算量和存储量) 的情况下,尽量 改善t r a i n a b l et t s 合成语音音质上,采取一种基于自然单元挑选与参数替换 然后再进行参数生成的合成方法,尽量使得生成的参数接近自然参数。 1 4 本文的组织结构 本文的第二章将分析各种可训练语音合成方法的优缺点来确定我们当前系 统所采用的方法,在此基础上详细解释当前我们的t r a i n a b l et t s 系统的构建、 参数配置以及基础知识,对其一些关键技术做一个比较详细的介绍。 在文章的第三章将针对现有t r a i n a b l et t s 系统合成语音中塞音比较模糊的 现象进行分析并且提出了一些相应的解决方法。 在文章的第四章,提出了结合自然单元挑选与参数生成相结合的方法来改善 t r a i n a b l et t s 合成语音音质比较闷的现象,据此提出了改进的参数生成算法,进 一步为了验证这种方法在英文语音音库上的效果,将此系统应用到英文音库上, 并且取得了一定的效果。 在文章的第五章,作者对本文进行总结,总结出本文的主要工作和创新点, 并对本文存在的一些问题和不足进行分析。 中国科学技术大学硕士论文第二章t r a i n a b l et t s 系统 第二章t r a i n a b l et t s 系统 虽然目前的大语料库合成系统的效果已经不错,但是它的一些缺陷,比如合 成效果不稳定、音库构建周期太长以及合成系统的可扩展性太差等,明显限制了 大语料库合成系统在多样化语音合成方面的应用。因此,近年来可训练的语音合 成( t r a i n a b l et t s ) 的概念被提出来并逐渐得到越来越广泛的应用。 t r a i n a b l e t t s ,顾名思义,就是可( 自动) 训练的语音合成,其基本原理就 是基于一套自动化的流程,根据输入的语音数据进行训练,最后形成一个相应的 合成系统。它相对于现在大语料库系统的优势就在于,可以在短时间内,基本不 需要人工干预的情况下自动构建一个新的系统,因此对于不同发音人、不同发音 风格、甚至不同语种的依赖性非常小。 在上述t r a i n a b l et t s 基本思想下,i b m ,m i c r o s o f t 以及n i t 等不同的研究 机构提出了几种不同的实现技术和方法。这些方法有一些共同点,也有各自的不 同之处。共同点就是它们都是基于h m m 对语音参数进行建模,并利用音库数据 进行自动训练,而且需要的人工标注和干预都非常有限。而对于它们各自的特点, 列举如下: i b m :t r a i n a b l e t t s 【1 6 1 2 1 】 1 ) 韵律预测:基于决策树的时长预测模型,其原始框架中没有基频预测 模型,需要外加其它基频预测模型: 2 ) 合成方法:采用单元挑选和波形拼接合成方式,基本单元为聚类状态 ( s e n o n e ) ;在合成中首先采用决策树进行单元预选,然后再根据自身 代价和连接代价挑选最优的拼接单元,最后采用f d p s o l a 进行拼 接调整。 m i c r o s o f t :w h i s t l e r 【1 7 】 2 0 1 1 ) 韵律预测:基于模板统计的韵律预测模型; 2 ) 合成方法:采用单元挑选和波形拼接合成方式,基本单元为聚类状态 ( s e n o n e ) ;在音库构建时,根据统计信息进行坏样本剔除:在合成中 首先基于决策树进行单元预选,并利用h m m 进行代价打分,最后基 于h m m 对拼接单元进行平滑: n i t :h m m b a s e ds p e e c hs y n t h e s i s 【l8 】【3 21 1 4 中国科学技术大学硕士论文第二章t r a i n a b l e1 v r s 系统 1 ) 参数预测:在统一的框架下进行谱、基频和时长参数的建模,并生 成各自的状态决策树:参数预测方法是先采用决策树进行模型预测, 然后根据动态特性来进行参数生成; 2 ) 合成方法:基于h m m 进行时长、基频和谱参数生成,并采用参数 合成器的方法合成语音。 对于i b m 和m s 的方法,由于它们还是采用单元挑选和拼接调整的方法, 合成中的不连续现象还是存在,而且单元挑选算法和策略在不同发音人和不同语 种下需要重新设计和优化;而对于n i t 的方法,其生成的参数都是平滑的,而 且参数预测模型和生成算法都是独立于发音风格和语种,但是它的合成语音是把 生成的参数通过合成器而得到的,因此音质相对较差。 综合考虑,虽然n i t 的系统中合成语音的音质相对于自然语音而言较差, 但是整体感觉比较平滑,而且可扩展性更强,因此本文最终选择在n i t 的技术 基础上进行t r a i n a b l e t t s 的框架构建和技术改进。对此,后面所提到的t r a i n a b l e t t s 都是指我们选定的这套技术方案。 整个t r a i n a b l et t s 框架都是以隐马尔科夫模型( h m m ) 为基础构建,下面 首先介绍h m m 在语音信号处理中的应用,然后比较系统的介绍整个t r a i n a b l e t t s 系统。 2 1h m m 在语音信号处理中的应用 2 1 1h m m 简介 早在6 0 年代末,b a u m 就提出了隐马尔科夫模型( h m m ) 【2 6 【2 7 】,但是 由于它只是被发表在有关的数学杂志上,一般工程人员很少接触这些杂志,而且 它所给出的都是数学上的描述,并没有在信号处理中的相关应用范例,因此直到 8 0 年代,它才被用来描述语音信号的产生,作为语音信号处理技术的一项重大 进展,用此模型在语音识别和合成中已经取得了很大的成果。 2 1 1 1 马尔科夫链 为了说明隐马尔科夫模型的基本概念以及原理,我们从离散时域有限状态自 动机开始分析。离散时域有限状态自动机是一个简单的马尔科夫模型,在每一个 中国科学技术大学硕士论文第二章t r a i n a b l et t s 系统 离散时刻t ,它处于状态s n ,f = l 一中的一种,不妨记为q 。如果此自动机开 始运行的时间起点为t = l ,那么在以后每一时刻t 它所处的状态以概率方式取决 于初始状态概率矢量丌和状态转移概率矩阵a 。丌的每一个分量丌n 表示g l 等于 岛的概率,也就是 7 r n = p r ( q l = s n ) ,几= l n 口 口口7( 2 1 ) 矩阵4 的每一个元素表示已知相邻两个时刻中前一个时刻的状态为s i 的 条件下后一时刻状态为岛的概率,可表示如下: o 巧= p r ( q t + l = 岛iq t = s j ,t 1 ,i ,j = l 一口7 ( 2 2 ) 可以看到,对于任何时刻t ,自动机的状态q 取q 知中哪一种的概率只 取决于前一个时刻t 一1 所处的状态,而与更前的任何时刻所取的状态无关。由 此产生的状态序列q l , q 2 ,是一条一阶马尔科夫链。对于任何一个特定 q = ( q 1 ,q 2 ,q t ) ,其出现概率为: p r ( x ) = 丌9 1 0 吼q 2 n 砚口3 o 盱一1 q r 口 口口口( 2 3 ) 2 1 1 2 隐马尔科夫模型( h m m ) 在实际应用中,某些系统在任何时刻t 所处的状态q t 隐藏在系统内部,不为 外界所见,外界只能得到系统在该状态下提供的实r q 空间中的一个随机矢量 q 。如果q 具有连续分布,它的概率密度函数只取决于q 等于何种状态,因而 可以表示为: p q t = s = p r ( o r q t = & ) ,t 1 ,礼= 1 口 口口( 2 4 ) 上述概率密度函数只取决于当前状态,因而可直接用k 。( d ) 表示,个概率 密度函数构成一个输出概率密度矢量b = ( ( d ) ,6 s ( d ) ) 。由于此系统的状态 不为外界所见,故称之为隐马尔科夫模型( h m m ) 系统。隐马尔科夫模型的一个 1 中国科学技术大学硕士论文第二章t r a i n a b l et t s 系统 最典型的例子是图2 2 所示的“球和缸( b a l la n du r n ) ”实验。 在这个是试验中,设有n 个缸,每个缸中装有很多颜色的球,在同一个缸 中,不同颜色球的多少由一组概率分布来描述。实验是这样进行的,根据某个初 始概率分布,随机地选择n 个缸中的一个,例如第i 个缸。再根据这个缸中彩色 球颜色的概率分布,有放回地随机地选择一个球,球的颜色记为a 。接下来再 根据描述缸的转移的概率分布,随机地选择下一个缸,例如第j 个缸,再从缸中 有放回随机地选择一个球,球的颜色记为仍。一直进行下去,可以得到一个球 的颜色序列q ,q ,听。如果每个缸中只装有一种颜色的球,则根据球的颜色 序列,就可以知道缸的排列。但现在球的颜色和缸之间不是一一对应的,所以缸 之间的转移以及每次选取的缸被隐藏起来了,不能直接观察到。这里,缸就是 h m m 中的状态,球的颜色是观察值。从每个缸中选择什么颜色的球是由彩色球 的颜色概率分布b 决定的,每次选取哪个缸则由一组转移概率4 决定。 虱| 0 i ;i 虱一| | i :_ j ;。;i 堕型!型必圣竖剿趟 p ( r e d )= b l ( 1 ) p ( r e d )= b f f l ) p ( r e d )= b n ( 1 ) p ( b l u e ) = b t ( 2 ) p ( b l u e )= b 2 ( 2 ) p ( b l u e )= b n ( 2 ) p ( g r e e n )= b f f 3 ) p ( g r e e n ) 2 b f f 3 ) p ( g r e e n ) = b n ( 3 ) p ( y e l l o w )= b l ( 4 ) p ( y e l l o w ) = b f f 4 ) p ( y e l l o w )= b n ( 4 ) ? p ( o r a n g e ) = b f f m ) p ( o r a n g e )= b f f m ) p ( o r a n g e )= b n ( m ) o = r e n ,b l u e ,g r e e n ,y e l l o w , ? ?o r a n g e 图2 2h m m 举例 由此可见,一个h m m 系统的特性由它的三个特征参数矢量或矩阵 入= ( 7 r ,4 ,b ) 完全确定,如果给定此三者,那么该h m m 系统产生任意一个输出 序列o 的概率为: 1 7 中国科学技术大学硕士论文第二章t r a i n a b l et t s 系统 p ( dl 入) = b ( q ) 兀。( q ) 口口口 口( 2 5 ) q l t = lj 对于h m m 模型有三个基本问题: 1 ) 给定一个输出序列0 和模型入,模型可能f l , j 建的序列的概率是什么? 这 可以通过前向后向算法来进行求解。 2 ) 给定一个输出序列和模型,什么最可能的状态序列可以创建输出序列, v i t e r b i 算法可解决此问题。 给定一个输出序列和拓扑结构,怎样调整模型参数,包括状态转移和输出的概率 分布,使模型创建的输出序列具有最大概率。在实际h m m 训练中,e m 算法和 b a u m w e l c h 算法( 最大似然准则,即m l 准则) 是最常用的。 2 1 1 3h t k 工具包 在8 0 年代虽然h m m 理论已经非常成熟,而且在语音信号处理中有了比较 成功的应用,但是由于缺乏一套有效的工具,限制了其进一步的广泛应用。到 9 0 年代,剑桥大学开发出一套h m m 的应用工具包h t k 2 8 1 ,其不仅功能 强大,而且简单易用,使得h m m 得以广泛的应用起来。 h t k 工具包中包含大量工具,比如语音信号参数化工具( m f c c 参数) ,h m m 训练工具,识别工具以及合成工具。除此之外,它还有详细的说明文档,不仅对 工具的使用进行描述,而且给出了大量的示例。在h t k 的工具下,h m m 训练 的基本流程如下: 图2 1h m m 训练流程 其中h c o m p v 、h l n i t 、h r e s t 和h e r e s t 为h t k 中的i ) l l 练工具,其对应功能和 使用方法可详细参考 2 8 1 。 中国科学技术大学硕士论文 2 1 2h m m 用于语音建模 第二章t r a i n a b l et t s 系统 人的语言过程可以看作是一个双重随机过程,语音信号本身是一个可观测的 时变序列,是由大脑根据语法知识和语言需要( 不可观测的状态) 发出的音素的 参数流。可见,h m m 较合理地模仿了这一过程,很好地描述了语音信号的整体 非平稳性和局部平稳性,是一种较为理想的语音信号模型。 h m m 用于语音信号建模已经有二十多年乐,对于各种应用的建模参数也比 较成熟,这里我们列举一些重要的建模参数,并给出其比较通用的定义方式或者 取值: 1 ) 谱参数选择:在语音识别中最普遍的参数就是m f c c 参数,也有采用倒 谱或者m e l 域倒谱参数,对于在自动切分中的应用和识别差不多:在 t r a i n a b l et r s 中,则可以采用倒谱参数,也可以采用l s f 参数。 2 ) 参数分布:一般都采用多维高斯分布,针对语音参数的特性,又可以有 多流和多高斯的情况,具体公式如下: s 眠1 6 ( o ) = n l c s m a f ( o s ;p s m ,。m ) l 口 口口7 ( 2 6 ) s = l 【m = lj 忡融) = 南e 妒纠。1 p 叫口口吣7 , 其中s 为参数流( s t r e a m ) 的数目,m 为高斯数目。 3 ) 建模单元尺度:一般都是对音素建模,对于中文而言就是声韵母单元, 但是在一些特殊应用中( 比如数字串识别) ,可以以音节或者词为基本 单元进行h m m 建模。 4 ) h m m 拓扑结构:对一般的单元建模采用的是从左到右各态历经的拓扑 结构,对于某些特殊的单元( 比如s p 或者塞音) ,也有时采用可以空跳 的结构。 5 ) 状态数目:在语音识别中,英文音素一般都采用3 状态,对于中文,则 声母为3 状态,韵母为5 状态;在自动切分中和识别中类似;在t r a i n a b l e t t s 中,为了达到一定的恢复精度,需要更多的状态,对于所有的音素 都采用5 状态模型。 1 9 中国科学技术大学硕士论文第二章t r a i n a b l et t s 系统 混和高斯数目:在语音识别中,由于需要考虑不同人不同环境下的语音参数的变 化,一般采用的混和高斯数目都比较多,比如1 0 2 0 ;在自动切分中,如果采 用单音素模型,则需要考虑上下文环境的变化,一般采用5 8 个混和高斯分量: 在t r a i n a b l et t s 中,由于采用的是上下文相关的h m m 建模,所以只采用一个 混和高斯分量。 2 1 3h m m 在语音合成中的应用 h m m 最初主要是应用在语音识别中, h m m 在语音合成中的应用也越来越广泛, 以下几类,这里简单列举一下: 到目前为止已经相当成熟。近年来, 根据应用的层次不同,可以大致分为 1 ) 对音库进行自动切分:它是h m m 在语音合成中最主要的应用,而且也 最为成熟。 2 ) 构造单元以及相应的语音单元库【2 9 1 :需要注意它与自动切分应用的区 别,自动切分一般是基于大语料库系统的需求,对音库进行音段切分, 比如对中文的音节或者声韵母单元切分;而该应用则是基于h m m 模型 本身进行单元的构造,在构造过程中需要进行自动切分,它不仅可以构 造声韵母单元,而且可以构造状态级别的单元以及相应的音库; 3 ) 实时进行单元挑选,利用h m m 对候选单元进行打分:一般是采用上下 文相关的h m m 建模方式,比如t r i p h o n e 或者b i p h o n e ,然后基于音库 进行模型训练,并通过模型聚类得到相应的决策树。在进行单元挑选时, 可以基于该决策树进行决策,则决策得到的叶子结点中的单元可作为预 选单元,同时也可以基于该叶子结点所对应的模型对预选单元进行打分。 4 ) 进行拼接单元的平滑【3 9 1 :首先对音库中的单元进行h m m 建模和训练, 然后在合成中根据拼接单元的相接处所对应的模型计算其连接概率;如 果连接代价太大,则结合h m m 模型动态参数的均值和方差对拼接单元 的过渡部分进行调整,而保持其它不变,从而在保持原始音质的前提下 减小拼接单元的不连续。 5 ) 根据h m m 本身进行参数生成以及语音合成【1 8 】:这是本文所要介绍的 t r a i n a b l et t s 技术框架中的一个关键技术,我们在第三章将会对其进行 详细介绍。 2 0 中国科学技术大学硕士论文第二章t r a i n a b l e1 v r s 系统 6 ) 其他方面的应用,比如在说话人声音转换和模型自适应方面的应用,这 里就不具体介绍,参考相关文献。 总而言之,上述h m m 在语音合成中的五类应用技术在几种t r a i n a b l et t s 实现 方法中都各自有所体现。 2 2t r a i n a b l et t s 框架 图2 1 为基于h m m 的t r a i n a b l et t s 系统的基本框架,它主要包括训练和合 成两大部分。在训练过程中,利用h m m 训练对基频、时长以及谱参数进行建模。 在合成过程中,对输入文本进行属性分析,并利用训练后的模型进行参数预测, 最后通过参数合成器合成出语音。下面分别对这两部分进行详细

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论