已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学硕士研究生学位论文摘要 摘要 语音转换是一项改变说话人语音特征的技术,可以将一个人的语音模式转换为另外一 个人的语音模式。语音转换是语音信号处理领域一个比较新的分支,具有很重要的理论和 实用价值。 本文的主要内容为以下几个方面: 1 研究了语音转换的相关知识,包括语音的产生、语音参数的提取、语音信号分析 中常用的基本模型。 2 就实验中语音转换所采用的s t r a i g h t 模型、所提取的参数、训练所用的高斯混合 模型进行了讨论。s t r a i g h t 模型的特性是在时一频域利用音节自适应重新构建语音的方 法,同时它还利用人为的相位全通滤波器来提取源语音的特征参数。它提取的主要参数有 基音频率参数。s t r a i g h t 模型与其他的语音模型相比,在语音分析和合成时能获得更高 的语音质量。 3 基于s t r a i g h t 模型提取l p c 任j 谱( l p c c ) 参数和线谱对( l s p ) 参数,并用这些参 数合成出新的语音,并给出了由这些参数转换前后语音的基音频率图和频谱包络图,并对 两种方法进行转换后的语音进行了评价和比较。 关键词:语音转换、s t r a i g h t 模型、l p c 倒谱、线谱对 南京邮电大学硕士研究生学位论文 摘要 a b s t r a c t v o i c ec o n v e r s i o ni sa t e c h n i q u e t h a tm o d i f i e sas o u r c es p e a k e r ss p e e c ht ob ep e r c e i v e da si f at a r g e ts p e a k e rh a ds p o k e ni t i ti sa l le x c i t i n gn e wb r a n c ho f s p e e c hp r o c e s s i n gt h a td e a l sw i t h s p e a k e ri d e n t i t y t h em a i nc o n t e n to ft h i st h e s i si sa sf o l l o w s : 1 s o m ek n o w l e d g ea b o u tv o i c ec o n v e r s i o n ,i n c l u d i n gt h eg e n e r a t i o no f v o i c e ,t h e e x t r a c t i o no fv o i c ep a r a m e t e r , t h em o d e l so fv o i c ea n a l y s i s ,h a sb e e n p r e s e n t e di nt h i st h e s i s 2 t h es t r a i g h tm o d e lw h i c hi su s e di nt h ee x p e r i m e n t ,t h ep a r a m e t e r sw h i c ha r e e x t r a c t e d ,a n dt h eg m mt r a i n i n gm o d e la r ei n t r o d u c e d t h es t r a i g h tm o d e la leu s e di nt h e e x p e r i m e n tw h i c h u s e s p i t c h - a d a p t i v et i m e f r e q u e n c y a n a l y s i sc o m b i n e dw i t has u r f a c e r e c o n s t r u c t i o nm e t h o di nt h et i m e - f r e q u e n c yr e g i o na n da l s oa ne x c i t a t i o ns o u r c ed e s i g nb a s e d o np h a s em a n i p u l a t i o no fa l l p a s sf i l t e r s i nt h ee x p e r i m e n tt h eb a s i cf r e q u e n c yo fv o i c ei s e x c i t e d c o m p a r i n gt oo t h e rm o d e l s ,i tc a ni m p r o v et h eq u a l i t yo fv o i c ec o n v e r s i o ni na n a l y z i n g v o i c ea n ds y n t h e s i z i n gv o i c e 3 i ti n t r o d u c e st h el p ci nt h es t r a i g h tm o d e la n ds y n t h e s i sn e wv o i c ew i t ht h e m , a n dt h ei m a g e sa b o u tt h eb a s i cf r e q u e n c ya n dc o n t o u rf r e q u e n ta r eg i v e n i nt h e e n d ,t h el p c c e p s t r u mp a r a m e t e ra n dl s pp a r a m e t e ra r ee v a l u a t e d k e y w o r d :v o i c ec o n v e r s i o n ,t h es t r a i g h tm o d e l ,l p cc e p s t r u m ,l s p 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:盒皇日期:翌墨:竺! 主 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:! 也导师签名:幽日期:竺二兰三 南京邮电大学硕士研究生学位论文第一章绪论 1 1 语音转换的概念 第一章绪论 语音转换( v c ,v o i c ec o n v e r s i o n 或v t ,v o i c et r a n s f o r m a t i o n ) 是指改变一个人( 源说 话人,s o u r c es p e a k e r ) 的语音特征,使之具有另外一个说话人( 目标说话人,t a r g e ts p e a k e r ) 的语音个性特征【1 “8 】。它是一项改变说话人语音特征的技术,可以将一个人的语音模式 转换为另外一个人的语音模式【9 】。语音包含有很多重要的信息,其中最主要的就是语音 的语义信息,其次是语音的个性化信息。语音转换就是要保持源说话人语音的语义信息不 变,而改变其个性化信息,使源说话人的语音听起来像是目标说话人的语音。 语音转换包括同语种说话人的语音转换和跨语种说话人的语音转换 i o 】。同语种说话 人语音转换是指源说话人和目标说话人说的是同一种语言,而跨语种说话人语音转换指的 是源说话人和目标说话人说的不是同一种语言,比如源说话人a 说的是中文,而目标说 话人b 说的是英文,但是b 不会说中文,此时进行语音转换就要将a 说的中文转换成像 是b 说的,让不会说中文的b 也可以说出中文。 1 2 语音转换的意义 语音转换是目前语音研究领域比较新的一个分支,它的研究涉及到语音信号处理的很 多领域,如语音分析、语音编码、语音合成等,它的研究需要借鉴这些领域的一些知识, 同时也推动了这些领域的发展。 研究语音转换的意义有很多,具体有以下几个方面: ( 1 ) 在文语( 1 v r s ,t e x t t o t e x t ) 转换系统中的应用。现有的文语转换系统主要有共 振峰合成( f o r m a n ts y n t h e s i s ) 、基音同步叠接相加合成( p s o l a ,p i t c hs y n c h r o n o u so v e r l a p a d d ) 和基于数据库的合成方法等。然而无论是用哪种方法,最终合成的语音的个性特征 都是单一的,缺乏个性化的特征,如果在合成语音的时候经过语音转换的处理,那么合 成的语音则增加了说话人的个性特征。例如,文语转换后合成的语音可以根据需要转换 成听者想听的某个特定的说话人的语音,这样不仅增加了个性化的特征,还可以扩大其 使用范围,使其应用更加广泛。 一 ( 2 ) 在电影配音中的应用。通常我们看到的电影,特别是些翻译过来的外国电影 1 南京邮r 乜大学硕士研究生学位论文第一章绪论 中,我们听到的声音都是配音演员的声音,而不是演员本人的声音,常常由于配音演员 不是演员,使得配音不能反映出原演员的个性特征,配音效果不理想,如果将配音演员 的声音经过语音转换,使之具有原演员的个性特征后再输出,那么配音的效果就会好很 多。 ( 3 ) 用于恢复受损的声音。在医学领域,语音转换可以提高一些声道受损的人的语 音质量。 ( 4 ) 语音转换可用于单个说话人的语音质量的控制,可以纠正在t t s 系统中录音人 由于长时间录音而导致录音质量的变化。 语音转换的研究有很多理论和实践方面的应用,它还可以用于保密通信中语音个性化 的伪装等等。 1 3 语音转换的研究现状及其测试方法 近来二十几年,语音学研究者加大了对语音的研究,特别是对语音转换的研究,取得 了很多的成果。初敏等人【1 】采用基于t d p s o l a 的方法对男女生的语音进行转换,中科 院声学刘立【1 】采用矢量量化的方法进行语音转换,王聪修【1 1 基于嗓音源模型进行语音转 换等等,所有这些所取得的成就都是国内语音学研究者付出努力的结果。 目前对语音转换的结果进行测试主要有客观测试和主观测试。下面将对其客观测试和 主观测试分别进行介绍。 1 客观测试 客观测试主要建立在频谱特征参数的基础上,主要有频谱失真测度和说话人辨识等方 法。 频谱失真测度主要有绝对的频谱失真测度和相对的频谱失真测度。绝对的频谱失真测 度就是源语音或目标语音与转换后的语音间的频谱失真相关的程度。具体可以表示为: d = 寺d ( 允,此) ( 1 1 ) 1yn m 其中,夕表示转换后的语音,y 表示源语音或目标语音。 相对的频谱失真测度是采用与源语音、目标语音和转换后的语音间的平均频谱失真测 度相关的方法,具体可以表示为: 2 第一章绪论 d - = 囊1 n d ( 允,儿) j ( 允,) ( 1 - 2 ) 其中,夕表示转换后的语音,y 表示目标语音,x 表示源语音。d ( 夕,y ) 表示转换后的语音 和目标语音之间的某种频谱失真测度,d ( 夕,x ) 表示转换后的语音和源语音之间的某种频谱 失真测度,d 是转换后的语音与目标语音的谱距离和转换后的语音与源语音的谱距离的比 值,比值越小表示转换后的语音越接近于目标语音。 说话人辨识是将转换后的语音作为说话人识别的输入,来确定转换后的语音和目标语 音的相似度。这种测试方法也可以用数学的形式表示出来: o 。t = l o g 黜= l o g p ( m ) - l o g p ( m ) ( 1 - 3 ) 其中,五和五分别表示源说话人和目标说话人所用的模型,x 是观察向量。见越大表 示转换后的语音越接近于目标语音。 2 主观测试 主观测试主要是人耳对语音的感觉来进行的,主要基于语音的可懂度、自然度和说话 人识别度。常用的主观测试方法有a b x 测试方法和m o s 分法。 a b x 测试方法主要用来区分转换后的语音是更接近于源语音还是更接近于目标语音。 在a b x 测试方法中,a 代表源说话人的语音,b 代表目标说话人的语音,x 代表转换后的语 音。用a b x 方法进行测试时要求参与测试的人员分别听一遍具有相同语音内容的源语音、 目标语音和转换后的语音,然后再判决转换后的语音是更接近于源语音还是目标语音,最 后统计所有参与测试人员的判决结果,计算出听起来像目标语音的百分比。 m o s 分法是平均意见得分( m e a no p i n i o ns c o r e s ) 法,它主要分为5 个等级,分数分别 是1 至, j 5 分,其中分数等级如表1 1 所示。 m o s 分法主要是参与测试的人员根据听到的具有相同语音内容的源语音、目标语音和 转换后的语音进行打分,分数越高表示转换后的语音越接近于目标语音。 3 南京邮电大学硕士研究生学位论文 第一章绪论 表1 1m o s u l 分标准 得分质量评价。一失真程度 5优 察觉不到失真 4 良稍微能察觉到失真但无不舒适感 3 由 能察觉到失真且有不舒适感 2差有不舒适感但能忍受 1 劣很不舒适且不能忍受 1 4 语音转换的性能状况及其存在的问题 经过语音学研究者的努力,目前语音经过转换后都取得了一定的效果,转换后的语音 无论是客观测试还是主观测试,都更接近于目标语音。经过很多学者的研究表明,女声到 男声的语音转换比男声到女声的语音转换效果要好一些。如根据a r s l a n 报道 2 的结果为, 男声一 女声的转换为1 0 0 ,男声一 男声的转换为7 8 ( 3 个测听者判断2 3 个句子) :k a i n 和 m a c o n 研究与t t s 相关联的v c 系统,结果是男声一 女声的转换中9 7 5 的转换语音更加接近 目标语音,男声一 男声的转换中5 2 的转换语音更加接近目标语音( 2 0 个测听者判断2 0 个句 子) 等等。然而,虽然根据a r s l a n 的报道男声一 女声的转换为1 0 0 ,然而,它并不表示转 换后的语音就和目标语音没有区别,它只能表示转换后的语音较源语音更接近于目标语1 音,但是跟目标语音是有区别的,通常被认为是另外一个人的语音。 虽然目前语音转换已经取得了很大的成果,但是从语音的发展领域看,语音转换仍然 是一项不成熟的技术,它还有很多不足之处,如转换的精确度不高,转换后的语音和目标 语音还有很大的差别;转换后的语音质量会有不同程度的下降等等,所有这些都是因为在 分析语音信号或者提取语音参数时总是会丢失些信息,所以在语音质量方面,最终合成的 语音较目标语音会有不同程度的下降,有时甚至下降会很严重。 因此,在研究语音转换时,作者认为应该加强以下几个方面的研究: ( 1 ) 加大对超音段转换的研究。目前对语音转换的研究一般都是基于音段信息的研 究,对超音段的研究还很少,超音段的特征参数主要有音素的时长变化、语调等,这些特 征参数主要描述了语音的韵律特征。加大对韵律特征参数的研究能更好地反映出语音的时 变情况,说话人的语调等等。4 南京邮电大学硕士研究生学位论文 第一章绪论 ( 2 ) 加强对语音转换模型的研究。现有的模型如高斯模型( g m m ) 、隐马尔可夫模 型( h m m ) 、矢量量化( v q ) 等,这些模型都有自己的不足,都会引起合成语音质量的 下降。 ( 3 ) 加强对小语音库的研究。目前语音转换的研究一般都是基于大语音库进行的,对 大语音库进行训练需要占用更多的内存,花费更多的时间,而且语音参数训练时是需要严 格对齐的,转换的参数一般也是多维的,所有这些都给训练带来了问题。所以加强对小语 音库的研究是很有必要的。 当然,除了上述几个方面,对语音转换的研究还有很多需要改善的地方。 1 5 本文的研究意义及组织结构 语音转换是语音研究领域比较新的一个分支,它的应用有着广泛的意义。语音转换主 要有训练阶段和转换阶段。在训练阶段,主要提取源说话人和目标说话人的语音的参数, 并对这些参数进行训练,建立一个转换规则。在转换阶段,提取需要测试语音的参数,通 过转换规则得到要合成语音的参数,并且利用这些参数合成出语音。以前研究语音一般用 的是v o c o d e r 的模式,现在提出一个比较新的模型一s t r a i g h t 模型,本课题主要是在 s t r a i g h t 模型下提取要转换语音的一些参数,通过对提取的参数进行分析和训练,最终 建立源说话人的语音和目标说话人的语音之间的声音转换规则;通过转换规则,可以把测 试语音的参数转换为要合成语音的参数,最后利用这些参数可以合成语音。 本文的内容安排如下: 第一章:为绪论部分,简要介绍了语音转换的概念、研究的意义研究状况和测试方法 等,并在本章的最后介绍了本文所做的工作和组织结构。 第二章:主要介绍了语音转换的相关问题。介绍了语音信号产生的机理、产生模型和 它的一些特性,并对语音信号的转换系统进行了简单的介绍。 第三章:介绍了用于语音转换频谱包络的常用的转换方法。 第四章:介绍了语音韵律特征的转换。讨论了语音信号的短时特征和一些常用于韵律 特征的一些参数,还详细讨论基音周期的提取。 第五章:介绍语音转换的实现。针对语音转换的各个部分分别加以实现,并给出了经 过转换后的结果。 第六章:总结了本文所做的工作并对语音转换的研究提出了展望。 s 南京邮电大学硕士研究生学位论文第二章语音转换的相关问题介绍 第二章语音转换的相关问题介绍 2 1 语音的产生机理 语音就是人类说话的声音,是语言信息的表现形式。人的发音器官包括:肺、气管、 喉( 包括声带) 、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声 门。从声门到嘴唇的呼气通道称为声道( v o c a lt r a c t ) 。声道的形状主要由嘴唇、颚和舌头 的位置来决定,由声道形状的不断改变而发出不同的声音。 人的发音过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡而 产生的。发音过程中声道各处的截面积取决于舌、唇、颌以及小舌的位置。声道截面积随 纵向位置而变的函数,称为声道截面积函数,声道的共振峰特性主要决定于声道截面积函 数,声道的共振峰特性决定所发出声音的频谱特性,即音色。 语音按其激励方式的不同大致可以分为三类:浊音、清音和爆破音。当气流通过声门 时,如果声带的张力刚好使声带产生较低频率的张弛振荡,形成准周期性的空气脉冲,这 些空气脉冲激励声道便产生浊音。如果声道中某处面积很小,气流高速冲过此处时而产生 湍流,当气流速度与横截面积之比大于某个门限时( 临界速度) 变产生摩擦,即清音。如 果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。 2 2 语音信号的产生模型 根据发音器官和语音产生机理的分析,语音生成过程可以用三个模型来表示:激励模 型、声道模型和辐射模型。完整的语音生成系统可以由这三个模型的串连来表示,如图2 1 所示。 图2 1语音信号的产生模型 6 音 南京邮i 也火学硕士研究生学位论文 它的传输函数n ( z ) 在时域和频域分别表示为: 忍( 玎) = “( 玎) 掌v ( ,1 ) 幸,( 玎)( 2 1 ) 其中“( 刀) 表示声源激励,v ( n ) 表示声道单位冲击响应,r ( n ) 表示口鼻辐射的单位冲击响 应。 日( z ) = a 牛u ( z ) y ( z ) 尺( z )( 2 - 2 ) 其中u ( z ) 是激励信号,浊音时u ( z ) 是声门脉冲即斜三角形脉冲序列的z 变换;清音时 u ( z ) 是一个随机噪声的z 变换。v ( z ) 实际上是一个全极点模型: y ( z ) 二万g _ ( 2 - 3 ) - z - , z 一七 k = l v ( z ) 的极点对应于语音的共振峰。 g ( z ) 表示为一阶高通的形式为: r ( z ) = r ( 1 一z 1 )( 2 4 ) 语音信号的这种模型应该是“短时”的,因为语音信号是缓慢变化的,因此可以看成 是短时平稳的,例如元音在l o - - 3 0 m s 内其参数可以假定是不变的。这个模型对大多数语 音来说都能很好的模拟,然而对理论要求有零点的鼻音和摩擦音等进行模拟时受到一些限 制。 2 3 语音信号的特性分析 语音信号的特性主要是指它的声学特性、语音信号的时域波形和频谱特性以及语音信 号的统计特性等等。上面已经介绍过声学特性,下面主要介绍语音信号的时域特性和频谱 特性以及统计特性。 1 语音信号的时域波形和频谱特性 图2 2 表示了汉语拼音“y i 的时间波形。表示这段语音时采用的采样频率为1 6 k h z , 量化精度为1 6 b i t 。 南京邮电人学预研究生学位论文 第一章语青转换的榍关问题介目 图2 - 2 汉语拼音“y 1 ”的时间波形 根据语音信号的幅度大小,语音信号可以分为三类:无声段、清音段和浊音段。在无 声段几乎没有语音信号,语音信号幅度为零:清音段的语音信号幅度比较小,没有规律性, 类似于伪随机噪声浊音段的语音信号幅度比较大,语音信号的变化具有规律性,有一定 的准周期性。 语音信号属于短时平稳信号,般认为在l o 3 0 m s 之间语音信号的基本特性是基本 保持不变的,或者是缓慢变化的。 通过对语音信号进行加窗处理,去除其直流分量和加重高频分量,然后可以对语音进 行博立叶变换,得到语音信号的频谱图。通过语音信号的频谱图的分析n r 以得到:清音段 的频谱比较平坦,没有规律性:浊音段的频谱能量主要集中在低频部分,频谱中有明显的 谐波分量。 2 语音信号的统计特性 语音信号的统计特性i j 以用它的波形振幅概率密度函数和一些统计量如均值和自相 关函数等米描述。表示语音信号的波形振幅概率密度的估算是根据长时问范围内一段语音 信号的大量取样数据的幅度绝对值计算出其幅度直方圈,然后,根据统计的振幅直方图, 寻找近似的概率密度表达式。常用的有拉普拉斯( l a p l a c e ) 分布概率密度函数和伽玛 ( g a m m a ) 分布概率密度函数。其分布函数分别如下: 修证的伽玛分布概率函数 球,;丢需 弘s , 其中k 是个常数,与标准差口有下列关系: 南京邮电大学硕士研究生学位论文第二章语音转换的相关问题介绍 七:要 。( 2 - 6 ) 2 q 拉普拉斯分布概率密度函数 p l = 0 5 a e 一州 ( 2 7 ) 其中口是一个由标准差吒决定的常数: ,一 口:鱼(2-8) 口= 一 吒 对于长期统计来说,拉普拉斯分布描述语音信号的统计特性没有伽玛分布描述精确, 但是其函数形式比伽玛分布简单。当然也可以用高斯( g a u s s i a n ) 分布来描述,当然高斯 分布的逼近效果最差。 2 4 汉语音节 音节是语音结构的最小单位,也是汉语的自然单位。所谓音节 1 2 就是一个元音前后 附加一个或两个辅音所构成的音素集团。辅音与元音组合成音节的种类很多,汉语只选择 了其中四种特殊结构的音节,这四种音节分别是v 、v c 、c v 和c v c l ,其中c 代表辅音,v 代表元音,c l 代表鼻音n g 。按照传统的汉语语音音系学的观点,一个音节可以分为声母、 韵母和音调三个部分。音节前部的辅音称为声母,音节中的元音加元音后面可能出现的鼻 音称为韵母。一个韵母一般由韵头、韵腹和韵尾组成。 汉语普通话中有2 3 个声母,3 4 个韵母。声母按发音方式可划分为六类:塞音、擦音、 塞擦音、鼻音、边音和通音;按发音部位可划分为双唇音、唇齿音、舌尖音、卷舌音、舌 面音和舌根音。韵母按其音素结构可划分为单韵母、复韵母、带介音的韵母和鼻韵母;按 发音方式可划分为开口呼、齐齿呼、合口呼和撮口音。另外还有几个特殊的韵母,如资韵 和知韵,儿化韵母e r 。汉语音节中有四种音调,分别为阴平、阳平、上声和去声。 2 5 语音转换系统 2 5 1 语音转换的目标和分类 语音转换就是改变一个人( 源说话人,s o u r c es p e a k e r ) 的语音特征,同时将其转换 为另外一个人( 目标说话人,t a r g e ts p e a k e r ) 语音特征。语音包含很多重要的信息,如 9 南京邮电大学硕士研究生学位论文 第二章语音转换的相关问题介绍 语音的语义信息,说话人的信息和说话时的环境等等,由于说话人的信息与语音、环境等 无关,所以语音转换就是要改变说话人的信息,而不改变其语义信息。由于人的发音器官、 生活环境、口音、方言和情感等各不一样,所以得到的语音往往不一样,因此我们可以根 据这些信息来得到说话人的相关信息。表征说话人的信息很多,总体而言我们可以将其分 为三类: 音段特征:其特征参数主要有共振峰的位置、共振峰的带宽、频谱倾斜、基音周期、 能量等,这些特征参数主要描述了语音的音色特征。这些特征主要与人的发音器官 等有关,也与说话人的情感、情绪等有关。 超音段特征:其特征参数主要有音素的时长变化、语调等,这些特征参数主要描述 了语音的韵律特征。这些特征参数主要受社会和心理的环境影响。 语言特征:主要是说话人的方言、口音、习惯用语等一些特征。 当某人说话时,超音段特征参数受社会因素和心理状态的影响,其语调、音长等可以 随意发生变化,如说话时可以放慢语速、降低音量等,因此超音段特征参数不易建模。而 语言特征主要受人的生活环境、成长环境等的影响,因此语言特征可以随意改变,不易建 模,一般不在研究的范围之内。音段特征主要与人的语音发音器官的生理学和心理学有关, 故一般认为是不可随意改变,所以可以对其建模。 现在的语音系统一般对音段特征进行建模,而对超音段特征和语言特征不予考虑。 语音转换的目标如同语音转换的定义一样,就是要改变说话人的个性特征,而不改变 其语义信息,使转换后的语音听起来像是目标说话人的语音。 语音转换根据说话人的语音种类可以分为同语种说话人的语音转换和跨语种说话人 的语音转换。同语种说话人语音转换是指源说话人和目标说话人说的是同一种语言,而跨 语种说话人指的是源说话人和目标说话人说的不是同一种语言。语音转换还可以根据说话 人的个数分为单人间的语音转换和群体语音转换。单人间的语音转换是指源说话人和目标 说话人各为一个说话人,群体语音转换是指说话人是两个或者更多。本文进行研究的是单 人之间的同语种说话人语音转换。 2 5 2 语音转换的结构框图 语音转换要先对源说话人和目标说话人的语音进行分析,提取出它们的声学特征参 数,并在两者之间建立转换规则,然后对输入的目标语音进行参数提取,根据转换规则得 到转换后的语音参数,最后根据这些参数合成出转换后的语音。语音转换的系统框图 9 第二章语音转换的相关问题介绍 如图2 3 所示。 源说话人 目标说话人 图2 3语音转换的系统框图 语音转换般包括训练阶段和转换阶段。 在训练阶段,系统对源说话人和目标说话人进行训练,分析他们的参数,提取出这些 语音参数,并对它们进行对齐,以便进行训练,建立语音转换规则。 在转换阶段,先对要转换的语音进行分析并提取语音特征,再根据在训练阶段得到的 语音转换规则进行转换得到转换后的语音特征,并根据转换得到的特征参数进行语音合 成,得到转换语音。 语音转换系统主要包括语音库、语音模型和参数、转换函数三个部分。 1 语音库 语音库是语音波形文件和相应参数文件组成的数据库,它的作用是为训练转换函数和 使用客观与主观评估方法测试声音转换系统的性能提供必要的语音数据。在训练过程中, 借助语音库来对语音进行训练,在评估过程中用来评估语音转换的性能。语音库的设计是 语音转换技术成功的重要因素,它的设计主要涉及以下几个方面: ( 1 ) 语音库的大小:指数据库中每个说话人的语音数据。一个语音库中可以包含少 到只有五个元音字母的内容,也可以包含长达一个小时的文章朗读材料。 ( 2 ) 语音库的内容:描述了语音库覆盖语音空间的程度,如音素、双音子、三音子 等。 ( 3 ) 说话人的数目:目前在语音转换领域,至少要包含两个说话人,当然也可以包 含多个。 ( 4 )时间对准:在语音转换系统中,需要将源说话人和目标说话人的语音特征参数 对齐。一个比较有效的方法就是源说话人和目标说话人的训练语音相同,对这些相同语音 1 1 南京邮电大学硕士研究生学位论文 的参数进行对齐。 语音库的大小、语音库的内容和说话人的数目需要根据实际需要而定,并不是语音库 越大越好,音素覆盖范围越大越好。如果语音转换时实际只需要两个人的语音,但语音库 中有多于两个人的语音,这不仅要增加训练时间,还会对内存造成浪费。 2 语音模型和特征参数 。 选择的语音模型要能够准确提取语音的某些音段特征参数和韵律特征参数,并且能够 准确有效的实现这些音段特征参数和韵律特征参数的控制和转换。在语音转换的训练和转 换的阶段,都需要对语音进行分析并提取参数。现在研究语音转换的模型一般是声源一滤 波模型,这个模型是将语音分为声源激励部分和声道滤波部分,采用的方法主要是分析一 合成法,常用的有l p ( 线性预测) 分析合成语音模型和基于d f t ( 离散傅立叶变换) 分析合成语音模型。 l p 分析合成法是在语音信号分析中用的比较多的一个模型,它在语音识别、说话人 识别等中都有广泛的应用。它的原理是将语音有效的分解为谱包络部分( 由l p c 系数表示) 和激励部分( 由l p c 的残差表示) 。谱包络部分的l p c 系数可以推演为p a r c o r 系数和对数 面积比,可以通过对这些参数的转换来实现对频谱包络的控制转换。l p c 系数还可以推演 为线谱对参数( l s p ) ,线谱对参数具有良好的量化特性和插值特性,所以可以对它很好的 进行控制和转换。 d f t 分析一合成语音模型也是常用的一种语音模型。利用短时傅立叶变换来求取语音 信号的短时谱和临界带特征矢量,能更符合人耳对频率高低的非线性心理感觉,而且所需 的变换可以用高效的f f t 来完成,计算开销少。 在训练阶段和转换阶段都要对源语音和目标语音进行特征提取,提取源语音和目标语 音的模型特征参数,此时源语音和目标语音对相同的语音内容要进行对齐,常用的方法有 动态时间规整、非监督h m m 法等。通过对相同语音的内容进行对齐后就可以建立源语音 和目标语音之间的转换规则。 3 转换函数 转换函数的目的就是将源说话人的特征参数映射成为一个新的特征参数,使这个新的 特征参数更接近于目标说话人的特征参数集合。在训练阶段,通过对源说话人的特征参数 和目标说话人的特征参数进行训练,建立一个转换规则,即转换函数。在转换阶段,利用 这个转换函数对源说话人的特征参数进行转换,得到新的特征参数,在利用这些转换后的 特征参数合成出语音。在语音转换的过程中,主要是对反映声道特性的频谱包络的转换和 反映声源特性的韵律特征的转换。 】2 南京邮电大学硕士研究生学位论文 第二章语音转换的相关问题介绍 对频谱包络的转换的方法主要有矢量量化法( v q ) 、高斯混合模型法( g m m ) 、隐马尔 可夫模型( h m m ) 、人工神经网络( a n n ) 、说话人插值法、线性多变量回归法、动态频率 规整( d f w ) 等,这些将在后面进行介绍。 韵律特征的转换主要包括基音周期的转换、时长的转换和能量的转换。这些也将在后 面进行介绍。 2 6 本章小结 本章内容主要包括以下几个方面: ( 1 ) 介绍了语音的产生机理和产生的模型,介绍了浊音、清音和爆破音的产生。 ( 2 ) 介绍了语音的一些时域和频域特性。按照语音幅度的大小可以分为无音段、清 音段和浊音段,并介绍了它们在时域和频域的特征。 ( 3 ) 介绍了语音转换的定义并对语音的特征进行分类。 ( 4 ) 介绍了语音转换的系统结构。详细介绍了语音转换的目标和分类介绍,还介绍 了语音转换的体系结构,并分别介绍了语音转换的三个阶段。 第三章频谱包络转换 3 1 概述 第三章频谱包络转换 语音转换中,对频谱包络的转换是一个重要的方面,因为共振峰位置、共振峰带宽和 频谱倾斜等都与频谱包络有关,而这些参数又对语音的个性特征贡献很大。语音频谱承载 了说话人特征的重要信息,调整语音频谱是当前语音转换技术的首要内容。对频谱变换函 数进行训练就是为了找到源说话人的声学特征参数和目标说话人的声学特征参数之间的 映射关系。一般情况下,在对源说话人和目标说话人的语音特征参数进行训练之前,需 先对源说话人和目标说话人的特征矢量采用某种算法进行时间对齐,然后再根据先前得到 的转换规则对频谱变换函数进行训练。频谱包络转换的主要方法有矢量量化法( v q ) 、高斯 混合模型法( g m m ) 、隐马尔可夫模型( h m m ) 、人工神经网络( a n n ) 、说话人插值法、线 性多变量回归法、动态频率规整( d f w ) 等。下面各节将主要介绍这些频谱包络的转换方法。 3 2 矢量量化 3 2 1 矢量量化的原理 矢量量化( v e c t o rq u a n t i z a t i o n ,简写为v q ) 技术是上世纪七十年代后期发站起来的- 二 种数据压缩和编码技术,广泛应用于语音编码、语音合成、语音识别和说话人识别等领域。 它的基本原理是:将若干个标量数据组成一个矢量( 或者是从一帧语音数据中提取的特征 矢量) 在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。在语 音通信中,矢量量化的过程是将语音信号波形的k 个样点的每一帧或有k 个参数的每一参 数帧,构成k 维欧氏空间中的一个矢量,然后对此矢量进行“集体 量化。矢量量化在语 音通信中的应用如图3 1 所示 在图3 1 的框图中,特征矢量形成部分的作用是每输入一帧语音采样信号( 若帧长维 n ,则可以表示为s 1 ,5 2 ,s n ) ,则输出一个与之相对应的特征矢量x ,并且设其维数 为k 。 通信系统中有两个完全相同的码本,一个在编码器( 发送端) ,另二个在解码端( 接收 端) 。每个码本包含j 个码字y :i ( j = 1 ,2 ,j ) ,每一个码字是一个k 维矢量( 维数与x i 1 4 南京邮电大学硕士研究生学位论文 相同) 。v q 编码器的运行原理是根据输入矢量从编码器码本中选择一个与之失真误差最 图3 1矢量量化在语音通信中的应用 小的码矢y i ,其输出的v 即为该码矢量的下标。这个过程可以简化如下: 1 ,= r ( x ) ( 3 - 1 ) v 是一个数字。如果此过程不引入误差,那么从信道接收端取出的信号仍是v 。v q 译码器 的运行原理是按照1 ,从译码器码本( 与编码器的码本相同) 中选出一个具有相应下标的码 字作为输出,这个x 即为x i 的重构矢量,可以表示为: y = ( ,) ( 3 2 ) 如果编码器和译码器在同一处( 数字存取) ,那么只需要一个码本就足够了。 3 2 2 矢量量化在语音转换中的应用 矢量量化技术在语音研究领域中已经得了广泛的应用,在语音转换领域也得到了应用: a b e 2 ,3 】较早就采用了基于矢量量化的码书映射方法来对频谱包络进行转换,a r s l a n 4 ,5 】也 采用这种方法。他们的实现过程大致如下: 首先对源说话人和目标说话人的语音频谱参数空间进行量化,使源语音和目标语音的 码向量一_ 对应,分别得到m 个源语音的码向量( k = 1 ,2 ,m ) 和m 个目标语音的码向量 ( k = l ,2 ,m ) 。然后在训练阶段通过训练得到由每一个源语音码向量u t k 到m 个目标语 音码向量u t k ( k = l ,2 ,m ) 的映射码书h ,h 为m x m 的矩阵。映射码书的建立过程如下: ( 1 ) 由源和目标说话人产生学习单词集,然后所有的单词逐帧进行向量量化。 ( 2 ) 用动态时间规整技术( d t v v ) 对两个说话人的相同的单词向量进行对齐。 1 5 南京邮电大学硕士研究生学位论文第三章频谱包络转换 ( 3 )两说话人之间的向量对应关系累积成柱状图。应用柱状图作为加权系数,映射 码书就为目标语音向量的线性合成时的加权系数。 在转换阶段,先将源语音的谱包络系数量化为源语音向量空间的第1 个码向量。则转换 的码向量夕由下式得到: m 夕= 七= l m 其中,为映射码书h 的元素,满足玩= 1 ,u t 。为目标语音码向量。 3 3 隐马尔可夫模型 ( 3 3 ) 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,简称为m 4 m ) 是一种用参数表示的,用于 描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的。h m m 是一个输出符号 序列的统计模型,具有n 个状态s l ,s 2 ,s n ,它按一定的周期从一个状态转移到另 一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别 由状态转移概率和转移时的输出概率来决定。h m m 是一个双重随机过程,其中一个随机 过程是不可预测的,只能通过另一个随机过程的输出观察序列观测。设状态转移序列为s = s 。s :s ,输出的符号序列为0 - o 。0 2 0 ,则在单纯m a r k o v 过程和相邻符号之间是不相 关的假设下( 即s h 和s 。之间转移时的输出观察值0 ;和其他转移之间无关) ,有下式成立: p ( s ) = 兀p ( s ji g 。1 ) = 兀尸( 墨h ) 。(3-4) if p ( os ) = 兀尸( d fi ) = 兀尸( qs i - l 岛)( 3 5 ) i j 因为是h m m ,把所有可能的状态转移序列都考虑进去,则有: 尸( o ) = 尸( ds ) 尸( s ) = 兀p ( s il 一,) p ( o ii $ i l ,s i ) : ( 3 6 ) ssj 隐马尔可夫模型是利用语音信号是短时平稳的特性来进行建模的。由文献 1 1 知人的 言语过程实际上就是一个双重随机过程,语言信号本身是一个可观测的时变序列,是由大 脑根据语法知识和言语需要( 不可观测的状态) 发出的音素的参数流。因此隐马尔可夫模型 的原理就是通过状态转移概率对基元发音速率建模,通过依赖状态的观察输出概率对基元 发音的声学变化建模。在训练阶段,分别从源说话人的语音和目标说话人的语音中提取特 征矢量的时间序列,然后对这些特征矢量进行训练,生成输入输出序列的概率。在转换阶 段,提取对需要转换的语音进行特征提取,根据输入输出序列的概率计算出输出语音的特 】6 南京邮电大学硕士研究生学位论文第三章频谱包络转换 征矢量,并利用这些特征矢量输出语音。 3 一高斯混合模型 高斯混合模型( g a u s s i a nm i x t u r em o d e l ,简写为g m m ) 可以看作是一种状态数为1 的连续分布马尔可夫模型c d h m m 。一个m 阶混合高斯模型的概率密度函数是由m 个高 概率密度函数加权求和得到的,所示如下: p ( x ;o - - z w 岛( x ) ( 3 7 ) 其中x 是一个d 维随机向量,岛( 置) ,i = 1 ,m 是子分布,i = 1 ,m 是混合权重。 每个子分布是d 维的联合概率分布,可表示为: 。懈) = 两南e x p 一圭( x 训。:_ 1 ( x 刊) ( 3 - 8 ) 其中“是均值向量,是协方差矩阵,混合权重值满足以下条件: m 嵋= 1 f = l ( 3 - 9 ) 完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为: a = w j ,鸬,。 ,f = l ,m( 3 1 0 ) 对于给定的时间序列x = 置) ,t = l ,2 ,t ,利用g m m 模型求得的对数似然度可定义 如下: 舭= 专喜l o g p ( 五伪 ( 3 - 1 1 ) 当用高斯模型对数据进行训练时,常用最大似然( m a x i m u ml i k e l i h o o d ,简称为m l ) 估计。对于长度为丁的训练矢量序列x = 五,五,巧) 的似然度可以表示为: 了 p ( x ;o = 兀尸( 五们 ( 3 1 2 ) t - - - i 由于上式是参数名的非线性函数,很难求出最大值,所以般用e m ( e x p e c t a t i o n m a x i m i z a t i o n ,简称为e m ) 算法估计参数名。 南京邮电大学硕士研究生学位论文 第三章频谱包络转换 3 5 人工神经网络 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,简称为6 蝌n ) 是在模拟人脑神经组织的基 础上发展起来的全新的计算机系统,它是由大量计算单元通过丰富联结构成的复杂的网 络。它在一定程度上反映了人脑功能的若干基本特性,是一种更接近于人的认知过程的计 算模型。人工神经网络由大量简单处理单元,即神经元互相联结而构成的独具特色的信息 处理系统。它是可以训练的,并且具有高度的并行性。 人工神经网络主要由神经元、网络拓扑和学习算法构成。神经元的作用是把若干个输 入加权求和,并将这个加权和非线性处理后输出。网络拓扑是网络的结构及神经元之间的 联接方式。根据联接方式的不同可以分为反馈型人工神经网络和非反馈型人工神经网络。 学习算法中较著名和最常使用的是b p ( b a c k - - p r o p a g a t i o n ) 算法。在语音转换中,可以借 助于由b p 算法 9 1 5 ) 1 1 练的人工神经网络实现共振峰频率的变换,如n a r e n d r a n a t h 1 3 等人就实 现了个变换,具体算法步骤如图3 2 所示。 图3 - 2b p 算法表示图 虽然a n n 表现出了很好的连续性,但是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论