![(电路与系统专业论文)基于共振峰参数的源—目标声音转换方法研究[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/2f0df0fe-13f8-4ddc-a089-775edcb3e12b/2f0df0fe-13f8-4ddc-a089-775edcb3e12b1.gif)
![(电路与系统专业论文)基于共振峰参数的源—目标声音转换方法研究[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/2f0df0fe-13f8-4ddc-a089-775edcb3e12b/2f0df0fe-13f8-4ddc-a089-775edcb3e12b2.gif)
![(电路与系统专业论文)基于共振峰参数的源—目标声音转换方法研究[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/2f0df0fe-13f8-4ddc-a089-775edcb3e12b/2f0df0fe-13f8-4ddc-a089-775edcb3e12b3.gif)
![(电路与系统专业论文)基于共振峰参数的源—目标声音转换方法研究[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/2f0df0fe-13f8-4ddc-a089-775edcb3e12b/2f0df0fe-13f8-4ddc-a089-775edcb3e12b4.gif)
![(电路与系统专业论文)基于共振峰参数的源—目标声音转换方法研究[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/2f0df0fe-13f8-4ddc-a089-775edcb3e12b/2f0df0fe-13f8-4ddc-a089-775edcb3e12b5.gif)
已阅读5页,还剩62页未读, 继续免费阅读
(电路与系统专业论文)基于共振峰参数的源—目标声音转换方法研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中困料学技术人学f 峨i j 陀史 摘要 摘要 源目标晚话人声音转换是将源说话人的语音模式转换成某个特定的目标 晚话人的语音模式,而保持源浣话人原有的语义内容不变,使转换后的语音具有 目标说话人的声音特点。声音转换是当前语音信号与信息处理研究领域的一个热 点,除了理论方法研究外,其应用前景也非常广泛,包括文语合成系统的定制、 电影广播剧角色的自动配音、多说话人语音语料的采集和传输等。 水文研究的源一目标说话人声音转换是基于共振峰分析一合成模型的,主要 研究声道共振峰的参数表示和提取方法,与文本无关的声道共振峰参数映射规则 的获取方法,以及共振峰合成器。 首先研究了共振峰分析一合成模型,深入讨论并验证了共振峰参数中所表征 的说话人个性特征,针对语声中浊音和清音不同的共振峰结构特点,对浊音和清 音采取了不同的参数表示方法,并给出了一种基于线性预测的共振峰提取算法。 为了获取文本无关下的源一目标参数间的映射规则,采用了基于分类的映射 规则获取思想,对分类线性转换方法( c l t ) 进行分析研究,并在此基础上,本 文给出了一种基于径向基函数神经网络( r b f n n ) 的分类线性加权转换方法, 以输入特征欠量对各个类别( 隐层节点) 的“贡献”作为各子类转换规则的权值, 转换后的特征矢量为各子类输出的加权,这种加权组合的方法使一定分类下的映 射规则得以极大的增多,可以提高转换效果。实验结果表明,在相同的分类数时, r b f n n 方法的转换效果优于c l t 算法;并可在较少训练数据下也有较好的转换 效果。 文中还详细讨论了共振峰参数合成器基本原理和组成结构,包括激励源模型 和声道模型。由于激励源特征在确定说话人身份方面起着非常重要的作用,所以 讨论了基音频率的提取和转换方法。通过共振峰合成器合成语音实验验证了其合 成晤音的效果。 摘要 a b s t r a c t v o i c ec o n v e r s i o nf r o mas o u r c es p e a k e rt oa t a r g e ts p e a k e ra i m st om o d i f yt h e c h a r a c t e r i s t i c so fs p e e c hb yag i v e ns o u r c e s p e a k e r , s ot h a ti ts o u n d sa si fi tw a s u t t e r e db ys o m ed e s i g n a t e dt a r g e ts p e a k e r , w h i l ep r e s e r v i n gt h ec o n t e x to f s p e e c h e s i t i sah o tt o p i ci ns p e e c hs i g n a la n di n f o r m a t i o np r o c e s s i n ga n dw i l lb ew i d e l yu s e di n t t ss y s t e m ,e n t e r t a i n m e n t ,s p e e c h a c q u i s i t i o na n dt r a n s m i s s i o na n ds oo n b a s e do nt h ef o r m a n ta n a l y s i s b y - s y n t h e s i sm o d e l ,t h et h e s i sf o c u s e so nt h e r e p l _ e s e n t a t i o na n de s t i m a t i o nm e t h o d so fv o c a l - t r a c tf o r m a n t ,t h e o b t a i n i n go f c o n v e r s i o nr u l c so ft e x t i n d e p e n d e n tf o r m a n tp a r a m e t e r sf r o mas o u r c es p e a k e rt oa t a r g e ts p e a k e r ,a n dt h ef o r m a n ts y n t h e s i z e r f i r s t l y ,f o r m a n ta n a l y s i s b y s y n t h e s i sm o d e li ss t u d i e d ,t h e p e r s o n a l i t y i n l o r m a n tp a r a m e t e r si s d e e p l yd i s c u s s e da n dp r o v e da n daf o r m a n te s t i m a t i o n a r i t h m e t i cb a s e do nl i n e a rp r e d i c t i o na n a l y s i si si n t r o d u c e d a st h ed i f f e r e n tf o r m a n t s t r u c t u r ei nv o i c e da n du n v o i c e ds p e e c h ,d i f f e r e n tp a r a m e t e r sa r ea d c 。p t e d t oa t t a i nt e x t i n d e p e n d e n tv o i c ec o n v c r s i o na n dm a k et h er u l e sr e a l i z a b l ea n d g e n e r a l i z a b l e ,t h i sp a p e ra d o p t st h ec l a s s i f i c a t i o no ff e a t u r es p a c ea n do b t a i n st h e m a p p i n gr u l e st h r o u g he a c hf e a t u r es u b s p a c e s p e c i f i c a l l yt h ec l a s s i f i e dl i n e a r t r a n s f o m m t i o nm e t h o d ( c l t ) i si n t r o d u c e d t oo v e r c o m et h ei n a c c u r a t e n e s so f c l a s s i f i c a t i o na n da c q u i r ea sm a n yr u l e sa sp o s s i b l ei nt h ed e t e r m i n a t ec l a s s i f i c a t i o n n u m b e rt od e s c r i b et h em a p p i n gr e l a t i o nm o r ea c c u r a t e l y , ac l a s s i f i e d l i n e a r l y w e i g h t e dt r a n s f o r m a t i o nm e t h o db a s e do nr a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k ( r b f n n ) i sp r e s e n t e d e x p e r i m e n t a lr e s u l t sp r o v et h a tr b f n nh a sab e t t e r p e r f o r m a n c et h a nc l t , a n dt h ep e r f o r m a n c eo fr b f n nh a sl i t t e rr e l a t i o nw i t h t r a i n i n gd a t a f i n a l l y ,t h et h e o r ya n ds t r u c t u r eo ff o r m a n ts y n t h e s i z e ri sd i s c u s s e di n c l u d i n g e x c i t a t i o nm o d e la n dv o c a l t r a c tm o d e l a st h ec h a r a c t e ro fe x c i t a t i o nt a k e si m p o r t a n t r o l ei ns p e a k e ri d e n t i f i c a t i o n ,t h em e t h o d so fp i t c he x t r a c t i o na n dt r a n s f o r m a t i o ni s i n t r o d u c e d t h eq u a l i t yo fs y n t h e s i z e ds p e e c hi sp r o v e db yt h e e x p e r i m e n to ff o r m a n t s y n t h e s i z e r 第一章引言 第一章引言 1 1论文研究意义和应用前景 声音是人类互相传递信息的最主要的手段,在语音信号含有的大量信息中, 语义信息是首要的;但在同常交流中,个性化的声音信息往往就是一个人的身 份“名片”,人们仅从说话人的声音就能辨识出自己的亲戚朋友,在广播节目 中听出是否是自己熟悉的主持人在主持节目。这些现象就成为诸多学者研究声 音转换的最初出发点。源一目标说话人的声音转换( v o i c et r a n s f o r m a t i o n ) , 就是努力找出两个说话人个人声学特征之间的差别,将一个说话人( 常称为源 话者) 的声音转换为另特定说话人( 常称为目标话者) 的声音,而在转换过 程中,不改变源话者的语义内容,因此源一目标声音转换并非简单的变声。 从理论研究的角度来看,源一目标说话人声音转换是当前语音信号处理研究 中的个前沿课题,难度较大,它涉及信号处理、人工智能,模式识别,声学等 学科领域,是一个典型的交叉学科的研究课题。它和说话人识别确认、语音编 码技术有着非常密切的关系,是对语音合成技术的丰富和延拓 2 ,3 。例如语音信 号的分析一合成模型、语音特征参数提取、基于概率统计的说话人语音建模、说 话人的自适应方法等研究成果都可以直接运用于声音转换技术上。反之,随着声 音转换技术研究的深入,又势必将会对语音编码、语音合成、说话人识别确认 等研究的发展产生促进作用。如研究影响语音音质和语音个人特性的因素,如何 建立激励源模型,研究共振峰的位管、宽度和幅度对语音的影响等,这方面的工 作不仅对语音合成有利,而且能提高文语转换系统的自然度,也有可能促进语音 编码技术的进步。此外通过说话人声音转换的研究,可以寻找不同说话人声学特 征之间的特性和共性,有利于寻找影响说话人识别的一些重要参数,以促进说话 人辨认和晓岳人确认的研究。 从实际应用角度看,声音转换的用途是很广泛的,下面列举几个应用例子。 ( 1 ) 在电影、电视节目的配音中,尤其用另外一种语言进行配音时, 往往配音演员不是演员本人,常使配音与原演员的个性特征相差 很大,配音效果不理想;可以将原演员的声音特征加入到本地化 电影配音中,使之更具原汁原味 4 。 在文语转换系统中,合成的语音一般都是单一的,缺乏个性化, 但如果将合成语音再通过一个声音转换系统,将使单调的语音具 有更多的个性特征 5 】;例如,对于采用文语转换的有声e - m a i l 或手机短信系统,如果再采用声音转换系统,将信息内容用发信 人的声音读出来,这样文语转换的应用将更具吸引力。 声音转换的优越性也将反映在超低带宽的语音编码领域。当语音 编码设计的速率为24 或更低时,我们可以只传输与说话内容相 关的信息,在接收端通过声音转换系统恢复源语音的个性化特 征,这样就使传输带宽得到了高效利用。 声音转换技术也可应用于语音数据采集。传统的语料采集办法非 常耗时费力,使用声音转换系统有可能使这个过程变得比较简 单。从- 个单说话人语音库中提取每一句话输入声音转换系统, 分别采用不同目标说话人的模型,使新产生的语音具有所期望的 多个目标况话人声音特性,从而实现一个由单人语音库生成的多 说话人语音库【6 】。如图1 1 所示。 说话人模型 圈1 1 干人语音库生成多人语音库系统示意图 ) ) ) 2 3 q 第一章i ;i 言 1 2 源一目标声音转换研究概况 源目标声音转换最终要生成具有目标说话人声学特征的语音,所以日前大 部分声音转换的研究是基于语音信引拘分析一合成模型,对语音短时谱和韵律参 数的进行修改。比较有代表性的转换方法有: ( 1 ) 码本映射 码本映射是声音转换领域比较常用的转换方法,这种转换方法最早是a b e d s h i k a n o 7 ,8 1 等人提出来的。在这个方案中,为产生映射码本,首先用矢量量 化算法将源说话人和目标说话人的特征空间进行划分,用d t w 算法将源矢量和 目标矢量相关联,产生对应码本矢量的统计直方图。最终的目标码本定义为用直 方统计值作为权函数的目标码字的线性组合。但这种方法将语音的频谱特征空间 进行量化“硬”分类,则必然使转换语音特征存在不连续,从而降低转换语音质 量。 ( 2 ) 线性多变量回归和动念频率弯折 线性多变量回归( l m r ) 【9 ,l o 是h v a l b r e t 等人提出的一种不同于全局码 本映射思想的转换方法。用标准的无监督聚类算法( 如v q ) 将源说话人的声 学特征空间划分为多个不相重叠的子空间( 类) ,目标训练语音的特征矢量仅通 过d t w 算法与源训练语音的特征矢量相关联,这样就将源与目标的训练语音 的特征矢量划分为相等的类:通过最小化每一类中所有源一目标特征矢量对之 删预测误差的均方值来确定各最优线性转换函数,每个转换函数都表述了这一 类中源一目标语音之问的映射关系。 动态频率弯折方法( d f w ) 【9 】试图在同一声学类中找到源一目标语音频谱的 映射路径。这种方法首先计算每一源、目标说话人的对数幅度谱,并从中去除频 谱倾斜( s p e c t r a lt i l t ) 。对归一化后的源、目标频谱采用一种频率规整算法,获得 一条源一目标矢量对应关系的规整曲线。每一类中规整函数的数量等于这一类的 源一日标矢量对( v e c t o rp a i r ) 数目。计算这一类中的平均规整函数,并用一个三阶 多项式来表示。d f w 算法能在频域改变频谱形状,因此它能调整共振峰频率及 其带宽,而其幅度j l 乎不受影响。 中冈利学投求人学蛳:论文第一章引言 这种多个局部转换函数方法l 叮以产生无穷个目标特征量。但是由于选择单个 局部转换函数的离散性还存在,所以不连贯性仍然出现在输出语音中。 l3 ) 神经网络 神经网络是连续转换函数的。个例子。理论上,一个具有非线性隐层的神经 网络能够逼近任意映射。在连续语音中,声道系统特征变化迅速,为比较真实地 变换说话人的声学特征,码本映射方法中的码本尺寸就必须很大:而在神经网络 技术中,即使训练数据量较少但只要选取合适,也能较好地学习一个连续特征映 射函数。神经网络的这种泛化特性有助于降低语音数据储备要求而能较好完成说 话人特性之f 刨的变换。根据上述原理,n a r e n d r a n a t h 等人 1 1 ,1 2 借助于由b p 算法 训练的人工神经网络实现共振峰频率的变换。但由于b p 网络的隐层函数采用了 s i g m o i d 函数,使得其对数据的分辨能力不高,学习算法的收敛速度慢,存在局部 极小等缺点。 ( 4 ) 高斯混合模型 由于语音信号是非平稳随机信号,很多学者采用概率统计方法改善转换语音 的自然度和目标说话人的特征倾向性。s t y l a n o u 1 3 ,1 4 等人通过概率方法,采用高 斯混合模型( g m m ) 描述源一目标特征的联合概率分布,这样盘给定源特征矢量 寻找转换函数来预测目标语音特征就是个回归问题。g m m 对语音的频谱特征 空| 1 b j 采用概率的方法进行“软”分类,对频谱特征空间建立了一个连续的概率模 型,有效的克服了频谱的不连续;但在进行e m 运算时计算量较大,而且存在转换 语音频谱过分光滑现象,影响了转换语音目标说话人特征的倾向性。 1 3 本文研究目标与内容 本文研究的源一目标浣话人声音转换系统基于共振峰分析合成模型,选 取代表说话人个性声学特征的声道共振峰参数作为转换的特征参数,通过线性 预测求根法对共振峰参数进行提取。为了克服分类线性转换方法( c l t ) 中对 位于类与类交界处的特征矢量分类不准带来的转换误差,采用基于径向基函数 神经网络的分类线性加权转换方法( r b f n n ) ,提高了转换方法的精度。最后, 通过对激励源参数的转换,采用串联型共振峰合成器,恢复出转换语音。 第一章引茸 本沦文| _ | _ 以f 几个章节组成: 第一章介绍厂源目标声音转换的的基本概念、研究意义和应用前景,分 目前所用的各种方法的特点和不足之处,在此基础上提出了本文的研究目 第二章探讨了基于分析一合成模型的源一目标声音转换系统的组成结构。 通过语音信号产生的数学模型介绍了线性预测分析一合成模型和共振峰分析一 合成模型,给出1 基于分析一合成模型的源一目标声音转换系统组成,并分析 了源一目标声音转换技术实现主要包括的三个要素。最后介绍了用于衡量源一 目标声音转换系统性能的评价标准。 第三章深入探讨了用于源一目标声音转换的特征参数的选择和提取。本文 所研究的源一目标声音转换系统是基于语音信号的分析一合成模型,所以选择 适合声音转换的分析一合成模型是研究声音转换的关键一步。通过对共振峰分 析一合成模型与线性预测分析卜合成模型的比较,共振峰分析一合成模型比较 适合声音转换;而且共振峰参数有着明确的物理意义,易于调整,实验验证了 共振峰参数代表说话人的声学特征。针对语声中浊音和清音不同的共振峰结构 特点,对浊音和清音采取了不同的参数表示方法。本章给出了一种基于线性预 测的共振峰提取算法,以线性预测求根法为基础,产生最初的共振峰候选值; 以单帧的共振峰参数为基础通过约束条件产生基本的共振峰轨迹;再以基本轨 迹为基础,应用自后帧共振峰参数的相关性,得到最终结果。最后,实验验证 了该算法提取共振峰参数的有效性。 第四章深入探讨了基于共振峰参数的转换方法。由于特征参数在参数空间 分布是较复杂的,直接在帧级训练转换规则会存在规则过多和推广性能差的缺 点。本章引入分类策略,将特征参数空间划分为多个不相重叠的子空间即子类, 每类训练一个转换规则,分类线性转换方法( c l t ) 就体现了这种思想。但该 方法列特征参数空间进行“硬”分类,特征参数只能属于某一类,对于处于类 弓类交界处的特征矢量会存在分类不准带来的转换误差。为了弥补这一不足, 奉章给出了一科- 基于径向基函数神经网络( r b f n n ) 的分类线性加权转换方法, 实现对特征空问的“软”分类,将输入特征矢量对各个类别( 隐层节点) 的“贡 ,0 。 析标 献”作为各子类转换规则的权值,输出特征矢量为各子类输出的加权。这种加 杈组合的方法使定分类下的映射规则得以极大的增多,一定程度上克服了分 类不准带来的转换误差,提高了转换方法的鲁棒性。实验分别考察了两种转换 方法的转换效果与分类数和训练集的关系。实验结果表明,在相同的分类数时, r b f n n 方法的转换效果优于c l t 算法;并可在较少训练数据下也有较好的转 换效果。 第五章详细讨论了共振峰参数合成器与激励源参数转换。本章首先详细介 绍了共振峰合成器的基本原理,包括合成浊音和清音的声道模型与激励源模型。 由于发浊音时,激励源参数电代表了一定的说话人个性特征,因此为了合成出 转换语音,激励源部分也必须进行源一目标的转换。所以接下来介绍了基音频 率的提取和转换方法。最后通过共振峰合成器的合成语音实验验证了转换效果。 第二章源一目标声音转换攮奉原理 第二章源一目标声音转换基本原理 2 1引言 源一e i 标l 3 话人声音转换( v o i c ec o n v e r s i o n ) ,就是努力找出两个说话人 声学特征之i s j 的差别,将一个说话人( 常称为源话者) 的声音转换为另一特定 晚话人( 常称为目标话者) 的声音,由于其应用前景的广泛和深入,一直以来 都受到学者们高度的重视。源一目标声音转换是对语音合成的丰富和延拓,实 现声音转换主要包括三部分:特征参数的选择和提取,转换规则的获取,以及 转换晤音的合成。目前,获取转换规则的方法很多,如传统的基于矢量量化的 码本映射方法 7 ,8 ,线性多变量回归方法 9 ,1 0 ,以及近年来出现的神经网络 方法 1 1 ,1 2 ,基于混合高斯模型的转换方法 1 3 ,1 4 。尽管使用的转换规则各异, 但这些声音转换系统都是对语音信号参数分析一合成过程的扩充。如下图所示: 源话水晤音 源话者语音 目标讯者语音目标话者语音 图2 1 基于分析一合成的源一目标声音转换示意图 如果忽略获取转换规则,剩余的部分就是语音信号参数分析一合成过程。 转换规则的作用就是将源活者的声学特征模式转换为目标话者的声学特征模 式,而保持语义内容不变。 2 2 语音信号的分析一合成模型 浯音信号的分析合成模型最早应用于语音编码,由于原始语音波形含有较 多的冗余信息,不便于低码率传输,分析过程的任务就是把冗余度高、难处理、 第二章源一目标声音转换箍本原理 特征不明显的原始数据转换为冗余度低、易于后端处理和更能反映内在规律的特 征参数。合成过程将分析的参数按时问顺序连续的输入到参数合成网络,即可合 成出晤音。分析合成模型的基础是语音的产生模型,分析过程就是根据语音信 号的产生模型,求出一段语音信号对应的模型参数,即将语音信号参数化;在合 成语音时,采用由分析得到的参数形成模型来合成语音。 流通过受阻的声道而产生的。在发音过程 幽22 人的发声器官示意幽 中,随着发音器官如口腔运动,舌位不同 等因素使得声道的形状生相应的变化,从而产生了不同的音素的发音。 声门 声门 脉冲 臆冲 技生 模型 糕 g ( z ) 声道参数 谱音波形 信号s ( n ) 幽2 3 语音信号发生的离散时域模型 语音的发声过程可以用图2 3 所示的语音信号产生模型来表示 1 5 ,称为语 音产生的激励源一滤波器模型。该模型包括三个部分:激励源、声道模型和辐 第二章源一目标声音转换摧本原理 射模型。激励源又分为浊音和清音两部分,由浊音清音开关所处的位置来决定 激励源的种类,从而产生浊音或清音。对于浊音语音,激励信号是一个周期为 n 。= ,j 的冲激序列,其中一是语音信号的采样频率,氏是语音信号的基音 步负率。陔冲激序列通过一个声门脉冲模型滤波器g ( z 1 后,可具有声门气流的实 际波形。可令g ( z ) = 1 ( 1 一g l z 。1 ) ( 1 一g2 z “) 。其中g ,、g :很接近于1 ,这样形 成的浊语音激励信号的频谱很接近于声门脉冲的频谱。对于清音语音,激励信 号由一个随机噪声发生器产生,且噪声信号服从均值为0 ,均方差为1 的g a u s s 分御,自相关函数是一个单位冲激函数。 实际声道作为变截面无损声管研究,可看成p 段短声管的串联,而每段声 管的截面积是不变的,则其传输函数可用一个全极点函数来表示,即: y ( z ) = f 二 ( 2 1 ) 即z 1 i = 0 其中。1 1 ,n 为实数:在大多数情况下这个模型是与实际情况吻合的,但对 于鼻音、擦音而言,其声道传输函数中包含有限零点,这可用适当提高阶数p 来 使全极点模型逼近含零点的模型。 辐射模型月( :) 可表示为尺( z ) = ( 1 一r 2 。1 ) ,“l ,具体与嘴形有关。 在发音过程中,由于发音器官存在n 筷性”,激励源和声道都在缓慢变化的, 可认为语音信号存在短时平稳性。因此,对语音信号进行分析和特征参数的提 取般是分帧进行的,帧长一般为1 0 3 5 m s 。分析过程就是根据语音生成模型, 从短时帧语音信号中提取一系列的特征参数,合成过程就是用分析得到的特征 参数合成语音信号。目前,比较实用的分析一合成模型有线性预测分析一合成 模型和共振峰分析一合成模型。 线性预测语音分析一合成模型比较广泛的应用于语音合成、编码领域。它是 基于全极点声道模型的假设,采用线性预测分析来参数化语音信号。合成过程中, 其激励参数有增益常数、清浊音丌关信息和基音频率组成:而声道参数可用线 第二章源目标声音转换某奉原理 性预测参数来控制。由于对语音信号进行线性预测逆滤波得到的残差信号也包括 激励源信息,所以残差信号也可用于作为激励源。 与线性预测分析一合成模型相同,共振峰分析一合成模型也是对激励源 滤波器模型的模拟,但它更侧重于对声道谐振特性的模拟。它把人的声道视为 一个谐振腔,腔体的谐振特性决定所发出的语音信号的频谱特性,即共振峰特 性。音包各异的语音有不同的共振峰模式,用每个共振峰及其带宽作为参数可 以构成一个共振峰滤波器。将多个共振峰滤波器组合起来模拟声道的传输特性, 根掘这个特性对声源发生器产生的激励信号进行调制,经过辐射模型后,可以 得到合成语音。语音学研究结果表明,决定语音感知的声学特征主要是语音的 共振峰;因此若分析过程参数提取正确,则这种模型可以合成出高音质、高可 懂度的语音。 2 3 基于分析一合成的源一目标声音转换系统 目前的源一目标声音转换系统大部分是基于语音信号分析一合成模型的。分 析就是从语音信号中提取出能够代表这段语音信号的特征参数,合成即用特征参 数恢复原始语音信号。转换规则的作用就是将源话者的特征参数映射到目标话者 的特征参数空阳j 。 源一目标声音转换是将源话者的语音模式转换为目标话者的语音模式,并合 成出具有目标话者声学特征的语音。这里的源和目标话者都是给定的,所以实现 声学转换要找出源与目标话者特征参数之间的映射关系,即转换规则。一般的, 源一目标声音转换可分为训练和转换两个步骤来进行,如图2 4 所示。 在训练阶段,源与目标话者发音内容相同,首先系统在一个特定的语音生成 模型假设下分析源语音和目标语音,提取两个话者训练集语音样本的特征参数, 醴语音分析过程;分析完成后,由于源与目标语音发音长度不同,经过动态时间 舰整( d t w ) x , j 齐后构成训练数据,采用某种算法训练转换规则,用以获取源和目 标话者的特征参数之问的映射关系。在转换阶段,利用已训练好的转换规则对新 输入的源话者测试集语音的特征参数进行变换,用转换后参数去合成具有所期望 的目标话者音色的语音。 第二章源一目标声音转换基本原理 源请千 【目目标话者语音 转撒阶段 图2 4 源一日标声音转换原理框图 从上图中我们可以看出,源一目标声音转换的最终目标是合成出具有目标话 者特征的语音,而不改变源话者的语义内容,所以它不同于一般的不给定目标话 者,通过改变激励源和声道特征的变声技术。一般的,源一目标声音转换技术实 现主要包括以下几个要素: ( 1 )分析一合成模型和说话人特征:分析一合成模型类型规定了系统要调 整语音信号的哪方面参数,模型的特征参数由训练和转换过程中的语 音分析阶段获得,同时模型的特征参数应能够反映说话人特征;说话 人特征描述了与说话人身份相关的声学方面特征,而与具体内容信息 和晚话环境无关。声音转换的任务就是要改变说话人特征,而其他方 丽的信息保留不变。 ( 2 ) 转换规则:其作用是将源话者的声学特征映射到一个近似于目标话者 的特征集上。转换规则的产生都是基于“学习”的,其训练过程的实 质是寻找以源特征为输入、目标特征为输出的映射函数,使转换后的 特征参数与目标的特征参数在某种准则下误差最小, ( 3 )语音库:在训练过程中用于训练数据和性能评估时用于测试的语音句 子集合。评价不同转换规则的性能时,必须在相同的语音库下测试。 2 4 源一目标声音转换系统性能评估 客观地给出转换后频谱包络的失真度,是衡量映射算法优劣的重要指标, 也是算法改进的依据。剥声音转换的评估通常有主观评价和客观评价。其中, 第二章源一目标声音转换拱率原理 主观l 平价是对转换后重建语音的听觉效果直接测试;客观评估是按一定准则给 出转换后频瞄的失真度。这罩给出的是论文实验所用到的客观谱失真度量和对 转换后的合成语音的主观评价。 ( 1 ) 客观评价:实验选用平均i t a k a r u 距离 1 6 1 来衡量两帧语音谱的相似性 ,廿吨忸獬斗岫警z , 式中,a 为线性预测系数a 所表示的逆滤波器,p 表示参考话者语音,这罩指 源话者语音或转换语音,t 表示指目标话者语音,r 为自相关系数,为参考话 者语音通过目标线性预测系数组成的逆滤波器后的输出即预测误差。 ( 2 ) 主观评价:对转换语音的主观评价主要指和目标语音的相似程度,可 用a b x 实验束进行测试 1 7 。其中x 表示转换语音,a 和b 或者是源说话人 的语音或者是目标说话人的语音。每一个三元组就是这样三句话语的组合。参 与测试的听者要求对a 和b 中的哪一个与x 的声音最相似做出选择。它考查的 是转换语音的目标晚话人倾向性,着重说话八个性的转换效果( s p e a k e r 2 5 本章小结 源一目标声音转换系统大部分是基于分析一合成模型,转换规则的作用就 是将源话者的声学特征模式转换为目标话者的声学特征模式,而保持语义内容 不变。本章首先介绍了语音信号的分析一合成模型,然后详细描述了基于分析 一合成的源一目标声音转换的基本原理及基本组成部分:最后,介绍了用于衡 量转换效果的主观评价和客观评价标准。 第三章共振峰参数及e 提取 第三章共振峰参数及其提取 3 1引言 声音转换技术是通过寻求目标晓话人的语音模式与源说话人语音模式之间 的映射关系和转换方法,实现将源说话人的声音转换成具有目标说话人个性特 征的声音,在转换过程中仅改变与说活人身份相关的声学特征。由于本文实现 的源一目标声音转换系统是基于语音信号分析一合成模型的,因此如何选择分 析一合成模型以及模型参数中与说话人身份相关的声学特征是声音转换研究的 关键。 本章在32 节中通过对共振峰分析一合成模型与线性预测分析一合成模型 的比较,采用共振峰分析一合成模型研究源一目标声音转换,选择代表说话人 特征的共振峰参数作为声音转换系统主要转换的特征参数,并在3 3 节中详细 描述了基于线性预测的共振峰提取算法。 3 2 特征参数选择 3 2 1 分析一合成模型比较与说话人特征参数 语音信号中含有各种各样的信息,主要载有语音内容信息( w h a tw a ss a i d ) 、 说话人特征信息( w h os a i d i t ) p a 及澄话环境信息( w h e r e i t w a ss a i d ) 。源一目标声音 转换的最终目标是通过转换的特征参数合成出具有目标话者个性特征的语音。本 文所研究的声音转换系统是基于分析一合成模型,所以选择适合声音转换的分析 一合成模型是研究声音转换的关键一步,通过转换模型参数来实现源一目标声音 转换。线性预测分析一合成模型和共振峰分析一合成模型是目前较为流行的两种 分析一合成模型。在2 2 节中已经介绍过这两种模型,下面结合声音转换对这 两种分析一合成模型做一归纳性的比较: ( 1 ) 线性预测模型基于数学的推导,没有明确的物理意义。尽管线性预测 的极点反映了声道的谐振特性,但也不可避免的包含了激励源的干扰。共振峰模 型是对人发音过程的模拟,将声道谐振特性和激励源所包含的信息完全分离,这 1 1 第三章共振峰参数及其提取 样对于声音转换可以分别对声道参数和激励源参数进行调整。 ( 2 ) 共振峰模型合成原理和实际发音原理联系紧密,它的模型控制参数对 合成语音谱特性的影响比较直观。在线性预测模型中,合成语音频谱特性由线性 预测系数决定,每一。个系数变化范围较宽,对合成语音的频谱特性的影响较为复 杂,很难找出简便的调整方法。 ( 3 ) 共振峰模型比较灵活,允许做简单的变换,以模仿不同人的发音,即 通过共振峰参数的移动可容易地修改语音中与说话人特征相关的部分:丽线性预 测模型则比较困难。 从总体上说,共振峰分析一合成模型是对人发音过程的模拟,有其明确的物 理意义;而目其参数调整比较灵活,相对于线性预测分析一合成模型较适合在其 基础上列源目标声音转换进行研究。 除了考虑分析一合成模型模型的参数即特征参数也是考虑的内容。严格上 i = _ ,应用于声音转换的特征参数应描述了与说话人身份相关的声学方面特征,而 与具体内容信息和况话环境无关。但语音信号是语音内容信息、说话人特征信息 以及说话环境信息的“混合体”,提取只代表说话人特征信息的参数很难实现, 同时电不利于恢复语音信号。所以只能依据分析一合成模型,选择的模型特征参 数应具有说话人个性的声学特征、容易提取和建立转换规则,而且能够用于合成 出高质量的语音。这样,既改变了说话人特征,又能够生成具有目标话者声学特 征的转换语音。 共振峰参数 1 8 1 是共振峰分析合成模型的主要特征参数,是指发浊音时, 。i 流通过声道,引起声道谐振,j 2 生的一 组偕振参数( 频率、带宽和幅度) :从频 域来看,共振峰信息包含在语音频谱包络 中,描述了语音信号的短时频谱声学特征。 频谱包络的最大值近似认为是声道的谐振 频率,即共振峰。如图3 1 所示,通常在o - 4 0 0 0 h z 范围内,有4 个共振峰,从中可 以提取共振峰频率、共振峰带宽和共振峰 图31 共振峰结构 第三章共振峰参数及其提取 幅度。从声学来说,由于不同说话人声道尺寸的差异,发同一元音时,共振峰 ( 主要是频率) 的组成就不同,使听者能区别出不同的说话人。图3 2 为两个 男性话者发元音【a 】经d t w 对齐后,其中一帧语音的频谱包络图,从图中可以 看出两个岳者的共振峰参数存在差异,所以我们可以通过改变共振峰频率、带 宽和幅度柬改变声道特性,即可达到改变说话人特征的目的。 从人耳的听觉感知角度来 讲,研究发现:不同说话人发同 锻语音时,人耳的柯蒂氏器官 就是靠感知共振峰频率分布的 一 雩 不同来区分不同的说话人 1 9 。i 坦 t o h r u y a k a g j和h i $ 8 0 k u w a b a r a 2 0 ,2 1 采用能够单独 调整共振峰频率、带宽、幅度和 基因周期的基音同步分析合成 系统,通过听觉感知实验,研究 频率( h z ) 图3 2 两话者共振峰频谱 r 声道共振峰频率、带宽、幅度和基音周期对说话人特征的贡献。听觉感知实验 结果显示:与共振峰带宽、共振峰幅度、基音周期相比,共振峰频率代表了较多 的说话人特征信息( 统一调整前四个共振峰的频率5 ,就可以使当前说话人 特征信息完全丧失) 。h m a t s u m o t o 等人在说话人特征的研究中也得到了类似的 结论,他认为:频谱包络和共振峰位置起主要作用。特别地,平均基音周期解释 j 5 的辨别说话人能力,而基音周期与频谱倾斜和基音周期与共振峰频率分别能 够表示7 1 和8 5 的说话人特征变化1 2 2 】。 共振峰参数不仅代表说话人的声学特征,而且可以用经典的线性预测求跟法 提取共振峰参数 2 3 】。更重要的是其振峰模型是对声道的一种比较准确的模拟, 共振峰参数有着明确的物理意义,苴接对应于声道形状,因此,可利用共振峰参 数描述自然语流中的各种现象,合成高质量的语音2 4 】。综上所述,本文选择共 振峰参数作为源一目标声音转换系统主要调整的特征参数。 西 加 侣 佃 5 0 巧 佃 佑 中罔利学技术j 、学倾l 沦义 第三章共振峰参鼗及其提取 3 2 2 共振峰参数说话人个性特征研究 由于元音的一个重要特性是共振峰,为了验证共振峰参数代表说话人特征, 图33 中画出了8 个说话人发元音【a 】时的4 个共振峰频率随时间和变化轨迹。实 验所用语音数据由6 名男性话者和2 名女性话者在普通实验室环境下,用麦克风录 制,采样频率为8 0 0 0 h z ,采用1 6 b i t 量化,每个说话人发音约0 5 秒。横坐标表示 时怕j ,综坐标表示频率。 m a l el m a l e 2 m a l e 3m a l e 4 m a l e 5m a l e 6f e m a l e lf e m a l e 2 幽3 , 3 八个不同说话人发同一元音【a 】共振峰轨迹图 从图中我们可以看出: ( 1 ) 不同晚话人之间的共振峰频率轨迹存在很大的差异,根据共振峰频率轨迹 l l j 以区分不同的晓话人,所以可以用共振峰参数代表说话人特征。 ( 2 ) 同性别的晓话者之问,第一共振峰频率和第二共振峰频率的变化范围要小 于第三共振峰频率和第四共振蜂频率的变化范围,这是因为前两个共振峰频率 代表了较多的语义信息,而频率较高的共振峰代表了更多的说话人特征信息。 ( 3 ) 异性之蒯,前两个共振锋的差别较大,这是由于女性的基音频率较高,导 致女性j “两个共振峰频率高于男性。 在源一目标声音转换中,既要改变晓话人特征,同时又要保持语义内容不 变。图3 4 为一个男性话者发元音【a 】【e 】【o 】【i 】 u l ( 约0 5 秒) 时的共振 中田科学技术人学坝l 。论义 第三章共振峰参数及其提取 峰频率轨迹图,横坐标表示时问,综坐标表示频率。从图中我们可以看出:通 过i u 两个共振峰频率我们很容易的将五个元音分开( 除1 0 1 与【u 】比较接近) , 而第三、删共振峰山于其变化范围较大,在区分语音时只能起到辅助作用,这 再次说明前两个共振峰频率更与语义信息相关。 从图33 和3 4 中叮以看出,共振峰参数中既包含了说话人信息( 主要是第 三、四共振峰参数) ,又包含了语义信息( 主要是前两个共振峰参数) ,所以在 做声音转换时,要保证前两个共振峰不应调整过大,以免改变语义内容:而转 换后的第三和第四共振峰参数要更像目标话者,达到最大限度的改变源说话人 声学特征。 aeo 削34 同一说话人发不同元音共振峰轨迹图 由于语音信号的随机性,同一说话人发相同音的多次发音时,声道长度的 不同导致共振峰参数是有变化的。图3 5 给出了两个男性话者的2 0 次【a 】的 发音下的共振峰频率统计分布图。从图中可以看出,( 1 ) 多次发相同音时,共 振峰频率( f 1 f 4 ) 是在某范围内变化的;( 2 ) 前两个共振峰频率变化范围 较小,f 3 、f 4 的变化范围较大。这也再次验证了上面得出的结论:前两个共振 峰频率含有较多的语义信息,若变化范围增大,会变成其他发音;第三、四共 振峰频率主要与晚话人身份相关,由于语音信号的随机性,所以变化范围较第 、二共振峰频率大;( 3 ) 唰一说话人多次发同一音时,共振峰频率是在定 吐,同利学技术人学顺i 沦史第三章共振峰参数及j 0 摊取 范围内变化的,简单的线性转换规则只适用某一帧或连续的几帧情况。要提高 转换规则的鲁棒性,必须将“属性”相近的共振峰参数归为一类,以类获取转 换规则。 04 1 33 5 。3 。2 5 鲢 2 # 0 1 5 0f 口0 5 d 阱 晕 频率h z 须率t l - - i z n3 5i j | ;个晚薛人共振峰频率统计分布图 3 2 3 清、浊音的共振峰参数表示 如图36 和图3 7 所示为微软浯音库一帧清音【f 】和一帧浊音【e 】的频谱 包络图。显然,清音的菇振峰结构不明显,从图中可以看出,( 1 ) 相对于浊音, 清音的频浩包络比较平滑,而且高频部分的幅度较大:这是因为发清音时,声带 第三章共振峰参数发”提取 不振动,激励源类似于高斯白噪声,高频成分较丰富。( 2 ) 虽然发清音时声道不 振动,但频谱包络中也存在局部最大值,称为“伪”共振峰。 幽36 一帧清音【f 】频谱包络示意图 【s hj 州 图3 7 一帧浊音 e j 频谱包络示意图 圈3 8 笈音相同四帧清音频谱包络图 图3 8 为微软语音库两个男性话者在语音内容相同时,经过d t w 对齐, 四帧清音频涪包络图。从图中可以看出,两个话者清音帧的频谱包络存在差别 尤其是高频部分。 第三章共振峰参数及其提取 所以对于浊音提取前四个共振峰频率、带宽和幅度;对于清音,提取频率 较高的两个“伪”共振峰频率、带宽和幅度,组成待转换的特征矢量。 3 3 共振峰参数提取 将发声器官的声道部分视为一个谐振腔,共振峰频率就是这个谐振腔的谐 振频率;从频域来看,语音信号连续谱上的鼓峰被称为共振峰,它代表了发音 信息的最直接束源。共振峰参数主要有三个,它们是共振峰频率,共振峰带宽 和共振峰幅度。共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关 键是估计自然语音频谱包络。共振峰参数的提取受诸多因素的影响,如:基音 偕波二f 扰问题,共振峰叠加问题,虚假峰值干扰问题等。目前比较有代表性的 共振峰提取方法包括: ( 1 ) 离散傅立叶( d f t ) 分析法 2 5 1 :d f t 谱受基频谐波的影响,最大 值只能出现在偕波频率上,因而共振峰测定误差较大。 ( 2 ) 倒谱法 2 6 :应用同态分析方法,将语音的谱包络从语音信号中 提取出来,计算量较大,而且当两个共振峰很靠近时,会发生谱 重叠。 ( 3 ) 带通滤波器组法 2 7 ,2 9 ,3 0 :这是共振峰提取的最早形式,把语音 信号的频率分析范围分为k 段,假设每一段只包含一个共振峰, 采用一组平行的逆滤波
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年04月中共北京市大兴区委政法委员会公开招聘临时辅助用工4人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 冻库修理合同标准文本
- 2025年全国消防安全知识竞赛题库及答案(共110题)
- 2025年04月兵团第七师胡杨河市校园公开招聘事业单位工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 农场水面出租合同样本
- 出口企业用工合同样本
- 2025年03月甘肃张掖市临泽县引进急需紧缺专业技术人才20人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 出售沃尔玛店铺合同标准文本
- 出租临街平房合同样本
- 护理工作计划与总结书写
- 学校保洁方案
- 血液透析患者心力衰竭的护理
- 2025高职单招考试(语文)试题(附答案)
- 江苏省2021-2022学年二年级下学期数学期中备考卷一(南京专版)
- TCI 535-2024 铝合金液态模锻模具技术条件
- 胰岛素泵护理管理规范
- 2025年河南工业贸易职业学院单招职业适应性测试题库及答案参考
- 9.1.1 西亚 第1课时 课件 七年级地理下册 人教版
- 校外培训机构预收费资金托管协议书范本
- DB37-T4827-2025 水利工程运行管理标牌设置指南
- 2025山东能源集团中级人才库选拔高频重点模拟试卷提升(共500题附带答案详解)
评论
0/150
提交评论