




已阅读5页,还剩53页未读, 继续免费阅读
(信号与信息处理专业论文)语音特征提取及在音色转换系统的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:随着信息技术与计算机技术的迅速发展,计算机应用深入到我们生活、工 作的方方面面,人与计算机的联系越来越密切,人机交互研究,特别是语音方式 的人机交互研究越来越广泛受到关注。人们不满于键盘鼠标的人机交互方式,希 望使用更方便的图象语音,并且有个性化的特征。语音转换技术就是这样一种技 术,它使语音形式的人机交互个性化,具有重要的理论和应用意义,是本论文的 主要研究对象。 音色转换( v o i c ec o n v e r s i o n ) 是一项改变说话人声音特征的技术即转换说话 人的音色个性特征而保持说话内容不变,在语音即时聊天,电影、广播,电视中 剪辑和配音,语音合成的语料库收集,语音合成后端语音的个性化处理,在情报 部门等都有很多应用。音色转换主要转换说话人的特征,本文着眼点是在高质量 s t r a i g h t 语音分析合成下语音特征参数提取的研究。 本文主要完成了以下几方面的工作:( 1 ) 了解音色转换的研究现状,熟悉各种 音色转换方法的基础上,对其进行了优劣的比较的研究。( 2 ) 在s t r a i g h t 分析算 法的基础上采用动态特征参数,优化对特征参数的提取,提高了声音转换的质量。 关键词:音色转换;二维精细谱;动态特征参数 分类号:t p 3 9 l a b s t r a c t a b s t r a c t :w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dc o m p u t e rs c i e n c e , t h ea p p l i c a t i o no f c o m p u t e rp e r v a d se v e r ya s p e c to f o u rl i v e s i nm o d e ml i f e ,c o m p u t e r a n dh u m a nb e i n ga l r e a d yg e t sm o r ea n dm o r ed o s e dw i t he a c ho t h e r t h er e s e a r c ho n h u m a n - c o m p u t e ri n t e r a c t i o nt e c h n i q u e s b e c a m eah o ti s s u e p e o p l ed o n tr e m a i n t h es a t i s f a c t i o nw i t ht y p i c a li n p u t t i n gi n s t r u m e n tu s i n g :s u c ha sk e yb o a r d m o n s e p e o p l ep r e f e rt og e tam o r ec o n v i n e n ta n de f f e c t i v ew a yt oi n t e r a c tw i t hc o m p u c t e r n o w ”v o i c c o n v e r s i o n ”c o m e s i nt h i sp a p e rw ef o c u so nt h et o p i co f v m c ec o n v e r s i o n w h i c hm a k e st h ec o m p u t e r - h u m a ni n t e r a c t i o nm o r ei n d i v i d u a l i z e da n de f f e c t i v e a n d a c t u a l l yi tw i l lm n gc o n v e n i e n c et oo b i r e a ll i f e 1 1 l i st e c h n o l o g yi sm e a n i n g f u li n t h e o r ya n da p p l i c a t i o na n dw i l lb ew i d e l ya c c e p t e do ni t so w nm e r i t s v o i c bc o n v e r s i o ni sa t e c h n q u ef o rm o d i f y i n ga s o u r c es p e a k e r ss p e e c ht os o u n da s i f i tw a ss p o k e nb yat a r g e ts p e a k e r v o i c ec o n v e r s i o nw i l ls e r v ea sa l li n v a l u a b l et o o lf o r m a n ya p p l i c a t i o n si ns p e e c ht e c h n o l o g y , s u c ha si n s t a n tr e v e r s i o nt ot h eo t h e rs i d e i n c h a t , a l s oc 觚b eu s e df o rd u b b i n gm o v i e sf o rt vb r o a d c a s ta n dc a np r o v i d ev a r i o u s d i s t i n c t i v ev o i c et os p e e c hs y n t h e s i s i ta l s oc a nb eu s e di ni n t e l l i g e n c ed e p a r t m e n t v o i c e c o n v e r s i o nm a i n l yc o n v e r tas u u r c es p e a k e r sa c o u s t i cf e a t u r e st ot a r g e ts p e a k e r s t 吐i i s p a p e r se m p h a s i so nr e s e a r c h i n ga c o u s t i cf w a t u r e si nv o i c ec o n v e r s i o ns y s t e m i nt h i sp a p e r , w eh a v ea c h i e v ep u r p o s e :f i r s t l y , w ec a r r i e so nt h er e s e a r c hc o m p a r i s o n t oe a c hk i n do f a c o u s t i cf e a t u r e s s e c o n d l y , a f t e rt h es t r a i g h t a n a l y s es p e e c h ,w eu s e d d y n a m i cf e a t u r e so p t i m i z e st oi m p r o v et h eq u a l i t yo f c o n v e r t e ds p e e c h k e v w o r d s :v o i c ec o n v e r s i o n ;s m o o t h e dt i m e - f i - e q u e n c yr e p r e s e n t a t i o n ;d y n a m i c f e a t u r e c 1 a s s n o :t p 3 9 1 致谢 本论文是在尊敬的朱维彬老师和梁满贵教授的悉心指导下完成的。首先,感 谢两位老师在我攻读硕士学位期间给予我的大力的支持和帮助。他们不仅是我们 的良师,还是我们的益友。在一起的时候,互相之间探讨问题可以畅所欲言,他 们也乐于交流指导,并把自己在学问上的收获分享给大家。从他们这里,我不仅 深深体会到了作为一个科研人员的严谨态度、踏实的作风,也学到了对科学事业 的献身精神以及平易近人、为人着想的生活态度。我将为此受益终生! 在此我还要感谢语音实验室的周伟东博士、胡琦博士,他们在理论上和实践 上都给予我很大帮助。感谢刘近光、范文、高立涛几位硕士,在这两年半的时间 里,我们共同讨论,共同研究,使我的科研能力有了很大的提高。 感谢已经毕业的师兄师姐,给予我无私的帮助,感谢众位师弟师妹对我的支 持,他们为我提供了一个和睦融洽的环境,与他们的合作、交流中也激发了我在 科研方面的许多灵感。 在另外也感谢家人,他们的理解和支持使我能够在学校专心完成我的学业。 最后,向所有给予我关心、支持和帮助的人表示衷心的感谢。 序 在我进入科研阶段之后,通过实验室内部交流会议中的学习,对呼叫中心有 了一定认识之后,发现呼叫中心的音色部分还有待改善,对这个问题,开始对音 色转换系统方面知识的学习,并在老师的指导下,进行方向定位。 本文在语音分析合成中应用了s t r a i g h t 算法的思想,在此基础上进行特征 参数提取。对几种重要的语音参数进行了研究对其效果进行了比较并将语音信号 的动念特征瞬变特征也加以考虑这样动态信息和静态信息形成互补,有效地弥补 了g m m 所引起的时问关联性问题,有效提高系统的性能。通过仿真和实验证明 这种混合特征识别方法能系统的性能有明显的提高。 l 综述 语音是人与人之问进行相互沟通和交流的一种最方便最自然的方式。如何让 人们更好的跟计算机进行交互,使计算机发出具有个性化的声音,现实的需求使 音色转换技术越来越引起研究者的兴趣,使之成为目前语音处理领域的一个热点。 i 1 选题背景及意义 随着计算机技术、数字信号处理技术以及人工智能技术等学科的发展,人们 越来越希望让计算机和我们人类一样,具有听说的能力,即通过语音和机器进行 自然的信息交流利用机器翻译技术在不同的语言集团之间架起相互沟通、理解 的桥梁。在最近的几十年中,在以上需求的驱动下,具有不同学科背景的科学家 和工程师们不约而同地加入了这一研究的行列,新的理论、新的方法层出不穷。 音色转换也属于人机交互技术的一种,人机交互技术几十年来经历了几个不 同的主要发展阶段和典型风格。当前,随着人们对计算机要求的越来越高,占统 治地位的图形用户界面( w i m p g u i ) e 遭受挑战,而新的交互技术尚不成熟和普 及,于是人们更为热衷于争论未来的人机界面”可能是什么样子俪且莫衷一是。在 此,也希望自己能通过研究音色转换技术,给人们带来方便起到一点作用,为社 会做贡献。我的出发点处于人机交互这个大背景,在“以人为中心”前提下强调人机 配合,使计算机能发出个性化的声音。 1 1 1 选题背景 一、语音技术的发展 随着计算机技术的发展与普及,电脑已经进入千家万户,人们越来越希望让 计算机和我们人类一样,具有听说的能力,即通过语音和机器进行自然的信息交 流。在以上需求的推动下,不断涌现新的语音理论和方法。语音编码、语音识别 和合成是耳自f 语音处理技术中最引入瞩目、最重要的三个研究方向l l 】。 语音编码是日前语音技术中最重要的实际应用。数字化的语音传输和存储, 可靠性,抗干扰性,保密性和价格等方面都远胜于模拟语音。g 7 2 3 、g 7 2 9 等语 音编解码协议在无线通信、口电话等领域已有广泛的应用。 语音识别的研究起步大约从五十年代开始。大规模的研究开始于七十年代初 期。经过5 0 年的发展,从早期的元音识别,到特定人、小词汇、孤立词的识别, 到现在非特定人,大词汇、连续语音识别。语音识别技术逐渐成熟起来。在语音 识剐的发展过程中,起了主要作用的是c m u 的b a k e r 和i b m 的j e l i n e k ,他们将 一种统计模) - j 一隐马尔可夫模型h m m ( h i d d e n m a r k o vm o d e l ) 弓 入到语音识别中, 在很大程度上提高了语音识别系统的性能。语音识别系统早在儿年前就已经开始 投放市场。如i b m 的v i a v o i c e ,其识别率达到9 5 左右语音识别是机器理解, 人机语音通信的基础。随着语音识别技术的迸一步发展必将有性能更加优良的系 统出现m 语音合成是语音技术的另个重要组成部分。它既是语音技术中研究起步最 早的部分同时也是研究最不充分的部分它不仅在人机交互中充当星要角色。而 且对语音的产生和感知模型等基础理论的研究也有十分重要的意义从1 7 8 0 年、o i l k e m p e l e n 制造的机械式手动合成器,到1 9 3 7 年h o m e rd u d l e y , r i e 旺和w a t l d m 研 究成t j j 的电子式合成器v o d e r ( v o i c e d e m o n s t r a t o r ) ,再到如今可灵活控制的数 字式合成器,语音合成的研究已有2 0 0 多年的历史,语音合成技术也完成了从萌 芽到成熟,从实验室技术到实际市场产品的成长过程。语音合成技术土要有参数 合成、规则合成、波形编码合成、波形拼接等儿种。目前,基于p s o l a 技术的波 形拼接文语转换系统在实用的文语转换系统中占了相当大的比例,其合成语音的 自然度和清晰度均已达到较好的水平。同时基于人语料库的合成技术的发展,合 成语音白然度和可懂度都接近于自然语音。 随着语音技术的进一步发展和成熟,必将极大的提高社会的信息化程度,从 而改善我们的日常生活 二、音色转换技术研究的历史 人与计算机交流最方便、最自然的途径是使计算机具有视觉、听觉和发音能 力,进而提商人们对信息的注意力、理解力和保持力。为了更好的进行人机交互, 音色转换技术引起了人们越来越多的关注。 音色转换技术的研究始于2 0 世纪7 0 年代,但是它的研究工作近十几年才引 起人们的注意。很多研究工作者在这方面展开7 比较深入的分析,但是到目前为 止还没有一种方法可以完成任意说话人之问声音的转换。这一径超越了当前语音 科学技术所能达到的高度。到目前为止,大多数说话人由声音转换的研究工作都 将重点放在对语音短时谱和韵律参数的修改上面,对说话人音色转换的研究就是 最近3 0 多年。 音色变换( v o i c ec o n v e r s i o n ) 的目标就是变换语音中的个性化特征。声音变 换的研究,涉及到语音生成机理、言语的听觉感知等一系列问题,特别是音色参 数化、发音机理中声源与声道的关系、音色与韵律的关联、情感对音色的约束等 问题。根据研究角度的不同,声音变换的方法大致可以分为两类:声学修改法和 2 映射法。早期的方法大多数属于第一类。1 9 7 0 年代初,a t a l 等人就研究了使用 l p c 声码器改变声音特性的可行性【2 1 ;s e n e f f 研究了一种改变激励和声道参数的 方法【3 i ;c h i l d e r s 等人检验了男声变女声、女声变男声的方法【4 】【5 1 ;a b e 等人提出 了种基于矢量量化( v q ) 的码本映射技术【6 】;1 w a h a s h i 等人提出用频谱插值法 增强码本映射技术的鲁棒性网;r i n s c h d d 使用时变滤波器和拓扑特征映射实现了 声音的改变哺l ;v 甜b r e t 等人使用基音同步叠加法( p s o l a ) 调整激励信号中的韵 律特征来改善转换性能【9 1 ;n a r e n d r a n a t h 1 哪和w a t a n a b 0 1 1 1 分别用b p 和r b f 等人 工神经网络方法实现共振峰特性和l p c 频谱包络的变换;1 9 9 8 年,s t y l i a n o u 首次 提出用高斯混合模型g m m ( g a u s s i a nm i x t u r em o d e l ) 来进行谱包络的转换,并提 出用谐波加噪声模型h n m ( h a r m o n i cp l u sn o i s em o d e l ) 来进行时间长度的基频 转换。s t y l i a n o u s 通过构造一个描述源说话人特征参数空同的g m m 来对特征参数 进行分类。然后根据均方误差最小的原则股及得到混合线性转换函数,转换后的 语音包络不像矢量量化那样是一些离散的点,而是连续的。矢量量化其实本质上 是种简化的g m m 。试验证明g m m 方法在数据比较多的情况下比基于矢量量化 的方法更有效,更具有鲁棒性。k a w a h a r ah 提出了新的语音分析合成算法 s t r a i g h t 使语音转换效果得到了改善 1 2 1 ;h u i y e 和s t e v e y o u n g 提出了基于非特 定说话人的音色转换实验系统【1 3 】。但是对于汉语普通话的音色转换效果还有待改 善。 三、我的一些想法 上述方法虽然能够取得较好的变换效果,但仍然存在一些问题。众所周知, 使用g m m 转换声学特征时会出现过平滑问题i 翊,要解决这个问题就必须中间转 换过程中丢失的细节;另外,通常的声音变换算法将静态特征作为描述语音信号 特征参数丢失了一些动态信息,因此重建语音与目标语音仍有感知差距。这又提 示我们要考虑动态特征。本文从语音信号分析的角度出发从短时谱的平滑以及特 征参数的提取方面完善了对源和目标说话人的描述。在音色变换问题上,利用混 合参数化特征模型进行处理,该模型能够缩小重建语音与目标语音之间的感知距 离,提高重建语音的清晰度与可懂度。而且该模型还能够直接应用于语音个性化 特征的分类和说话人的辨识。 近年来,更多的研究人员致力于语音特征的统计分布来实现声音的转换;国 内研究这项语音技术也成为语音的一个热点。所有这些先驱的工作极大地推动了 声音转换技术的发展。声音转换技术是对语音合成技术的丰富和延拓,有着良好 的技术发展前景。 四、音色转换技术的展望以及面l 晦的问题 尽管音色转换技术已经发展了多年但是与音色转换的最终目标还有一定的差 3 距,各方面的困难依然存在,比如跨语种说话人语音转换的发展状况,跨语种说 话人语音转换相对于同语种说话人语音转换来说,具有一定的难度,所以研究也 相对比较少,现有的方法主要有基于映射码本的方法和基于统计模型( g m m ) 的方 法跨语种说话人语音转换最早是上个世纪九十年代初由日本人提出的,他们进 行了日语和英语之间的转换实验,采用的是基于映射码本的方法。他们的方法是 先对目标说话人( 说日语) 建一个码本,合成英语的时候就直接用这个由日语建成的 码本进行合成,但是不同语言的码本肯定有差别,这种直接替换的方法出来的效 果有一定的极限,对于实现质量高的语音是有一定困难的。到了近期,又有人 提出了一种基于统计模型的方法。这种方法要求源说话人会说两种语言。先求出 源说话人和目标说话人说的日语之间的转换函数,在把源说话人说的英语转换成 象目标说话人的语音的过程中,就直接用这个转换函数进行转换。但是这种方法 对源说话人的语言能力有要求,当源说话人无法说两门语言时,这种方法就不适 用了。 1 1 2 系统的应用 语音是人类生活中最自然和最常用的沟通工具。它不仅包含了说话人所要表 达的内容( 文本信息) ,携带了说话人的情绪( 情感信息) ,还传递了说话人的个 性化特征( 身份信息 。其中个性化特征标识了说话入,在日常交流中发挥着重 要作用,使得听音人能够“闻其声而知其人”。 想象一下,未来的系统会在人们接收e - m a i l 或手机短信息时自动将信件内容 用发信人的声音读出来扩展自然对话系统功能是这种应用的一种延伸特别是 在娱乐和教育领域,产生多说话人特征的语音显示出很高的需求性,如戏剧、广 播剧和电影里的角色配音( v o i c a :d u b b i n g ) 等【1 4 1 。语音数据的采集与传输赋予声音 转换技术以新的研究价值传统的语料采集办法非常耗时费力,使用声音转换技术 有可能使这个过程变得比较简单。如图i 音库中提取每一句话输入声音转换系统, 所示,语音合成系统从一个单说话人语 分别采用不同目标说话人的模型,使新 产生的语音具有所期望的多个目标说话人声音特性,从而建设成为个由单人语 音库生成的多说话人语音库声音转换技术的优越性也将反映在超低带宽的语音 编码领域。当语音编码系统设计的传输速率为2 4 k b s 或更低时,在传输过程中将 不再保留说话人的语音特征。声音转换技术则有可能在接收方重现解码语音,使 其与传送人的说话人特征相匹配。 4 北夏至煎厶璧殛堂位途塞 绽 述 阿1 单人语音库生成多人语音库系统示意圈 音色转换技术是语音信号花簇利中比较前沿的一个分支,难度比较大,但是 这方面的研究工作具有很高的价值。音色转换的研究几乎对语音信号处理的各个 领域都会有一定的贡献。例如语音分析,语音合成,语音识别,语音编码,语音 增强以及说话人确认与辨认等领域。具体来说音色转换的研究意义有以下几个方 面【1 5 】: 1 在文语转换( t t s ,t e x t - t o - s p e e c h ) 系统中的应用。现有的t t s 系统主要 有共振峰合成( f o r m a n ts y n t h e s i s ) 、波形叠加相加合成( p s o l a ) 和机遇数据库的 合成等方法。不论是哪种方法,它们合成的语音的个性特征一般都是单一的,缺 乏个性化,这就限制了它的应用,但如果将合成的语音再通过一个v c 系统,或者 将合成单元先通过v c 转换,再进行t t s 合成,将其转换为特定人的声音特征, 使单调的合成语音具有更多的个性特征,也就使之应用更加广泛有效。例如,对 于采用了t t s 的有声e m a i l 系统,如果再采用v c 技术,使有声e m a i l 的声音特 征具有发送e m a i l 者的语音特征,如果再采用v c 技术,使有声e - m a i l 的声音特 征具有发送e m a i l 者的语音特征,这样t t s 的应用就更加具有吸引力。这也正是 r r s 系统正在发展的一个方向。t t s 与v c 的结合也使实现极低速率语音编码的 有效方案。 2 在电视电影中的配音。尤其是用另外一种语言进行配音时,往往配音演员 不是演员本人,常常使配音与原演员的个性特征相差很大,配音效果不理想,但 如果将配音再进行v c 转换,使之重新具有演员本人的个性特征,那么配音效果就 会理想的多。 3 语音转换思想可以用于恢复受损语音,帮助声道受损的说话人的语音提高 可懂度。 4 语音转换可用于单个说话人的语音质量的控制,可以纠正在t t s 中录音 5 人长时间的录音而导致录音质量发生的变化。 5 可用于保密通信中进行语音个性化的伪装。 6 可以用于语音识别的前端预处理,以减少说话人差异的影响。 7 声音转换的另一个主要用途是用于说话人辨认技术声音调整是多方会 话翻译系统的一个重要技术内容系统首先识别一方说话人的每一句话,然后用对 方( 另一方) 语言翻译出来,再用本方说话人声音特征合成新的声音,这样使持 不同语言的双方( 多方) 交流更为方便在整个会话过程中维持转换语音的自然度 是这项应用的重要技术要素安全系统中的访问控制也激励了声音转换技术的进 展。 总之,在语音合成系统的后端,使合成声音具有个性化的特点;在语音合成 系统的前端,使语料库的收集成为一个简单易行的事情;在娱乐领域,语音即时 聊天,能实时产生各种性别年龄以及其它音效的声音。其它方面的应用:给失去 语言功能的人提供帮助等等,在情报部门更有很多潜在的应用【1 6 】。 1 2 主要工作 在原有一些音色转换系统功能模块的前提下,为了更好的描述源和目标说话 人的个性信息,傲了两方面的工作: 1 根据s t r a i g h t 算法思想的分析部分,对语音短时谱进行平滑。 s t r a i g h t 算法有很高的恢复语音音质和很强的参数调整能力,在二维精细谱的 基础上,进行特征参数提取,能更好地恢复语音信号; 2 在特征参数的提取上采用多维特征参数混合的方法,即在原来语音特征参 数加上了一些动态特征的描述,更好的描述了各帧之问的关联性,避免了采用 g m m 进行训练过程中丢失时间关联性的信息。 6 1 3 论文的内容安排 本文的其余各章节的内容安排如下: 第二章简单介绍了音色转换系统及其结构,再分别对各个功能模块介绍其相 关的基本理论和基本方法,主要包括了语音的分析合成技术,语音信号的说话人 特征提取方法,转换方法以及性能评价标准。其中特征提取方法为简单介绍;评 测标准包括主观评测和客观评测。 第三章重点介绍了几种语音特征参数提取方法:基音周期的提取,线性预测 倒谱系数,美尔频标倒谱系数,感觉加权的线性预测特征以及其它一些特征参数; 最后介绍了动态差分特征以及特征参数的优化方法。 第四章介绍了在音色转换系统下混合特征参数的提取过程:包括特征提取之 前的数字化和预处理,预处理不仅仅指分帧,也包括了对短时谱的平滑;在此基 础上对比混合特征参数与简单静态特征参数的区别。最后介绍实验数据及环境, 一些实验分析。这也是本文的主要部分。 第五章总结和展望。 7 拉躯至道占堂亟坐位途塞丕统结掏里邈让 2 系统结构与设计 为了更好的开发一个有效的说话人音色转换系统,就要对系统进行全面探讨 包括系统结构的理解、相关技术的现状以及横向对比分柝,在本章中。我们将首 先介绍系统的整体结构,接下去再介绍系统各个部分相关的技术以及说话人音色 转换的基本思路和方法,最后本章小结。 系统整体结构的设计包括了实现系统的各个细节,要实现系统的各个细节功 能首先要从了解系统整体结构开始。 2 1 系统介绍 音色转换( v c ,v o i c ec o n v e r s i o n ) 是指改变一个说话人( 源说话人,8 0 u i s e s p e a k e r ) 的语音个性特征,使之具有另外一个说话人( 目标说话人,t a r g e ts p e a k e r ) 的语音个性特征。 语音包含很多信息,其中最主要的是语义信息,另外一个很重要的信息为语 音的个性化信息。语音转换就是要保留原有语义信息不变,而改变语音的个性化 信息,使一个人的语音经语音转换后听起来像是保留原来语义不变,而改变语音 的个性化信息,使一个人的语音经语音转换后听起来像另外一个人说的语音。 2 2 音色转换系统结构 声音转换系统通过改变语音信号的声学特征参数来调整语音。 音色转换系统从实现阶段来看可以分为训练和转换两个阶段。 在训练阶段,系统基于某个语音模型对源语音( s o u r c es p e e c h ) 和目标语 音( t a r g e ts p e e c h ) 进行分析并提取语音特征,将这些语音特征迸行对齐,再 进行训练得到转换规则。图2 所示,为语音转换系统结构图。 o 。_ j 圈2 语音转巍系抗结构图 系统从功能模块角度可以从三个部分实现:包括提取代表说话人个性信息的 声学特征;建立两说话人之自j 声学特征的映射规则;以及将转换后的语音特征合 成为语音信号三个部分。 评价一个系统性能的优劣从结果进行分析,在音色转换系统中主要看转换后 的语音特征合成,而语音的合成效果取决于描述个性特征参数的完善性,提取表 征语音个性化的语音特征可以分为以下三类: 音段特征:描述的是语音的音色特征。特征参数主要包括共振峰的位置、共 振峰的带宽、频谱倾斜( s p e c t r a lt i l t ) 、基音频率、能量等。音段特征主要与 发音器官的生理学和物理学特征有关,也与说话人的情绪状态有关。 超音段特征:描述的是语音的韵律特征。特征参数主要包括音素的时长、基 音频率的变化( 音调) 、能量等。 语言特征( 1 i n g u i s t i cc u e s ) :包括习惯用语、方言、口音等。 如何抓住决定说话人的主要特征,以及如何精确转换是声音转换技术的两个 关键问题。 在介绍关键技术的第二部分特征参数中会详细介绍各种语音特征参数的提取 方法,下面开始介绍系统的相关技术。 2 3 涉及的关键技术 要实现一个系统要涉及到很多方面,下面介绍系统相关的几个关键技术。 9 j e 瘟銮道厶堂亟堂位逾窑丕统绪翅与遨让 2 3 1 分析合成 为了提高转换语音效果,提取包含更多个性信息的特征参数,而语音的分析 能够更好的提取语音特征参数的前提,是实现整个系统关键因素。 现有的音色转换系统大多采用源滤波器模型,选择语音模型要求能够准确提 取语音频谱包络特征和韵律特征,能够准确有效的实现频谱包络和韵律特征的控 制和转换。现在语音转换的研究大都采用声源滤波( s o u r c e - f i l t e r ) 的语音模型,将语 音分解为声源激励部分和声道滤波部分,具体的说,所采用的语音模型主要有l p c 语音模型和基于倒谱包络的语音模型。l p c 语音模型是应用较多的语音模型,l p c 模型符合语音产生原理,它可以将语音省效的分解为谱包络部分( 由l p c 系数表 示) 和激励部分( 由l p c 的残差表示) 。对于谱包络部分,由l p c 系数得到的推 演参数i s f 可以与频谱包络的共振峰很好的对应,且控制和转换准确、有效、容 易,通过转换l s f 的分布来实现频谱包络的转换;由l p c 系数得到的伪对数面积 比( p l a r ,p s e u d ol o ga r e ar a t i o ) m l 和p a r c o r 系数可以与声道的生理结构对应, 通过对p l a r 和p a r c o r 的转换也可以实现对l p c 频谱包络的转换;1 w a h a s h i 通过对l p c 倒谱和对数面积比的转换来实现对频谱包络的控制转换;l e e 【培1 通过对 l p c 倒谱的处理来控制和转换频谱包络;m i z u n o 则直接由l p c 系数提取共振峰 频率和频谱倾斜参数通过向量量化码书法来实现语音转换,n a r e n d r a n a t h 也是先由 l p c 系数提取自# 三个共振峰频率再用神经网络法来实现转换。基于倒谱包络的语 音模型也是一种有效的语音转换模型,s t y l i a n o u 和t u r k t ”】采用基于倒谱包络的语 音模型来实现对频谱包络的控制转换。对于韵律的转换,基于l p c 的语音模型, 可以对l p c 残差进行韵律转换,这样还可以实现对声门波的转换,以达到高质量 的语音转换,也可以通过在频域将分离掉谱包络部分所得的激励部分来实现韵律 转换。近年来,k a w a h a r a h 提出了新的语音分析合成算法( s t r a l g h t ) t 1 2 】使得 语音分析得到特征参数更加精细,语音合成直接影响了音色转换系统转换语音的 效果。 在本文中,采用k a w a h a r ah 提出的s t r a i g h t 算法思想【1 2 】,下面简单介 绍下s t r a i g h t 的分析合成部分: 在该系统实现过程中s t r a i g h t 算法是关键问题,首先原始语音信号通过 s t r a i g h t 进行参数化分解得到精细谱和基频参数两个原始参数,再通过m e l 刻 度d c t 变换提取m f c c 作为说话人特征进行g m m 训练得到转换函数中( x ) 。 s t r a i g h t 算法有很高的恢复语音音质和很强的参数调整能力,对最后得到高音 质语音有很好的保证1 1 2 】。 下面简单介绍s t r a i g h t 算法,在第五章再讨论该算法在系统中如何实现。 1 0 近年来提出的自适应加权谱内插( s p e e c ht r a n s f o r m a t i o na n dr e p r e s e n t a t i o nu s i n g a d a p t i v ei n t e r p o l a t i o no fw e i g h t e d s p e c t r u m ,s t r a i g h t ) 方法是一种针对语音信号的 分析合成算法,它通过对语音短时谱进行时频域的自适应内插平滑来提取精确的谱 包络,并能在恢复语音的过程中进行时长、基频以及谱参数的灵活调整。s t r a i g h t 具有很高的恢复语音的音质,它作为一种有效的参数分析与调整工具在语音研究中 已经得到了广泛的应用。它的核心是一种源滤波器的思想。 在该系统中整个分析合成过程主要由以下几部分组成:( 1 ) 去除周期影响的谱 估计;( 2 ) 平滑可靠的基频轨迹的提取;( 3 ) 合成端的实现。 ( 1 ) 去除周期影响的谱估计 方法概述:传统的通过加窗计算得到的语音信号的短时谱会在时间轴和频率 轴上出现与基音周期和基音频率有关的周期性。为了正确估计语音信号的谱包络。 使其不受基频的影响从而实现高灵活度的韵律调整,登须将此二维空闻上的周期性 去除。故s t r a i g h t 中采用了卷积二维三角窗的平滑方法。 下面进行语音信号的频谱分析得到s t r a i g h t 分析过程的第二个原始参数: 基频参数。 ( 2 ) 平滑可靠的基频轨迹的提取 方法概述:s t r a i g h t 中借助于小波分析进行了语音信号的基频分析。首先在 不知道基频的情况下,寻找出语音信号中对应的基频成分,再从中计算出即时频率 作为语音信号的基频。 ( 3 ) 合成端的实现。 方法概述:输入合成端的参数包括上面分析得到的二维谱包络和基频轨迹。 在合成时使用的是基于基音同步叠加和最小相位冲击响应的方法。并且在合成过程 中可以实现时长、基频和谱参数的调整。 实验步骤: 根据上面提取的基频f o 使用下面的公式来合成语音信号y ( t ) y ( t ) = 了鼋耐1 ;i ( t t ( t ;) ) , c z - , :此公式反映的是一个基音同步叠加的过程,y ( t ) 表示恢复的语音信号,q 表示 用于合成的基音同步位置的集合,函数g o 表示基频的调整,它可以是任意形式的映 射关系。 其中( t ) 反映的是每一帧对应的冲击响应的求取过程,t ( 虹) 反映的是基音同 步位置的确定过程。 韭鏖銮堑太堂亟堂僮监塞丕统结控量遮让 v 证( t ) = 去v 如,t i 净) e 酞d 缈 。棚 v ( u ,t i ) 表示最小相位冲击响应的傅里叶变换,o ( m ) 为具有附加的控制相位的 激励,用来改善听感。v ( u ,0 可以从先前分析得到的平滑谱计算得到,即将一般相位 的谱转化为最小用的是基于倒谱的变化方法,即有 v ( 叫) = 唧( 去fh ;( q 砂q d q ) 1 0 ( q o ) c t ( q ) 2 击e 巾9 l o g a ( s ( u ( 以r ( t ) ) ) 妇 其中q 表示倒频,a 0 ,u 0 r o 分别表示对平滑谱s ( m ,t ) 在幅度、 的调整。 在实验中转换到离散时间得到离散时间的表达式s ( n ,甜) 等。 2 3 。2 特征参数 ( 2 3 ) ( 2 5 ) 频率和时间轴上 音色转换是一项改变说话人声音特性的技术,使得一人的声音听起来像是由 另一人说出来的1 2 0 ) 。一个语音音色转换系统包括了提取代表说话人个性信息的声 学特征,建立说话人间声学特征的映射规刚,以及将转换后的语音特征合为语音 信号三个组成部分。 提取代表说话人个性信息的声学特征是关键部分之一,语音参数的选择是整 个系统的基础对系统性能有着直接的影响。目前常用的特征参数包括线性预测倒 谱系数【2 1 1 1 2 2 ) l i n e a rp r e d i c t i o nc e p s t r u m c o e f f i c i e n t , l p c c 美尔倒谱系数【2 l 】 m e l f r e q u e n c y c e p s t r u mc o e f f i c i e n tm f c c 等l p c c 参数和m f c c 参数分别根据 人的发声原理和听觉感知原理从人的声音提取出能量分布谱从中获得声纹的独特 特征这两种参数在实用中得到了较好的效果。 系统实现的目标就是变换语音中的个性化特征。它将输入的源说话人的声音, 变换为听感上接近目标说话人的重建语音。我们知道,说话人辨识的研究目标是 从个性化特征集内检索和匹配输入语音,从而标识身份信息。而声音变换则是要 保留文本信息、情感信息,替换语音中的身份信息。因此声音变换能够应用于多 媒体、个性化人机交互、虚拟现实等领域。研究表明,个性化特征中最主要的成 分就是语音音色。它被定义为“听觉的属性,听话人据此属性就能判断音调、响 度、音长相同的语音之问的不同点”f 2 3 1 。语音音色反映了人对超音段特性相同的 语音之间的知觉差异。 声音的个人特性由两大类声学特征共同作用影响的:声源和声道共振。被认为 与此相关的声学参数,主要有: 1 声源参数:( 1 ) 平均基频。( 2 ) 基频曲线轮廓。( 3 ) 基频变化范围。( 4 ) 声门波形 状。 2 声道共振参数:( 1 ) 频谱包络形状和谱倾斜。( 2 ) 共振峰值。( 3 ) 共振峰走向。 ( 4 ) 长时平均频谱。( 5 ) 共振峰带宽。 对说话人特征的研究已有很长的时间,早期的心理学和语音学的研究揭示 了声学参数和说话人年龄、性别等身体特性的关系。最近的研究主要从语音技术 和说话人识别的角度来考虑m a s t s u m o t 等人研究了基频( f o ) ,共振峰,谱包络等声 学参数对男声元音的贡献,得出结论,即基频( f o ) 是说话人特性的最重要的参数, 其次是共振峰,再次是f o 变动范围及声源谱倾斜。f u r u i 研究了不同说话人的心 理和物理上的差异的关系,发现通过倒谱系数光滑的长时平均谱起很大的作用。 n a k a t s u ie ta i 通过转换三个说话人元音的声源和声道共振参数,认为f o 声道共振 参数起更大的作用。i t o s h 和s a t i o 则通过研究元音,音节等的语音合成参数,认为 频谱包络是最重要的参数,其次是基频。从以上的研究我们可以得知,不存在唯 一特殊的声学参数携带所有的个人特征信息,语音音质是许多语音参数共同作用 的结果。 说话人特征的选取是得到高音质的结果的基础。换句话说,特征参数能完全、 准确地表达语音信号,那么特征参数也应能完全、准确地表达语音信号所携带的 全部信息,就能准确恢复语音信号。 在第四章将详细介绍特征参数。 2 3 3 映射规则 在训练阶段都要先进行源语音和目标语音的分析和特征提取,提取源和目标 的语音特征参数。通过这些参数来估计转换规则,转换规则就是要捕捉源语音和 目标语音特征之问的对应关系。 在转换阶段,首先对源语音进行分析并提取语音特征,再根据在训练阶段得 到的语音转换规则进行转换得到转换的语音特征,由这些转换的语音特征合成出 最终的转换语音。 匙塞銮通太堂硒堂焦论塞丕统结掏与途进 在特征建模后,我们要找出源说话人和目标说话人的声学特征矢量空间映射 关系,即变换函数规则。也就是找出对齐后的源特征空间向量 s ( n ) ,n - l ,2 ,p 和目标特征空间向t o ( n ) ,n = l ,2 , 两者之间的对应关系求解语音音色变换a 数 规则的方法有:矢量量化( v q ) ,隐马尔可夫模型( 删) 混合高斯模型( g m m ) 还可用 人工神经网络( a n n ) 如径向基函数网络( r b f n ) 等方法。利用这些方法,经过机器学 习可自动生成源说话人特征模型和目标说话人特征模型间的映射函数规则。除此 之外,还有基于子带的语音音色变换方法,可应用于高采样率的情形,因为通常 的方法运算量太大。这样,训练得到的语音音色变换函数规则可用于实际。 一般变换过程通常包含以下步骤: 从源说话人输入的语音中提取特征参数; 利用变换函数规则计算出新的特征参数; 合成输与输出。 实现映射规则的方法有很多,下面介绍几种方法并说明各自优劣: 1 向量量化法 a b e l l o ”较早采用基于向量量化的码书映射方法来进行频谱包络的转换。其实 现过程如下: 首先对源说话人和目标说话人的语音频谱参数空间进行量化,使源语音和目 标语音的码向量一一对应,分别得到m 个源语音的码向量和m 个目标语音的码向 量。然后在训练阶段通过训练得到由每一个源语音码向量到m 个目标语音码向量 的映射码书h ,h 为m * m 的矩阵。映射码书的建立过程如下: 由源和目标说话人产生学习单词集,然后所有的单词逐帧进行向量量化。 用动态时间规整技术( d t w ) 对两个说话人的相同的单词向量进行对齐。 两说话人之间的向量对应关系累积成柱状图。应用柱状图作为加权系数, 映射码书就为目标语音向量的线性合成时的加权系数。 在转换阶段,先将源语音的谱包络系数量化为源语音向量空间的第1 个码向量。 则转换的码向量,由式( 2 6 ) 得到: 吖 夕= h t k u 北 k = l 其中,h l k 为映射码书h 的元素, 2 线性多变量回归法( l m r ) 满足和为l ,u l k 为目标语音码向量。 v a l b r e t 提出采用线性多变量回归法( l m r ,l i n e a rm u l t i v a t er e g r e s s i o n ) 来进行频谱包络转换。首先应用标准的d t w 法将源语音和目标语音中提取的频谱 包络特征参数进行对齐;然后应用标准的非监督分类技术将源说话人和目标说话 人的声学空间分成非益加的类;对每一类,由l m r 得到一个简单的线性转换函数。 1 4 韭塞銮遵去堂亟堂僮论塞丞统绪控兰趁让 x n k l 和y n k l 分别表示源语音和目标语音码书的第k 类源语音频谱向量集和目标 语音向量集。用l m r 法估计一个p 乘p 阶矩阵p k ,它满足使归一化的源向量x i , 和目标向量y i 的平方差最小。 二一t 一吐 z = l -
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省遂宁市二中2025年高三数学试题二诊模拟考试试题含解析
- 新疆昌吉州阜康二中学2025届初三4月模拟训练化学试题含解析
- 陕西省西安市未央区2025年初三“零诊”考试生物试题含解析
- 云南国土资源职业学院《化工过程自动控制与仪表》2023-2024学年第二学期期末试卷
- 江苏省泰州市凤凰初级中学2024-2025学年初三质量监测(一)生物试题试卷含解析
- 天津医学高等专科学校《定量遥感》2023-2024学年第二学期期末试卷
- 绿化种植培训方案
- 商务礼仪电梯培训
- 2025年个人SUV车库买卖合同
- 文明用语培训课件
- 小学作文教学-习作教学方法策略课件
- 选修-危重病学外科液体治疗课件
- 人工造林项目投标方案
- 学习投入量表
- 第二章-社区护理程序课件
- 洛阳龙凯矿业有限公司宜阳石英岩矿矿产资源开采与生态修复方案
- 抑郁障碍的心理治疗
- 胃肠功能紊乱
- 多元微积分期中试卷
- 包装运输作业指导书
- 扬州市邗江区五年级下册语文期中调研试卷真题
评论
0/150
提交评论