(信号与信息处理专业论文)基于统计声学建模的语音合成技术研究.pdf_第1页
(信号与信息处理专业论文)基于统计声学建模的语音合成技术研究.pdf_第2页
(信号与信息处理专业论文)基于统计声学建模的语音合成技术研究.pdf_第3页
(信号与信息处理专业论文)基于统计声学建模的语音合成技术研究.pdf_第4页
(信号与信息处理专业论文)基于统计声学建模的语音合成技术研究.pdf_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近十几年来,随着针对语音信号的统计建模方法的日益成熟以及参数合成器 性能的不断提升,统计参数语音合成( s t a t i s t i c a lp a r a m e t r i cs p e e c hs y n t h e s i s ) 思 想被提出,并得到了越来越多研究者的关注。其中,以基于隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l ,h m m ) 的参数语音合成方法为代表,该方法已逐步发 展成为和基于语料库的单元挑选与波形拼接合成方法相并列的种主流语音含 成方法。相比传统的单元挑选与波形拼接合成方法,基于h m m 的参数语音合成 方法具有合成语音流畅度高、鲁棒性好,系统构建速度快、自动化程度高,系统 尺寸小、灵活度高等优点。 本文以统计声学模型在语音合成中的应用为研究重点,在原有基于h m m 的 参数合成方法之外,提出了两种新的基于统计声学建模的语音合成方法。第一, 基于h m m 的单元挑选与波形拼接合成:我们将h m m 参数语音合成中使用的声 学参数建模思想,与传统的单元挑选与波形拼接合成方法相结合,使用概率准则 指导最优单元搜索,通过拼接波形生成最终语音,以克服参数合成方法在生成语 音音质上的不足,提高合成语音的自然度;第二,融合声学参数与发音器官参数 ( a n i c u l a t o r yf e a t u r e ) 的建模与合成:我们在声学参数之外,引入和语音产生 机理更加紧密相关的发音器官参数,通过对原有的h m m 模型结构进行改进,实 现两种参数的联合建模与生成,从而提高合成时声学参数预测的精确度和灵活 性。 一 整篇文章的安排如下: 第l 章是绪论,将回顾语音合成的发展历史,并对常见的几种语音合成方法 进行简要的介绍。 第2 童将具体介绍基于h m m 的参数语音合成方法,包括h m m 的基本原理、 系统框架、关键技术点等,并通过对此方法特点的分析,阐明我们进行新的语音 合成方法研究的动机与出发点。 第3 章将重点介绍基于h m m 的单元挑选与波形拼接语音合成算法。首先我 们提出了使用h m m 进行单元挑选的两种不同的实现形式,一种以帧为拼接单 元,基于最大似然准则实现单元搜索,另一种使用音素和帧的两级拼接单元,结 合似然渣准则和k l i l l b a c k l e i b l e r 距离( k u l l b a c k l e i b i e rd i v e 唱e n c e :k l d ) 进 行单元选择:然后,我们归纳出了基于h m m 的单元挑选合成的统一算法框架, 并通过在中文和英文合成系统上的测试证明了此算法的有效性;最后,我们提出 了最小单元挑选错误( m i n i m 啪u n i ts e l e c t i o ne r r o r ,m u s e ) 准则,用以替代 原有h m m 训练中使用的最大似然准则。实现了合成系统的全自动构建,并进一 摘要 步提高了合成语音的自然度。 第4 聋将介绍融合发音器官参数与声学参数的统计建模与合成。这里的“发 音器官参数 指的是对发音过程中说话者舌、唇、下颚等发音器官的位置以及运 动情况的定量描述。在阐明了引入发音器官参数的原因以及对原有系统框架进行 了简单回顾后,我们提出了对声学参数和发音器官参数进行联合建模与参数生成 的总体思路,并且从模型聚类策略、状态的同步性假设以及特征之间的独立性假 竣三个方面,讨论了几种可能的模型结构;然后,通过一系列的客观和主观评测, 证明了这种结合发音器官参数的系统构建方法在提高声学参数预测的精确度和 灵活性方面的有效性。 第5 章对全文进行了总结。 关键词:语音合成隐马尔可夫模型参数合成单元挑选发音器官参数 a b s t r a c t a b s t r a c t 、矾t ht h ed e v e i o p m e n to fs t a t i s t i c a lm o d e l i n gt e c h n i q u e sf o rs p e e c hs i g n a l sa n d t h ep e r f o 咖a n c ei m p r o v e m e n to fp a r a m e t r i cs p e e c hs y n t h e s i z e r ,s t a t i s t i c a lp a r a m e t r i c s p e e c hs y n t h e s i sm e t h o d sh a v eb e e np r o p o s e da n dm a d es i g n i f i c a n tp r o g r e s si nt h e l a s td e c a d e o n er e p r e s e n t a t i v e 印p r o a c ho ft h e s em e t h o d si sh i d d e nm a r k o vm o d e l ( h m m ) b a s e dp a r a m e t r i cs y n t h e s i s ,w h i c hh a sb e c o m ea m a i n s t r e a ms p e e c hs y n t h e s i s a p p r o a c ht o g e t h e rw i t ht h eu n i ts e l e c t i o na n dw a v e f o n nc o n c a t e n a t i o na p p r o a c h t h i s m e t h o dh a sal o to fa d v a n t a g e sc o m p a r e dw i t ht h ec o n v e n t i o n a lu n i ts e l e c t i o ns p e e c h s y n t h e s i s ,s u c ha sh i g hs m o o t h n e s s ,r o b u s t n e s sa n df l e x i b 订i 吼f i a s ta n da u t o m a t i c s y s t e mc o n s t r u c t i o n ,s m a l ls y s t e mf o o t p r i n t ,a n ds oo n 1 _ h i sd i s s e r t a t i o nf o c u s e so nt h ea p p l i c a t i o no fs t a t i s t i c a la c o u s t i cm o d e lt o s p e e c hs y n t h e s i s b e s i d e st h eo r i g i n a lh m m b a s e dp a r a m e t r i cs y n t h e s i sa p p r o a c h , t 、,0n o v e lm e t h o d sa r ep r o p o s e d t h e6 r s ti sh m m b a s e du n i ts e l e c t i o na n d w a v e f o mc o n c a t e n a t i o ns y n t h e s i s w ea p p l yt h es t a t is t i c a li d e a si nh m m - b a s e d p a r a m e t r i cs y n t h e s i s t ou n i ts e l e c t i o na n dw a v e f o mc o n c a t e n a t i o ns y s t e mt o o v e r c o m et h es h o r t c o m i n go fs p e e c hq u a l i t yf o rp a r a m e t r i cs y n t h e s i ss y s t e ma n d i m p r o v et h en a t u r a l n e s so fs y n t h e s i z e ds p e e c h t h es e c o n dm e t h o di sp a r a m e t r i c s y n t h e s i s f o r i n t e g r a t e d a c o u s t i ca n d a n i c u l a t o r y f e a t u r e s c o n s i d e r i n g t h a t a r t i c u l a t o r yf e a t u r e sg i v eb e t t e rr e p r e s e n t a t i o no fs p e e c hg e n e r a t i o nm e c h a n i s m ,w e i n t e g r a t ea r t i c u l a t o 叮f e a t u r e s i n t oh m m - b a s e dp a r a m e t r i c s y n t h e s i ss y s t e m t o i m p r o v et h ea c c u r a c ya n df l e x i b i l i t yo fa c o u s t i cp a r a m e t e rg e n e r a t i o nb ys i m u l t a n e o u s m o d e l i n ga n dg e n e r a t i o no f a c o u s t i ca n da r t i c u l a t o 叫f e a t u r e s t h ew h o l ed i s s e n a t i o ni so 唱a n i z e da sf o l l o w : c h a p t e rli st h ei n t r o d u c t i o n i tr e v i e w st h eh i s t o 叮o fs p e e c hs y n t h e s i sr e s e a r c h a n dg i v e sab r i e fi n t r o d u c t i o nt ot h es e v e r a lm o s tc o m m o ns p e e c hs y n t h e s i s t e c h n i q u e s c h a p t e r2i n t r o d u c e st h eh m m b a s e dp a r a m e t r i cs y n t h e s i sm e t h o di nd e t a i l , i n c l u d i n gt h e 如n d a m e n t a lp r i n c i p l e so fh m m ,t h es y s t e m 行a m e w o r k ,a n ds o m ek e y t e c h n i q u e si nt h es y s t e m b a s e do ns o m ea n a l y s i so ft h ec h a r a c t e r i s t i c so ft h i sm e t h o d , t h em o t i v a t i o no fo u rr e s e a r c hw o r l ( i sd e c i a r e d c h a p t e r3f o c u s e so nt h eh m m - b a s e du n i ts e l e c t i o ns y n t h e s i sm e t h o d a tf i r s t , t w od if 】e r e n th m m - b a s e du n i ts e l e c t i o ns y s t e m sa r ei n t r o d u c e d t h ef i r s t s y s t e m i i i a d o p t s 仃衄e s i z e du n i ta n dm a x i m u mi i k e i i h o o dc r i t e r i o n f o ru n i ts e l e c t i o n ;t h e s e c o n ds v s t e mu s e sh i e r a r c h i c a lu n h sa n dc o m b i 五璐k u l i b a c k l e i b l e rd i v e 唱e n c e t o g e t h e rw i t hl j k e l i h o o dc r i t e r i o nt os e l e c tt h eo p t i m a lu n i ts e q u e n c e t h e n ,au n i 矗e d f r a m e w o r ko fh m m - b a s e du n i ts e i e c t i o ns p e e c hs y n t h e s i sm e t h o di sp m p o s e d o u r e v a l u a t i o n so nc h i n e s ea n de n g l i s hs y s t e m sp r o v et h ee f f e c t i v e f l e s so ft h ep r o p o s e d m e t h o d a tl a s t ,m i n i m u mu m ts e l e c t i d ne r r o r ( m u s e ) c r i t e r i o nf o rt h em o d e l t r a i n i n go fh m m b a s e du n i ts e l e c t i o ns y s t e mi sp r o p o s e dt oa c h i e v ef u l l ya u t o m a t i c s v s t e mc o n s t r u c t i o na n di m p r o v et h en a t u r a l n e s so fs y n t h e s i z e ds p e e c h c h a p t e f4p r e s e n t sam e t h o dt h a ti n l e g r a t j n ga r t i c u l a t o 巧f e a t u r e s ;n t o t h e o r i g i n a lh m m b a s e dp a r a m e t r i cs y n m e s i ss y s t e m 谢l e r eo n i ya c o u s t i c f - e a n i r e sa r e u s e d h e r e ,w eu s e “a r t i c u l a t o r yf e a t u r e s t or e f e rt ot h eq u a n t i t a t i v ep o s i t i o n sa n d c o n t i n u o u sm o v e m e n t so fag r o u po fa n i c u l a t o r s t h e s ea n i c u l a t o r s i n c l u d et 1 1 e t o n g u e ,i a 砒j i p s ,v e l u m ,a n ds oo n a n e rab r i e fj 玎t r o d u c t i 彻t o h ed f j g i n a ls y s t e m , t h em o d e l i n ga n dp a r a m e t e rg e n e r a t i o nm e t h o d sf o ru n i 丘e da c o u s t i ca n da r t i c u l a t o r y f e a t u r e sa r ep r o p o s e d d i f f - e r e n tm o d e ls t r u c t u r e s a r e e x p l o r e d t oa l l o wt h e a r t i c u i a t o r v 佗a t u r e st oi n n u e n c ea c o u s t i cm o d e l i n g :m o d e lc l u s t e r i n g ,s t a t es y n c h r o n y a n dc r o s s s t r e a m f e a t u r ed e p e n d e n c y t h er e s u l t so fo 场e c t j v ea n ds u b j e c t i v e e v a l u a t i o ns h o wt h a tt h ea c c u r a c ya n df l e x i b i l i t yo fa c o u s t i cp a r a m e t e rp r e d i c t i o nc a n b ei n l p r _ o v e de f r e c t i v e l yb yp r o p o s e dm e t h o d c h a d t e r5c o n c i u d e st h ew h o i ed i s s e r t a i i o n k e yw o r d s :s p e e c hs y n t h e s i s ,h i d d e nm a r k o vm o d e l ,p a r a m e t r i cs y n t h e s i s ,u n i t s e l e c t i o n ,a r i c u l a t o r yf e a t u r e s i v 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 讲年6 月尸日 第1 章绪论 第1 章绪论 随着信息时代的到来,计算机已成为人类不可缺少的日常工具。在现有的计 算机系统中,键盘鼠标是最为常见的人机交互界面。为了使计算机与人交流时的 的界面更加“友好”,科学家开发出了若干种易学易懂、操作简单的界面。其中 最方便最自然的界面首推语音交互。基于语音识别、语音合成及自然语言理解的 人机语音对话技术是世界公认的一个难度很大,极富挑战性的高技术领域。但是 它的前景十分光明,领导世界软件潮流的微软首领比尔盖茨说过,“在不久的将 来,9 5 的网络软件将是在语音驱动下完成的。”近几年来,语音识别、合成技术 发展很快,和它有关的语言学、语音学、语音理解,听觉心理和语言感知也有较 大进展,加之超大规模集成电路、电子计算机、数字信号处理、人工智能等取得 了突飞猛进的发展,以及最近两年的国际互联网的迅速生长和全球信息基础设施 建设热潮,这为人机语音对话的研究提供了更好的理论和物质基础以及需求牵 引。 作为人机交互的核心技术之一,语音合成近年在技术和应用方面都取得了长 足进展。随着电子计算机的运算和存储能力的迅猛发展,语音合成技术由早期的 基于规则的参数合成,到基于样本的调整与拼接合成,并逐渐发展为现在最为流 行的基于大语料库的单元挑选与波形拼接合成。与此同时,合成语音的自然度和 音质都得到了明显的改善,在一定程度上达到了人们的应用需求,并在越来越多 的实际系统中得到了应用。目前,语音合成技术已经在自动应答呼叫中心( 包括 金融、电信和政府等) 、电话信息查询( 包括天气、交通和旅游等) 、汽车导航以 及电子邮件阅读等方面得到广泛的应用,同时针对娱乐和教育方面的应用也正在 开展。总而言之,语音合成技术正在影响着现代社会的方方面面。 1 1语音合成研究背景 1 。1 1 概述 通俗的讲,语言合成技术就是赋予计算机像人一样可以自如说话的能力。这 是一门典型的交叉学科( 陈永彬9 0 :杨行峻9 5 ;h u a n g 0 0 ;蔡莲红。0 3 ) 。它涉及到 声学、语音学、语言学、语义学、信息论、信号处理、计算机、模式识别、人工 智能、心理学以及人类的大脑神经活动等众多学科的理论和技术。按照人类语言 功能的不同层次,语言合成可以分成三类层次,它们是:( 1 ) 从文字到语音的合 成,或称文语转换( t e x t t o s p e e c h ,t t s ) ;( 2 ) 从概念到语音的合成( c o n c e p t t 0 一 第l 章绪论 ,i 墨? 鼍f 口 _ ;o 盈盘墨荟皇;卜 键:。i ,身目j 膏 图1 1 萎i 典型语音合成系统示意图。 s p e e c h ) :( 3 ) 从意向到语音的合成( i n t e n t i o n t o s p e e c h ) 。现在绝大多数的语音合 成研究仍然集中在第一层次,即从文字到语音的合成,在本文的后续介绍中提到 的语音合成同样指的是这种文语转换。 图1 1 显示了一个典型的语音合成系统示意图。输入的文本可以来自于键盘 输入、手写识别以及网络等多种途径,从文本信息到语音信号的文语转换过程可 以看成对不同层次的信息在不同层面上进行分析处理的过程。首先对于输入的文 本,依掘外部的词典、规则等,在语言层、语法层和语义层上进行分析,得到文 本的层次化信息( 包括音标的转写,词组、短语、句子的划分等) ;然后在层次 化信息的基础上在语音层上进行韵律分析,得出语音层面上的韵律信息( 例如基 频、时长、能量参数的预测) ;然后根据生成的韵律特征,利用参数合成器生成 或者从语音库中挑选单元来合成最终的语音数据。 语音合成的以上步骤也可以划分为前端文本分析和后端语音合成两个阶段。 前端文本分析包括了对输入文本在语言层、语法层、语义层的处理,即将输入的 文本转换成层次化的语音学表征;后端语音合成即基于输入的层次化语音表征来 合成语音,其可以有多种不同的实现形式,例如使用参数合成器合成语音,或者 通过单元挑选的方法拼接自然的语音波形合成语音等,韵律参数的预测可以作为 其中一个独立的模块,也可以集成到后续的单元挑选过程中。本文的研究主要集 中在语音合成的后端算法上。 攀艇 ( ) 永 第l 章绪论 1 1 2 语音合成历史回顾 语音合成的研究历史( k l a n t 8 7 ) 可以追溯到1 8 世纪。最早的语音合成是利用 机械装置实现的。k a t z e n s t e i n 在1 7 7 9 年研制出一种机械式语音合成器,这种会 说话的机械,是用风箱模拟人的肺、簧片模拟声带、以皮革制成的共振腔模拟声 道,通过改变共振腔的形状,它可以合成出一些不同的元音。 自1 9 世纪出现电子器件以来,语音合成达到飞速发展。1 9 3 9 年,贝尔实验 室h d u d i e y 制作出一个电子合成器( d u d l e y 3 9 ) 。这是一个利用共振峰原理制作 得语音合成器,它以一些白噪音似的激励产生非浊音信号,以周期性的激励产生 浊音信号。模拟声道的共振器是通过一个1 0 阶的带通滤波器建模,模型的增益 通过人来控制。1 9 6 0 年,gf a n t 在( f a n t 6 0 ) 中系统地阐述了语音产生的理论, 极大地推动了语音合成技术的进步。同时线性预测分析( l p c ) 成为最有效的语 音分析技术之一,利用它可以对语音产生模型的参数进行准确估计。1 9 8 0 年, d k l a 廿设计出串并联混合型共振峰合成器( k l a t t 8 0 ) 。它用串联通道产生元音合 浊辅音;并联通道产生清辅音。还可以对声源做各种选择和调整,以模拟不同的 嗓音。 到2 0 世纪8 0 年代末,基音同步叠加的时域波形修改算法p s o l a ( p i t c h s y n c h r o n o u so v e r l a pa d d ) 被提出( m o u i i n e s 91 ) ,该方法较好地解决了语音段之 间的拼接问题,从而有力的推动了波形拼接语音合成技术的发展。随着9 0 年代 电子计算机的运算和存储能力的迅猛发展,该方法逐渐发展为基于大语料库的单 元挑选与波形拼接合成方法,它的基本思想是根据输入的文本分析信息,从预先 录制和标注好的语音库中挑选合适的单元,进行少量的调整( 或者不进行调整) , 然后拼接得到最终的合成语音。由于最终的合成单元都是直接从音库中复制过来 的,其最大的优势就是在于保持了原始发音人的音质。 而到2 0 世纪末,伴随着针对语音信号的统计建模方法的日益成熟以及用户 对于语音合成系统构建自动化程度要求的提高,可训练的语音合成方法 ( 1 h i n a b l et t s ) 被提出( d o n o v a n l 9 6 ;h u a j l g 9 6 ) ,该方法的基本思想是基于统计 建模和机器学习的方法,根据一定的语音数据进行训练并快速构建合成系统。随 着声学合成器性能的提高,在这种方法基础上又发展出了统计参数语音合成方 法,其中以基于隐马尔可夫模型( h m m ) 的建模与参数生成合成方法为代表 ( t o k u d a 0 4 ) 。这种方法可以在不需要人工干预的情况下,自动快速的构建合成系 统,系统尺寸很小,而且对于不同发音人、不同发音风格、甚至不同语种的依赖 性也非常小,很适合嵌入式设备上的应用以及多样化语音合成方面的需求。因此 这种方法也已发展成为现阶段和基于语料库的单元挑选与波形拼接方法相并列 的主流的语音合成方法,得到越来越多的研究者的关注。 第l 章绪论 后面两节中,我们将介绍语音产生的生理机理及几种常见的语音合成方法。 1 2 语音产生的生理机理 研究语音合成技术,是要模仿人发音的心理一生理一物理过程,让机器也能 产生清晰而自然的语音。为此,就需要对人的发音生理过程有一较透彻的了解, 在此基础上,建立一个语音产生的声学模型,进而构成语音合成器。语音产生的 生理方面主要涉及三个系统:声门下系统、喉系统以及声门上系统。 声门下系统,俗称呼吸器官。它由气管、支气管、肺及呼气肌群、吸气肌群 和膈肌组成。它提供人类发音的动力,因此是发音的动力器官。 喉是一个空气阀,它有两种基本功能:呼吸时,声门打开;发声时,声门作 有节律的开闭动作,使肺中呼出的平直气流调节成为脉动气流。这种携带了声能 的脉动气流成为言语和歌唱发声的基本声源。 声门上系统又称共鸣腔,或称调音器官。它由口腔、鼻腔和咽腔组成。喉部 产生的嗓音流( 声门波) 或气流,通过这些共鸣腔的调节,可以产生出不同的音 素。 发音系统可以产生三类基本的声音:浊音、摩擦音和爆破音。浊音( 如元音) 是通过提高肺部气压,强迫空气通过声门( 声带之间的孔道) ,使声带振动而产 生的。声带的振动切断气流,产生一种似乎周期性的宽频脉冲,激励声道。声带 的振动韧带大约1 8 毫米长,声带门孔道面积的典型变动范围在o 到2 0 平方毫 米左右。摩擦音( 如辅音s 、s h 、f 等) 是声道的某些部位部分关闭,空气从紧 缩处以足够的速度通过引起湍流而产生的。爆破音( 如塞音p 、t 、k ) 是声道完 全闭塞( 一般是唇或舌闭塞) ,空气压力在闭塞部位后面增加,然后突然打开闭 塞部位而产生的。当空气释放的时候,这种尖锐的声音常常伴随着摩擦或送气。 通过上而对发音器官和语音产生机理的分析,可以将语音生成系统分成三个 部分,在声门( 声带) 以下,声门下系统负责产生激励振动,是“激励系统; 从声门到嘴唇的呼气通道是声道,是“声道系统”;语音从口腔和嘴唇辐射出去, 所以是“辐射系统 。 1 3 常见语音合成方法 从整个语音合成研究的发展历史来看,早期的机械式语音合成器反映了人们 对语音产生机理了解的比较粗略,现代语音合成的方法基本上都是采用一种语音 模型来合成语音。总的说来,近期常见的语音合成方法可以归结为四种:1 ) 物 理机理语音合成:2 ) 源一滤波器语音合成:3 ) 基于波形拼接技术的语音合成: 4 ) 基于隐马尔可夫模型的参数语音合成。其中基于波形拼接技术的合成包括基 第1 章绪论 于样本调整的波形拼接合成以及基于大语料库的波形拼接合成方法。下面我们将 简要介绍这几种语音合成方法。 1 3 1 物理机理语音合成 物理机理语音合成是通过对人产生语音的物理结构进行建模,从而产生语 音,比如,对发音过程中嘴唇、牙齿、下巴等运动进行建模( c o k e r 。7 6 ) 。t i t z e 曾 经研究过一个数学模型( t i t z e 7 4 ) ,这个模型是对声带振动的过程进行建模。但是 也有另外一些研究是对通过声带的气流来建立模型( t h o m a s 8 6 ) 。 近来,物理机理语音合成的研究受到了制约,因为难以将它在现阶段推向实 用。其原因主要在于两个方面:一是对语音产生过程中发声器官的运动和变化进 行度量非常困难,比如说如何精确记录舌位运动和口腔的变化。第二个原因是和 源一滤波器的语音合成模型相比,对通过声道气流特征和运动轨迹的数学建模也 非常复杂,以及这种模型的计算量非常大。但是目前,随着高性能计算机的出 现和对发音机理的深入了解,很多学者在推动这方面的研究( m e y e r 9 3 ; f 乙a 1 1 i m 9 3 ) 。 最早的言语仿造者是融a t z e n s t e i n ,他曾在1 7 7 9 年以发明声学共振器而获得 皇家学院的奖金。他发明了一套声学共振器,其形状大小有点跟人类的口腔相似。 它用一片模仿人类声带的振动簧片,切断气流,使共振器发出声音。据报道, c 1 1 r i s t i a n 的机器所模仿的五个元音a 、e 、i 、o 、u 还相当准确。 第一个试图用电气方法合成连续语言的机器叫v o d e r ( 语音合成仪, v b i c e 旬p e r a t i o nd e m o n s t r a t o r ) ,它曾经在1 9 3 9 年纽约世界博览会和次年旧金山 世界博览会上展出。v o d e r 有两个声源,一个是宽带的噪声源,一个是周期波 峰鸣振荡器。这两种声音通过“共振控制”箱( 即“声道 ) 的时候,音色发生 改变。控制箱有1 0 个相邻带通滤波器,包括正常语言的频率范围。带通滤波器 的输出通过1 0 个子键的单独操纵,进f 亍增益调整,还有三个附件操纵选择滤波 器作瞬时激励,模仿产生三组塞音:t d ,p - b ,k g 。操作人员用一条转柄来选择 噪音和蜂呜声,用一个脚踏板控制蜂鸣振荡器的音高。经训练的操作人员,能够 用合成器相当熟练地奏出易懂的语言。 1 3 2 源一滤波器语音合成 1 3 2 1 源一滤波器合成基本原理 源一滤波器的语音合成基于这样一种声学理论,这种理论认为声音由激励和 相应的滤波器形成。其中激励主要分为两种:一种是类似噪声的激励,主要形成 非浊音语音信号;另外一种是周期性的激励,主要产生浊音信号。这两种激励有 第l 章绪论 图1 2 源一滤波器合成方式结构框图。 时也会共同使用,如产生某些浊辅音信号。在该方式里,音库中预先存放各种语 音合成单元的声道参数,这些参数根据控制规则的要求进行修正,以合成出各种 语言环境下的语音。其结构框图如图l 。2 所示。 在基于源一滤波器的参数合成中,合成器的工作流程主要可分为三步: 1 )首先根据待合成音节的声调特性构造出相应的声门波激励源; 2 )然后再根据协同发音、速度变换( 时长参数) 等音变信息在原始声道的基础 上构造出新的声道参数模型: 3 )最后将声门波激励源送入新的声道模型中,其输出就是符合给定韵律特性的 合成语音。 共振峰合成和线性预测分析( l p c ) 合成是上述源一滤波器型结构的参数合成 器中最常用的两种方法。它们实现原理基本上类似,只是所用声道模型不同。同 时,针对声道模型的特性,在源的选取上略有差别。下面我们将分别对这两种参 数合成器进行简单介绍。 1 3 2 2 线性预测分析合成器 线形预测分析( l p c ) ( a t a l 7 1 ) 指的是以线形预测误差滤波器为基础来模拟声 道。由于语音信号存在时域上的相关性,可以考虑用信号z 加) 过去的p 个样本来 预测当前值z ( n ) : 对应的线性预测误差为: e ( 佗) = z ( 凡) 一耋( 佗) ( 1 2 ) ,l 磅 一绍z0 p 甜 = 结一z 第1 章绪论 图1 3 线性预测误差滤波器。 然后在最小均方误差准则下,即最小化科e 2 加) j ,就可以计算得到对应的l p c 系 数,t = 1 ,p 。 由最小均方误差准则,我们可得l p c 系数应该满足如下公式: 掣= 一2 e e ( 礼) z ( 九一i ) 】:o , = 1 ,p ( 1 3 ) u 珏i 将式( 1 2 ) 代入式( 1 3 ) 可得: 其中 p 她o ) 一n j 姒歹) = o ,江1 ,p j = l 妒( i ,歹) = e z ( 佗一i ) z ( 死一歹) 】 ( 1 4 ) ( 1 5 ) 通过直接求解式( 1 4 ) 的线性方程组,我们就可以得到所有的预测系数呸。需要注 意的是,由于语音信号的短时平稳性,在实际中一般采用加窗分帧的方式处理, 因此求解矽( i ,歹) 可以分为协方差方法( m a k h o u l 7 3 ) 和自相关方法( i t a k u r a 6 8 ) 。此 外,除了直接求解的方法外,也可以通过l e v i n s o n d u r b i n 网格法进行求解 ( i t a k u r a 7 9 0 ) ,与直接求解法相比,这种方式在实际应用中的效率和精确度更高。 上述由z ( 佗) 到e m ) 的过程可以用图1 3 所示的线性预测误差滤波过程表示。 其中a ( 2 ) = i 一垒,o l z 一。进一步分析可知,通过滤波得到的预测误差序列e ( ,。) 为一白噪声序列, 由图1 3 可以看出,如果我们己知e ) ,则通过传递函数为1 a ( 名) 的滤波器, 就可以最小均方误差意义下把z ( n ) 恢复出来。实际中的l p c 语音合成器,正是 由下式构造其声道模型: 耻南2 毒 6 , 其中g 为增益因子。由此,我们只要输入一个单位方差的白噪声序列e ) ,就可 以恢复出原始语音信号。在实际合成系统中,激励源要根据实际语音的清浊不同 第l 章绪论 来生成,而非简单的单位方差的白噪声序列。由于声门波激励源在绝大部分时间 很小,可以在采用均方误差最小准则下使e ( 佗) 逼近实际的激励源,因而从原理上 仍是相洽的。 在实际的l p c 语音合成器的构造中,除了采用l p c 参数本身以外,也可以 采用反射系数或线谱频率( l i n es p e c t r a lf r e q u e n c y l s f ) 来表征( i a l ( u r a 9 0 ) 。由 于线谱频率参数在语音合成和编码中有比较广泛的应用,下面我们简单介绍一下 该参数的一些性质。 根据l p c 滤波器a ( z ) ,我们构造如下两组多项式: 尸( z ) = 4 ( z ) + z 一( p + 1 ) a ( z 一1 )( 1 7 ) q ( z ) = a 0 ) 一名一( p + 1 ) a ( z 一1 ) ( 1 8 ) 不难证明,这两组多项式的根都处于z 平面的单位圆上,而且两者交替而且相对 坐标轴成对出现。由此我们将名= c o s ( 伽) 代入上两式,则可得到( 0 ,丌) 中的p 个根, 即l s f 参数。在已知l s f 参数的情况下,根式( 1 7 ) 和式( 1 8 ) ,我们可以直接得 到对应的l p c 滤波器么( z ) = ( p ( z ) + 以z ) ) 2 。 l s f 参数之所以在语音合成和编码有比较广泛的应用,主要是由于它具有以 下一些特性:一是其敏感性( s e n s i t i v i t ) ,) ,即某一阶l s f 参数的量化误差只会影 响其对应频率附近的频谱,而对较远处的频谱基本上没有影响;二是线性内插特 性:三是高效性( e 髓c i e n c y ) ,即l s f 参数对应的频谱失真较小;四是稳定性,只 要l s f 随阶次增高而增大的次序不发生改变,其对应的l p c 合成器的稳定性也 得到保证。 1 3 2 3 共振峰合成器 把人的声道模型看成一个谐振腔,语音信号的共振峰特性由这个腔体的谐振 频率来表证,这种合成方法叫做共振峰合成( k l a t t 8 0 ) 。由于人耳听觉的柯缔氏器 官的纤毛细胞就是按频率感受而排列其位置的,所以这种模拟共振峰特性的声道 模型方法非常有效。听辨实验表明,用前三个共振峰就能代表元音,对于较复杂 的辅音或鼻音,大概要用到5 个以上的共振峰才行。 由语音产生的模型可知,语音信号谱中的谐振特征( 对应声道传输函数的极 点) ,完全由声道的形状决定,与激励源位置无关;语音谱中的反谐振特征( 对 应声道传输函数的零点) 出现在下面两种情况:一是当激励源位置不在喉部( 如 发摩擦音时) ,二是发鼻音时。所以对于一般元音,传输函数可以采用全极点模 型,对于鼻音和大多数辅音,声道模型应采用零极点模型。 对于全极点模型的传输函数有 第l 章绪论 幅度 图1 4 共振峰合成系统。 可以将矿( z ) 分解成多个二阶极点的网络的串联,即: t ,、并 以为2 娶两寿。i = l1 一屹石 一z ( 1 9 ) ( 1 1 0 ) 由于二阶谐振器的传输函数参数与其共振峰间有简单明确的对应关系,而谐 振器串联时各部分的共振峰将会保留,所以用这种方法可以很方便地模拟全极点 模型的共振峰特性。而对于零极点模型,则可以用串并联共振峰模型来实现。它 可以模拟谐振和反谐振特征,因而被用来合成辅音和鼻音。综上所述,共振峰合 成系统通常采用图1 4 所示的混合型实现方法。 相比于l p c 方法,共振峰合成在参数调整合适的情况下,可望产生较高质 量的合成语音。其最大的优点是基于已有的发音机理,容易确定语音合成所需的 参数变化轨迹以及在语音段边界处的参数内插,可以通过共振峰频率的变动来模 拟不同语气、不同发音人的特征等。最大缺点是合成器结构复杂,参数调整复杂, 很难完全正确地实现这些参数调整,所以实际的合成系统音质往往也难以达到实 用要求。 1 3 3 基于波形拼接技术的语音合成 由于在模型的精确度方面的原因,以前的合成器都难以有效的合成高自然度 的语音,而基于原始语音库的波形拼接合成在实现高自然度的合成系统上,取得 了很大的进展。波形拼接合成方法的基本原理就是根据输入文本分析得到的信 息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整( 也可以 不进行调整) ,然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可 第l 章绪论 以是前端分析得到的韵律文本,也可以是生成的声学参数( 比如基频、时长和谱 参数) ,或者两者兼有。由于最终合成语音中的单元都是直接从音库中复制过来 的,其最大的优势就是在于保持了原始发音人的音质。 其实在单元拼接合成方法最初提出时( 1 w a h a s h i 9 2 ;c 锄p b e l l 9 6 ) ,由于受音库 容量以及单元调整算法性能的限制,其优势并不是很明显,主要是合成语音不连 续,自然度不高,而且单元调整过大时导致语音音质急剧下降。一般我们把这种 原始音库比较小( 即拼接样本数比较少) 的合成系统,称之为样本调整的波形拼 接合成,而与此对应的就是现在比较流行的基于大语料库的单元拼接合成 ( h u n t 9 6 ) 。这种方法的演变主要得益于近年来计算机的运算和存储能力的飞速增 长,其音库由以前的l m b 变为l o o m b ,甚至超过l g b ,相应的单元挑选策略也 越来越精细,使得挑选出来的单元基本不需要调整,不仅保持了原始语音的音质, 而且不连续现象也得到很大的改善,自然度得到极大的提高。因此,基于大语料 库钓单元拼接合成系统得到越来越广泛的应用( 、n g o o ;c h u 0 1 ) 。 为了方便,后面所称的大语料库合成系统指的就是基于大语料库的拼接合成 系统。在构建一个大语料库合成系统时,主要包括以下几个重要环节: 1 )单元尺度的选择:可以是音素、双音素、音节、词甚至短语等,对于中文语 音合成系统,比较常用的基本单元是声韵母和音节; 2 )语料库构建:首先是在保证单元覆盖率的前提下,根据特定的搜索策略从原 始文本语料中挑选出合适大小的语料;然后进行音库录制并对音库进行标 注,包括音段切分和韵律标注等: 3 )单元挑选算法设计和优化:大语料库合成系统的单元挑选算法一般分为两 步:首先是基于决策树或者其他索引方式的快速预选算法,得到一定数目候 选单元序列;然后再考虑候选单元的自身代价和连接代价进行精细的单元打 分,从而得到最优的拼接单元序列: 4 )单歹亡拼接算法:主要包括韵律调整和单元半滑。 虽然大语料库合成系统的合成语音

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论