版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、工程硕士学位论文写作范例Study on the Pavement Material of Pervious Concrete(申请清华大学工程硕士专业学位论文)培 养 单 位:计算机科学与技术系工程领域:计算机技术申 请 人:李 某指导教师:某某某教 授联合指导教师:某某某高 工二九年三月工程硕士学位论文写作说明李某关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校
2、可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容。本人保证遵守上述规定。作者签名: 导师签名: 日 期: 日 期: 摘 要摘 要情感是人类智能的重要方面。为建立和谐的人机交互环境,计算机自然需要具有理解情感和表达情感的能力。本文在声学层次上系统性地研究了情感的区分特征和感知特征,并提出了情感语音的叠加模型。论文的主要成果如下:1. 分析了. ,指出当前存在. 问题。研究了. 特点,提出了一种 算法,并通过. 实现了 。2. 提出了一种基于韵律强度的语音基频预测算法,. 。3. 设计了一个自学习的特征权值训练算法,提高了. 。4 实现了. 平台
3、,验证了. 的有效性。关键词:关键词1关键词2关键词3关键词4关键词5VIIIAbstractAbstractWith the rapid development of information technology, computer becomes an indispensable tool in our daily life. To make human-computer interaction friendlier, researchers of relevant research fields apply themselves on the development of new hum
4、an-computer interaction technologies. Speech, as the most natural way in human communication, is also in the center of attention. And the HCI (human-computer interface) technologies, which based on speech recognition, speech synthesis, and natural language understanding, have been recognized as the
5、most promising research direction.In recent years, as the development of statistical methods for speech synthesis, large corpus based Text-to-Speech (TTS) system has been able to synthesize high quality speech. But compared with human natural speech, the synthesized speech still has some shortages,
6、especially in prosody expression. In this thesis, speech prosody in Chinese Putonghua is first studied, and a conclusion is made that one problem with current prosody modeling methods is lack of a global-level prosody planning process. It also points out that the prosodic parameters for global-level
7、 prosody planning, such as prosodic strength, is in need. In chapter 2, a new prosodic strength estimation method based on Parallel Encoding and Target Approximation (PENTA) Model is introduced. In this estimation method, prosodic strength is taken as a latent variable in phrase-level prosodic plann
8、ing process, and prosodic strength function, which is a mapping function between acoustic prosodic parameters and prosodic strength, is represented with Neural Network. Based on the correlation between prosodic strength and speech unit target completion degree, prosodic strength functions are traine
9、d automatically with a speech corpus.In chapter 3, an F0 generation method based on prosodic strength is proposed. In this new F0 prediction method, the global prosody planning problem is tackled through adding a global prosodic strength planning process before pitch prediction for speech units. It
10、has been widely accepted that, in human speech communication there is a prosody pre-planning process for each prosodic phrase before articulation, and then syllables are articulated according to their pre-planned prosodic results. In this method, prosodic strength is chosen as the latent variable fo
11、r phrase level prosodic planning, and the prosody planning process is simulated with prosodic strength modeling. So in prosodic prediction, a prosodic strength planning is first done for each prosodic phrase, and then pitch contour of each syllable is predicted based on its assigned prosodic strengt
12、h and its prosodic context information.One difficulty in speech synthesis for embedded platform is how to customize the speech corpus to meet the different requirements from different embedded platforms. On this problem, a self-learning feature weights training algorithm and a speech corpus customiz
13、ation algorithm are proposed in chapter 4. With this method, given the size of target speech corpus, sample numbers of syllable classes will be determined automatically, and the synthesis results of different syllable classes can be made sure to be balanced.Keywords: prosodic strength prosodic model
14、 pitch prediction speech corpus customization HMM目 录目 录第1章 引言11.1 论文背景及意义11.2 国内外研究现状21.2.1 语音合成技术的研究现状21.3 论文主要内容3第2章 汉语韵律分析52.1 汉语的特点分析52.1.1 汉语声调的声学特性52.2 汉语语音的韵律52.2.1 汉语的韵律层级结构72.2.2 汉语重音的韵律分析72.3 韵律分析模型研究现状82.3.1 Stem-ML模型82.3.2 PENTA模型82.4 问题的提出92.5 基于目标逼近(TA)模型的韵律强度(prosodic Strength)计算112.5
15、.1 Target完成程度的估计112.5.2 Prosodic strength函数的定义122.5.3 Prosodic strength的训练122.6 实验及结果分析122.7 小结15第5章 总结与展望17参考文献19致 谢21声 明21附录AXXX23个人简历、在学期间发表的学术论文与研究成果25主要符号对照表主要符号对照表GMM高斯混合模型(Gaussian Mixtures Model)HMM隐含马尔科夫模型(Hidden Markov Model)LPC线性预测系数(Linear Prediction Coefficients)LPCC线性预测倒谱系数(Linear Pred
16、iction Cepstral Coefficients)AMCC自适应Mel倒谱系数(Adaptive Mel Cepstral Coefficients)MFCCMel频域倒谱系数(Mel Frequency Cepstral Coefficients)UBM统一背景模型(Universal Background Model)UELS无偏对数频谱估计(Unbiased Estimation of Log Spectrum)TI文本无关(Text-Independent)TD文本相关(Text-Dependent)ASI自动说话人辨识(Automatic Speaker Identifica
17、tion)ASV自动说话人确认(Automatic Speaker Verification)VQ矢量量化(Vector Quantization)FAR错误接受率(False Acceptance Rate)FRR错误拒绝率(False Rejection Rate)GMM高斯混合模型(Gaussian Mixtures Model)HMM隐含马尔科夫模型(Hidden Markov Model)LPC线性预测系数(Linear Prediction Coefficients)LPCC线性预测倒谱系数(Linear Prediction Cepstral Coefficients)AMCC自
18、适应Mel倒谱系数(Adaptive Mel Cepstral Coefficients)MFCCMel频域倒谱系数(Mel Frequency Cepstral Coefficients)UBM统一背景模型(Universal Background Model)UELS无偏对数频谱估计(Unbiased Estimation of Log Spectrum)TI文本无关(Text-Independent)TD文本相关(Text-Dependent)ASI自动说话人辨识(Automatic Speaker Identification)ASV自动说话人确认(Automatic Speaker
19、Verification)VQ矢量量化(Vector Quantization)FAR错误接受率(False Acceptance Rate)FRR错误拒绝率(False Rejection Rate)第1章 引言第1章 引言1.1 论文背景及意义文本所研究的语音合成(TTS)是利用计算机将输入的文本信息,按照自然语言的发音规则转换成语音输出,即使计算机具有“读”的功能的一项技术。一个语音合成系统,要实现高质量的语音合成,首先需要对所要合成的文本信息有很好的理解,这主要涉及到自然语言理解的问题;要使合成的语音符合人的说话的韵律形式,就需要人的自然语音的韵律变化状态及字音转换方面的知识;最后要完
20、成以上所有信息到具体合成语音的声学实现,主要涉及到语音信号处理等方面。总之语音合成系统本身涉及声学、语言学、数字信号处理、多媒体技术等多个领域,是中文信息处理领域的一项前沿技术。 脚注实际的语音合成过程一般是将输入的文字序列转换成音韵序列,再由语音合成器生成语音波形。整个过程一般第一步为文本分析处理,即按照语义、语法等规则对文本进行分词和标注,并将文字序列转换成字的音节序列;第二步为韵律分析预测,即根据语境、韵律规则和韵律模型,为每个音节或词组调整韵律参数,将音节序列转换成音韵序列。第三步语音声学合成,主要利用信号处理技术,按要求合成出符合上两步预测结构的高质量的语音流。因此,语音合成系统在结
21、构上通常可分为文本分析处理、韵律处理和声学处理三大模块,如图1.1所示。其中在文本分析处理模块主要模拟人对自然语言的理解过程,对输入的文本进行分析并给出后两个模块所需的各种发音提示,具体内容可划分为正则化、分词与词性标注、韵律结构预测、字音转换等几个部分。其中正则化部分主要负责将自然文本中存在在非汉字字符转换为汉字字符,比如数字格式的日期等。由于汉语的文本中词与词之间没有自然的分界,而自然语音中的韵律的节奏和文本中的词的边界有很大的关系,因此分词也是文本分析的重要任务之一。然后就是字音转换部分,主要负责将输入的文字序列转变为音节的序列。韵律处理模块的主要功能是为合成语音规划出音段特征,如音高、
22、时长和音强等,使合成语音能正确表达语意,听起来更加自然。因此,它是合成语音音质好坏的关键。韵律处理模块将根据语调、重音和节奏,对每个发音单元进行韵律调整,调整后的输出是包含“韵律信息”的音韵序列。声学处理模块利用音韵序列中的相应参数,从语音数据库中选取合适的语音基元拼接成句,再经过韵律修饰,就可以输出自然连续的语音流。作为人机交互的核心技术之一,语音合成技术一直是语音研究的重要领域,而且近年在技术和应用方面都取得了很大的发展。随着电子计算机的运算和存储能力的迅猛发展,语音合成技术由早期的基于规则的参数合成,到基于小样本的拼接调整合成,并逐渐发展为基于大语料库的拼接合成,到现在流行的基于隐马尔科
23、夫模型HMM的语音合成。与此同时,合成语音的自然度和音质都得到了明显的改善,基本可以实现人们的应用需求,从而促进了其在实际系统中的应用。目前,语音合成技术己经在自动应答呼叫中心(包括金融、电信和政府等)、电话信息查询(包括天气、交通和旅游等)、汽车导航以及电子邮件阅读等方面得到广泛的应用,同时针对娱乐和教育方面的应用也正在开展。总而言之,语音合成技术正在影响着现代社会的方方面面。1.2 国内外研究现状1.2.1 语音合成技术的研究现状1.2.1.1 三级节标题语音合成技术根据语音生成的方法大致可分为四种:发音参数合成方法,基于声道模型参数合成方法,拼接合成方法和基于统计模型的参数合成方法。其中
24、发音参数合成着重于对人的发音过程进行直接模拟,由于人的发音生理过程受各种因素的影响使具体的物理模拟过程与现实有很大差异,合成效果不理想。声道模型参数合成方法主要基于一个“激励源滤波器”(source-filter)的语音生成模型,它把人的声道看作成一个谐振腔,腔体的共振峰特性决定了语音的频谱特性,通过建立激励源模型和共振峰声道模型来合成自然语音。这种方法主要有共振峰合成器、LPC合成器等,但由于模型本身相对于实际的人的发声器官来说过于简单,生成的合成语音机器味很浓,自然度不理想。拼接合成方法与前两种通过对发声过程进行模拟的语音合成方式不同,采用通过对自然语言的分析,选择合适的基元单位,建立一定
25、规模的语料库;在合成时,在语料库中选择合适的基元将其拼接起来而完成完整的语音输出。一般拼接式合成系统结构如图1.2所示:文本分析基元选取韵律分析拼接合成语音输出基元库文本输入图1.2拼接式语音合成系统结构图由于编解码保存了语音的绝大部分信息,自然度很高。但是由于人实际说话时的自然语流并不仅仅是各个孤立语音的简单拼接,所以整体效果自然度不好。1.3 论文主要内容23第2章 汉语韵律分析第2章 汉语韵律分析2.1 汉语的特点分析汉语普通话是以北方话为基础方言,以北京语音为标准音,以现代白话文作为语法规范的语言。汉语与其他的西方语言有很大的不同,主要表现在一字一音或一字多音,而由不同字的组合构成了无
26、限多个词汇,不同词汇的组合又构成了表达一定意义的句子,但是相同发音的词汇甚至句子在不同的语境中表达的意思却可能千差万别。音素是语音学的基本单位,是指发出各不相同声音的最小单位。汉语中有64个音素,它们构成了声母和韵母两大类。汉语拼音中有21个声母和38个韵母,声母和韵母共计59个,声母和韵母再组成音节。汉语无调音节有417个,由于每个音节又有不同的声调,因此汉语的有调音节为1332个,无调音节和有调音节加起来,总计为1700多个音节。总体上汉语语音主要有以下特点:2.1.1 汉语声调的声学特性声调主要表现人的声带振动情况,它的声学表现是语音的基音频率的高低及其基音频率值随时间的变化趋势。因此,
27、要完成一个声调的发音必须要持续一定的时长,这样才能被人们正确地感知,从声学参数角度来说就是要有一段连续的基频变化曲线,即声调曲线。对于汉语来说,音节声调的变化主要通过音节的浊音部分的基频变化来表现,通常采用音节韵母段中基频变化的轨迹来确定音节的声调曲线。在8385中提出,一个完整的汉语音节声调曲线可以分为3个部分:弯头段(头部)、调型段(中部)和降尾段(尾部)。2.2 汉语语音的韵律语音中的韵律主要是指自然语音中轻重、节奏,语调等方面的变化。韵律在自然语言交流中起着非常重要的作用,它不仅是清楚表达语义的关键,而且能反映说话人的态度、意向、情绪以及对听话人的期望等信息。重音和语调是自然语音中韵律
28、表现最突出的两个方面。比如,我们在表达一个疑问句和陈述句之间的区别,是通过语调的改变和用我们发音的基频变化来产生疑问的。语调的变化还可以传达一个说话人的情感状态、性别、健康情况等81。而重音在谈话中通常被用于表明句子语义的重心所在。例如,陈述句:“小明拿走了书包”这一句话,当重心放在“小明”和“书包”两个不同的位置是所表达的意思就有很大的不同,虽然字面上仍是一样的,但是对于说话人和听话人来说具有不同的意思。这也是自然语言相对与书面语言一个优势的方面,在书面语言中,还没有更好的方法来表达重音和语调,这两个韵律特征只在在语音中才有明显的表现。从感知的角度来看,韵律主要为听觉特征,韵律包含了说话人的
29、意图信息和听话人的感知信息,它在帮助听话人理解语言及意图时十分有用。从生理上来看,韵律的实现是发音人在完成发音的同时,与发音声调的高低、用力的大小以及持续时间的长短等因素总体作用的结果12。从声学的角度上看,韵律对应的声学特征主要表现在语音的基频、时长、能量和频谱的变化。从听觉的角度上看,可以用音高、时长、音强和音色四个语音听觉特征来描述。其中基频是韵律特征中最主要的声学特征,说话过程中,主要通过声音基频的高低和变化模式反映说话人的情绪、语句内容的不同等。此外,语音中适当的停顿也是韵律的一个很重要的成分。在汉语语音中,音节是最基本单元,然后由音节组成词,由词构成句子。在汉语语音合成中,音节也通
30、常被选用做语音合成的基本单元,音节的基频、时长、能量作为表示韵律的声学参数。但是在连续自然语音中同一个汉语音节在不同的语流环境中,由于发音器官运动轨迹的连续性和众多发音习惯的制约,其韵律声学参数都会发生相应的改变。而且韵律本身也是通过连续音节的韵律变化表现出来的,因此韵律特征也被称为“超音段特征”,因此要对汉语语音中音节的韵律进行研究必须同基元所在的上下文相结合才行。也就是说自然语音中一个韵律单元的各个声学参数之间都不是相互独立的,而是相互配合在一起共同完成发音人对所要表达内容的声学实现。在语音的研究中也普遍认为,人在讲话时总是先将意识层要表达的信息转化成语言层和音系层的表达手段,如选择怎样的
31、措辞及句式,怎样的语调、轻重变化模式、节律模式等,最后再通过发音人的声学器官来完成音系层和语言层所规划的目标。对于语音合成系统来说,韵律预测的水平对合成语音的自然度关系极大,甚至会影响合成语音的可懂度,也只有当合成语音中各个音节的韵律特征的参数更新与所处的语流环境协调一致时,才能获得高自然度的语音输出。2.2.1 汉语的韵律层级结构在连续自然语流中由于达意和节奏的需要,说话时对于音节序列的发音是按组完成,即节奏群。在节奏群内音节与音节之间连接紧密,整体语调曲线连贯,而且节奏群内音节基频曲线整体上呈现下降的趋势;在节奏群之间则会插入停顿,在后一个节奏群的开始通常基频将重置89。在节奏群内部音节间
32、相互连接的紧密程度也是有所不同的,通常共同构成一个词的音节间连接相对会更紧密一些,这样在整个节奏群中也可以通过音节间不同的紧密程度将整个语句韵律表现为一个层次结构。关于语言的韵律层级,各家说法不同,所用术语也不统一17。在韵律音系学里,一般认为,韵律域从小到大可依次分为:莫拉、音节、音步、音系词、附着语素词组、音系短语、语调短语和韵律语句。但通常,人们将汉语韵律层级简化为三个层级:韵律词、韵律短语和语调短语89。广义地说,韵律结构应包括重音、节奏和语调三方面的结构,例如重音的位置分布及其等级差异;韵律边界的位置分布及其等级差异;语调的基本架构及其与声调和重音的关系等。狭义地说,韵律结构主要指话
33、语节奏的层次性组织,包括韵律词的构成以及各韵律成分边界的界定等等,通常叫做韵律切分。从表面上看,语言信息呈线性排列,在时间上依次出现;但从话语生成的本质上看,语言信息在时间域并不是线性地平均分配,而是以非线性的、层级的形式分布,并且是非递归的50。按照韵律的层级结构,可以采用韵律结构树的方法,将任何一个句子非递归地从高到低、依序分解成语调短语、韵律短语和韵律词,其中韵律短语和韵律词是现实应用系统常用的韵律单位。2.2.2 汉语重音的韵律分析重音一般是通过对连续语流中某个字或词的发音在一定的范围内韵律特征的凸显表现出来的,也就是说受到重读的字或词的韵律特征明显地不同于相邻单元的韵律特征29。研究
34、表明,汉语重音的韵律声学特征表现在音高和时长的变化,即音域扩大(增高声调域的上限)和时长延长两个方面,其次才是音强的增加。许洁萍等8882经过实验也得出了相似的结论。曹剑芬59认为,重音是韵律四要素综合增强的效应,其中主要是音节时长显著加长,音高变化突出,具体表现为音阶或音闭的抬高或下沉,音域变化范围增大;然后是音强的相对提高,音色也更加典型。从感知的角度来看,如果一个字或词组成为重音可以通过音高、时长、音强和停顿来表征81。例如,在连续语流中,提高某个字或词组的音高,可以起到警示或强调作用;拉长音节时长可以在心理上起到暗示作用;提高声音的幅度可增加人们的注意力;在字或词组前加入停顿,在听觉上
35、会凸现重点。传统的语音研究中曾经把音强和重音等同起来,这是片面的。重音不仅和音强有关,更和时长、音高有关。时长越长、音高越高、跨越的调域越广,重音越明显。例如“ji,shu技术”重心在前一个音节,而“ji,shu计数”重心在后一个音节。尽管两个词组的发音完全相同,但是由于它们发音时的重音位置不同,其音高和时长也不同,则词组表达的意思完全不同,因此重音的作用和意义非常明显,如图2.2所示。.2.3 韵律分析模型研究现状在语音韵律模型方面的研究主要分为两个方面,一个方面是音系学方面的研究人员为解释语音中的韵律现象而提出的韵律分析模型方面的研究4,主要代表有Shih提出的Stem-ML模型和XuYi
36、的PENTA模型,而另一个方面为语音合成和语音识别的研究人员所提出的为在实际的系统中应用的韵律预测模型7172,目前主要是基于数据驱动的韵律预测模型,比如基于上下文决策树的2,基于概率的韵律预测模型3050等。在这一部分我们主要针对Stem-ML和PENTA这两个韵律分析模型进行简单介绍。2.3.1 Stem-ML模型2.3.2 PENTA模型2.4 问题的提出要实现高自然度的语音合成,韵律预测是最重要的工作之一。目前语音合成系统中使用的韵律预测模型大多是基于数据驱动的方法,比如基于决策树方法,基于概率的统计模型10等等,主要是基于上下文聚类的方法对声学层韵律参数进行预测。上下文聚类中采用的上
37、下文信息主要有韵律层级结构信息,音节自身属性,及前后音节属性信息等5,而相对于自然语音中的复杂多变的韵律来说这些上下文信息是远远不够。由于有限上下文信息的限制,当前的韵律预测方法只能够应付一般性的韵律变化,对于相对复杂的韵律现象就显得不足,比如自然语音普遍存在的轻重读9192现象。在自然语音的同一韵律节奏单元中,不同音节总是受到不同形式的轻读或重读,这样使语音中的韵律更加丰富多彩36。而且从这些音节的不同轻重读和节奏中,我们可以理解到比字面上更多的信息,比如说话人的态度、意图等等,事实上这些信息就是由语音的韵律特征所表现出来的。在我们对录制的语料库中的语音的观察中发现,虽然录音人已经尽量使用中
38、性且不附加任何个人意图的表达方式进行语音的录制,在语音节奏中仍普遍存在着不同的轻读和重读53。并且,文本中也总是存在着一些很自然的句子重心,语义重心,比如一些转折词之类,他们就也很自然地受到相对的重读,而其他一些不重要的成分,比如一些辅助词,则自然地受到相对的轻读。这在某种程度上说明了,在正常自然语音表达过程中,语句中各个单元在语义上的不平等性必然会引起语音中不同单元间不同的轻重读现象,而且这一现象是自然语音韵律中不可缺少的一部分。因此要使语音合成系统达到自然语音韵律的合成效果,就要求我们在韵律建模中也要能够描述这种韵律现象9192。关于自然语音中普遍存在的轻重读现象,13中通过对实验室录制语
39、音与日常语音之间的区别的研究,认为日常语音与录制语音之间最大的区别就是日常语音中partial reduction现象十分明显,语音单元的发音一般都不是完全完整的,这一点造成了实验室中利用录制语音建立的语音模型在描述日常语音时表现很差92,指出这其中主要原因可能是当前韵律模型中在语句规划和发音建模之间缺乏一个用来描述语音中的韵律规划的桥梁14。因此,要完成自然语音中这种韵律变化的描述有必要在当前的韵律预测模型中加入韵律规划的能力。关于在全局层次的韵律规划,音系学方面学者已经从韵律分析的角度做了深入研究,也取得了很多研究成果。在当前的主要韵律分析模型,比如前面一节所介绍的Stem-ML和PENT
40、A模型,已经可以引入了各自的韵律特征来对自然语音中的韵律规划现象进行解释。比如Stem-ML模型中的目标权值(target weight)参数。在Stem-ML模型中认为每个语音单元都隐含着一个目标权值,它在概念上表示说话人对此语音单元的发音完整的重视程度。因为现实语音总是追求在最省力的条件下,完成自己说话的任务,因此从目标权值的角度来说就是,追求整体目标权值和最小的情况下,尽量表达清楚自己要说的内容。所以在语音表达的过程中应该有一个各个语音单元的目标权值的规划过程,然后各个单元按照自己的权值做出一定程度的轻读或重读。另外在PENTA模型中也有发音强度(articulation strengt
41、h)参数来描述类似的概念。但是如何将韵律分析方面所取得的研究成果应用到实际韵律预测系统中还有一定的困难,主要表现在韵律分析模型中大多建立在自然语音交流中从人的心理的角度或实际发音中生理上的约束这两个方面体现的抽象韵律特征的基础上,而这些韵律特征大多只是定性的描述而没有准确的量化方法,从而在实际的韵律预测系统中难以使用,而这也造成了韵律分析模型在实际韵律韵律模型中应用的困难。在如何对prosodic strength进行量化计算,也有研究人员进行了初步的尝试。比如在28中,提出使用prosodic strength来描述每个音节的目标权值,并且提出了一种基于Stem-ML模型的prosodic
42、strength计算方法。该方法主要利用基频信息完成prosodic strength的计算,具体方法为:首先基于Stem-ML模型,拟合现有的基频曲线,得到可最佳表示此基频曲线的Stem-ML模型参数,然后将此参数与各个声调的参数模板相比较,通过与参数模板间的差距来计算各个音节的prosodic strength,差异越大意味着音节偏离基本形态越严重,相应prosodic strength也越大。但是此方法仍严重依赖于对原始语音数据的Stem-ML标注,而目前也没有较好的Stem-ML自动标注方法,因此很难在当前以数据驱动方法为主的韵律预测模型中使用。在此我们提出了一个基于target思想的
43、prosodic strength计算方法。在我们的计算方法中,利用人在实际发音过程中prosodic strength与韵律单元的target实现情况之间的相关性,以及不同韵律单元target形式的相关性,完全采用数据驱动和机器学习的方法完成对音节的prosodic strength的估计工作。2.5 基于目标逼近(TA)模型的韵律强度(prosodic Strength)计算基于目标逼近(TA)模型,我们可以认为对音节的预先规划主要是对各个音节目标(target)的规划,而实际的发音过程是对规划的音节target的实现的过程。另外由于韵律强度(prosodic strength)作为一种内
44、在的strength,可以看做是实现音节target的激励。整个发音过程可以解释为在整体prosodic strength尽量小的前提下,尽量好的完成对各个音节的target的实现26;由于不同音节在实际的语句中有不同的重要性,表现在实际的发音过程中对各个音节target实现程度的要求也不尽相同,所消耗的prosodic strength也相应不同。基于以上分析,我们首先凭经验给出一种对音节target完成程度进行估计的方法,然后根据音节target完成程度提出了一种基于TA模型的prosodic strength计算方法。2.5.1 Target完成程度的估计汉语是一种有调语言,在实际语言表
45、达过程中声调占有很重要的位置,即在实现汉语音节target的过程中对声调的实现是必需的。因此,为完成prosodic strength的计算,首先为汉语普通话的每种声调定义了一个衡量该声调target实现程度的函数,用以描述一个音节的target完成程度。而声调在声学参数上主要表现为基频的变化规律,因此我们通过音节基频信息估算出音节对声调完成的程度4373,并以此来表示该音节的target完成程度。表2.1不同声调音节target完成程度计算声调类型完成程度计算阴平阳平上声去声在普通话中,对于阴平和上声分别为基频高线和基频低线,主要为水平状态,而且好的音节实现除了基频值越高越好(对于上声越低越
46、好)还应当保持基频变化范围应当较小。而对于阳平和去声这两个声调,基频变化范围较大。对各声调target的具体形式如表2.1。其中各个参数的定义如表2.2所示:2.5.2 Prosodic strength函数的定义由于prosodic strength为在发音过程中起韵律规划作用的隐式strength,可以合理假设语音中的各声学参数是这种内在strength的激励下通过整个声学发音系统后表现出来的。从生理上看人的声学发音系统随着音节不同有不同的发音方式,而对于同类音节发音方式是类似的。由此可以合理推理出:对于同类音节,prosodic strength在声学参数上的表现形式是类似的。对于汉语来
47、说,一般每个音节都是由清音和浊音两部分组成,清音在声学上的表现相对较弱,浊音整体上占主导作用。通过我们对实际语音参数的观察理解,可以认为对于相同声调的浊音其发音时声学系统的基本特性是类似的,即可认为其prosodic strength的表现方式是类似的,因此相同声调的浊音的prosodic strength计算可以采用同一个映射关系来表示。我们采用神经网络函数来描述各类音节的prosodic strength与声学参数之间的关系,采用按有调音节的韵母信息(对应于音节的浊音段)对音节进行分类,具有相同声调、相同韵母的有调音节作为一类训练一个神经网络函数;所选取的声学参数主要为音节样本的基频与能量
48、,同时也考虑了音节时长的影响。对单个音节的prosodic strength计算方法是:将整个音节平均分为5部分,对每部分分别计算prosodic strength。对于第i(i = 1.5)部分,其prosodic strength具体表示为(22)其中f为音节对应类型的prosodic strength函数,pi为第i段的基频均值、pi为第i段的基频一阶差分的平均值,pi*为第i段去除超音段后的基频均值,Ei为第i段的能量均值,其中超音段基频值的计算采用了65中提出的方法。2.5.3 Prosodic strength的训练2.6 实验及结果分析实验中所采用的语料库共包括5000个句子,所
49、有语句经过人工标注的韵律结构,采用praat提取语音中的声学参数。在其中,我们选用了1500个4音节以上的韵律短语,作为训练数据。首先根据我们选择的target实现程度函数对训练数据中所有音节估算target实现程度,然后利用上文提出的方法对各类prosodic strength函数进行训练。将所有音节的target实现程度和及其prosodic strength,按不同声调统计结果如表2.3所示。从表中可以看出,整体来看阴平音节的target实现相对较好,而上声的target实现均值是最低的,但是其prosodic strength的均值却比阴平音节的均值要高,这与一般认为上声的音节本身发音
50、难度就是较大的,而完成阴平发音相对最简单这一事实相符90。表2.3 不同声调音节的target实现程度和prosodic strength的统计情况声调类型Target均值Target方差strength均值Strength方差阴平1.9301.9231.5090.914阳平1.4561.9192.4590.601上声0.5030.7781.8420.833去声1.2281.0802.7390.959另外,我们比较了不同声调的音节prosodic strength值在不同target完成程度时的分布情况。由于对于不同的声调我们采用的是不同的target实现程度估计方法,因此不同类音节的targ
51、et实现程度之间不具备可比性,在这里我们是将各类音节的target实现程度正则化后,统计各类音节不同target实现程度下的prosodic strength的均值。具体情况如图2.5所示:图2.5 各声调音节prosodic strength与音节target完成程度之间的关系从图2.5中可以清楚的看到prosodic strength和target完成程度之间一致的关系。虽然在prosodic strength的估算中,我们利用了target完成程度作为参考,但我们只是假设相近target实现程度的prosodic strength也相近的假设,对于不同target实现程度音节间的pros
52、odic strength没有做出任何假设,因此说明了我们的方法的有效性。另外我们还统计了音节位于韵律词中各个不同位置时prosodic strength的分布情况,我们将音节在韵律词中的位置分为三种情况,其中起始位置用1表示,末尾位置用3表示,中间部分都采用2表示。统计结果如下表所示。从表中可以看出,除了阳平音节外,其余音节的prosodic strength都在韵律词中呈下降趋势,其中位于韵律词末尾的去声音节和其他去声音节相比变化尤为明显。这一点和Greg在28中统计的prosodic strength在韵律词中的变化趋势是一致的。表2.4不同声调音节prosodic strength与韵
53、律词中位置之间的关系音节类型123阴平1.5461.4671.459阳平2.4892.4142.493上声1.8961.8831.743去声2.9502.9152.4902.7 小结本章首先对汉语普通话中的韵律现象进行分析,并结合当前韵律分析模型中的研究成果,指出当前语音合成系统在韵律建模方面存在一个显著问题就是缺乏全局层次的韵律规划能力。鉴于不同韵律分析模型中都分别提出将prosodic strength作为人发音过程中韵律规划的中间变量,但目前仍缺乏一种对prosodic strength进行有效估计的方法,本章首先基于TA模型提出了新的prosodic strength计算方法,并通过实
54、验证明了本计算方法的有效性。关于如何将prosodic strength用于实际的基频预测,解决全局层次韵律规划的问题将在下一章介绍。第5章 总结与展望第5章 总结与展望近年来随着统计学习在语音合成领域的应用,大规模语料库的持续发展,合成语音的效果得到了明显的提高。但与自然语音相比,合成语音还有很多不足,尤其是在对语音韵律的表现方面。而韵律作为语音相对于文本独有的特性,在语音表达和交流有重要的作用,也是评价合成语音自然度的重要参考信息。本文首先对汉语普通话中的韵律现象以及当前语音合成系统的韵律预测方法进行了细致的分析,得出结论:当前语音合成系统在韵律建模方面的主要表现在全局层次的韵律规划能力的
55、不足。为了解决这个问题,本文提出了一种基于TA模型的prosodic strength估计方法,并利用prosodic strength来从宏观的范围内对韵律变化模式进行描述。然后我们提出一种基于prosodic strength的基频建模方法,利用prosodic strength作为韵律全局规划过程中的隐变量,基于PENTA模型提出一种新的基频预测方法。由于该方法将单个音节的预测的基频曲线建立在对音节的预测的prosodic strength的基础上,相对于当前的韵律建模方式,对韵律层次结构中长距离单元间的韵律交互作用(interaction)有更好的描述。要将语音合成系统应用到嵌入式平台
56、,重要的工作是针对不同嵌入式平台的进行不同规模的音库定制。本文在第四章提出了一个自学习的衡量同类音节样本间距离的权值训练算法以及一个基于决策树的音库定制算法。此音库定制算法接受所需要的语料库的大小作为输入,利用权值训练算法中训练的特征权值自动完成定制后各类音节样本数目的分析,完成代表语音样本的选择工作。参考文献参考文献1 Elidrissi M C, Roney A, Frigon C, et al. Measurements of total kinetic-energy released to the N=2 dissociation limit of H2 - evidence of the dissociation of very high vibrational Rydberg states of H2 by doubly-excited states. Chem. Phys. Lett. 1994, 224:260-2662 Yiannopoulou A, Urbanski K, Lyyra A M, et al. Perturbation fa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林大学《机械CAD基础Ⅰ》2021-2022学年第一学期期末试卷
- 2024市集体合同范本范文
- 海洋工程施工安全与生态保护方案
- 办公室饮水机安装方案
- 城市绿化养护人员招聘与绩效考核方案
- 工业厂房外墙保温施工方案
- 2022年-2023年三支一扶之公共基础知识检测试卷B卷(附答案)
- 课件片头制作教学课件
- 教心含见习学习通超星期末考试答案章节答案2024年
- 中央厨房明厨亮灶标准化制度
- 医保定点变更承诺书模板
- 井队搬家合同范本
- 神经系统肿瘤
- 危重症患者疼痛与意识状态的评估
- 城市生命线安全风险综合监测预警平台解决方案
- 景观艺术设计智慧树知到期末考试答案章节答案2024年天津美术学院
- 中药独活课件
- 2024春期国开电大法学本科《知识产权法》在线形考(第一至四次形考任务)试题及答案
- 骨科术后疼痛护理
- 产科医生进修汇报
- 八年级语文(完整版)标点符号及使用练习题及答案
评论
0/150
提交评论