基于分类回归树的汉语韵律短语识别方法_第1页
基于分类回归树的汉语韵律短语识别方法_第2页
基于分类回归树的汉语韵律短语识别方法_第3页
基于分类回归树的汉语韵律短语识别方法_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于分类回归树的汉语韵律短语识别方法

1其他汉语领域的研究节奏结构分析是文语转换系统的重要组成部分。准确地预测文本的韵律短语边界位置及其等级,是语音合成中的重要环节,它是合成自然、流畅的输出语音的重要前提和保证。目前的研究主要是从语音合成的角度,基于汉语文本信息,应用统计或者知识推理的方法进行韵律结构的预测。如:基于概率频度的统计模型方法;基于SLM的二叉树方法;最大熵模型方法;基于语法信息的方法;基于规则学习的方法等。这类研究往往需要基于较大规模的标注了韵律结构信息的汉语文本作为工作的前提和基础。一般地,人们采用人工标注的方法来获取语料,由标注人员直接对文本进行韵律信息的标注。但人工标注费时费力,而且容易受到标注者主观语音学和语言学知识的影响,造成循环论证的危机。由于韵律首先是一个感知概念,所以依赖感知得到的韵律结构才是最可靠和最客观的。另一类从声学语音学角度进行的工作研究汉语韵律结构边界的声学表现,分析语流中的无声停顿、语音拉长、基频重设以及边界音调等韵律特征,这些研究为本文的工作提供了理论基础和支持。本文提出了一种基于CART的韵律短语识别方法,结合从自然语音中获取的声学特征和从文本中获取的语言学特征,实现韵律短语的自动识别。2wi-1wi的韵律边界一般认为韵律结构有三个层级,从小到大依次是韵律词、韵律短语和语调短语。本文将韵律短语和语调短语统称为韵律短语,而韵律词不在本文考察范围之内。假设任意句子Sent=w1,w2,…,wn,wi(1≤i≤n)是句子中的第i个词。本文认为,每个词对(wi-1wi)之间都是一个潜在的韵律短语边界,它取值为0或1(0表示非韵律短语边界;1表示韵律短语边界)。所以,包含n个词的句子Sent共有n-1个潜在韵律短语边界,本文的任务和目标就是基于这些潜在韵律短语边界处的语境特征信息,利用分类回归树CART对它们做出判别,从而确定其边界类型。2.1两组文本分析及模型建立基于CART的韵律短语边界识别系统的结构以及数据处理流程如下图1所示。依据图1,CART识别系统由3个部分组成:(1)数据预处理:对语音语料作语音分析处理,提取音节时长、语音无声段等语音学信息;对文本语料进行文本分析,包括自动分词和拼音自动标注,获取语法词边界并计算边界在句中的位置及距离等语言学信息;然后,结合两类信息,计算并提取特征属性,形成CART的特征集。(2)CART建模:依据通过数据预处理从训练语料中提取的CART样本特征集,以及训练集提供的韵律结构信息,采用CART算法训练并建立韵律短语边界的CART识别模型。(3)韵律短语边界识别:利用建立的CART模型进行决策,对待处理语料中的词边界进行分类,自动识别并标注出韵律短语边界。2.2cart的算法流程CART是Breiman等人提出的一种基于二叉树的统计模型,它采用二分递归分割的技术,每次都会将当前样本集分割为两个子样本集,使得生成的决策树中的每个非叶子结点都有两个分枝。因此CART算法生成的决策树是结构简单的二叉树。假设包含n个样本的训练样本集Example={(vi,ci),i=1,…,n},其中:特征向量v=(a1,a2,…,am)且aj(j=1,…,m)为特征属性,vi是训练样本集中第i个样本的特征向量,ci是该样本的类别标记。CART的训练过程就是构造二叉树的过程,其算法流程可描述如下:(1)创建初始的根节点Root,它包含所有的训练样本。(2)对特征向量v中的每一个特征属性aj(j=1,…,m),用aj构成的问题对根结点进行提问测试,按照问题回答将根结点的样本集分裂为回答为“Yes”和回答为“No”的两个子集,并分别复制到左、右结点。这样,就能为当前根结点生成了两个子结点。(3)选择最优的那个提问将根结点分裂成两个子结点。假设结点T的某种分裂方式split将其划分为T1、T2,则该分裂方式split的GinimetricSplit(T)=S1/S*Giniscore(T1)+S2/S*Giniscore(T2),其中S是T中样本的个数,S1、S2分别为T1、T2中的样本个数。Ginimetric用来评估某种分裂方式的优劣,Ginimetric大的产生纯度较高的子结点,比较好。故选择拥有最大Ginimetric的分裂方式进行结点分裂。(4)使用贪婪算法,对每个新生成的子结点按照上述步骤不断分裂,直到每个结点中的所有样本都属于同一类,或者所有的特征属性都已被使用过为止,从而得到一棵最大的决策树。然后对这棵决策树进行剪枝,使用独立于训练样本集的测试样本集对子树的分类错误进行计算,找出分类错误最小的子树作为最终的分类模型。(5)CART的决策过程简单直观。在测试新样本时,从树的根结点开始,根据其属性值在已经生成的二叉树中查找,直到到达一个叶子结点为止。则该叶子结点的类别即作为测试样本的CART预测结果。2.3类前音节待分类的样本都是用由各个特征属性构成的向量表示的。对于分类器来说,特征的选择是非常重要的。参照声学语音学角度的研究成果,本文结合声学特征和语言学特征共同构造CART的特征集,特征属性包括:(1):Shm表示当前词边界前音节声母的类型,分零声母、塞音、擦音、塞擦音、鼻音、边音6类。(2)Ym:表示当前词边界前音节韵母的类型,分为单韵母、复韵母、鼻韵母3类。(3)Shd:表示当前词边界前音节的声调,分为阴平、阳平、上声、去声、轻声5类。(7)PLen:表示出现在当前词边界处的语音无声段的时长。(8)IsHead:表示当前词是否是句首词,若是则为“Y”,否则为“N”。(9)IsEnd:表示当前词是否是句尾词,若是则为“Y”,否则为“N”。(10)Dsn:表示当前词边界与句首之间的音节个数。(11)Wx:表示当前词边界的位置序号,包含n个词的句子共有n-1个词边界,位置序号从左到右依次为1,2,…,n-1。3实验与分析3.1语音/文本语料库本文的实验语料为770个不同类型的长句(共包含22226个词边界),覆盖新闻、小说、散文等方面。实验语料库分两种类型:(1)语音语料库:上述770个长句的录音,由专业播音员(女)按照正常语速朗读;(2)文本语料库:770个长句的文字稿,本文对文本进行了自动分词,并人工校对了其中的分词错误,然后由训练有素的标注人员采用文本结合语音的方式标注了韵律短语边界。将实验语料库按照1∶1的比例分为训练集和测试集两部分,即:从中随机抽取385个句子用于训练并生成CART模型,而将其余的385个句子用于开放测试。3.2效果评价指标评测实验效果的标准有两类:一类是主观标准,即对于每一个自动识别的结果,由专家为其打分,得分越高,表示效果越好;另一类是客观标准,即给出一个正确的标注,将自动识别结果与其对比,通过计算召回率、准确率等指标来评测自动识别的效果。有实验研究表明,客观标准的评测结果与主观标准是一致的。而采用客观标准不需要人工干预,可以自动进行,代价较小、效率较高,故本文选择客观标准来评测实验结果。3.3测试集和测量方法为了使得实验结果更具有一般性,本文由程序随机生成10组实验语料,每组语料都包括385句的训练集和385句的测试集。利用上述10组语料分别建立CART模型并进行测试,开放测试的结果如下表1所示(表中还列出了10组测试的平均值)。表1中4个测量指标的意义分别为:(1)Ntrain:表示CART训练集中训练样本的个数。(2)Ntest:表示CART测试集中测试样本的个数。(3)P0:表示在测试集的样本中,非韵律短语边界所占的比例。(4)Pre:表示识别准确率,且Pre=正确识别的样本个数/测试集的样本总数×100%。分析10组随机测试结果可以看出,若假定测试集中的所有词边界都是非韵律短语边界,则其平均准确率为79.51%;也就是说,若将所有词边界都预测为韵律短语边界,则其平均准确率仅为20.49%。本文采用分类回归树CART来分类测试集的样本,测试的平均识别准确率可达95.91%。4实验结果与分析对于韵律这一感知概念而言,一套超音段的标志节奏层次的韵律特征是话语组块结构的很好的说明物。因此,本文提出了基于声学和语言学特征并采用分类回归树CART从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论