（信号与信息处理专业论文）汉语文语转换系统的研究及其应用.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：79 大小：2.86MB 积分：0 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

（信号与信息处理专业论文）汉语文语转换系统的研究及其应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京交通大学硕士研究生学位论文中文摘要摘要文语转换是一种比较高级的、有广泛应用价值的计算机语音输出的形式，具有广泛的应用前景。本论文针对主要合成基元为词的汉语文语转换系统，从制约其合成音质的几个角度出发进行研究。由于词的切分的准确率和歧义切分正确率直接影响输出语音的自然度，本文对词的切分和歧义消除算法进行研究并给出了改进方案，即在双向最大匹配分词算法的基础上采用n n s v m来消除交集型歧义。韵律特征与合成语句的自然度和连贯性关系极大，本文还从音高、时长和能量几个角度来研究文语转换系统中的韵律处理，概括了词的基频、时长、能量在连续语流中的变化规则。最后，从实用化角度出发，开发出应用于首都机场终端信息系统 ( a t i s )的实用的汉语文语转换系统. 此系统运用波形拼接的合成方法，以词为主要合成基元，专用语句为辅助基元，系统经测听合成质量可以达到新闻广播水平。关键词:文语转换 ( t t s )、分词、歧义切分、支持向量机、最近邻、韵律调整、波形拼接、基音同步叠加、语音库北京交通大学硕士研究生学位论文英文摘要 ab s t r a c t t h e t e x t - t o - s p e e c h s y s t e m i s a n a d v a n c e d a n d u s e fu l m e t h o d f o r a u d i o o u t p u t o f c o mp u t e r a n d i t w a s a p p l ie d i n m a n y f i e l d s a i me d a t t h e c h i n e s e t t s w h i c h t a k e s w o r d a s i t s s y n t h e t i c u n i t , t h i s t h e s i s c a r r i e s o n e x t e n s i v e r e s e a r c h o n s e v e r a l f a c t o r s t h a t i s i n t h e w a y o f i m p r o v i n g t h e q u a l i ty o f s y n t h e t i c s p e e c h . b e c a u s e t h e a c c u r a c y o f w o r d s e g m e n t a n d a m b i g u it i e s a f f e c t t h e n a t u r a l n e s s o f t h e r e s u l t o f t h e t t s s y s t e m , t h i s t h e s i s f o c u s e d o n t h e s t u d y o f w o r d s e g m e n t a n d a mb i g u i t i e s . we u s e d t h e t w o d i r e c t i o n ma x i m a l m a t c h m e t h o d t o g e t h e r w i t h n e a r e s t - n e i g h b o r s u p p o rt v e c t o r m a c h i n e t o a v o i d a m b i g u i t i e s . t h e a u t h o r a l s o g e n e r a l i z e d t h e c h a n g i n g r u l e s o f t h e s u p r a - s e g m e n t a l f e a t u r e s i n c l u d i n g p i t c h , d u r a t i o n , a n d e n e r g y , i n o n e b r e a t h i n g g r o u p . wi t h t h e re s u l t o f t h e s t u d y , t h e a i r p o rt t e r m i n a t io n in fo r m a ti o n s y s te m h a s b e e n d e v e lo p e d a n d it a d o p ts t h e w a v e f o r m - c o n c a t e n a t i o n t e c h n i q u e b a s e d m a i n l y o n w o r d a n d t d - p s o l a t e c h n i q u e . t h e s y n t h e t i c s p e e c h a c h i e v e s t h e q u a l i ty o f b r o a d c a s t s p e e c h . k e y w o r d s : t e x t - t o - s p e e c h , w o r d s e g m e n t a t i o n , s p e e c h s y n t h e s i s , c ro s s i n g a m b i g u i t i e s , s u p p o rt v e c t o r m a c h i n e , n e a r e s t n e i g h b o r a l g o r i t h m , s y n t h e t i c u n i t , w a v e f o r m- c o n c a t e n a t i o n , c h i n e s e s p e e c h d a t a b a s e 5 8 6 3 2 1 独创性说明本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知，除了本文中特别加以标注和致谢的地方外，论文中不包含其他人己经发表或撰写过的研究成果，也不包括为获得北京交通大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期: 关于论文使用授权的说明本人完全了解北京交通大学有关保留，使用学位论文的规定，即:学校有权保留送交论文的复印件，允许论文被查阅和借阅;学校可以公布论文的全部或部分内容，可以采用影印，缩印或其它复印手段保存论文。论文中所有创新和成果归北京交通大学信息科学研究所所有。未经许可，任何单位和个人不得拷贝。版权所有，违者必究。签名: 导师签名:日期北京交通大学硕士研究生学位论文第一章第一章绪论本章简述了汉语文语转换系统研究的意义，介绍了文语转换的研究背景及其现状，最后给出了本论文研究的主要问题和论文的安排。 1 . 1课题的意义人类进入现代社会，依靠各种工程系统来从事劳动、生产和科学研究。当人们操纵这些工程系统时，就自然而然地出现了人与机器之间的信息交流，即系统不断报告自己的运行状态和结果，而人们根据这些状态和结果来发出下一步应进入何种状态的命令，这就是人机对话。随着电子技术的发展，可以很方便地把各种工程状态转换成易于传输，经过加工处理后可以集中反映各种信息的信号，例如数字、曲线、图表、声响等，人们对系统的操纵和控制不采用直接方式，而是向系统输入各种指令信号 ( 如数字、符号、状态等) ，系统则根据这些指令进入规定的运行状态。因此，只有当人、机之间以规定的信号方式进行信息交流时，才开始有了人机对话。目前，计算机大多采用屏幕显示这种单调的信息输出方式，这给用户带来许多不便，特别是在有大量信息输出的情况下。长时间地注视显示屏容易使人疲劳，并会降低人获取信息和理解信息的效率。这种枯燥单一的交互方式影响了计算机的应用。如果计算机具备说话的能力，具有对信息进行讲解的能力，就能提供声文并茂的信息表示方式，可以改变人机交互 “ 默默无闻” 的状况，为计算机的普及应用创造更好的条件。同时语音是众多信息载体中具有较大信息量的信号，提高计算机系统智能化水平有效的途径之一就是寻求最好的语音信息交互手段。利用语音进行信息输出可以使人机界面进入一个自然和谐的新时代。北京交通大学硕士研究生学位论文第一聋而对文语转换系统研究的目的就是要使新一代的计算机具有与人进行良好的沟通能力，“ 让机器像人一样开口说话” 。这与传统的声音回放设备有着本质的区别。传统的声音回放设备，是通过预先录制声音然后回放来实现 “ 让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机文语转换系统则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器 “ 像人一样开口说话”。文语转换 ( t e x t t o s p e e c h 缩写为t t s ) 是一种比较高级的、有广泛应用价值的计算机语音输出的形式，具有广泛的应用前景，如各种信息发布系统、语音自动应答系统、语音电子邮件、计算机辅助教学、语音校对等。其中语音自动应答综合应用系统是指语音应答这一个方面而言的，实现从机器到人，实现对信息请求做出回答的功能。信息发布是根据实时采集的信息进行广播，通过文语转换来进行输出。文语转换系统对我们的生活方式，生产和科研活动都具有很大的影响力。不论是家庭民用产品与装置、商业与银行，还是检测与控制系统中，文语转换系统都发挥了及其重要的作用。文语转换系统可以使计算机模拟人类的声音。比如，当您驱车在高速公路上行驶时，车载计算机可以为您朗读电子邮件。在国外语音技术的应用已经相当成熟而进入到民用产品，诸如一辆轿车车门关紧没关紧、汽油是否用完、车速的报告等，都是通过文语转换系统来完成的，这些也值得我国同行去关注。中国是一个拥有十三亿人口的国家，一个高清晰度，高自然度的汉语文语转换系统将拥有广泛的市场。 2 0 世纪6 0 年代，英语 t t s 系统首先被研制成功。 2 0 世纪8 0 年代，我国开始介入汉语语音合成领域的研究，中科院声学所首先开始汉语合成的研究。之后，社科院语言所、清华大学、中国科技大学、北京交通大学等单位陆续开展了对汉语t t s 的研究，并且都取得了很好的成绩。、在国家 “ 8 6 3 智能计算机主题的支持下，汉语t t s 技术有了长足北京交通大学硕士研究生学位论文第一章的进步。目前该项技术己引起了世界上许多著名的计算机厂商或公司的关注。世界上i t 业一些大公司如mi c r o s o ft , i b m, i n t e l , n o k i a , l u c e n t , p h l i p s , d r a g o n 等都在中国投入大量资金和人力，以竞争语音市场。i n t e l 于1 9 9 8 年1 0 月，在北京主持召开了 “ 9 8 国际语音技术论坛”，并表示要投入五千万美元进行语音技术的研究;mi c r o s o ft 则在北京成立了继英国剑桥之后在美国本土以外的第二个研究院 1 ，其主要的一个研究课题就是使得“ 计算机能说、能听、会看、会学习” ，并把说摆到了首位。 b e n 实验室、 a t r , i b m和s i e me n s 公司已研制出多种语言的t t s 系统，如汉、英、法、日、德等。其应用领域也在不断的扩大，法国c n e t 公司已将其多语种t t s 系统运用于电话网中的公共话音服务。由国内的发展和国际动态可见，作为能使计算机说话的文语转换技术确实具有广泛和深刻的划时代意义。 1 . 2 文语转换系统的关键问题文语转换方面的研究已经经历了不短的时间，并且在各个方面都取得了很多的成就。一般来说，衡量一个文语转换系统质量好坏的三个标准是输出语音的可懂度、自然度和连贯性。可懂度，在某些书上又称清晰度，是指合成语音能让人听明白的程度;自然度指的是输出语音接近人的自然语言的程度，这主要表现在语调上;连贯性用来评价合成语句是否流畅。实际上，这三个方面是相辅相成的。可懂度低就根本谈不上什么自然度和连贯性;自然度高，连贯性好则肯定提高了可懂度.但更进一步的说，这三个标准还是存在阶梯性的，从下至上分别是可懂度、自然度、连贯性。可懂度是对文语转换系统的最基本的要求，先在可懂度达到要求的基础上再进一步改善自然度和连惯性。目前的汉语文语转换系统在可懂度方面已基本上达到了人们的要求，然而在自然度和连贯性方面还远不及人意，所以关于文语转换系统的研究主要集中在如何提高其输出语音的自然度上.对于文语转换系统的北京交通大学硕士研究生学位论文第一章研究我们可以从文语转换系统的几个环节，包括语言学处理、语音学处理以及语音合成技术等找出文语转换系统的关键问题所在 : 首先，文语转换系统中的语言学处理还很不完善。语言学处理对合成语音的音质有重要影响，特别是在自然度方面。它涉及到自然语言理解，而自然语言理解是言语工程的一个至难点。虽然说对此已经进行了很大量的研究，己有了一些成果，但还很不完善。并且，己有的成果在计算机上实现起来算法都很复杂，不易于实时实现。因此目前的汉语文语转换系统语言学处理是当今汉语文语转换中比较薄弱的环节，由于对于语义分析来说目前计算机处理起来还是相当困难的，在现有的系统中一般只包括文本规划、分词、特殊字、句法分析等处理，而在这些处理中也存在潜不少问题，比如分词就经常会出现出现歧义的现象，这势必会影响合成语音的质量。其次，文语转换系统中缺乏成熟的韵律调整规则。所谓韵律特征指的是音高、音长和能量等超音段的特征。它是语音合成自然度的关键，同时还影响着可懂度。汉语是一种动听的语言，汉语广播言语抑扬顿挫、轻重相随，缓急相间，节奏分明。目前的汉语文语转换系统普遍存在着机器味太浓的问题，其主要原因就是缺乏韵律。对于韵律规则的摸索己经开展了许多工作，并已取得了卓有成效的成绩，但这些规则还都很零碎，还没有系统化。一个自成体系的，能从音节、词、句等各个层面上进行韵律控制的韵律控制模型还有待我们去研究。还有就是语音合成技术还存在着不足。语音合成是文语转换系统的核心技术，因此文语转换系统有时也称为语音合成系统。就目前流行的三种语音合成技术 ( 语音的参数式分析合成、语音的规则合成、语音的波形编码合成) 而言，语音的波形编码合成的合成质量是最好的，但它难以对输出语音调整和控制。总的说来，语音的波形编码合成是现在比较流行的一种合成方法。虽然北京交通大学硕士研究生学位论文第一章基音同步叠加算法 ( p s o l a)的提出简单又较为有效地实现了调整工作，但还是存在着相位上的不连续等问题。综上所述，我们应该清楚地认识到:汉语文语转换系统的研究将是一个长期，艰巨的过程，还有很多工作有待我们去做。 1 .3本文所作的工作本论文的研究目标针对汉语文语转换系统在实际应用中存在的问题进行较深入的研究，提出有效的改进方法，最终给出一个以词为主要合成基元，专用语句为辅助基元的实用的汉语文语转换方案，并把它应用在首都机场终端信息系统 ( a t 工 s ) 中。本文主要完成了已下工作: ( 1 ) 由于分词的准确率直接影响输出语音的自然度，本文着重对词的切分和歧义切分算法进行研究并给出了改进方案。这里我们将歧义字段的切分问题形式化为一种分类问题，在双向最大匹配分词算法的基础上采用支持向量机 ( s v m)与最近邻方法 ( n n ) 相结合来消除分词中经常出现的交集型歧义词。由于 s v m 本身与其他分类方法相比具有较好分类能力，与最近邻结合有较高的歧义切分正确率，切分结果也比较稳定。 ( 2 ) 语音合成规则的研究。汉语文语转换系统影响输出语音的自然度的重要因素还包括各项韵律规则，如连读变调即协同发音规则、轻重音规则、音长规则、音强规则和停顿规则等。本文主要从音高、时长和能量几个角度来研究文语转换系统中的韵律规则。 ( 3 ) 建立了语音库生成和编辑工具，可以随时更新文语转换系统的语音库，并对各个语音文件可进行重录音和波形编辑工作，提高了文语转换系统的实用性，便于语音库根据实际需要进行扩充。北京交通大学硕士研究生学位论文第一章为了搜寻语音数据方便，给出了索引的方法。 ( 4 ) 开发出应用于首都机场终端信息系统 ( a t i s ) 的实用化的汉语文语转换系统。此系统以词为主要合成基元，专用语句为辅助基元，系统经测听，运用波形拼接的合成方法，合成质量达到新闻广播水平。 1 .4论文的安排第一章先简述了汉语文语转换系统研究的意义，指出了系统改进的关键问题及本文所做的工作. 第二章简要介绍了文语转换系统的构成及各个模块的基本功能，回顾了文语转换技术的发展历史。第三章详细阐述了在双向最大匹配分词算法的基础上采用支持向量机与最近邻相结合来消除歧义的方法，实验验证其具有较好的消除歧义的作用。第四章对文语转换系统中的语音学处理进行了研究，从音高、时长、能量等几个方面着手，探讨了文语转换系统中的韵律调整规则。第五章对作者开发的实用化的文语转换系统一首都机场终端信息系统进行了介绍，具体描述了音库的制作，录音的过程，索引的设计，同时把同步基音叠加算法运用于波形拼接合成方法中。结束语中对本文所做的工作进行了总结，并提出了存在的一些问题，有待于今后研究工作中的改进。北京交通大学硕士研究生学位论文第二章第二章文语转换系统综述 2 . 1 文语转换系统概述一般来说实现计算机语音输出有两种方法:一是录音/ 回放。先把模拟语音信号转换成数字序列，编码后存放在储存设备中( 录音);需要时，再经过解码，重建语音信号回放)。这种方法所产生的音质能保证个人的音色，但存储量随发音时间线性增长。所以仅适用于语音输出时间短且不经常变化的场合。另一种方法就是文语转换 ( tt s )。文语转换是一种高级的语音输出形式，它把文本转换成连续自然的语流。采用这种方法先建立语音数据库、发音规则库。文语转换系统的语音库不随发音时间的增长而加大，但规则库会随语音质量的要求而增大。扫描仪图 2 . 1文语转换系统框图由图2 . 1 中我们可以看出，一个完备的文语转换系统一般有语言学处理部分、韵律处理和语音合成这三大部分。整个系统包括以下几个组成部分:文本预处理、分词处理和分词词典、句法分析、音变处理及韵律规则、语音合成器以及语音数据库等。文本的来源可以是键盘输入的，也可能是光电扫描进入的。输入的文本材料经语言学处理、语音学处理，得到语流控制参数，根据这些参数对语音数据库进行读取，最后通过波形编辑合成输出连续语声。北京交通大学硕士研究生学位论文第二章解. 1 1语言学处理语言学处理在文语转换系统中是一个非常重要的部分，它的好坏也直接影响着语音输出质量。语言学处理实际上完成的是文本的分析过程，也即是自然语言的理解过程。自然语言理解( nl p ) 的任务是一个难点，目前由于计算机语言学处理能力对文本理解有很多欠缺，文语转换系统很难做到语义分析，句法分析功能也很不完善，故而只是局限于形式上的文本规整，词语切分，简单的语法分析等。对于汉语文语转换系统而言，一般来说输入的文本应按下列几个步骤来进行分析: 1 ) 文本规整。主要是对数字序列、缩略语、外文字母、汉语拼音及行、段落、页等进行预处理; 2 )词的切分。这一步骤的主要功能是区分文本中词的边界，其结果直接影响合成语音的自然度.由于汉语没有明显的词的分隔标记，缺乏词的定义、词与词组划界标准，构成了汉语分词的极大困难; 3 ) 句法和语义分析。分析句子以建立表层句法结构确定合成时停顿的位置及停顿的长短，语法重音和语调的升降，找到语义上决定的对比和强调重音的位置。文本规整在一个实际的文语转换系统中文本通常会出现数字序列、缩略语、外文字母、汉语拼音等非标准汉语单字，文本正规化的任务就是把这些字符和数字串转换成标准读法的单字。如 “ 6 2 % 变成“ 百分之六十二” ， 1 2 0 ” 换成“ 一百二十” 等。对于“ 2 0 0 4 则应分情况讨论，若是表年份则变成 “ 二零零四”，其它情况则变成“ 二千零四” 。文本标准化还应能确定各种常用符号的发音，比如，将 “ +” 变成 “ 加”、 “ 新词在不断增加等等。总之，无词的明显分隔标记、词的定义、词与词组划界标准与形式语法的缺乏，构成了汉语分词的极大困难。总的说来，汉语自动分词的基本方法可分为三类:形式分词方法、语法分词方法和语义分词方法。国内外对语义分类体系或语义分类己有一些成果包括汉语语义分类词典) ，但仍存在分类体系不够科学、不够周全、比较粗糙等问题，至今未有一个分类比较科学、比较周全、适合于信息处理用的现代汉语语义分类体系和机器词典 7 e 形式分词是最常用的分词方法，它是指不直接进行语法、语义分析而只是借助于分词词典，是一种基于一些统计信息进行分词的方法。形式分词方法是基于字符串匹配的原理上进行的，8 0 年代初中文信息处理领域提出自动分词后有关方面的专家和学者在这方面提出了很多分词方法，其中有一些传统的分词算法:如最大匹配 ( mm)方法、逐词遍历法、切分标志法等，其中比较有代表性的是最大匹配法，它又可以细分成:正向最大匹配法和反向最大匹配法等。如果同时使用两种最大匹配检索法，就构成了双向最大匹配检索法。最大匹配法进行的分词往往会产生歧义现象。由于歧义字段绝大多数都是交集型歧义字段，我们可以将歧义字段的切分问题北京交通大学硕士研究生学位论文第二童形式化为一种分类问题，采用和其他分类方法相比具有较好分类能力的支持向量机结合最近邻的算法来解决歧义切分问题，这种方法解决歧义切分具有较高的切分准确率且切分结果比较稳定。三.句法和语义分析语义分析和句法分析是紧密相关的，某些句子的正确句法分析必须依赖语义知识，而语义分析又必须以句法分析为基础。然而，句法和语义分析是语言学处理上的一个最薄弱的环节，尤其是语义分析。目前己研究出许多种语言模型和相关算法用于句法分析，并已取得了较好的效果。至于语义分析目前的计算机处理起来还很困难，读者如果对句法和语义分析感兴趣的话可以参考相关文献。解. 1 .2韵律处理韵律调整的目的是为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语义，听起来更加自然流畅。在此阶段，需要依据有关的语音学规则，对语句中发生在语音学层次上的音变，逐个得加以处理。韵律修饰就是修改语音数据的音段特征声学参数。提过韵律修饰能力，进行语调的模拟，实现语速、音高的变化。因为文本分析的结果只是告诉计算机发什么音，以及以什么方式发音，这种发音方式还只是抽象的，而要发音的声调是二声还是三声，是重读还是轻读，是否变调，到哪里停顿，这些最终系统用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。韵律的生成方法也分为基于规则控制和数据驱动两种方法。其中基于规则控制的方法是依据有关语言学规则，对合成语流建立有关韵律模型，由此对语句中发生在语音学层次上的音变，逐。个得加以处理，来生成人们说话时的各种不同语调。该方法的优北京交通大学硕士研究生学位论文第二童点是需要的数据量小、控制灵活、可移植性强。目前，一般采用的方法是预先建立一个音库，音库中存储的基本单元可以是音素、音节、词组或句子，我们把它们叫做文语转换的 “ 合成基元”，它们均来自于原始自然语音的样本，根据语音合成器的不同技术要求，这些基元以某种参数的形式存储在计算机内; 机器说话时，可以设想在机器中首先形成一个要讲的内容，它一般以表示信息的字符代码形式存在，然后按照复杂的语言规则，将信息的字符代码的形式转换成由基本发音单元组成的序列，同时检查内容和上下文，决定声调、重音、必要的停顿，以及陈述、命令、疑问等语气，并给出相应的符号代码表示。这样的代码序列我们称之为 “ 发音描述” ，按照发音描述的要求，从音库中检索出相应的合成基元和参数，在文语转换系统中还能根据描述代码中规定的音韵要求，按规则对这些参数进行调整。最后平滑的连接起来形成参数序列，输入语言合成器，产生连续的语句输出。我们这里采用的文语转换系统也是基于这种方法。基于数据驱动的方法即通过对人们说话时可能出现的各种语调进行录音，从中提取大量的原始数据，建立语音数据库。在合成时从库中选择合适的语料进行拼接，并进行一些拼接质量的处理，生成连续的合成语流。该方法的优点是合成语音的质量高，较为清晰、自然;缺点是建立模型的训练阶段需要大量的原始数据，生成的数据库需要保存大量的语音数据，且所有数据只能合成一种音色的声音，无法自由改动。那. 1 .3语音合成技术语音合成方法经过这么多年的发展，到如今基本上可以分为三类:语音的参数分析合成、规则合成和波形编码合成。下面我们逐一加以简介和比较。北京交通大学硕士研究生学位论文第二童语音的参数式分析合成 ( p a r a m e t e r a n a ly s i s - s y n t h e s i s ) 主要的合成参数有:控制音强的幅度、控制音高的基频和控制音色的共振峰参数。参数分析合成主要采用两种参数编码技术: 共振峰合成技术和线性预测编码技术 ( l p c)，从而对应两种合成器:共振峰合成器和线性预测合成器。功共振峰合成器幅度图2 . 3共振峰合成系统所谓共振峰模型是把声道视为一个谐振腔，腔体的谐振特性决定了信号的共振峰特性。因此可以用谐振滤波器来模拟化声道，控制滤波器的谐振频率和带宽，就可以模拟出不同的共振峰特性。基于共振峰理论，曾建立起三种模型串联型、并联型和混合型。并联共振峰合成器结构简单，易于调整共振峰之间的幅度关系，它的缺点是难以模拟某些元音的声道传输函数。串联共振峰合成器的优点是不需要分别控制每个共振峰的幅度，只要最终的幅值正确即可;串联结构可以较准确的模拟非鼻化响音的声道传输函数。它的缺点是为了产生摩擦音还需要有并联共振峰结构，使得串联共振峰合成器在整个结构上是很复杂的。 2 7 线性预测合成器线性预测技术本质上是一种时间域的编码技术，目的是为了压缩时间信号的传输速率。对于一个非时变系统，任何时刻的输北京交通大学硕士研究生学位论文第二章出信号值受系统特性的制约是确定的，因此也是可以预测的，语音信号的当前值可用它过去值的线性组合估计。 7 0 年代初，以 l p c 技术为基础提出了一种全极点的滤波器模型来表示声道模拟滤波器，它的激励包括针对浊音的以基音周期为周期的脉冲序列，和针对清音的准随机噪声。这项技术非常成功，它的比特率较标准的6 4 k p c m编码降低了2 0 至3 0 倍，而仍能使言语的可懂度满足要求。1 9 7 8 年， t i 公司研制出单片l p c 语音合成器t ms 5 2 2 0 ，其中把信号处理技术与v l s i 技术很好地结合。 a t a l 和r e m e d a 在1 9 8 2 年，提出了一种多脉冲激励l p c 模型，这种模型不区分清浊音，而统一地用一组脉冲去驱动l p c 滤波器，避免了普通l p c 合成器中硬性的二元清/ 浊音判别，改善了合成语音的自然度和鲁棒性。二.语音的规则合成 ( s y n t h e s i s - b y - r u l e ) 这种合成方式以通过语音学规则来产生任何语音为目的。规则合成的存储是较小的语音单位 ( 如音素、双音素、半音节或音节)的声学参数，以及由音素组成音节，再由音节组成词或句子的各种规则。当输入字母符号时，合成系统利用规则自动地将它们转换成连续的语音声波。由于语音中存在协同发音现象，单独存在的元音和辅音同连续语流中的元音和辅音不同。所以，合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后，归纳出其规律而制定的如共振峰规则等。由于语句中的轻重音不同，还要归纳出语音的缩减规则。与参数分析合成方式相比，规则合成的语音库的存储量更小，这是以牺牲音质为代价的。这种方式涉及到许多语音学和语言学的模型，系统结构复杂。汉语是一种声调语言，合成规则中的韵律规则尤为重要。目前，合成规则还不完善，合成音质一般较差。所以，完全的规则合成不大采用，一般都是和参数分析合成相结合使用的。北京交通大学硕士研究生学位论文第二章三.语音的波形编码合成 ( wa v e f o r m c o d i n g s y n t h e s i s ) 这种方式以语句、短语、词或音节为合成单元，这些单元被分别录音后直接进行数字编码，经适当的数据压缩，组成一个合成语音库;重放时，根据待输出时的信息，在语音库中取出相应单元的波形数据，串接或编辑在一起，经编码还原出语音。这种合成方式，也叫录音编辑合成或波形拼接合成，合成单元越大，合成的自然度越好，系统结构简单，价格低廉，但合成语音的数码率较大，存储量也大，合成的词汇量有限。在自动报时、报号、报站或报警等装置中，多采用这种技术。现已开发出多种合成芯片可供选用。为了保证输出语音的自然度，对于音高、音长、音强等超音段特征必须作出合理的设计。在参数合成中，不论是共振峰合成或l p c 合成，控制这些超音段特征都没有困难: 在共振峰合成器中可直接改变基频，以达到调节音高曲线的目的。时长的变化通过增减合成参数的帧数来实现。因此只要有好的韵律调节规则，上述合成器就能合成出和自然言语韵律相符的语音. 如前面指出，对于共振峰合成器，由于准确提取共振峰难度大，使得部分语音的清晰度不够高。在l p c 合成中，合成语音单元的音质不高。如果采用多脉冲激励的 l p c 或码激励的 l p c 合成方法，合成单元的音质相当高，但基频等韵律特征就很难调节了。因此合成出的连续语流的自然度也不够高。以时域波形拼接为基础的波形编码合成方法，由于能保证合成单元的清晰度和自然度，成为目前十分流行的方法，它在有限词汇语音合成系统中得到了广泛的应用。 - 但是简单的波形拼接不能进行音高调节，时长调节也困难，在文语转换系统中的应用效果一直不好。长期以来，许多学者致力于如何调节时域波形的音高和音长研究，并提出各种算法。这些算法中，有些算法虽然比较简单，但效果不够理想 ; 有些效果不错，但算法过于复杂. p s o l a 算法是在已有算法基础上发展起来的一种，即能获得良好的音高音长调节效果，同时又不很复杂的方法。北京交通大学硕士研究生学位论文第二章特别是基于时域的t d-p s o l a 算法，运算量非常小，完全能满足文语转换系统的实时性的要求，日前己被广泛用于法语、德语、日语、英语和汉语文语转换系统中，并收到了良好的效果。但是， p s o l a 算法也有其固有的的缺陷。由于在进行音高调节时改变了各短时语音段之间的时延，从而破坏了原始语音中各个谐波谐波成分相位的连续性。当基音周期的改变大到一定程度后，重叠相加也不足以平滑相位的不连续性。这时，合成语音就会出现较明显的回声效应，从而降低合成语音的自然度。为了提高合成音质，研究者们都在努力尝试着寻找新的合成方法。台湾的交通大学在研究利用递归神经网络 ( r n n ) 来实现汉语文语转换系统。他们主要把神经网络用于韵律特征模型的建模，最近又扩展到音段层次 ( 语音谱参数规则和汉语协同发音规则)上。日本的a t r 的电话翻译研究室则开发一种以高质量语料库为基础、选择最佳语音搭配的音素波形拼接合成。那.2 文语转换系统的发展 1 3 文语转换的研究最早可以追溯到二十世纪三十年代末及四十年代初.世界上第一个商用的文语转换系统k u r z w e i l r e a d 吨 m a c h i n e 诞生于1 9 7 6 年。随后又出现t v o t r a x t y p e - n - t a l k ( 1 9 8 1 ) , s p e e c h p l u s p r o s e - 2 0 0 0 ( 1 9 8 2 ) , d e c t a l k ( 1 9 8 3 ) , inf o v o x ( 1 9 8 3 ) 以及贝尔实验室1 9 8 7 年推出的 c o n - v e r s a n t s y s t e m 等。在文语转换应用方面最早应用该技术的是新闻记事的朗读和校对系统。过去需要两个人进行的校阅和修改作业，现在用电脑取代朗读者，可以节省人力。随着文章分析技术和语音处理技术的发展和半导体技术的不断进步，高质量的文语转换系统装置开始以低价格投入到市场中，实用化氛围迅速扩大。北京交通大学硕士研究生学位论文第二章现在，许多国家都研制成了各自语言的文语转换系统。目前，文语转换的一个新方向是研究多语种的文语转换系统 7 ，如 k t h t e x t - t o - s p e e c h s y s t e m，早在8 0 年代就开始研究。这种系统的研究是考虑到未来许多信息检索系统，都会采用语音交往，比如询问航班;显然具有多种语言能力的系统是非常需要的。世界上许多大公司，如m i c r o s o ft、 l u c e n t t e c h n o l o g y , i b m等，他们都有自己的文语转换系统，这些文语转换系统大多是多语种的。文语转换技术的关键技术是语音合成，所以文语转换系统的发展同语音合成技术的发展是息息相关的。我国汉语合成技术的研究起步较晚些，但从八十年代初也基本上与国际上研究同步发展.但最初由于研究条件不够，中国学者首先在国外开始了汉语合成的研究，他们是汉语合成的先驱者。随着我国改革开放政策的实施，西方新技术涌入中国市场。其中最具影响的是 p c 机应用和普及，为语音合成研究提出了条件。社会科学研究院语言研究所杨顺安等在国内最早开展汉语合成研究。他们在一台8 位微机上，用共振峰合成器合成出所有汉语音节，并对轻声、儿化的合成、语调的控制等都作了研究。随后，航天部7 1 0 研究所赵伯璋等人利用国外引进的具有语音线性预测分析和合成功能的p c 机插板，作出了第一台线性预测汉语合成器，在当时具有较大的影响。后来四川大学的罗万伯把这项技术推向实用化。中科院声学所在改进线性预测合成的音质方面作了许多工作，引进多脉冲激励、矢量量化和码激励新技术，都收到很好的效果。图 2 . 2 为基于单音节和v q l p c 技术的文语转换系统，图 2 .3 为基于词汇和c e l p 技术的汉语文语转换系统的框图。其中图2 .2 所示系统采用 “ 正向最大匹配”加 “ 回溯遍历”的分词算法，并且能保证特征词库 ( 其中包括数量词、词缀等)进行意群修正。音变规则主要包括各种协同发音规则和简单的时长规则。该系统以汉语单音节为合成单元，采用矢量量化线性预测压缩编码。合成器的主要运算通过t ms 3 2 0 c 2 5 信号处理器完成。北京交通大学硕士研究生学位论文第二章特征词词库音变规则库图2 . 2 基于单音节和 v q l p c 技术的文语转换框图图中2 . 3 所示的系统采用 “ 反向最大匹配” 的分词算法，并能根据多音词库中的信息给出多音字的读音提示。规则库主要包括数学符号和数字串的发音规则和各种标点符号的停顿规则。图2 . 3基于词汇和c e l p 技术的文语转换系统框图该系统以常用汉语词汇为合成单元，音库中包括1 8 2 1 个单音节、 1 6 8 0 0 个双字词、 2 1 0 0 个三字词和1 5 0 0 个四字词。音库中的波形采用码激励线性预测技术压缩，压缩率在2 5 倍左右。合成器也是在一快以t m s 3 2 0 c 2 5 或t m s 3 2 c 3 x 为主芯片的信号处理开发板上实现的。用并联共振峰合成器合成汉语的研究，在中科院声学所和英国伦敦大学几乎是同时开始的。伦敦大学石波采用按规则合成方法，将所有的音素特征值存于音库，通过内插得到音节在不同时北京交通大学硕士研究生学位论文第二章刻的各个参数值。声学所以音节为合成单元，将音节的参数拼接起来送入合成器，达到合成汉语语句的目的。他们开发的汉语文语转换系统是在国家自然科学基金资助下开发的。该系统的合成器采用的是并联共振峰合成器。以4 0 9 个汉语普通话无调音节和六个声调模式为基本合成单元。语音词典包括常用的词，短语及符号的发音语音参数集。数字规则确定各种数字串的读法。输入文字如果在词典中查到或是数字串则直接取出相应的语音参数送入合成器。若字典中查不到，则按字位一音位规则确定其读音，得到的语音参数序列经过语音规则调整后送入合成器。语音规则包括:变调规则、轻声规则、儿化规则和语调规则。进入9 0 年代后，基音同步叠加 ( p s o l a) 方法的提出( 1 9 9 0 ) ，使基于波形拼接的汉语文语转换系统以其在合成基元一级的自然度大大提高，赢得了众多研究者的青睐。九十年代初，法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于 l p c 方法或共振峰合成器的文语转换系统的自然度要高，并且结构简单易于实时实现，有很大的商用前景. 早期的基于波形拼接的汉语文语转换系统，一般以音节为单位，合成时简单地将各个音节时域拼接起来，听起来一字一顿，很不自然。为此清华大学魏华武和蔡莲红等完成的 t h - s p e e c h 中，对同一音节音库中存有强弱两个版本。组词时，根据音节所在的位置来选择取哪个样本。这种方法使得合成音质比只是简单的波形拼接要好一些，但仍不是很理想。中科院的初敏 1 2 1 等率先把 p s o l a 方法用于波形拼接的合成系统的韵律调整中，取得了很好的效果。基于词的波形拼接是另一个提高语音合成质量的思路。北方交通大学信息科学研究所在此方面开展了许多卓有成效的工作。首先张舰 3 1 研制了一个基于音节拼接的汉语文语转换系统，接着许军 1 1 、包江华等在他的基础上开发了 b j d - 9 2 和b j d - 9 8 汉语文语转换系统。此系统录制了一万多条词 ( 包括一到四字词)存北京交通大学硕士研究生学位论文第二章入音库，合成时通过索引在音库中查找相应词的发音，拼接后输出。合成语音的自然度在词一级明显好于基于音节的波形拼接系统，本论文就是在此基础之上对文语转换系统的相关问题进行研究并把它进行实用化推广的。北京交通大学硕士研究生学位论文第三章第三章分词算法的研究 3 . 1分词概述如前所述，文语转换系统首先通过语言学处理这个重要的环节，而分词是语言学处理中很重要的一步。要对文本进行自动分词，首先我们必须明确 “ 词”这个概念，比较通用的说法是:词是最小的、能独立活动的、有意义的语言成分。它是构成和分析语言的基本单位。而汉语文本中词与词之间没有明确的分隔标记，而是连续的汉字串。显而易见，自动识别词边界，将汉字串切分为正确的词串的汉语分词问题无疑是实现文语转换系统的首要问题。所谓的汉语自动分词 ( a u to m a t ic s e g m e n t a t io n o f c h in e s e wo r d ) ，也就是指把输入计算机的汉语语句自动切分为词序列的过程，即是由计算机自动识别文本中的词边界的过程。由于现代汉语中缺乏明显的形态标志，词素组合成词也没有严格的规律可以遵循，这就给计算机分词造成了很大的困难。尽管如此，我国在这一领域还是做了大量的工作。汉语的词是一个开放的集合，其数量可以认为是接近无穷的，其中以二字词为最，关于分词词典作者这里采用b j d - 9 8 系统中的词典 2 8 ，该词典以现代汉语词表和现代汉语词典为基础，基本包纳了所有汉语常用词汇。 3 .2最大匹配分词方法 1 2 最大匹配法( m a x i m u m m a t c h i n g me t h o d ，简称m m法) 的基本过程是: 假设词表中最长的词由 i 个字组成，则每次从句子头上截取一个长度为j 的字串，令它同词表中的词条依次匹配，如果词表中确有这样一个i 字词，匹配成功，就把这个字串作为一个词从句子头上切分出去。然后再从句子余下部分的头上截取另一个i 字字串，重复上述

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）汉语文语转换系统的研究及其应用.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）汉语文语转换系统的研究及其应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档