




已阅读5页,还剩74页未读, 继续免费阅读
(信号与信息处理专业论文)汉语文语转换系统的研究及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京交通大学硕士研究生学位论文 中文摘要 摘 要 文语转换是一种比 较高级的、有广泛应用价值的计算机语音 输出的形式,具有广泛的应用前景。本论文针对主要合成基元为 词的汉语文语转换系统, 从制约其合成音质的几个角度出 发进行 研究。由于词的切分的准确率和歧义切分正确率直接影响输出 语 音的自 然度,本文对词的切分和歧义消除算法进行研究并给出了 改进方案, 即在双向 最大匹 配分词算法的基础上采用n n s v m来 消除交集型歧义。韵律特征与 合成语句的自 然度和连贯性关系极 大,本文还从音高、时长和能量几个角度来研究文语转换系统中 的韵律处理,概括了词的基频、 时长、能 量在连续语流中的变化 规则。最后,从实用化角度出发,开发出应用于首都机场终端信 息系统 ( a t i s )的 实用的 汉语文语转换系统. 此系统 运用波形拼 接的合成方法,以词为主要合成基元, 专用语句为辅 助基元,系 统经测听合成质量可以达到新闻广播水平。 关 键 词:文语转换 ( t t s )、 分词、歧义切分、 支持向量机、 最近邻、韵律调整、 波形拼接、 基音同 步叠加、 语音库 北京交通大学硕士研究生学位论文 英 文 摘 要 ab s t r a c t t h e t e x t - t o - s p e e c h s y s t e m i s a n a d v a n c e d a n d u s e fu l m e t h o d f o r a u d i o o u t p u t o f c o mp u t e r a n d i t w a s a p p l ie d i n m a n y f i e l d s a i me d a t t h e c h i n e s e t t s w h i c h t a k e s w o r d a s i t s s y n t h e t i c u n i t , t h i s t h e s i s c a r r i e s o n e x t e n s i v e r e s e a r c h o n s e v e r a l f a c t o r s t h a t i s i n t h e w a y o f i m p r o v i n g t h e q u a l i ty o f s y n t h e t i c s p e e c h . b e c a u s e t h e a c c u r a c y o f w o r d s e g m e n t a n d a m b i g u it i e s a f f e c t t h e n a t u r a l n e s s o f t h e r e s u l t o f t h e t t s s y s t e m , t h i s t h e s i s f o c u s e d o n t h e s t u d y o f w o r d s e g m e n t a n d a mb i g u i t i e s . we u s e d t h e t w o d i r e c t i o n ma x i m a l m a t c h m e t h o d t o g e t h e r w i t h n e a r e s t - n e i g h b o r s u p p o rt v e c t o r m a c h i n e t o a v o i d a m b i g u i t i e s . t h e a u t h o r a l s o g e n e r a l i z e d t h e c h a n g i n g r u l e s o f t h e s u p r a - s e g m e n t a l f e a t u r e s i n c l u d i n g p i t c h , d u r a t i o n , a n d e n e r g y , i n o n e b r e a t h i n g g r o u p . wi t h t h e re s u l t o f t h e s t u d y , t h e a i r p o rt t e r m i n a t io n in fo r m a ti o n s y s te m h a s b e e n d e v e lo p e d a n d it a d o p ts t h e w a v e f o r m - c o n c a t e n a t i o n t e c h n i q u e b a s e d m a i n l y o n w o r d a n d t d - p s o l a t e c h n i q u e . t h e s y n t h e t i c s p e e c h a c h i e v e s t h e q u a l i ty o f b r o a d c a s t s p e e c h . k e y w o r d s : t e x t - t o - s p e e c h , w o r d s e g m e n t a t i o n , s p e e c h s y n t h e s i s , c ro s s i n g a m b i g u i t i e s , s u p p o rt v e c t o r m a c h i n e , n e a r e s t n e i g h b o r a l g o r i t h m , s y n t h e t i c u n i t , w a v e f o r m- c o n c a t e n a t i o n , c h i n e s e s p e e c h d a t a b a s e 5 8 6 3 2 1 独创性说明 本人声明所呈交的 论文是我个人在导 师的指导下进行的研究工 作及取得的研究成果。尽我所知, 除了本文中特别加以 标注和致谢 的地方外,论文中不包 含其他人己 经发表 或撰写过的研究成果,也 不包括为获得北京交通大学或其它教育 机构的学位或证书而使 用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 签名:日期: 关于论文使用授权的说明 本人完全了解北京交通大学有关保留,使用学位论文的规定, 即:学校有权保留送交论文的复印件,允 许论文被查阅和借阅;学 校可以公布论文的全部或部分内容, 可以 采用影印,缩印或其它复 印手段保存论文。论文中所有创新和成果归北京交通大学信息科学 研究所所有。未 经许可,任何单位和个人不 得拷贝。 版权所有, 违 者必究。 签 名: 导师签名:日期 北京交通大学硕士研究生学位论文第一章 第一章 绪论 本 章简述了 汉语文语转换系统 研究的 意义,介绍了文语转换 的研究背景及其现状,最后给出了本论文研究的主要问题和论文 的安排。 1 . 1课题的意义 人 类进入现代社会, 依靠各 种工程系 统来 从事劳 动、生产和 科学研究。当人们操纵这些工 程系统时,就自 然而然 地出现了人 与机器之间的信息交流, 即系统不断报告自 己的 运行状态和结果, 而人们根据这些状态和结果来发出 下一步应进入何种状态的命 令,这 就是人机对话。随 着电子技术的发展,可以 很方便地把各 种工程状态转换成易于传输,经过加工处理 后可以 集中反映各种 信息的 信号,例如数字、曲线、图表、声响等, 人们对系统的操 纵和控制不采用直接方式,而是向系统输入各种指令信号 ( 如数 字、 符号、 状态等) , 系统则根据这些指令 进入规定的运行状态。 因此, 只有当人、 机之间以规定的信号 方式 进行信息交流时, 才 开始有了人机对话。 目前,计算机大多 采用屏幕显示 这种单调的信息输出 方式, 这给用户带来许多不便, 特别是 在有大 量信息输出的 情况下。长 时间 地注视显示屏 容易 使人疲劳,并 会降 低人获取信息和理 解信 息的效率。这种枯燥单一的交互方式影响了计算机的 应用。 如果 计算机具备说话的 能力, 具有对信息 进行 讲解的能力, 就能提 供声 文并茂的信息表示方式, 可以改 变人机交 互 “ 默默无闻” 的 状况, 为 计算机的普及应用创造更好的条件。同时语音是众多 信息 载体 中具有较大信息量 的信号,提高计算机系统智能化水平有效的途 径之一就是寻求最好的语音信息交互手段。 利用语音 进行信息输 出可以使人机界 面进入一个自 然和谐的新时代。 北京交通大学硕士研究生学位论文 第一聋 而 对文语转换系统研究的目 的就是要使新一代的计算机具有 与人进行良 好的沟通能力,“ 让机器像人一样开口 说话” 。这与 传统的声音回放设备有着本质的区别。传统的声音回放设备,是 通过预先录制声音然后回放来实现 “ 让机器说话”的。这种方式 无论是在内容、存储、传输或者方便性、及时性等方面都存在很 大的限制。而通过计算机文语转换系统则可以在任何时候将任意 文本转换 成具有高自 然度的语音,从而真正实现让 机器 “ 像人一 样开口 说话”。 文语转换 ( t e x t t o s p e e c h 缩写为t t s ) 是一 种比 较高级的、 有广泛应用价值的 计算机语音输出的形式,具 有广泛 的应用前景,如各种信息发布系统、语音自动应答系统、语音电 子邮件、 计算机辅助教学、语音 校对等。 其中语音自 动应答综合 应用系统是指语 音应答这一个方面而言的,实 现从机器到人,实 现对信息请求做出回答的功能。信息发布是根据实时采集的信息 进行广播,通过文语转换来进行输出。 文语转换系统对我们的生活方式,生产和 科研活动都具有很 大的影响力。 不论是家庭民用产品与装置、商 业与银行, 还是检 测与控制系统中,文语转换系统都发挥了及其重要的作用。文语 转换系统可以 使计算 机模拟人类的声音。比 如,当 您驱车在高速 公路上行驶时,车 载计算机可以为您朗读电 子邮 件。 在国外语音 技术的应用已经相当成熟而进入到民用产品,诸如一辆轿车车门 关紧没关紧、 汽油是否用完、车 速的报告 等, 都是通 过文语转换 系统来完成的,这些也值得我国同行去关注。 中国是一个拥有十三亿人口的国家,一 个高 清晰度,高自 然 度的汉语文语转换系统将 拥有 广泛的市场。 2 0 世纪6 0 年代,英语 t t s 系统首先被研制成功。 2 0 世纪8 0 年代, 我国开始介入汉语语 音合成领域的研究,中科院声学 所首先开始汉 语合成的研究。之 后,社科院语言所、清华 大学、中国科技大学、北京交通大学等 单位陆续开 展了对汉语t t s 的 研究, 并且都取得了 很好的成绩。 、 在国家 “ 8 6 3 智能计算机主题的支持下,汉语t t s 技术有了长足 北京交通大学硕士研究生学位论文 第一章 的进步。目前该项技术己引起了世界上许多著名的计算机厂商或 公司的关注。世界上i t 业一些大公司如mi c r o s o ft , i b m, i n t e l , n o k i a , l u c e n t , p h l i p s , d r a g o n 等都在中国 投入大量资金和人力, 以竞争语音市场。i n t e l 于1 9 9 8 年1 0 月,在北京主持召开了 “ 9 8 国 际 语音技术论坛”,并 表示要投入五千万美元进行语音技术的 研 究;mi c r o s o ft 则在北京成立了继英国剑桥之后在美国本土以外的 第二个 研究院 1 , 其主要的一 个研究课题就是 使得“ 计算机能说、 能听、 会看、 会学习” ,并把说摆到了 首位。 b e n 实验室、 a t r , i b m和s i e me n s 公司已研制出多种语言的t t s 系统, 如汉、 英、 法、 日、德等。其应用领域也在不断的扩大,法国c n e t 公司已将其 多语种t t s 系统运用于电话网中的公共话音服务。由国内的发展 和国际动态可见,作为能使计 算机说 话的文 语转换技术确实具有 广泛和深刻的划时代意义。 1 . 2 文语转换系统的关键问题 文语转换方面的研究已经经历了不短的时间,并且在各个方 面都取得了很多的成就。一般来说,衡量一个文语转换系统质量 好坏的 三个标准是输出 语音的可懂度、 自 然度和连贯性。 可懂度, 在某些书上又称清晰度,是指合成语音能让人听明白的程度;自 然度指的是输出语音接近人的自然语言的程度,这主要表现在语 调上;连贯性用来评价合成语 句是否流畅。实际上,这三个方面 是相辅相成的。可懂度低就根本谈不上什么自然度和连贯性;自 然度高, 连贯性好则肯定提高了可懂 度.但 更进一步的说, 这三 个标准还是存在阶梯性的,从下至上分别是可懂度、自然度、连 贯性。可懂度是对文语转换系统的最基本的要求,先在可懂度达 到要求的基础上再进一步改善 自 然度和连惯性。目 前的汉语文语 转换系统在可懂度方面已 基本上达到了 人们的要求,然而在自 然 度和连贯性方面还远不及人意, 所以 关于文 语转换系统的研究主 要集中在如何提高其输出语音的自 然度上.对于文语转换系统的 北京交通大学硕士研究生学位论文 第一章 研究我们可以从文语转换系统的几个环节,包括语 言 学处理、语 音学处理以及语音合成技术等找出文语转换系统的关键问题所 在 : 首先,文语转换系统中的语言学处理还很不完善。语言学处 理对合成语音的音质有重要影响,特别是在自 然度方面。它涉及 到自然语言理解,而自然语言理解是言语工程的一个至难点。虽 然说对此已经进行了很大量的研究,己有了一些成果,但还很不 完善。并且,己有的成果在计算机上实现起来算法都很复杂,不 易于实时实现。因 此目 前的汉语文语转换系 统语言 学处理是当今 汉语文语转换中比较薄弱的环节,由于对于语义分析来说目前计 算机处理起来还是相当困难的,在现有的系统中一般只包括文本 规划、分词、特殊字、句法分析等处理,而在这些处理中也存在 潜不少问题,比如分词就经常会出现出现歧义的现象,这势必会 影响合成语音的质量。 其次,文语转换系统中 缺乏成熟的韵律调整规则。所谓韵律 特征指的是音高、音长和能量等超音段的特征。它 是语音 合成自 然度的关键,同时还影响着可 懂度。 汉语是一 种动听的语言,汉 语广播言语抑扬顿挫、轻重相随,缓急相间,节奏分明。目前的 汉语文语转换系统普遍存在着机器味太浓的问题,其主要原因就 是缺乏韵律。对于韵律规则的摸索 己 经开展了许多工作,并已取 得了卓有成效的成绩,但这些规则还都很零碎,还没有系统化。 一个 自 成体系的,能从音节、词、句等各个层面上进行韵律控制 的韵律控制模型还有待我们去研究。 还有就是语音合成技术还存在着不足。语音合成是文语转换 系统的核心技术,因此文语转换系统有时也称为语音合成系统。 就目 前流行的三种语音合成技术 ( 语音的参数式分析合成、 语音 的 规则合成、 语音的波形编码合成) 而言, 语音的波形编码合成 的合成质量是最好的,但它难以对输出语音调整和控制。总的说 来,语音的波形编码合成是现在比较流行的一种合成方法。虽然 北京交通大学硕士研究生学位论文 第一章 基音同步叠加算法 ( p s o l a)的提出简单又较为有效地实现了调 整工作,但还是存在着相位上的不连续等问题。 综上所述,我们应该清楚地认识到:汉语文语转换系统的研 究将是一个长期,艰巨的过程,还有很多工作有待我们去做。 1 .3本文所作的工作 本论文的研究 目 标针对汉语文语转换系统在实际应用中存在 的问题进行较深入的研究,提出有效的改进方法,最终给出一个 以 词为主要合成基元, 专用语句为辅助基元的实用的汉语文语转 换方案,并把它应用在首都机场终端信息系统 ( a t 工 s ) 中。 本文主要完成了已 下工作: ( 1 ) 由于分词的准确率直接影响输出语音的自然度, 本文着重对 词的切分和歧义切分算法进行研究并给出了改进方案。这里我们 将歧义字段的切分问题形式化为一种分类问题,在双向最大匹配 分词算法的基础上采用支持向 量机 ( s v m)与 最近邻方法 ( n n ) 相结合来消除分词中 经常出 现的交集型歧义词。 由于 s v m 本身与 其他分类方法相比 具有较好分类能力,与 最近邻结合有较高的 歧 义切分正确率,切分结果也比较稳定。 ( 2 ) 语音合成规则的研究。 汉语文语转换系统影响输出语音的自 然度的重要因素还包括各项韵律规则,如连读变调即协同 发音规 则、轻重音规则、音长规则、音强规则和停顿规则等。本文主要 从音高、 时长和能量几个角度来研究文语转换系统中的韵律规则。 ( 3 ) 建立了 语音库生成和编辑工具, 可以 随时更新文语转换系统 的 语音库,并对各个语音文件可进行重录 音和波形 编辑工作,提 高了文语转换系统的实用性, 便于语音库根据实际需要进行扩充。 北京交通大学硕士研究生学位论文第 一 章 为了搜寻语音数据方便,给出了索引的方法。 ( 4 ) 开发出 应用于首都机场终端信息系统 ( a t i s ) 的实用化的汉 语文语转换系统。此系统以词为主要合成基元,专用语句为辅助 基元,系统经测听,运用波形拼接的合成方法,合成质量达到新 闻广播水平。 1 .4论文的安排 第一章先简述了汉语文语转换系统研究的意义,指出了系统 改进的关键问题及本文所做的工作. 第二章简要介绍了文语转换系统的构成及各个模块的基本功 能,回顾了文语转换技术的发展历史。 第三章详细阐述了 在双向最大匹配分词算法的 基础上采用支 持向量机与最近邻相结合来消除歧义的方法,实验验证其具有较 好的消除歧义的作用。 第四章对文语转换系统中的语音学处理进行了研究, 从音高、 时长、能量等几个方面着手, 探讨了文语转换系统中的韵律调整 规则。 第五章对作者开发的实用化的文语转换系统一 首都机场终端 信息系统进行了介绍,具体描述了音库的制作,录音的过程,索 引的设计, 同时把同 步基音叠加算法运用于波形拼接合成方法中。 结束语中对本文所做的工作进行了总结,并提出了存在的一 些问题,有待于今后研究工作中的改进。 北京交通大学硕士研究生学位论文 第 二 章 第二章 文语转换系统综述 2 . 1 文语转换系统概述 一般来说实现计算机语音输出有两种方法:一是录音/ 回放。 先把模拟语音信号转换成数字序列, 编码后存放在储存设备中( 录 音);需要时,再经过解码,重建语音信号 回放)。这种方法 所产生的音质能保证个人的音色, 但存储量随发音时间线性增长。 所以仅适用于语音输出时间短且不经常变化的场合。 另一种方法 就是文语转换 ( tt s )。文语转换是一种高级的语音输出形式, 它把文本转换成连续自 然的语流。 采用这 种方法先建立语音数据 库、发音规则库。文语转换系统的语音库不随发音时间的增长而 加大,但规则库会随语音质量的要求而增大。 扫 描 仪 图 2 . 1文语转换系统框图 由图2 . 1 中我们可以看出, 一个完备的文语转换系统一般有语 言学处理部分、韵律处理和语音合成这三大部分。整个系统包括 以下几个组成部分:文本预处理、分词处理和分词词典、句法分 析、音变处理及韵律规则、语音合成器以及语音数据库等。文本 的来源可以是键盘输入的,也可能是光电扫描进入的。输入的文 本材料经语言学处理、语音学处理,得到语流控制参数,根据这 些参数对语音数据库进行读取,最后通过波形编辑合成输出连续 语声。 北京交通大学硕士研究生学位论文第 二 章 解. 1 1语言学处理 语言学处理在文语转换系统中是一个非常重要的部分,它的 好坏也直接影响着语音输出质量。语言学处理实际上完成的是文 本的分析过程, 也即是自然语言的理解过程。 自然语言理解( nl p ) 的任务是一个难点,目前由于计算机语言学处理能力对文本理解 有很多欠缺, 文语转换系统很 难做到 语义分 析, 句法分析功能也 很不完善,故而只是局限于形式上的文本规整,词语切分,简单 的语法分析等。对于汉语文语转换系统而言,一般来说输入的文 本 应按下列几个步骤来进行分析: 1 ) 文本规整。 主要是对数字序列、缩略语、外文字母、汉语 拼音及行、 段 落、页等进行预处理; 2 )词的 切分。 这一步骤的主要功能是区分文本中词的边界,其结果直接影 响合成语音的自然度.由于汉语没有明显的词的分隔标记,缺乏 词的定义、词与词组划界标准, 构成了 汉语分词的极大困难; 3 ) 句法和语义分析。 分析句子以建立表层句法结构确定合成时停顿的位置及停顿 的长短,语法重音和语调的升降,找到语义上决定的对比和强调 重音的位置。 文本规整 在一个实际的文语转换系统中文本通常会出现数字序列、缩 略语、 外文字 母、汉语拼音等非标准汉语单字, 文本正规化的任 务就是把这些字符和数字串 转换成标准读法的 单字。 如 “ 6 2 % 变成“ 百分之六十二” , 1 2 0 ” 换成“ 一百二十” 等。 对于“ 2 0 0 4 则应分情况讨论,若是表年份则变成 “ 二零零四”,其它情况则 变成“ 二千零四” 。 文本标准化 还应能 确定各 种常 用符号的发音, 比如, 将 “ +” 变成 “ 加”、 “ 新词在不断增加等等。总之,无词的明显分隔标记、词 的定义、 词与词组划界标准与形式语法的 缺乏, 构成了 汉语分词 的极大困难。 总的说来,汉语 自动分词的基本方法可分为三类:形式分词 方法、语法分词方法和语义分词方法。国内外对语义分类体系或 语义分 类己 有一些成果 包括汉语语义分类词典) ,但仍存在分 类体系不够科学、不够周全、比较粗糙等问题,至今未有一个分 类比 较科学、比 较周全、 适合于 信息处理用的现代汉语语义分类 体系和机器词典 7 e 形式分词是最常用的 分词方 法,它是指不直接进行语法、 语 义分析而只是借助于分词词典,是一种基于一些统计信息进行分 词的方法。形式分词方法是基于字符串匹配的原理上进行的,8 0 年代初中文信息处理领域提出自 动分词后有关方面的专家和学者 在这方面提出了很多分词方法,其中有一些传统的分词算法:如 最大匹配 ( mm)方法、逐词遍历法、切分标志法等,其中比较 有代表性的是最大匹配法,它又可以细分成:正向最大匹配法和 反向最大匹配法等。如果同时使用两种最大匹配检索法,就构成 了双向最大匹配检索法。 最大匹配法进行的分词往往会产生歧义现象。由于歧义字段 绝大多数都是交集型歧义字段, 我们可以 将歧义字段的切分问题 北京交通大学硕士研究生学位论文第 二 童 形式化为一种分类问 题,采用和 其他分 类方法相比具有较好分类 能力的支持向 量机结合最近邻的算 法来解决 歧义切分问 题, 这种 方法解决歧义切分具有较高的切分准确率且切分结果比较稳定。 三.句法和语义分析 语义分析和句法分析是紧密相关的,某些句子的正确句法分 析必须依赖语义知识,而语义分析又必须以句法分析为基础。然 而,句法和语义分析是语言学处理上的一个最薄弱的环节,尤其 是语义分析。目 前己研究出许多种语言模型和相关算法用于句法 分析,并已取得了较好的效果。至于语义分析目前的计算机处理 起来还很困 难, 读者 如果对句法和语义分析感兴趣的话可以参考 相关文献。 解. 1 .2韵律处理 韵律调整的目的是为合成语音规划出音段特征,如音高、音 长和音强等, 使合成语音能正确表 达语 义, 听起来更加自 然流畅。 在此阶段,需要依据有关的语音学规则,对 语句中发生在语音学 层次上的音变, 逐个得加以 处理。韵律修饰就是修改语音数据的 音段特征声学参数。提过韵律修饰能力,进行语调的模拟,实现 语速、音高的 变化。因 为文本分析的结果只是告诉计算机发什么 音,以及以 什么 方式发 音, 这种发音方式还只是抽象的,而要发 音的声调是二声还是三声,是重读还是轻读,是否变调,到哪里 停顿,这些最终系统用来进行声信号合成的具体韵律参数还要依 靠韵律生成模块。 韵律的生成方法也分为基于规则控制和 数据驱动两种方法。 其中 基于规则控制的方法是依据有关语言学 规则,对合成语流建 立有关韵律模型,由此对语句中发生在语音学层次上的音变,逐 。 个得加以处理,来生成人们说话时的各种不同语调。该方法的优 北京交通大学硕士研究生学位论文第 二 童 点是需要的数据量小、 控制灵活、可移植性强。目 前, 一般采用 的方法是预先建立一个音库, 音库中存储的基本单元可以是音素、 音节、词组或句子,我们把它们叫做文语转换的 “ 合成基元”, 它们均来自于原始 自 然语音的样本,根据语音合成器的不同技术 要求, 这些基元以某种参数的形式存储在计算机内; 机器说话时, 可以设想在机器中首先形成一个要讲的内容,它一般以表示信息 的字符代码形式存在,然后按照复杂的语言规则,将信息的字符 代码的 形式转换成由 基本发音单元组 成的 序列,同时检查内 容和 上下文,决定声调、重音、必要的停顿,以及陈述、命令、疑问 等语气,并给出相应的符号代码表示。这样的代码序列我们称之 为 “ 发音描述” ,按照发音描 述的 要求,从 音库中 检索出相应的 合成基元和参数,在文语转换 系统中 还能 根据描述代码中规定的 音韵要求,按规则对这些参数进行调整。最后平滑的连接起来形 成参数序列,输入语言合成器,产生连续的语句输出。我们这里 采用的文语转换系统也是基于这种方法。 基于数据驱动的方法即通过对人们说话时可能出现的各种语 调进行录音,从中提取大量的原始数据,建立语音数据库。在合 成时从库中选择合适的语料进行拼接,并进行一些拼接质量的处 理,生成连续的合 成语流。 该方法的 优点 是合成语音的 质量高, 较为清晰、自然;缺点是建立模型的训练阶段需要大量的原始数 据,生成的数据库需要保存大量的语音数据,且所有数据只能合 成一种音色的声音,无法自由改动。 那. 1 .3语音合成技术 语音合成方法经过这么多年的发展,到如今基本上可以分为 三类:语音的参数分析合成、规则合成和波形编码合成。下面我 们逐一加以简介和比较。 北京交通大学硕士研究生学位论文第 二 童 语音的参数式分析合 成 ( p a r a m e t e r a n a ly s i s - s y n t h e s i s ) 主 要的合成参数有:控制音强的幅度、 控制音高的 基频和控 制音色的共振峰参数。 参数分析合成主要采用两种参数编码技术: 共振峰合成技术和线性预测编码技术 ( l p c),从而对应两种合 成器:共振峰合成器和线性预测合成器。 功 共振峰合成器 幅度 图2 . 3共振峰合成系统 所谓共振峰模型是把声道视为一个谐振腔,腔体的谐振特性 决定了信号的共振峰特性。 因此可以用谐振滤波器来模拟化声道, 控制滤波器的 谐振频率和带宽, 就可以 模拟出 不同的 共振峰特性。 基于共振峰理论,曾 建立起三种模 型串 联型、并 联型和混合型。 并联共振峰合成器结构简单,易于调整共振峰之间的幅度关系, 它的缺点是难以模拟某些元音的声道传输函数。串联共振峰合成 器的优点是不需要分别控制每个共振峰的幅度,只要最终的幅值 正确即可;串 联结构可以较 准确的 模拟非 鼻化响 音的声道传输函 数。它的 缺点是为了 产生摩擦 音还需要有并联共振峰结构,使得 串联共振峰合成器在整个结构上是很复杂的。 2 7 线性预测合成器 线性预测技术本质上是一 种时间 域的 编码技 术,目 的是为了 压缩时间信号的传输速率。 对于一 个非时 变系统,任何时刻的输 北京交通大学硕士研究生学位论文 第二章 出信号值受系统特性的制约是确定的,因此也是可以预测的,语 音信号的当前值可用它过去值的线性组合估计。 7 0 年代初,以 l p c 技术为 基础提出了一种 全极点的滤波器模 型来表示声道模拟滤波器,它的激励包括针对浊音的以基音周期 为周期的脉冲序列,和针对清音的准随机噪声。这项技术非常成 功,它的比特率较标准的6 4 k p c m编码降低了2 0 至3 0 倍,而仍能 使言语的可懂度满足要求。1 9 7 8 年, t i 公司研制出单片l p c 语音合 成器t ms 5 2 2 0 ,其中把信号处理技术与v l s i 技术很好地结合。 a t a l 和r e m e d a 在1 9 8 2 年,提出了一种多脉冲激励l p c 模型, 这种模型不区分清浊音,而统一地用一组脉冲去驱动l p c 滤波器, 避免了普通l p c 合成器中硬性的二元清/ 浊音判别, 改善了合成语 音的自然度和鲁棒性。 二.语音的规则合成 ( s y n t h e s i s - b y - r u l e ) 这种合成方式以通过语音学规则来产生任何语音为目的。规 则合成的存储是较小的语音单位 ( 如音素、双音素、半音节或音 节)的声学参数,以及由音素组成音节,再由音节组成词或句子 的各种规则。当输入字母符号时,合成系统利用规则自动地将它 们转换成连续的语音声波。 由 于语音中 存在协同 发音现象,单 独存在的 元音 和辅音同连 续语流中的元音和辅音不同。所以,合成规则是在分析每一语音 单元出现在不同环境中的协同发音效应后,归纳出其规律而制定 的如共振峰规则等。由于语句中的轻重音不同,还要归纳出语音 的缩减规则。 与参数分析合成方式相比, 规则合成的语音库的存储量更小, 这是以牺牲音质为代价的。这种方式涉及到许多语音学和语言学 的模型,系统结构复杂。汉语是一种声调语言,合成规则中的韵 律规则尤为重要。目前, 合成规则还不完善, 合成音质一般较差。 所以, 完全的 规则合成不大采用, 一般都是和参数分析合成相结 合使用的。 北京交通大学硕士研究生学位论文 第二章 三.语音的 波形 编码合成 ( wa v e f o r m c o d i n g s y n t h e s i s ) 这种方式以语句、短语、词或音节为合成单元,这些单元被 分别录音后直接进行数字编码,经适当的数据压缩,组成一个合 成语音库;重放时,根据待输出时的信息,在语音库中取出相应 单元的波形数据,串接或编辑在一起,经编码还原出语音。这种 合成方式,也叫录音编辑合成或波形拼接合成,合成单元越大, 合成的自然度越好,系统结构简单,价格低廉,但合成语音的数 码率较大,存储量也大, 合成的词汇量有限。在自动报时、报号、 报站或报警等装置中,多采用这种技术。现已开发出多种合成芯 片可供选用。 为了保证输出语音的 自 然度,对于音高、音长、音强等超音 段特征必须作出合理的设计。 在参数合成中,不论是共振峰合成 或l p c 合成,控制这些超音段 特征都没有困 难: 在共振峰合成器 中可直接改变基频,以达到调节音高曲线的目的。时长的变化通 过增减合成参数的帧数来实现。因 此只要有 好的韵 律调节 规则, 上述合成器就能合成出和 自 然言语韵律相符的语音. 如前面指出, 对于共振峰合成器,由于准确提取共振峰难度大,使得部分语音 的清晰度不够高。在l p c 合成中,合成语音单元的音质不高。如 果采用多 脉冲激励的 l p c 或码激励的 l p c 合成方法, 合成单元的 音质相当高,但基频等韵律特征就很难调节了。因此合成出的连 续语流的自 然度也不 够高。以 时域波形拼接为 基础的波形编码合 成方法,由于能保证合成单元的清晰度和 自 然度,成为目前十分 流行的方法, 它在有限词汇语音合成系统中得到了广泛的应用。 - 但是简单的波形拼接不能进行音高调节,时长调节也困难,在文 语转换系统中的应用效果一直不好。长期以来,许多学者致力于 如何调节时域波形的音高和音长研究,并提出各种算法。这些算 法中, 有些算法虽然比较简单, 但效果不够理想 ; 有些效果不错, 但算法过于复杂. p s o l a 算法是在已有算法基础上发展起来的一 种, 即能获得良好的音高音长调节效果, 同时又不很复杂的方法。 北京交通大学硕士研究生学位论文 第二章 特别是基于时域的t d-p s o l a 算法, 运算量非常小, 完全能满足 文语转换系统的实时 性的要求,日 前己 被广泛用于法语、 德语、 日语、英语和汉语文语转换系统中, 并收到了良好的效果。 但是, p s o l a 算法也有其固有的的缺陷。由于在进行音高调节时改变了 各短时语音段之间的时延,从而破坏了原始语音中各个谐波谐波 成分相位的连续性。当基音周期的改变大到一 定程度后, 重叠相 加也不足以平滑相位的不连续性。这时,合成语音就会出现较明 显的回声效应,从而降低合成语音的自然度。 为了提高 合成音质,研究者们都在努力尝试着寻 找新的 合成 方法。 台湾的交通大学在研究利用递归神经网络 ( r n n ) 来实现 汉语文语转换系统。 他们主要把神经网 络用于韵律特征模型的建 模,最近又扩展到音段层次 ( 语音谱参数规则和汉语协同发音规 则)上。日本的a t r 的电话翻译研究室则开发一种以高质量语料 库为基础、选择最佳语音搭配的音素波形拼接合成。 那.2 文语转换 系统的 发展 1 3 文语转换的研究最早可以追溯到二十世纪三十年代末及四十 年代初.世界上第一个商用的文语转换系统k u r z w e i l r e a d 吨 m a c h i n e 诞生于1 9 7 6 年。 随后又出 现t v o t r a x t y p e - n - t a l k ( 1 9 8 1 ) , s p e e c h p l u s p r o s e - 2 0 0 0 ( 1 9 8 2 ) , d e c t a l k ( 1 9 8 3 ) , inf o v o x ( 1 9 8 3 ) 以 及贝尔实验室1 9 8 7 年推出的 c o n - v e r s a n t s y s t e m 等。 在文语转换 应用方面最早 应用该技术的是新闻记事的朗读和校对系统。 过去 需要两个人进行的校阅和修改 作业,现在用电 脑取代朗读者,可 以节省人力。随着文章分析技术和语音处理技术的发展和半导体 技术的 不断 进步, 高质量的 文语 转换系统装置开始以 低价格投入 到市场中,实用化氛围迅速扩大。 北京交通大学硕士研究生学位论文第 二 章 现在, 许多国家都研制成了各自语言的文语转换系统。 目前, 文语转换的一个新方向是研究多语种的文语转换系统 7 ,如 k t h t e x t - t o - s p e e c h s y s t e m, 早在8 0 年代就开始 研究。这种系统 的研究是考虑到未来许多信息检索系统,都会采用语音交往,比 如询问航班;显然具有多种语言能力的系统是非常需要的。世界 上许多大公司, 如m i c r o s o ft、 l u c e n t t e c h n o l o g y , i b m等, 他们 都有自己的文语转换系统,这些文语转换系统大多是多语种的。 文语转换技术的关键技术是语音合成,所以文语转换系统的 发展同语音合成技术的发展是息息相关的。我国汉语合成技术的 研究起步较晚些,但从八十年代初也基本上与国际上研究同步发 展.但最初由于研究条件不够,中国学者首先在国外开始了汉语 合成的研究,他们是汉语合成的先驱者。随着我国改革开放政策 的实施, 西方新 技术涌入中国市场。 其中 最具影响的是 p c 机应用 和普及,为语音合成研究提出了条件。社会科学研究院语言研究 所杨顺安等在国内最早开展汉语合成研究。他们在一台8 位微机 上, 用共振峰合成器合成出 所有汉语音 节,并 对轻声、儿化的合 成、 语调的控制等都作了研究。 随后, 航天部7 1 0 研究所赵伯璋等 人利用国外引进的具有语音线性预测分析和合成功能的p c 机插 板, 作出了第一台线 性预测汉语合成器, 在当时具 有较大的影响。 后来四川大学的罗万 伯把这项技术推向 实用化。 中科院声学所在改进线性预测合成的音质方面作了许多工 作,引进多脉冲激励、矢量量化和码激励新技术,都收到很好的 效果。图 2 . 2 为 基于单音节和v q l p c 技术的文语转换系统,图 2 .3 为基于词汇和c e l p 技术的汉语文语转换系统的框图。其中图2 .2 所示系统采用 “ 正向最大匹配”加 “ 回溯遍历”的分词算法,并 且能保证特征词库 ( 其中包括数量词、词缀等)进行意群修正。 音变规则主要包括各种协同 发音规则 和简单的 时长规则。该系统 以汉 语单音节为合成单元, 采用矢量量 化线性预测压缩编码。 合 成器的主要运算通过t ms 3 2 0 c 2 5 信号处理器完成。 北京交通大学硕士研究生学位论文 第二章 特征词词库音变规则库 图2 . 2 基于单 音节和 v q l p c 技术的文语转 换框图 图中2 . 3 所示的系统采用 “ 反向最大匹配” 的分词算法, 并能 根据多音词库中的信息给出多音字的读音提示。规则库主要包括 数学符号和数字串的发音规则和各种标点符号的停顿规则。 图2 . 3基于词汇和c e l p 技术的 文语转换系 统框图 该系统以 常用汉语词 汇为合成单元, 音库中包括1 8 2 1 个单音 节、 1 6 8 0 0 个双字词、 2 1 0 0 个三字词和1 5 0 0 个四 字词。 音库中的波 形采用码激励线性预测技术压缩,压缩率在2 5 倍左右。 合成器也 是在一快以t m s 3 2 0 c 2 5 或t m s 3 2 c 3 x 为主芯片的信号处理开发 板上实现的。 用并联共振峰合成器合成汉语的研究,在中科院声学所和英 国伦敦大学几乎是同时开始的。伦敦大学石波采用按规则合成方 法, 将所有的音素 特征值存于音库, 通过内 插得到音节在不同时 北 京 交 通 大 学 硕 士 研 究 生 学 位 论 文 第二章 刻的各个参数值。 声学所以 音节为合成单元,将音节的参数拼接 起来送入合成器,达到合成汉语语句的目的。他们开发的汉语文 语转换系统是在国家自然科学基金资助下开发的。该系统的合成 器采用的是并联共振峰合成器。 以4 0 9 个汉语普通话无调音节和六 个声调模式为基本合成单元。语音词典包括常用的词,短语及符 号的发音语音参数集。数字规则确定各种数字串的读法。输入文 字如果在词典中查到或是数字串则直接取出相应的语音参数送入 合成器。若字典中查不到,则按字位一音位规则确定其读音,得 到的语音参数序列经过语音规则调整后送入合成器。语音规则包 括:变调规则、轻声规则、儿化规则和语调规则。 进入9 0 年代后, 基音同步叠加 ( p s o l a) 方法的提出( 1 9 9 0 ) , 使基于波形 拼接的汉语文语转换系统以 其在合 成基元一级的自 然 度大大提高,赢得了众多研究者的青睐。九十年代初,法语、德 语、英语、日语等语种的文语转换系统都已经研制成功。这些系 统的自 然度比以 前基于 l p c 方法或共振峰合成器的文语转换系统 的 自 然度要高, 并且结构简单易于实时实现, 有很大的商用前景. 早期的基于波形拼接的汉语文语转换系统,一般 以音节为单位, 合成时简单地将各个音节时域拼接起来,听起来一字一顿,很不 自 然。为此 清华大学魏华武和蔡莲红等完成的 t h - s p e e c h 中, 对同一音节音库中存有强弱两个版本。组词时,根据音节所在的 位置来选择取哪个样本。 这种方法使得 合成音质比 只是简单的 波 形拼接要好一些, 但仍不是很理想。中科院的初敏 1 2 1 等率先把 p s o l a 方法用于波形拼接的合成系统的韵律调整中, 取得了很好 的效果。 基于词的波形拼接是另一个提高语音合成质量的思路。北方 交通大学信息科学研究所在此方面开展了许多卓有成效的 工作。 首先张舰 3 1 研制了一个基于音节拼接的汉语文语转换系统, 接 着许军 1 1 、包江华等在他的基础上开发了 b j d - 9 2 和b j d - 9 8 汉语 文语转换系统。此系统录制了一万多条词 ( 包括一到四字词)存 北京交通大学硕士研究生学位论文 第二章 入 音库, 合成时通过索引在音 库中查找相应词的发音, 拼接后输 出。合成语音的自然度在词一级明显好于基于音节的波形拼接系 统,本论文就是在此基础之上 对文 语转换系 统的 相关问题 进行研 究并把它进行实用化推广的。 北京交通大学硕士研究生学位论文第 三 章 第三章 分词算法的研究 3 . 1分词概述 如前所述,文语转换系统首先通过语言学处理这个重要的环 节,而分词是语言学处理中很重要的一步。要对文本进行 自动分 词,首先我们必须明确 “ 词”这个概念,比较通用的说法是:词 是最小的、能独 立活动的、有意义的语言成分。 它是构成和分析 语言的基本单位。 而汉语文本中词与词之间没有明确的分隔标记, 而是连续的 汉字串。显而易见,自 动识别词边界, 将汉字串 切分 为正确的词串的汉语分词问题无疑是实现文语转换系统的首要问 题。 所谓的 汉 语自 动 分词 ( a u to m a t ic s e g m e n t a t io n o f c h in e s e wo r d ) , 也就是指把输入计算机的汉语语句自 动切分为 词序列的 过程,即是由计算机 自动识别文本中的词边界的过程。由于现代 汉语中缺乏明显的形态标志,词素组合成词也没有严格的规律可 以遵循,这就给计算机分词造成了很大的困难。尽管如此,我国 在这一领域还是做 了大量的工作。 汉语的词是一个开放的集合, 其数量可以认为是接近无穷的, 其中以 二字词为 最,关于分词词典作者这里采用b j d - 9 8 系统中 的 词典 2 8 , 该词典以 现代汉语词 表 和 现代汉语词典 为基 础,基本包纳了所有汉语常用词汇。 3 .2最大匹配分词方法 1 2 最大匹配法( m a x i m u m m a t c h i n g me t h o d , 简称m m法) 的基本 过程是: 假设词表中最长的词由 i 个字组成, 则每次从句子头上截 取一个长度为j 的字串,令它同词表中的词条依次匹配,如果词表 中确有这样一 个i 字词, 匹配成功, 就把这个字串 作为一个词从句 子头上切分出去。 然后再 从句子 余下部分的头上截取另一 个i 字字 串, 重复 上述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 详解2025年临床执业医师考试试题及答案
- 银行往届笔试试题及答案
- 识别税务师考试考试中的常见陷阱试题及答案
- 广东省清远市四校2023-2024学年高一下学期期中联考语文试题(解析版)
- 2025长虹美菱股份有限公司招聘操作工等岗位310人(四川)笔试参考题库附带答案详解
- 2025辽宁地矿集团总部部长岗位竞(招)聘4人笔试参考题库附带答案详解
- 2025河南新乡市市政设计研究院公司招聘8人笔试参考题库附带答案详解
- 2025河北沧州海发产业发展有限公司招聘48人笔试参考题库附带答案详解
- 2025江苏南通市大数据发展集团下属子公司招聘12人笔试参考题库附带答案详解
- 2025年福建省福州市勘测院有限公司招聘10人笔试参考题库附带答案详解
- 医务科医疗质量管理工作计划
- 人教版(2024版)七上数学第二单元:有理数的运算大单元教学设计
- 2023-2024学年广东省深圳市宝安区富源学校七年级(下)期中数学试卷(含答案)
- 5G-Advanced 网络技术演进白皮书
- 港口道路与堆场施工规范
- 创意设计工作室合伙合同
- 居家托养合同范本
- 劳务班组施工合同范本(2024版)
- 人音版小学六年级下册音乐教案
- 血透导管滑脱应急预案
- 肺栓塞的应急预案及流程
评论
0/150
提交评论