语音合成论文

上传人：伊*** IP属地：上海上传时间：2022-03-01 格式：DOCX 页数：5 大小：133.21KB 积分：20 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、语音合成技术发展与应用姓名：孙亚非学号：201120195010摘要：本文介绍了语音合成技术的发展过程及其现状，及其目前常用的一一些合成的方法（共振峰合成，LPC参数合成，PSOLA合成技术,LMA声道模型）。还介绍了语音合成技术的一些应用。关键词：语音合成； LPC;PSOLA;LMA;应用Abstract：The article describes the development progress of a speech synthesis technology and the status quo ,and the most commonly used synthetic metho

2、ds(Formant synthesis ,LPC parameter synthesis ,PLOSA synthesis technology ,LMA-channel model).Also describes some applications of speech synthesis technology.Keywords：speech synthesis; LPC;PSOLA;LMA; application1.前言语音合成1是通过机械的、电子的方法产生人造语音的技术。TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的

3、汉语口语输出的技术。语音合成是人机语音通信的一个重要组成部分。语音合成研究的目的是制造一种会说话的机器，它解决的是如何让机器象人那样说话的问题，使一些以其它方式表示或存储的信息能转换为语音，让人们能通过听觉而方便地获得这些信息。语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。和语音识别相比，语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进，大规模应用指日可待。语音合成，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。2. 发展历程及其现状

4、的概述1,2,5 纵观语音合成技术的研究已有二百多年的历史，早在现代电子信号处理技术发明以前，人们就开始试图建造发出人类语音的机器和机械设备，比如 Gerbert、Albertus Magnus和Roger Bacon 制造的“speaking head”。以后又有人制造出可以发出元音和辅音的机器。1930年，贝尔实验室开发了声音编码器。这是一个用键盘操作的电子语音分析器和合成器。第一个基于计算机的语音合成系统在50年代后期诞生。第一个完整的TTS系统在1968年完成。从那时起，语音合成技术经历了各种各样的改进。在语音合成技术的发展过程中，早期的研究主要是采用参数合成方法，后来随着计算机技术的

5、发展又出现了波形拼接的合成方法。2.1参数合成在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器（1973）和Klatt的串/并联共振峰合成器（1980），只要精心调整参数，这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk（1987）。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。2.2波形拼接自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加（PSOLA）方法的提

6、出（1990），使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易于实时实现，有很大的商用前景。国内的汉语语音合成研究起步较晚些，但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863计划，国家自然科学基金委，国家中国科学院有关项目等支持下，汉语文语转换系统研究近年来取得了令人举目的进展，其中不乏成功的例子：如中国科学

7、院声学所的KX-PSOLA（1993）, 联想佳音（1995）；清华大学的TH_SPEECH (1993)；中国科技大学的KDTALK（1995）等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术的大规模进入市场。3. 语音合成技术常用方法及其比较 3.1共振峰合成1语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔（声道），由嘴或鼻辐射声波。因此，声

8、道参数、声道谐振特性一直是研究的重点。在图1所示的某一语言的频率响应图中，标有Fp1、Fp2、Fp3. 处为响应的极点，此时，声道的传输频率响应有极大值。习惯上，把声道传输频率响应上的极点称为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。（1）级联型共振峰模型。在该模型中，声道被认

9、为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。（2）并联型共振峰模型。许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，上述级联型模型不能很好地加以描述和模拟，因此，构筑和产生了并联型共振峰模型。（3）混合型共振峰模型。在级联型共振峰合成模型中，共振峰滤波器首尾相接；而在并联型模型中，输入信号先分别通过幅度调节再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将两者比较，对于合成声源位于声道末端的语音（大多数的元音），级联型合乎语音产生的声学理论，并且无需为每一个滤波器分设幅度调节；而对于合成声源位于声道中间的语音（大多数清擦音和塞音），并联型则比较合适，但是其幅

10、度调节很复杂。基于此种考虑，人们将两者结合在一起，提出了混和型共振峰模型。如图2所示：事实上，上述三种共振峰模型在实际中都得到了成功的应用。例如：Fant 的OVE 系统就采用了级联型的共振峰模型；Holmes 合成器采用的是并联型的共振峰模型；而最为典型也是最为成功的Klatt 合成器则构筑在混合型共振峰模型的基础之上。在汉语语音合成方面，研究人员研制出了一些基于共振峰模

11、型的成功的应用系统。如社科院语言所的 SIFS 合成器、中科院声学所的KX 1 系统中基于Holmes 的并联型共振峰合成器模型，而同样由中科院声学所开发的第二代共振峰合成器KX FSS 则基于Klatt 合成器。但是，人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了

12、合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。基于这些原因，研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发，提出了基于波形拼接的合成技术，LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同，波形拼接合成是基于对录制的合成基元的波形进行拼接，而不是基于对发声过程的模拟。 3.2 LPC参数合成4波形拼接技术的发展与语音的编、解码技术的发展密不可分，其中LPC技术（线性预测编码技术）的发展对波形拼接技术产生了巨大的影响。LPC合成技术本质上是一种时间波形的编码技术，目的是为了降低时

13、间域信号的传输速率。LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合成基元来说能够获得很高的自然度。但是，由于自然语流中的语音和孤立状况下的语音有着极大的区别，如果只是简单地把各个孤立的语音生硬地拼接在一起，其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音+重放，对于合成整个连续语流LPC合成技术的效果是不理想的。因此，LPC合成技术必须和其他技术相结合，才能明显改善LPC合成的质量。一种典型的基于单音节和VQLPC(矢量量化的LPC)技术的文语转换系统

14、原理图如图3所示。3.3 PSOLA合成技术1,220世纪80年代末提出的PSOLA合成技术（基音同步叠加技术）给波形拼接合成技术注入了新的活力。PSOLA技术着眼于对语音信号超时段特征的控制，如基频、时长、音强等的控制。而这些参数对于语音的韵律控制以及修改是至关重要的，因此，PSOLA技术比LPC技术具有可修改性更强的优点，可以合成出高自然度的语音。 PSOLA技术的主要特点是：在拼接语音波形片断之前，首先根据上下文的要求，用PSOLA算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度。PSOL

15、A技术保持了传统波形拼接技术的优点，简单直观，运算量小，而且还能方便地控制语音信号的韵律参数，具有合成自然连续语流的条件，得到了广泛的应用。但是，PSOLA技术也有其缺点。首先，PSOLA技术是一种基音同步的语音分析/合成技术，首先需要准确的基因周期以及对其起始点的判定。基音周期或其起始点的判定误差将会影响PSOLA技术的效果。其次，PSOLA技术是一种简单的波形映射拼接合成，这种拼接是否能够保持平稳过渡以及它对频域参数有什么影响等并没有得到解决，因此，在合成时会产生不理想的结果。 3.4 LMA(Log Magnitude Approximate)声道模型2随着人们对语音合成的自然度和音质的

16、要求越来越高，PSOLA算法表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷，因此，人们又提出了一种基于LMA声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点，同时又具有比PSOLA算法更高的合成音质。目前，主要的语音合成技术是共振峰合成技术和基于PSOLA算法的波形拼接合成技术。这两种技术各有所长，共振峰技术比较成熟，有大量的研究成果可以利用，而PSOLA技术则是比较新的技术，具有良好的发展前景。过去这两种技术基本上是互相独立发展的，现在许多学者开始研究它们两者之间的关系，试图将两者有效地结合起来，从而合成出更加自然的语流。4. 语音合成技术的应用示例结合

17、其他技术，语音合成技术可以广泛应用于金融、邮电、工商、政府机关、交通、教育、游戏等领域。下面介绍几个实用的语音合成系统。 4.1 工商信息电话查询系统 3, 6 本系统的功能是让用户可以通过电话查询到某一企业在工商局的注册信息。用户主要通过输入注册号、统一代码或者企业电话号码等来查询相应的企业信息。目前，科大讯飞公司正与IBM 公

18、司合作，将采用电话语音识别技术来实现语音选择。也就是说，用户只需口述企业名称（包括带一定模糊概念的口述，如“ 科大讯飞” 或“ 讯飞” 均可识别），即可直接得到该企业的一系列信息。这与过去的按键听取相比，不仅方便了用户，还从很大程度上提高了查询效率，节约了用户的宝贵时间。另一方面，查询结果除了可以通过电话直接听取外，还可通过

19、传真机接收到相关企业的详细信息（包括图像信息）。4.2 电话银行系统中科大讯飞公司开发的电话银行系统，通过采用与中国科大人机语音通信实验室合作研究的KD 2000 语音合成技术，使金额数目的报读声音清晰、语流自然，避免了用户听错数目的可能，提高了用户的满意度。系统可以实现收付款、汇率查询、余额查询、日记账、通知、挂失、明细、凭证等功能

20、，举例说明如下：查询余额根据用户输入的账号，报出该账户的余额。查询交易查询当天交易或者指定日期区间内的历史交易。查询结果可以通过电话听取，也可以用传真机接收，格式可由银行指定。挂失服务用户遗失存折或信用卡后，可以通过电话及时挂失。挂失之后，这个账号的所有功能将暂停。修改密码用户每隔一定时间更改一下密码，有助于提高安全性，将他人盗用的可能性降到最低。转账服务借助电话实现指定账户间的转账业务，一般是在同名用户的不同账号或信用卡之间相互转账。4.3 普通话教学软件7-制作该软件的目的是帮助港、澳、台、粤等想学普通话的用户。以往的普通话教学软件只是将预先录好

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音合成论文

文档简介

温馨提示

最新文档

评论

语音合成论文

文档简介

温馨提示

最新文档

评论

相关文档