版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Speech signal processingLecture 12: 语音合成1语音合成技术概述2共振峰合成技术3LPC参数合成技术4PSOLA合成5按规则合成6语音合成的未来发展方向TTS原理及主要应用语音合成技术,简单说就相当于给机器装上人工嘴巴,让机器把各种文字信息实时转化为标准流畅的语音说出来的技术。它涉及数字信号处理、语言声学、多媒体技术等多个学科,是信息处理领域的一项前沿技术,具有广阔的市场空间。 TTS原理及主要应用语音合成技术: 是通过机械式或者电子式处理方法产生人造语音的技术; Text-To-Speech (朗读)Concept-To-Speech(对话)Intentio
2、n-To-Speech(说话)文语转换技术: 是将输入的文字信息转换为相应的语音并输出的技术,它隶属于语音合成的一部分。TTS原理及主要应用应用范围:将任何可见的电子文本信息转换为相应的语音,可以“变看为听”,使用户可以更方便的接受信息;不具备使用计算机和网络的条件;不会使用计算机的用户;不方便看,如行车的时候;具有视力障碍的人;语音合成技术发展年代核心技术1960s前基于规则和参数合成器的合成系统 基于发音器官模型的合成器 1980s基于规则和波形拼接的合成1990s后基于大语料库的合成机械式语音合成器Joseph Fabers Euphonia, as shown in London in
3、 1846. The machine produced not only ordinary and whispered speech, but it also sang the anthem God Save the Queen. Corpus-based 汉语 TTS流程 文本处理音节候选s1 s2 s3 s4韵律预测词典和语法规则韵律模板库通过连接代价选择最优通路s1 s2 s3 s4 s5 s6输出语音文本输入语音 Corpus文本规整文本规整正确划分意群多音字的处理韵律预测Speech signal processing1语音合成技术概述-合成过程查找拼写错误,并将文本中出现的一些不规
4、范或无法发音的字符过滤掉。分析文本中词或短语的边界,标注词性、确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。分析文本中每个句子的语法结构和语义结构,确定语义中心,句子的重音模式,语调,从而为韵律处理提供必要信息。对音系层的韵律事件预测:声调、语调、轻重、节律等对声学层的韵律参数预测Speech signal processing语音合成原理 语音生成方法主要目的:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成符合要求的语音。主要方法:(1)共振峰合成(2)LPC(线性预测编码
5、)参数合成(3)PSOLA(基音同步叠加)合成Speech signal processing2共振峰合成技术级联模型并联模型混合模型Speech signal processing3LPC参数合成技术 LPC合成模型中的所有控制参数都必须随时间不断地修正。 (1) 对于清音语音段,可以简单地针对每一帧数据改变一次参数。 (2) 对于浊音语音段,根据控制参数改变时刻的选取不同,有基音同步合成和帧同步合成两种方式。 (3) 分析帧的长度固定,一般选择大于两个基音周期,因此为了得到每个基音周期起始处的控制参数,就必须进行内插。 优点 简单、易于实现。缺点 合成语音样本需要很高的计算精度Speech
6、 signal processing4PSOLA基础-时间尺度的调整(TSM) 如何将一段声音变慢或者变快?Speech signal processing 变慢一倍后的语谱图被拉长4PSOLA基础-时间尺度的调整(TSM)Speech signal processing 问题Problem:如何保证局部的时间结构,而使整体的时间长度发生变化?解决方法 Solution将小段反复重复4PSOLA基础-时间尺度的调整(TSM)Speech signal processing4PSOLA基础-时间尺度的调整(TSM)Speech signal processing 允许在叠加过程中有一定的误差4P
7、SOLA基础-时间尺度的调整(TSM)Speech signal processing 通过交叉相关方法确定 4PSOLA基础-时间尺度的调整(TSM)Speech signal processing4PSOLA合成技术原理对原始波形进行分析,产生非参数的中间表示。(2) 对这些短时信号做必要的修正,形成一系列短时合成信号。首先根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求,建立合成波形与原始波形之间基音周期的映射关系;再由此映射关系确定合成所需的短时合成信号系列。(3) 将合成短时信号系列与目标基音周期同步排列并重叠相加得到合成波形。Speech signal p
8、rocessing为原始语音段加基音标注是算法执行的基础。 浊音有基音周期,能够进行有效地标注。 对于清音,为了保持算法的一致性,一般标注为一个适当的常数。 需要按基音周期分别修改音长、基频及合成信号的幅值。 4PSOLA合成技术Speech signal processing4PSOLA合成技术对于音长的修改,就是找到分析信号的基音同步标注点与最后合成信号的基音同步标注点之间的对应关系,一般它们呈现一种线性关系,下图给出了音长缩短时的基音标注情况。 Speech signal processing4PSOLA合成技术进行基频和音长的调整 Speech signal processing4PS
9、OLA合成技术Speech signal processing4PSOLA合成技术Speech signal processing4PSOLA合成技术Speech signal processing4PSOLA合成技术 基于拼接合成算法中需要解决的问题 声学基元的选择 声学基元的样板数 韵律修饰 Speech signal processing5按规则合成 选择更小的合成基元,加入庞大的规则库将其合成为词语或句子的合成方式,更侧重于各种合成规则的研究,因此称其为按规则合成。 对汉语,基元一般应选声母和韵母。 韵律规则也叫“超音段特征”,反映了语音在基频、共振峰、能量以及谱分布特性上的差异。 主
10、要包括声调、语调、重音等。 Speech signal processing5按规则合成 (a) 重音规则 指说话或朗读时读的比较重的音节或词语,要时间长一点、音程大一点。一般可以将汉语重音分为词重音和句重音两大类。 (b)转接与音渡 转接与音渡是音素序列转变成语音流时的动态变化规律。 汉语发音中存在两种基本的过渡,即辅音与元音组合和元音与元音组合。前者称之为“转接”;后者称之为“音渡”。 Speech signal processing5按规则合成 (c)声调与变调在连续的语流中,由于相邻音节之间的相互影响,各音节的基音频率时变曲线与孤立发音时的音节相比会发生较大的变异。 (d)音长问题 音
11、长也是语音的重要特征之一,对语音的可懂度、自然度都有一定的影响。汉语中音长主要体现在韵母的调型段长度上。Speech signal processing6合成音质的评价主观评价可懂度(清晰度)正确听辨被传送的、相互无联系的汉语单字的百分数。自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然。客观评价 时域测度 频域测度Speech signal processing6语音合成的未来发展方向(1)提高合成语音的自然度(2)丰富合成语音的表现力(3)降低语音合成技术的复杂度(4)多语种文语合成汉语TTS技术进展序号系统代号系统名称测听值1A播音员4.722B自然人3.693C语
12、音合成3.98以播音员为5.0分,自然人为4.0分,对比计算出语音合成系统的自然度指标为:4.3分。04年863语音合成评测结果评测结果 (2004年10月)说明:system分别是中科大、日本ATR、清华大学、中科院声学所、中科院自动化所、哈工大、提交的参评系统;划“”表示未参加该项评测。 单位桌面及电信嵌入式自然度对比分自然度综合分可懂度自然度对比分自然度综合分可懂度system11.35286103996.7%1.0214852388.7%system2-0.25-19294.5% system3-0.84375-64893.9% System4-0.25911-19993.4% system5 -0.39062-20086.5%system6 -0.63086-32387.9%语音合成的技术方向Read speech风格的TTS,目前已经达到比较高的水平。语音合成技术仍然还有很多未解决的问题:Multi-speaker voice 多说话人声音Multi-lingual Speech Synthesis 多语种合成E
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年快速蒸饭机项目投资价值分析报告
- 2024至2030年室内墙面导视三角牌项目投资价值分析报告
- 2024至2030年古钱挂历项目投资价值分析报告
- 2024至2030年不锈钢针头项目投资价值分析报告
- 2024年肉蔻粉项目可行性研究报告
- 2024年女士钙片项目可行性研究报告
- 2024年双层钢移门柜项目可行性研究报告
- 如何灵活调整会计工作计划的执行方案
- 【新教材】10《ai ei ui》 第二课时课件
- 酒吧经营权转让合同三篇
- 2024榆林粮食和物资储备集团有限公司招聘(6人)笔试备考试题及答案解析
- 2024年新能源发电项目股权转让协议
- 广东开放大学2024秋《形势与政策(专)》形成性考核参考答案
- 《中国心力衰竭诊断和治疗指南2024》解读
- 《我的白鸽》课件-2024-2025学年统编版语文七年级上册
- 2024年高中英语衡水体书法练字字帖
- DL∕T 618-2022 气体绝缘金属封闭开关设备现场交接试验规程
- 2022年10月自考12350儿童发展理论试题及答案含解析
- 2024年《军事理论》考试题库附答案(含各题型)
- MOOC 马克思主义基本原理-华东师范大学 中国大学慕课答案
- 施工组织设计(老旧小区改造及配套设施)
评论
0/150
提交评论