版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、语音合成技术 什么叫语音合成 Text To Speech过程,简称TTS 作用:将文本状态的文字信息转化为可听的声音信息 “电脑会说话” 键 盘 光电扫描 手写识别 网络/数据 库 文 本语言处理韵律处理语音合成 结果输出 词典/规则语音库 发声机理 语音产生的生理过程 总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听 数字语音信号 什么是数字语音信号 语音:说话,声波传递的语言 语音信号:记录下来的声波振动 模拟语音信号: (磁带,唱片) 数字语音信号:模拟信号数字化 (wav mp3 CD) - 计算机应用的需要计算机应用的需要 如何数字化
2、取样:采样率(时间尺子,8K,16K,44K,每秒样点数量) 量化:量化精度(幅度尺子,16bit,-3276732768范围) 数字语音信号 取样和量化 数字语音信号 波形不能说明内容 数字语音信号 频域介绍 一段任意波形可以由一系列正弦波形组合而成 离散傅里叶变换数学表示: 最高值,采样率的一半(16K wav;max freq = 8K Hz) 人可听辨的频率范围: (20Hz 20kHz) 电话语音信道的频率范围(60Hz 3400Hz) 数字语音信号 语谱图 数字语音信号 清音和浊音 浊音:声带的快速振动,声带能够将稳定气流转换成振动 振动频率称为基频,准周期性 清音:紊乱气流,肺部
3、气流通过声道中的狭窄处产生 爆破音:突然爆破 数字语音信号 声学特征 如此杂乱多变的信号,如何描述,如何恢复? 语音信号产生的数字模型(源-滤波器模型) 数字语音信号 声学特征 基频:发浊音时声带振动引起的周期变化,我们听感音调 高低主要由基频决定,中文声调还用于区分语义 谱参数:描述声道和口唇辐射 共振峰,LPC,倒谱参数 总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据标注与合成 4 . 合成效果测听 语音合成技术 主流技术路线 基于统计规则的大语料库拼接语音合成系统 基于HMM的参数语音合成系统 基于HMM的语料库拼接语音合成系统 两条道路: 要么是波形切分再拼合起来,要么
4、是声学参数转化出来 语音合成技术 基于统计规则的大语料库拼接语音合成系统 传统大语料库合成, InterPhonic 5.0之前 单元挑选波形拼接 超大规模音库制作 语料设计,音库录制,精细切分,韵律标注 规则统计,针对不同发音人的细致调整 优点:音质最佳,正常句子的自然度也很好 缺点:非常依赖音库的规模大小和制作质量,存在一定 稳定性问题,不能应用在小型设备中 样例: InterPhonic系统处理流程 语音合成技术 基于HMM的参数语音合成系统 首先进行语音特征参数的提取 以音素为单位(中文为声韵母),使用HMM (Hidden Markov Model)对自然语流的频谱特征参数进行建模
5、采用基于决策树的聚类方法对上下文相关模型进行聚类 ,以提高模型的鲁棒性,得到预测参数 最后生成参数输入合成器,得到合成语音 优点:所需音库规模小,标注精度要求相对降低,自然 度高,系统小,灵活度高,ViviVoice,AiSound 缺点:音质相对较差,带有合成器风格 样例: 语音合成技术 参数语音合成系统框架 语音合成技术 HMM参数建模 用声学参数针对音素建模 为什么要建模?描述的音素特征变化 隐马尔科夫模型( Hidden Markov Model - HMM ) 语音合成技术 决策树模型聚类 有了模型怎么使用?来一句话怎么预知用哪个模型? 基于上下文的信息的决策树聚类 语音合成技术 基
6、于HMM的语料库拼接语音合成系统 利用HMM目标模型和连接模型来指导单元挑选 结合参数训练模型的数学统计模型优势和波形拼接的高 音质,相对以前的大语料库技术在自然度上有较大提升 自主原发,意义重大 优点:拥有明确目标和度量准则,音质好,自然度高, 系统搭建自动化程度高,InterPhonic 5.5以上版本 缺点:仍然需要很大规模的语料库,计算量较大 样例: 语音合成技术 基于HMM的单元挑选系统结构图 总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听 数据制作与合成 数据与合成的关系 音库数据是合成系统的基石,离开了音库谈合成就是 “无源之水 无
7、本之木” 一份音库的制作质量,直接决定了该发音人合成系统的 能达到什么效果 数据制作与合成 数据制作过程 音库设计 音库录制 音素切分 韵律标注 音素检错 基频修正 索引制作 数据制作与合成 音库设计与合成 一个设计良好的音库要有较好的音素,韵律覆盖率 广泛的语料来源,保证超大规模库的稳定 某方向定制语料,提升某特应用场合的效果,对语料库 拼接技术很重要 “还烦请大家收集更多更好的语料文本” 数据制作与合成 音库录制与合成 录音控制很重要 录音室环境,隔除噪音 话筒的摆放,能量幅度范围 如何保持发音人的发音状态 轻松心态,自然流程,不要带情绪,除非这是情感库 适度原则,不要疲劳录音,宁缺勿滥
8、批次比对,及时与之前数据做比对,可加入重复句 “还请大家多关注录音质量” 数据制作与合成 音素切分与合成 切分精度 精切:大语料库拼接标准,周期下降沿 粗切:参数合成与HMM拼接,模型具有一定内部切分调整能力 粗切不代表切分不重要,好的初始位置能帮助模型自切。 电脑未必比人聪明,清浊好定,浊浊也难定,还需修正 停顿位置 什么地方有Sp,silv,pau? 标准L3层以上边界,30ms以上计算机才能使用 如果本来有停顿却没有加silv,停顿段会影响前后音素单元质量 一些录音缺陷也可塞给停顿位置,鼻息,口水音 合成样例: The*psychotropic*airplanes#underwrote*
9、the*dispassionate*song。 数据制作与合成 音素切分与合成 音变处理 连续语流总存在一些规则音变或者不规则音变,导致所读不是 原来词典音素 音素是身份牌,这个错了后果很严重! 修改标准:尊重录音 中文:声调变化,儿化,轻读。没被改过的音变就是地雷 英文:连读,吞音,弱化,缩写词 吞音标准:有无音位,或者我去掉这个读有无差别 英文音素短,不是母语,更需小心 “还请大家切音时多细心” 数据制作与合成 韵律标注与合成 韵律标注是音素的档案,据此来分门别类,听候取用 良好的韵律标注帮助我们构建正确有效的统计预测结构, 上下文韵律决策树 如果韵律标注是错误的,连锁毁灭性破坏 韵律标错
10、 - 聚类分错 - 模型建错 - 预测走错 - 参数找错 - 挑选看错 - 合成出错 -客户很生气- game over 数据制作与合成 韵律标注与合成 中文韵律:调型,停顿层次(L0 L1 L2 L3 L4 L5) 英文韵律:ToBI ( Tone and Break Index) 停顿层次: Tone Break 边界调: Phrase Tone 重读: Pitch Accent 数据制作与合成 韵律标注与合成 标注不同对合成的影响实例 重读 But*I*did*not(H*)*enjoy*it*long。 边界调 Now*run*along(L-H%),and*tell*them*to*
11、hurry。 数据制作与合成 韵律标注与合成 一致性! 一致性非常重要,统一标准 面对模棱两可的地方,如何取舍? 个人尊重大家意见 新人咨询资深意见 多讨论,多比对 对新录库可以按批次做一致性检查 “还请大家细致统一的标注韵律” 数据制作与合成 音素检错与基频修正 评测会给数据打分纠错,合成也需要 挑出音库中可能存在的地雷 检错种类: 浊浊修正 调型修正 音素修正 基频修正 特点:直接锁定位置判断,规律性强 “还请大家多反馈检错时的规律总结” 数据制作与合成 索引制作与合成 音库索引将音库韵律和参数信息整理保存 合成需要从索引中提取数据,拼接合成在系统挑选时还 需要直接使用索引 较为固定,但一
12、旦出错不易更改 某个词性错位问题遗留很久才被发现(技术人员的错误) “制库工作很繁琐,烦劳大家了” 总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听 合成效果测听 测听与合成 效果测听是评判合成系统好坏的硬性指标 常用测听项目 音质 自然度 相似度 主观打分标准,(mean opinion score, MOS) MOS分主观意见 5分优,察觉不到任何不自然 4分良,刚察觉若干不自然 3分可,能察觉不自然但可以接受 2分差,明显察觉但可忍受 1分坏,不可忍受 合成效果测听 测听与合成 音质测听注意事项 对音质由技术路线主导,但敏感度因人而异,主观好
13、恶 16K原始录音音质可打5分 16k原始分析合成可到4分 波形拼接合成音质可超4分 参数合成系统音质在3分附近 尽量减少自然度上的错误对音质打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一致性 测听数量不能少,要有覆盖率和代表性 一只好耳机,包住耳朵,提高音量 其实,5分很高,2分很低 合成效果测听 测听与合成 自然度测听注意事项 同样是主观打分,个人标准看待 说话人原始录音也只能接近5分 参数合成较为流畅,相对平淡 拼接合成存在不稳定性,波动较大 自然度测听强调对不自然处的扣分 同样尽量减少不同音质对自然度打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一
14、致性 保证一定数据量,如果数量很多,可以分批测听 5分太高,2分很丢人 合成效果测听 测听与合成 相似度测听注意事项 一般会提供目标人的录音作参照 重点考察音色,兼顾基频,时长,口音 一般测听要求 黑盒不重要 0.5分间隔:提高一致性 合成效果测听 测听与合成 偏向性测听注意事项 在两个较为接近的效果中取舍 测听要求 一定要黑盒! 可以用黑盒工具,固定0, 1打分 偏向性选择只能选一个 在特别说明时,对难以区分的,可以同时选或不选 合成效果测听 测听与合成 外教测听注意事项 对外语种合成效果测听,native人士的感觉很重要 一般只对整体感觉打分,综合音质自然度 测听要求 多交流说明我们的目的
15、 对关注的问题需要直接沟通 控制测听时间和数量,保证测听质量 合成效果测听 测听与合成 一句话总结 “还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句 合成语音做出客观,细致,有代表性的评判” 谢谢! 欢 迎 提 问 总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听 总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听 数据制作与合成 音素切分与合成 音变处理 连续语流总存在一些规则音变或者不规则音变,导致所读不是 原来词典音素 音素是身份牌,这个错了后果很严重! 修改标准:尊重录音 中文:声调变化,儿化,
16、轻读。没被改过的音变就是地雷 英文:连读,吞音,弱化,缩写词 吞音标准:有无音位,或者我去掉这个读有无差别 英文音素短,不是母语,更需小心 “还请大家切音时多细心” 数据制作与合成 韵律标注与合成 韵律标注是音素的档案,据此来分门别类,听候取用 良好的韵律标注帮助我们构建正确有效的统计预测结构, 上下文韵律决策树 如果韵律标注是错误的,连锁毁灭性破坏 韵律标错 - 聚类分错 - 模型建错 - 预测走错 - 参数找错 - 挑选看错 - 合成出错 -客户很生气- game over 数据制作与合成 韵律标注与合成 标注不同对合成的影响实例 重读 But*I*did*not(H*)*enjoy*it*long。 边界调 Now*run*along(L-H%),and*tell*them*to*hurry。 数据制作与合成 韵律标注与合成 一致性! 一致性非常重要,统一标准 面对模棱两可的地方,如何取舍? 个人尊重大家意见 新人咨询资深意见 多讨论,多比对 对新录库可以按批次做一致性检查 “还请大家细致统一的标注韵律” 数据制作与合成 索引制作与合成 音库索引将音库韵律和参数信息整理保存 合成需要从索引中提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《证据习题刑诉法》课件
- 江苏省镇江一中等2025届高考考前模拟英语试题含解析
- 14.1《故都的秋》课件 2024-2025学年统编版高中语文必修上册
- 2025届山东省威海市乳山一中高考冲刺押题(最后一卷)数学试卷含解析
- 2025届山东省微山二中高考数学三模试卷含解析
- 2025届上海市虹口区复兴高中高考考前模拟数学试题含解析
- 10.1《劝学》课件 2024-2025学年统编版高中语文必修上册-3
- 湖南省邵阳市邵东县创新实验学校2025届高三第三次模拟考试英语试卷含解析
- 河南省驻马店市2025届高考考前模拟数学试题含解析
- 全国普通高等学校招生统一考试2025届高考语文五模试卷含解析
- 夫妻债务约定协议书
- 订购蓝莓合同范例
- 3.2推动经济高质量发展课件-高中政治统编版必修二经济与社会
- 2024年宣传文化工作总结(3篇)
- 美团课件无水印
- 《金融学原理》期末考试复习题库(含答案)
- 2024年可行性研究报告投资估算及财务分析全套计算表格(含附表-带只更改标红部分-操作简单)
- 创业修炼智慧树知到期末考试答案章节答案2024年同济大学
- 行政执法考试试卷及参考答案
- (完整版)自由泳教案
- 2024春期国开电大《应用写作(汉语)》形考任务1-6参考答案
评论
0/150
提交评论