基于共振峰过渡的协同发音语音合成算法_第1页
基于共振峰过渡的协同发音语音合成算法_第2页
基于共振峰过渡的协同发音语音合成算法_第3页
基于共振峰过渡的协同发音语音合成算法_第4页
基于共振峰过渡的协同发音语音合成算法_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 43卷 第 9期 2010年 9月 天 津 大 学 学 报 Journal of Tianjin UniversityV ol.43 No.9Sep. 2010收稿日期:2009-07-03; 修回日期 :2009-11-30.基金项目:国家自然科学基金资助项目 (60772074. 作者简介:康广玉(1975 ,男,博士研究生,讲师 . 通讯作者:康广玉, kgycat250318.基于共振峰过渡的协同发音语音合成算法康广玉 1,2,郭世泽 3,孙圣和 1(1. 哈尔滨工业大学自动化测试与控制系,哈尔滨 150001;2. 天津工程师范学院自动化系,天津 300222; 3. 中国人民解

2、放军总参 54所,北京 100001摘 要 :协同发音是音素在语流中受前后音素的影响 , 而使 2个以上音素的发音特征同时出现的现象. 大语料库语音 拼接算法获得的语音合成效果最好, 但录制语料困难、 算法复杂、 耗费时间, 需要占用很大的存储空间, 在应用中存在困 难. 为此, 针对小语料库语音合成, 提出参数修改和波形拼接相结合的语音合成方法, 通过参数修改方法合成协同发音 段, 再与自然语音进行波形拼接. 实验表明, 该算法合成的语音效果较好, 而且对语料库内容要求较低. 关键词 :语音合成;协同发音;共振峰;基频轨迹中图分类号 :TP391 文献标志码 :A 文章编号 :0493-21

3、37(2010 09-0810-05Speech Synthesis Using Formant Transition Based Co-ArticulationKANG Guang-yu1,2, GUO Shi-ze3, SUN Sheng-he1(1. Department of Automatic Test and Control, Harbin Institute of Technology, Harbin 150001, China ;2. Department of Automation Engineering, Tianjin University of Technology a

4、nd Education, Tianjin 300222, China ;3. No.54 Institute from Headquarters of the General Staff, Peoples Liberation Army, Beijing 100001, China Abstract :Co-articulation is the phenomenon of co-occurrence of two or more phonemes features due to the effect offront and rear phonemes during articulation

5、. While the speech mosaicing algorithm for the large speech database ob-tains good performance on speech synthesis, it finds difficulty in practical application resulting from difficulty inthe collection of speech samples, the complexity of algorithm, the time consumed and large storing space. This

6、paper proposes a speech synthesis scheme for small speech database based on parameter adjustment and wave mosaic of speech band. The co-articulation speech band was first synthesized with parameter modification, and then mosaiced with natural speech. Simulations demonstrate that the proposed algorit

7、hm performs well on speech synthesis and haslower demand on the size of speech database.Keywords :speech synthesis; co-articulation ; formant ; pitch trace协同发音是指在发音时, 音素在语流中受前后音 素的影响而使 2个以上音素的发音特征同时出现的 现象 1. 当前音节的结束音素为元音, 后音节的起始 音素为元音或摩擦音时, 就会产生协同发音现象, 而 其他音素作为音节起始则不会产生协同发音现象, 或 可以忽略其影响. 协同发音时语音在音段方

8、面, 表现 为共振峰的过渡, 在超音段方面, 表现为基音频率的 过渡, 这是说话过程中经常发生的现象. 为提供语音拼接合成质量, 应考虑协同发音现 象. 大语料库语音波形拼接算法获得的语音合成效果最好, 在解决协同发音时采用大量录制具有协同发音的语音, 从中选择适当片段进行拼接的方法, 但存在 录制语料困难、 算法复杂、 耗费时间, 而且需要占用很 大的存储空间 2, 在应用中存在困难. 目前进行小语 料库语音合成算法的研究很多, 文献 3提到语音拼 接合成系统兼有拼接合成及参数合成的优点, 也对相 邻音素基音频率进行了一定的修改, 保证了基音频率 的联续性, 但并未考虑相邻音素的协同发音现象

9、, 只 是简单地将单个音节发音波形直接进行拼接合成得 到的合成语音, 与实际连续语音往往有着很大的区2010年 9月 康广玉等:基于共振峰过渡的协同发音语音合成算法 ·811·别, 主要表现在合成基元之间连接处的谱包络、 共振 峰等声学特性不能很好地还原, 导致得到合成语音连 续性差、 谱包络不能平滑过渡, 因而效果不好 1,4. 因此, 如何在语音合成基元存储容量有限的条件 下, 进一步提高合成语音的质量一直是波形拼接合成 法研究的主要问题. 由于发音器官的惯性作用, 协同 发音词组的共振峰变化和基音频率变化是连续的 4. Matsumoto 等 5研究发现:不同说话人发

10、同一段语音 时, 人耳的柯蒂氏器官就是靠感知不同的共振峰频率 分布来区分不同的说话人, 基音周期与共振峰频率能 够表示 85%的说话人特征. 笔者的语音合成算法主 要对这 2个方面进行研究.1 协同发音分析协同发音时语音在音段方面, 表现为共振峰的过 渡, 在超音段方面, 表现为基音频率的过渡. “西安” 存在协同发音现象, 如果不考虑协同发音现象而直接 合成, 则发音一字一顿, 听者明显感觉不自然. 如图 1和图 2所示. (b 语音频谱图 1“西” 、 “安”单独发音的语谱 Fig.1Speech spectrogram of individual articulation of “ Xi

11、 ” and “ An ” 图 2“西安”协同发音的语谱 Fig.2Speech spectrogram of co-articulation of“ Xi an ”由图 2可见, 具有协同发音现象的语音可分为 2部分, 语音稳定段和语音过渡段, 语音稳定段共振峰 频率基本不变化, 而语音过渡段共振峰频率表现为连 续平滑过渡到下移音节开始段.2 算法的基本思想笔者提出一 种 以音节为合成基元, 参数修改与波 形拼接结合的语音合成算法. 其中包 括 2个问题:一 是共振峰的修改 ; 二 是基音频率的 调整 . 通 过对过渡 段共振峰的修改和基频 轨迹 的 调整 , 来合成协同发音 段, 与自然语

12、音进行波形拼接.2.1 共振峰过渡1 共振峰参数及其提 取共振峰参数是指发 浊 音时, 气 流 通 过声 道 , 引 起 声 道谐 振, 产生的一组 谐 振参数 (频率、 带宽 和 幅 度 . 这 些 参数包 含 在语音频谱包络中, 代 表了语音 信号 的 短 时频谱声学特征, 频谱包络的 局 部最大 值 就 是共振峰. 通 常在 05000Hz 范围内 , 有 5个共振 峰, 从中可以提 取 共振峰频率、 共振峰 带宽 和共振峰 幅度 .由 线 性 预测 (linear prediction, LP 分 析 导出的声 道滤 波器是频谱包络 估计 的有效方法, 即近似认 为声 道滤 波器的共

13、轭极 点对应频谱包络的最大 值 , 即 对应 共振峰参数. 由 线 性 预测 分 析 可知, 声 道 可 近似 表示 一个 全极 点 滤 波器. 对于 每 一 帧信号 , 其 传输函 数表 示为1(1pppGH za z =(1式 中:G 为 增益;pa 为 线 性 预测 系数 ; P 为 线 性 预测 阶 数.将 式 (1 分解为1(1Kk kGH zr z=+111(1e (1e j jJjj j jGr z r z= (2 求 解出声 道滤 波 函 数的 极 点. 式 (2 中:K 为实 极 点个数 ; J 为共 轭极 点对的个数 ;kr 、 j r 为 极 点 半径; j 为 极 点的

14、相 角 . 设 与共 轭极 点jz 对应的共振峰频率为jF , 带宽 为 j B , 幅度 为 j A . 根据 文献 6则有 s s2(/ 2(/e j jB F F Fjz ±=(3式 中sF 表示采 样 频率. 利 用 式 (2和式(3 可得共振·812· 天 津 大 学 学 报 第 43卷 第 9期 峰的频率、 带宽 和 幅度 分别为 s 2jj F F = (4s (ln (/2j j B r F = (5j j A G = (62 修改共振峰由于发声器官的惯性作用, 协同发音在音节之间 形成一个共振峰过渡段, 过渡段的前 边界各 个共振峰 的参数 (频

15、率、 带宽 、 幅度 等于前音节结 尾 的相应共 振峰的参数, 而其后 边界 的 各 个共振峰的参数等于后 音起始的相应共振峰的参数. 因此, 可以 通 过对前后 共振峰参数进行 线 性 插值 的方法来 构造 音节之间的 共振峰过渡段, 如图 3所示.图 3 协同发音共振峰移动示意Fig.3 Schematic of formants shift in co-articulations将前共振峰的参数 通 过过渡时间 达 到后音节对应共振峰参数 值 , 假设 在过渡时间 内 共振峰参数是 均 匀 变化的. 根据 语 速 来 确 定过渡时间, 过渡时间一 般 占音节元音部分的 10%15%, 实

16、 验 采用 12%作为过 渡时间.共振峰参数的修改可 通 过同时在语音谱中 加入 与原共振峰参数相对应的复 零 点对 i e jm r ±, 以及与修改 后 的 共 振 峰 参 数 相 对 应 的 复 极 点对 i ejn r ±来 完成 7, 即1( (1 Kkk kG H z r z =+ 111(1e (1ej jJjj j j G r z r z =i i 11i i 11(1e (1e (1e (1ej jj j n n r z r z r z r z (72.2 基音轨迹转换基音频率 0F 代 表了说话人声音的 尖锐 和 低沉 的 程 度 , 是 短 时音段 层

17、 面上的特征, 而基频 轨迹 (0F t 代 表了说话人声音音 调随 时间的起 伏 , 它反映 了一个人说话时 抑扬 顿 挫 的特性, 是语音 长 时超音段的 重 要 特征之一. 协同发音段的基频 轨迹 同 样符 合说话人 的 韵律 特点, 因此, 用前后音节的基频 轨迹 来 估计 协 同发音段的基频 轨迹 .基频 轨迹 的变化不是一个简单的 线 性过程, 而是 在基音频率 均值附近 变化, 本文中采用高 斯 分布来 描 述 这一过程 8. 前音节的基音参数为 f f (t , 通 过 式 (8 进行 转换 得到后音节基音参数, 即 (b f f t af t b =+ (8式 中a (9 b

18、 f b a = (10式 中:2b 、 b 为后音节基音参数的方差和 均值; 2f 、f 为前音节基音参数的方差和 均值 .合成语音基音频率的修改是 通 过 LP 残 差的修改 来实现的 9, 增加 LP 残 差的 零 点或 删除零 点来 降低 和提高基音频率. 3 实 验3.1 实验设置及步骤实 验 中所用的说话人语音 样 本 均 使用 Sennheiser- e828s 传 声器和 Aureon 7.1 Space专业 数字音频 卡 采 集 , 其采 样 频率为 PCM 22.05 kHz, 16 bit量化. 录音 在 普通 实 验室 安 静环境 下进行.影响语音能量分布的因素很多,

19、包 括 话者的 年 龄 、 情绪 、 身体状况 、 所使用的方 言 等. 实 验样 本选择 了 男女各 2名 、 年龄 2224岁身体健康 的大学生进 行实 验 , 录制了他 们 在平 静 时 汉 语 普通 话录制 汉 语平 静状态普通 话单字发音 25组, 按 本算法合成 25个词 组. 录制文本相同的 25个词组的自然发音, 作为 测 听参 照 . 具 体 实 验 步 骤 如图 4所示.图 4 算法示意Fig.4 Schematic of proposed algorithm3.2 实验结果以“西安”为 例 , 用本算法将单 独 发音合成协同 发音. 实 验 结果如图 5所示.2010年

20、9月 康广玉等:基于共振峰过渡的协同发音语音合成算法 ·813· (a 语音波形 (b 语音频谱图 5合成后的语音谱Fig.5Synthesized speech spectrogram采用平 均意 见分 (mean opinion scores, MOS 方 法, 在实 验 中采用了 25条平 静状态普通 话具有协同 发音现象的合成词组和 25条相同文本 内 容的自然语 音词组, 由 4名 2833岁 说 普通 话的 年轻教师男女 各 2人进行 测 听, 按照 5分制 MOS 给 出其 认 可的效 果 打 分, 5个分制分别为:5优、 4良 、 3一 般 、 2差、 1坏

21、 . 结果如表 1所示.采用 Itakura 距离 进行 评价 , 平 均 Itakura 距离 10为2j2j1(e1d(, lg2(esNnkn nAd s kN A= = (11式 中:N 为 源 与目 标 话者共振峰参数 动态 时间 规整 (dynamic time wrapping, DTW 对 齐 后的 帧 数 ; A 为表 1主观测听结果Tab.1Results from subjective tests % 方 法 5分 4分 3分 2分 1分 拼接平滑算法同一个人 25个词组发音 本文算法拼接平滑算法同一个词组不同人发音 本文算法线 性 预测 系数 ; s 表示 源 说话人

22、; k 指目 标 说话人. 因本算法只对协同发音过渡段进行合成, 故 只将 该 段和自然发音过渡段进行 比较 , 先 进行 动态 时间 规整 . 客观评价 结果见表 2.表 2客观评价结果Tab.2Results from objective tests方 法 平均 Itakura 距离 拼接平滑算法 0.242同一个人 25个词组发音 本文算法 0.162拼接平滑算法 0.237同一个词组的不同人发音 本文算法 0.1573.3 讨 论文献 3所 述 算法, 音素采用滑 动窗 平滑, 寻找 最 合适的拼接点, 并不对音素进行修改. 因而 运 算 速度 快 , 缺 点是 没 有共振峰平滑过渡、

23、 效果差. 本算法 通 过 计 算前后 两 音素的共振峰参数 信息 , 人 工 合成一段 过渡音, 填补 的 两 音素之间, 使得音素频谱能量、 共振 峰平滑过渡, 合成效果 较 好, 但 计 算量大, 因而 运 算 速 度较慢 .4 结 语大语料库语音合成存在录制语料困难、 算法复 杂、 耗费时间, 而且需要占用很大的存储空间, 在应用 中存在困难. 通 过对 汉 语中协同发音现象的研究, 提 出了一 种 参数修改和波形拼接结合的语音合成方法, 在以音节为合成基元的波形拼接算法基 础 上 通 过共 振峰的修改, 合成协同发音音节间过渡段, 再 与自然 语音进行波形拼接. 实 验 表明, 结合

24、了波形拼接合成 与参数合成方法的优点, 能最大限 度 地使用自然语音 进行语音合成, 同时 运 用参数合成的 灵活 性, 因而合 成语音的质量 比 拼接平滑算法有 较 大提高, 对语音库 的 规模 要 求较低 , 是适用于小语料库语音合成的 良 好 算法.参考文献:1郑玉玲 . 韵律词边界的协同发音问题 J . 清华大学学 报:自然科学版, 2008, 48(S1 :645-651.Zheng Yuling. Co-articulation at the boundary of pro-sodic wordsJ .Journal ofTsinghua University :Sci-ence

25、and Technology, 2008, 48 (S1 :645-651(in Chi-nese .2周讯溢, 王 蓓, 杨玉芳, 等 . 语句中协同发音对音节知 觉的影响 J . 心理学报, 2003, 35(3 :340-344. Zhou Xunyi, Wang Bei, Yang Yufang, et al. The influ-ence of coarticulation on syllable perception in utterance·814·天 津 大 学 学 报 第 43卷 第 9期J .Act a Psychologica Sinica, 2003

26、, 35(3 :340-344(inChinese .3尹 勇, 曹振海, 祖漪清 . 语境相关的音素级语音合成系统中拼接平滑算法 J . 清华大学学报:自然科学版, 2008, 48(S1 :640-644.Yin Yong, Cao Zhenhai, Zu Yiqing. Smoothing algorithmfor contextual phone concatenation in speech synthe-sis J . Journal of Tsinghua Universi t y :Science andTechnology , 2008, 48(S1 :640-644(in

27、Chinese . 4Zheng Yuling, Cao Jianfen, Bao Huaiqiao. Co-articulation and prosodic hierarchy C / Second International Con-ference on Tonal Aspects of Languages. La Rochelle, France , 2006:145-150.5Matsumoto H, Hiki S, Sone T, et al. Multidimensional representation of personal quality of vowels and its acoustical correlates J . IEEE Trans on Audio and Elec-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论