基于共振峰过渡的协同发音语音合成算法

上传人：7*** IP属地：湖北上传时间：2022-01-26 格式：DOC 页数：19 大小：103KB 积分：20 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第 43卷第 9期 2010年 9月天津大学学报 Journal of Tianjin UniversityV ol.43 No.9Sep. 2010收稿日期:2009-07-03; 修回日期 :2009-11-30.基金项目:国家自然科学基金资助项目 (60772074. 作者简介:康广玉(1975 ,男,博士研究生,讲师 . 通讯作者:康广玉, kgycat250318.基于共振峰过渡的协同发音语音合成算法康广玉 1,2,郭世泽 3,孙圣和 1(1. 哈尔滨工业大学自动化测试与控制系,哈尔滨 150001;2. 天津工程师范学院自动化系,天津 300222; 3. 中国人民解

2、放军总参 54所,北京 100001摘要 :协同发音是音素在语流中受前后音素的影响 , 而使 2个以上音素的发音特征同时出现的现象. 大语料库语音拼接算法获得的语音合成效果最好, 但录制语料困难、算法复杂、耗费时间, 需要占用很大的存储空间, 在应用中存在困难. 为此, 针对小语料库语音合成, 提出参数修改和波形拼接相结合的语音合成方法, 通过参数修改方法合成协同发音段, 再与自然语音进行波形拼接. 实验表明, 该算法合成的语音效果较好, 而且对语料库内容要求较低. 关键词 :语音合成;协同发音;共振峰;基频轨迹中图分类号 :TP391 文献标志码 :A 文章编号 :0493-21

3、37(2010 09-0810-05Speech Synthesis Using Formant Transition Based Co-ArticulationKANG Guang-yu1,2, GUO Shi-ze3, SUN Sheng-he1(1. Department of Automatic Test and Control, Harbin Institute of Technology, Harbin 150001, China ;2. Department of Automation Engineering, Tianjin University of Technology a

4、nd Education, Tianjin 300222, China ;3. No.54 Institute from Headquarters of the General Staff, Peoples Liberation Army, Beijing 100001, China Abstract :Co-articulation is the phenomenon of co-occurrence of two or more phonemes features due to the effect offront and rear phonemes during articulation

5、. While the speech mosaicing algorithm for the large speech database ob-tains good performance on speech synthesis, it finds difficulty in practical application resulting from difficulty inthe collection of speech samples, the complexity of algorithm, the time consumed and large storing space. This

6、paper proposes a speech synthesis scheme for small speech database based on parameter adjustment and wave mosaic of speech band. The co-articulation speech band was first synthesized with parameter modification, and then mosaiced with natural speech. Simulations demonstrate that the proposed algorit

7、hm performs well on speech synthesis and haslower demand on the size of speech database.Keywords :speech synthesis; co-articulation ; formant ; pitch trace协同发音是指在发音时, 音素在语流中受前后音素的影响而使 2个以上音素的发音特征同时出现的现象 1. 当前音节的结束音素为元音, 后音节的起始音素为元音或摩擦音时, 就会产生协同发音现象, 而其他音素作为音节起始则不会产生协同发音现象, 或可以忽略其影响. 协同发音时语音在音段方

8、面, 表现为共振峰的过渡, 在超音段方面, 表现为基音频率的过渡, 这是说话过程中经常发生的现象. 为提供语音拼接合成质量, 应考虑协同发音现象. 大语料库语音波形拼接算法获得的语音合成效果最好, 在解决协同发音时采用大量录制具有协同发音的语音, 从中选择适当片段进行拼接的方法, 但存在录制语料困难、算法复杂、耗费时间, 而且需要占用很大的存储空间 2, 在应用中存在困难. 目前进行小语料库语音合成算法的研究很多, 文献 3提到语音拼接合成系统兼有拼接合成及参数合成的优点, 也对相邻音素基音频率进行了一定的修改, 保证了基音频率的联续性, 但并未考虑相邻音素的协同发音现象

9、, 只是简单地将单个音节发音波形直接进行拼接合成得到的合成语音, 与实际连续语音往往有着很大的区2010年 9月康广玉等:基于共振峰过渡的协同发音语音合成算法 ·811·别, 主要表现在合成基元之间连接处的谱包络、共振峰等声学特性不能很好地还原, 导致得到合成语音连续性差、谱包络不能平滑过渡, 因而效果不好 1,4. 因此, 如何在语音合成基元存储容量有限的条件下, 进一步提高合成语音的质量一直是波形拼接合成法研究的主要问题. 由于发音器官的惯性作用, 协同发音词组的共振峰变化和基音频率变化是连续的 4. Matsumoto 等 5研究发现:不同说话人发

10、同一段语音时, 人耳的柯蒂氏器官就是靠感知不同的共振峰频率分布来区分不同的说话人, 基音周期与共振峰频率能够表示 85%的说话人特征. 笔者的语音合成算法主要对这 2个方面进行研究.1 协同发音分析协同发音时语音在音段方面, 表现为共振峰的过渡, 在超音段方面, 表现为基音频率的过渡. “西安” 存在协同发音现象, 如果不考虑协同发音现象而直接合成, 则发音一字一顿, 听者明显感觉不自然. 如图 1和图 2所示. (b 语音频谱图 1“西” 、 “安”单独发音的语谱 Fig.1Speech spectrogram of individual articulation of “ Xi

11、 ” and “ An ” 图 2“西安”协同发音的语谱 Fig.2Speech spectrogram of co-articulation of“ Xi an ”由图 2可见, 具有协同发音现象的语音可分为 2部分, 语音稳定段和语音过渡段, 语音稳定段共振峰频率基本不变化, 而语音过渡段共振峰频率表现为连续平滑过渡到下移音节开始段.2 算法的基本思想笔者提出一种以音节为合成基元, 参数修改与波形拼接结合的语音合成算法. 其中包括 2个问题:一是共振峰的修改 ; 二是基音频率的调整 . 通过对过渡段共振峰的修改和基频轨迹的调整 , 来合成协同发音段, 与自然语

12、音进行波形拼接.2.1 共振峰过渡1 共振峰参数及其提取共振峰参数是指发浊音时, 气流通过声道 , 引起声道谐振, 产生的一组谐振参数 (频率、带宽和幅度 . 这些参数包含在语音频谱包络中, 代表了语音信号的短时频谱声学特征, 频谱包络的局部最大值就是共振峰. 通常在 05000Hz 范围内 , 有 5个共振峰, 从中可以提取共振峰频率、共振峰带宽和共振峰幅度 .由线性预测 (linear prediction, LP 分析导出的声道滤波器是频谱包络估计的有效方法, 即近似认为声道滤波器的共

13、轭极点对应频谱包络的最大值 , 即对应共振峰参数. 由线性预测分析可知, 声道可近似表示一个全极点滤波器. 对于每一帧信号 , 其传输函数表示为1(1pppGH za z =(1式中:G 为增益;pa 为线性预测系数 ; P 为线性预测阶数.将式 (1 分解为1(1Kk kGH zr z=+111(1e (1e j jJjj j jGr z r z= (2 求解出声道滤波函数的极点. 式 (2 中:K 为实极点个数 ; J 为共轭极点对的个数 ;kr 、 j r 为极点半径; j 为极点的

14、相角 . 设与共轭极点jz 对应的共振峰频率为jF , 带宽为 j B , 幅度为 j A . 根据文献 6则有 s s2(/ 2(/e j jB F F Fjz ±=(3式中sF 表示采样频率. 利用式 (2和式(3 可得共振·812· 天津大学学报第 43卷第 9期峰的频率、带宽和幅度分别为 s 2jj F F = (4s (ln (/2j j B r F = (5j j A G = (62 修改共振峰由于发声器官的惯性作用, 协同发音在音节之间形成一个共振峰过渡段, 过渡段的前边界各个共振峰的参数 (频

15、率、带宽、幅度等于前音节结尾的相应共振峰的参数, 而其后边界的各个共振峰的参数等于后音起始的相应共振峰的参数. 因此, 可以通过对前后共振峰参数进行线性插值的方法来构造音节之间的共振峰过渡段, 如图 3所示.图 3 协同发音共振峰移动示意Fig.3 Schematic of formants shift in co-articulations将前共振峰的参数通过过渡时间达到后音节对应共振峰参数值 , 假设在过渡时间内共振峰参数是均匀变化的. 根据语速来确定过渡时间, 过渡时间一般占音节元音部分的 10%15%, 实

16、验采用 12%作为过渡时间.共振峰参数的修改可通过同时在语音谱中加入与原共振峰参数相对应的复零点对 i e jm r ±, 以及与修改后的共振峰参数相对应的复极点对 i ejn r ±来完成 7, 即1( (1 Kkk kG H z r z =+ 111(1e (1ej jJjj j j G r z r z =i i 11i i 11(1e (1e (1e (1ej jj j n n r z r z r z r z (72.2 基音轨迹转换基音频率 0F 代表了说话人声音的尖锐和低沉的程度 , 是短时音段层

17、面上的特征, 而基频轨迹 (0F t 代表了说话人声音音调随时间的起伏 , 它反映了一个人说话时抑扬顿挫的特性, 是语音长时超音段的重要特征之一. 协同发音段的基频轨迹同样符合说话人的韵律特点, 因此, 用前后音节的基频轨迹来估计协同发音段的基频轨迹 .基频轨迹的变化不是一个简单的线性过程, 而是在基音频率均值附近变化, 本文中采用高斯分布来描述这一过程 8. 前音节的基音参数为 f f (t , 通过式 (8 进行转换得到后音节基音参数, 即 (b f f t af t b =+ (8式中a (9 b

18、 f b a = (10式中:2b 、 b 为后音节基音参数的方差和均值; 2f 、f 为前音节基音参数的方差和均值 .合成语音基音频率的修改是通过 LP 残差的修改来实现的 9, 增加 LP 残差的零点或删除零点来降低和提高基音频率. 3 实验3.1 实验设置及步骤实验中所用的说话人语音样本均使用 Sennheiser- e828s 传声器和 Aureon 7.1 Space专业数字音频卡采集 , 其采样频率为 PCM 22.05 kHz, 16 bit量化. 录音在普通实验室安静环境下进行.影响语音能量分布的因素很多,

19、包括话者的年龄、情绪、身体状况、所使用的方言等. 实验样本选择了男女各 2名、年龄 2224岁身体健康的大学生进行实验 , 录制了他们在平静时汉语普通话录制汉语平静状态普通话单字发音 25组, 按本算法合成 25个词组. 录制文本相同的 25个词组的自然发音, 作为测听参照 . 具体实验步骤如图 4所示.图 4 算法示意Fig.4 Schematic of proposed algorithm3.2 实验结果以“西安”为例 , 用本算法将单独发音合成协同发音. 实验结果如图 5所示.2010年

20、9月康广玉等:基于共振峰过渡的协同发音语音合成算法 ·813· (a 语音波形 (b 语音频谱图 5合成后的语音谱Fig.5Synthesized speech spectrogram采用平均意见分 (mean opinion scores, MOS 方法, 在实验中采用了 25条平静状态普通话具有协同发音现象的合成词组和 25条相同文本内容的自然语音词组, 由 4名 2833岁说普通话的年轻教师男女各 2人进行测听, 按照 5分制 MOS 给出其认可的效果打分, 5个分制分别为:5优、 4良、 3一般、 2差、 1坏

21、 . 结果如表 1所示.采用 Itakura 距离进行评价 , 平均 Itakura 距离 10为2j2j1(e1d(, lg2(esNnkn nAd s kN A= = (11式中:N 为源与目标话者共振峰参数动态时间规整 (dynamic time wrapping, DTW 对齐后的帧数 ; A 为表 1主观测听结果Tab.1Results from subjective tests % 方法 5分 4分 3分 2分 1分拼接平滑算法同一个人 25个词组发音本文算法拼接平滑算法同一个词组不同人发音本文算法线性预测系数 ; s 表示源说话人

22、; k 指目标说话人. 因本算法只对协同发音过渡段进行合成, 故只将该段和自然发音过渡段进行比较 , 先进行动态时间规整 . 客观评价结果见表 2.表 2客观评价结果Tab.2Results from objective tests方法平均 Itakura 距离拼接平滑算法 0.242同一个人 25个词组发音本文算法 0.162拼接平滑算法 0.237同一个词组的不同人发音本文算法 0.1573.3 讨论文献 3所述算法, 音素采用滑动窗平滑, 寻找最合适的拼接点, 并不对音素进行修改. 因而运算速度快 , 缺点是没有共振峰平滑过渡、

23、效果差. 本算法通过计算前后两音素的共振峰参数信息 , 人工合成一段过渡音, 填补的两音素之间, 使得音素频谱能量、共振峰平滑过渡, 合成效果较好, 但计算量大, 因而运算速度较慢 .4 结语大语料库语音合成存在录制语料困难、算法复杂、耗费时间, 而且需要占用很大的存储空间, 在应用中存在困难. 通过对汉语中协同发音现象的研究, 提出了一种参数修改和波形拼接结合的语音合成方法, 在以音节为合成基元的波形拼接算法基础上通过共振峰的修改, 合成协同发音音节间过渡段, 再与自然语音进行波形拼接. 实验表明, 结合

24、了波形拼接合成与参数合成方法的优点, 能最大限度地使用自然语音进行语音合成, 同时运用参数合成的灵活性, 因而合成语音的质量比拼接平滑算法有较大提高, 对语音库的规模要求较低 , 是适用于小语料库语音合成的良好算法.参考文献:1郑玉玲 . 韵律词边界的协同发音问题 J . 清华大学学报:自然科学版, 2008, 48(S1 :645-651.Zheng Yuling. Co-articulation at the boundary of pro-sodic wordsJ .Journal ofTsinghua University :Sci-ence

25、and Technology, 2008, 48 (S1 :645-651(in Chi-nese .2周讯溢, 王蓓, 杨玉芳, 等 . 语句中协同发音对音节知觉的影响 J . 心理学报, 2003, 35(3 :340-344. Zhou Xunyi, Wang Bei, Yang Yufang, et al. The influ-ence of coarticulation on syllable perception in utterance·814·天津大学学报第 43卷第 9期J .Act a Psychologica Sinica, 2003

26、, 35(3 :340-344(inChinese .3尹勇, 曹振海, 祖漪清 . 语境相关的音素级语音合成系统中拼接平滑算法 J . 清华大学学报:自然科学版, 2008, 48(S1 :640-644.Yin Yong, Cao Zhenhai, Zu Yiqing. Smoothing algorithmfor contextual phone concatenation in speech synthe-sis J . Journal of Tsinghua Universi t y :Science andTechnology , 2008, 48(S1 :640-644(in

27、Chinese . 4Zheng Yuling, Cao Jianfen, Bao Huaiqiao. Co-articulation and prosodic hierarchy C / Second International Con-ference on Tonal Aspects of Languages. La Rochelle, France , 2006:145-150.5Matsumoto H, Hiki S, Sone T, et al. Multidimensional representation of personal quality of vowels and its acoustical correlates J . IEEE Trans on Audio and Elec-

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于共振峰过渡的协同发音语音合成算法

文档简介

温馨提示

最新文档

评论

基于共振峰过渡的协同发音语音合成算法

文档简介

温馨提示

最新文档

评论

相关文档