连续语音特性及其信息处理

上传人：7*** IP属地：湖北上传时间：2022-01-13 格式：DOC 页数：4 大小：23.50KB 积分：15 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、连续语音特性及其信息处理提要：本文简要讨论自然话语里的语音动态变化特性以及相关的语音学知识和理论在计算机语音信息处理方面的应用问题。一. 永恒的矛盾随着言语工程技术的发展，语音信息处理的对象已经从孤立的语音发展到连续的自然话语语音，问题变得越来越复杂，这主要来源于一对永恒的矛盾。矛盾的一方面是，自然言语是个随机过程，尤其是即兴的(spontaneous)口语对话(dialogue)，语音的随机变化更是无处不在。就音段的变化而言，除了大家熟知的元音央化、儿化或辅音的同化等较为显著的音变现象以外，更难对付的则是由协同发音引起的更为微观的语流音变。这种变化是由语音生成的本质机制决定的，它几乎无所

2、不在，而且是无法回避的。再拿超音段的韵律变化来说，常规的连读变调仅仅是人们常见的一种，更多的是，由于人说话总是具有轻重缓急、抑扬顿挫，相关的语调和语气的运用就会导致常规变调模式的不同程度的调整，引起调域(range)的扩大或缩小以及调阈(threshold)的上浮或下沉。更有甚者，音段特性的变化跟超音段的韵律特性的变化往往彼此相关和相互制约。例如，协同发音作用不但会引起语音音色的复杂变化，而且还会导致各语音单元边界上的调连效应(林茂灿，199495)；而弱读引起的就不仅仅是韵律特性的简缩，同时也包括音段特性方面的相应变化，诸如央化、弱化和脱落，等等；又如轻重和节奏的变化，不仅同声调的升降沉

3、浮和时长的伸缩流变相关，还同这两者的协同作用和互补关系有关。如此等等，所有这一切，都是不以人的意志为转移的客观存在，无法回避。可是，矛盾的另一方面是，语音处理处处需要不变的规则。尽管当今的计算机在许多方面已经可以跟人脑媲美，故人称“电脑”。然而，不管它有多么高明，它毕竟还是机械，目前还只能处理比较有规则的东西，面对上述种种随机变化现象，它就显得无能为力。人们发现，不可能采用常规的音段和韵律模式来处理语流中的音段和韵律问题。所以说，语音信息分布的不平衡性或者说不规则性跟语音信息处理的处处要求规则性，这是一对永恒的矛盾。为了解决这个矛盾，人们力图寻找语音中的不变量(invariance)(Fant

4、,1983),这已成为语音信息处理各个部门包括合成、识别、理解等方面一致的需要，成为语音学界和言语工程界共同关注的热门课题。二.绝对的变化性和相对的不变性语音中究竟有没有不变量？答案是：既有，又没有。如上所述，连续话语里的语音，几乎没有不变的时候，即使象普通话里最简单的元音a，你也很难在语流中找到它的常规模式。例如，从声学表现来看，“来啊”中的a不同于“走啊”中的a，又都不同于“走啊走”中的a，更不同于它在诸如“兰”或“牢”里的变体，而所有这些变异还没有考虑轻重音和语调的影响以及不同说话人引起的个体差异。从上述情况来看，确实不存在绝对的语音不变量。但是，语音的变化又都是有条件的、依环境而定

5、的。例如，上述“兰”里的a，由于受前鼻音韵尾-n提前的协同发音作用，它的舌位比较靠前，而“牢”里的a由于受后元音韵尾o的协同发音作用，它的舌位比较靠后。这是一种由它们所处的语音环境决定的系统差异，不管男女老少都是如此。又比如普通话的两个上声相连，第一个上声通常变为阳平；可是，当第二个上声读轻声时，第一个上声就不一定变阳平，不过，“不一定”不等于没有规律，在这种情况下究竟变不变阳平取决于第二个音节的语法和语义地位(曹剑芬，1995b)。由此可见，环境或条件一定，语音的变化就一定，就有规律可循；而环境和条件不管多么复杂，它们总是有限的，所以，就可以找到随条件或环境而定的(context-depen

6、dent)、相对稳定的变化模式，这就是一种相对的不变量(relational invariance)。这种不变量在自然语言里是确实存在的，因而可资利用。三.相对不变量的掌握和应用从本质上说，所谓语音的相对不变量，就是语音变化的规律性。通常，这种规律性并不总是显现的，而是隐含在茫茫的自然话语之中，必须通过科学分析和研究，才能被揭示出来。我们今天已经认识或掌握的语音变化知识和规律，是千百年来人类不断探索的积累。但是，这些只是客观存在的语音变化规律的一部分，大量未知的知识和规律仍然处于人们的“习焉不察”之中。所以，我们对于我们的研究和处理对象语音的认识，实际上还处于相当幼稚的阶段。尽管我们可能熟知

7、语言的语音结构，也看到并描写了许多语音变化现象。可是，我们往往无法解释这些现象，因为我们对于人类语音产生和感知的内在机制还缺乏足够的认识。譬如说，自然语音既然如此多变，为什么人却总能把各种各样的变体感知为同一个音或同一类音？可以肯定，其中必定存在某种相对不变的关系。通常，人感知语音，是通过它在头脑中的心理印迹即音响印像跟它的语义概念进行匹配的过程。显然，人所依赖的不仅仅是语音的物质特性本身，而且还有一定的音响印像所代表的声音符号同一定的语义概念之间相对固定的连接关系，而且，这种连接关系必定为说话人和听话人约定俗成、共同认可的。所以，尽管实际的语音千变万化，而人的大脑却总能依赖这种关系而“随机应

8、变”。我们的任务，就是要通过对语音的客观物质特性的观察分析，结合相关的语法和语义知识，去探索和揭示这种相对不变的关系。计算机进行语音处理，本质上就是模拟人的语音产生和感知机制。因此，所涉及的就不仅仅是对言语声音本身物质特性的认识，而且应该是对这种物质外壳与语义概念之间一定的连接关系的理解和认识。但是，由于这种连接关系存在各种语用的变体，人本身尚且不能对这种关系作出满意的解释，因而更不是计算机现有的逻辑推理功能所能胜任的。所以，无论从语音学基础理论的目前水准来看，还是从计算机技术现在的发展水平来看，计算机的语音处理暂时还只能限于语音的物质特性本身。当然，理论的探索决不能尽限于此。从目前的实际

9、出发，语音学和语音信号处理的当前使命至少有如下两点：一，继续加强和深化基础理论的探索和基础应用研究，这是根本的根本；二，充分开发利用已经掌握的语音学基础知识以及理论研究的成果，这是切实可行的现实途径。加强和深化基础理论研究，其重要性不言自明。尽管语音处理方面普遍觉得目前的语音学知识不解渴，因而纷纷另辟蹊径，采取语料库的统计方法来解决燃眉之急，而且，有的还干得很不错。但是，这并不能说明语音处理的真正突破可以离开语音学的理论基础。事实上，截至目前为止，语音处理的一切进展、其中包括语料库的方法，都是跟语音学的基础理论分不开的，而当前面临的“知识壁垒”危机，则是从另一个侧面说明了这一点。特别是对语音

10、变化规律的归纳，不可能指望依靠计算机来完成。计算机通过语料库自学习，的确可以解决具体系统的一些具体问题，但却不可能告诉你它是怎么理解的，不可能告诉你这一切究竟是怎么回事(方特，1983)。归根结蒂，理性的探索还是不可或缺的。尽管这方面的研究可能看不到立竿见影的效果，但这是百年大计，决不能有任何松懈。说到语音学知识的开发应用，应该对应用的现状有个基本的认识。先看看现在的应用是否充分，再考虑如何进一步开发。人类现有的语音学基础理论，基本上可以归纳为两个大的方面，一是关于语音结构的基本知识，一是隐含在种种复杂的语音变化背后的关于产生和感知机制的理论认识。目前，就大多数语音处理系统来看，多数还局限

11、于语音结构知识的应用。而且，即使就这一点而言，目前的开发利用还很不充分。譬如，以普通话为对象的许多语音处理系统，尤其是早期的一些系统，在选择处理单元或建立相应的语料库时，往往只是注意这个语言里有四个声调，有一千多个不同声韵调结构的音节，却很少注意不同音段或不同音节相互搭配之后可能产生的语音效应。即使已经注意到某些音位的变体以及上上相连之类的变调现象，也只是把它们看作一些静态的模式，而较少重视它们在话语中的动态流变。例如，有些语料库的标记，实际上只是把汉字文本转写成了拼音文本，或者再加上某些用国际音标标记的音位变体。这只是对普通话语音结构知识的最起码的应用，而这样标记的语料库并不能提供多少实际的

12、发音信息，并不能充分反映语音的动态变化。近年来，这种情况已逐渐有所改观。譬如说，人们已开始尝试，自觉运用语音的基本结构知识，通过构建典型的语音样本，来模拟连续话语中可能发生协同发音的语音环境(曹剑芬，1996，1997)，并通过在自然语料中搜索此类样本，努力将由此而产生的语流音变知识注入合成或识别用的语料库(祖漪清、李爱军，1997)。此外，在语音库的标注方面也有所突破。例如，在一个用于识别的连续语料库的标记中(陈肖霞，1997)，就既利用了普通话语音的结构知识，又利用了已经掌握的音变理论，根据客观的声学表现，不但比较详细地标出了声母、韵母、声调、过渡音及其前后的语音环境，而且标出了同化、脱

13、落以及浊化等等在音节单念时看不到的音变现象。显然，经过这样加工的语料库必定更加切合实用。因为它可以为识别建模提供较为精确的动态语音信息，所以颇受语音处理方面的欢迎。在国外，语音库的标注已经相当普遍。例如，美国的TIMIT、德国的KIEL，都做得相当细致。尤其是KIEL语音库，不但作了详细的线性音段标记，而且还采用互补音系学的模型，标注了实际发音中出现的腭化、缺省等一系列超音段的音系过程(Kohler,1995), 这些都是值得我们进一步效法的。当然，可资利用的语音学知识远不止这些，在开发的广度和深度方面也都还大有余地。就汉语音段变化特性的研究来讲，也已取得了不少成果。尤其是最近十来年，对于普

14、通话协同发音现象的较为系统的研究，不但对这类环境音变的客观声学表现作了详细的描写(颜景助，199495；陈肖霞，199495；孙国华，199293)，而且对于语流音变的来源以及音段之间彼此交叠、相互渗透的语音产生机制有了比较深刻的认识，并采用双音子、三音子等微观音段形式作为这类动态音段的语音表示(祖漪清，199495；曹剑芬，199495，1996)。这些都是可供进一步开发应用的语音学知识。在韵律特征层面上也有许多可资利用的研究成果。例如，除了大家熟知的变调知识以外，人们又发现了语调对音域上、下限的调节规律(沈炯，1985) 以及随语义或语气而定的“移调”规则，有的还制定了计算机可读的相应形

15、式(吴宗济，19921993，19941995)，这些都是相对不变的动态声调模式，是汉语语调的骨干。此外，在连续语音的时长结构研究方面，也发现了以双音节时长分布模式为基本间架的语句时长分布格局，这是另一种重要的韵律特性的相对不变量，它和音调变化一起，共同载荷着轻重、节奏和语调的信息。上述这些情况表明，面对言语工程的需要，语音学的武库尽管并不充裕，但仍然具有相当的开发余地。关键是怎样去开发利用，这需要语音学界和言语工程界相互配合，共同探讨。我以为，在当前，语料库建设是一个很好的、切实可行的接合部。一方面，语料库本质上是一种知识库或规则库，通过不断有意识地注入已知的语音学知识，便于计算机通过自学

16、习去发现和利用某些未知的东西，以弥补现有理性认识的不足，从而满足言语处理不断增长的需要；另一方面，通过对语料库进行加工标注，不但有利于对现有理论知识的开发应用，而且可以把传统的语音描写方式转换为便于机器识读的表示方式，这也必将促进语音描写的形式化，提高语音学研究的精密化和科学化水平。所以，这也不失为一条两全其美的出路。参考文献曹剑芬,199495，普通话音节间音联的时域特性，RPR-IL(CASS)(中国社会科学院语言研究所语音研究报告/1994-95。-,1995a，普通话语句时长分布的基本格局，中国语言学报，第7期。-,1995b，连读变调与轻重对立，中国语文，1995年4期。-,1996

17、，普通话的环境音变及双音子和三音子结构，语言文字应用，第2期。-，1997，普通话双音子和三音子结构及其代表语料集，语言文字应用，第1期。陈肖霞，199495，话语普通话两音节CVCV间C2为三个发音部位的逆向协同发音声学研究， RPR-IL(CASS)/1994-95。-，1997，连续语音库的语音切分和标记，语言文字应用，第2期。Fant，Gunna,1983，杨顺安、许毅译，语音学和言语工程学，国外语言学，1984年第3期。Klaus, Kohler,1994，曹剑芬译，互补音系学对一个声学资料库进行标记的理论框架，国外语言学，1995年第1期。林茂灿,199495，关于普通话两音节间的F0过渡及其感知问题，RPR-IL(CASS)/1994-95。沈炯,1985，北京话声调的音域和语调，北京语音实验录，北京大学出版社。孙国华,199293，普通话双音节V1/ts,t©,t»/过渡的实验研究， RPR-IL(CASS)/1992-93。吴宗济,199293,普通话语调分析的一种新方法：语调中基本调群单元的移

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

连续语音特性及其信息处理

文档简介

温馨提示

最新文档

评论

连续语音特性及其信息处理

文档简介

温馨提示

最新文档

评论

相关文档