（计算机软件与理论专业论文）韵律信息在汉语语音识别中的应用.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：53 大小：1.41MB 积分：0 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

（计算机软件与理论专业论文）韵律信息在汉语语音识别中的应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要 4 6 7 6 3 6 f 韵律信息在人类语音交流中起到很重要的作用。韵律也是分析和理解语音的一个i 艮重要的手段。因此，研究语音中的韵律，会对语音识别的研究起到很大程度的辅助作用。斗、本文的目的在于考察语音中的韵律信息，进而应用到语音识别中去。以此为出发点，本文对汉语的韵律信息进行了的大量的研究和分析，并以各种方式加入到语音识别的过程，以期增强语音识别的性能。本文首先介绍了一种基频提取算法和一种共振峰提取算法，然后把提取出来的信息加入到特征向量中去。基频信息和共振峰信息的加入使得汉语数字串识别的字错误率降低了o 7 。本文也考察了汉语声母、韵母的音长分布，并分析了影响音长的各种因素，如边界、声调。开发了基于混合高斯模型的音长模型，并用它辅助语音识别。音长模型的加入使得汉语数字串的字错误率降低了0 8 。 ( 本文的主要贡献是：( 1 ) 把基频、共振峰信息加入特征向量辅助语音识别； ( 2 ) 考察了汉语音节的音长，以及影响音长变化的因素：( 3 ) 开发了基于混合高斯模型的音长模型。辽关键词：韵律信息、语音识别、基频、共振峰、音长 jj j 分类号：t p 3 9 l a b s t r a c t t h eg e n e r a lg o a lo f t h i st h e s i si st om o d e lt h ep r o s o d i ca s p e c t so f s p e 。c h t o i m p r o v es p e e c hr e c o g n i t i o n t o w a r d st h i sg o a l ，w ei n v e s t i g a t e av a r i e t yo fw a y so f n t i l i z i n gp r o s o d i ci n f o r m a t i o n t oe n h a n c es p e e c hr e c o g n i t i o np e r f o r m a n c e w e e x 口1 0 r ep r o s o d i cm o d e l i n gi nm a n d a r i nc h i n e z e ，w h i c hh a sv e r yd i f f e r e n tp r o s o d i c c h a r a c t e r i s t i c s w ef i r s td e v e l o p e dap i t c hd e t e c t i o na l g o r i t h m ( a m d f & n c c f ) a n d af o r m a n t d e t e c t i o na l g o r i t h mf b a s e do nl p c ) ，a n dt h e nw ei n c o r p o r a t ep i t c ha n d f o r m a n ti n t o f e a t u r ev e c t o r i n t e g r a t i o no f t h ei n f o r m a t i o ni n t ot h es p e e c hr e c o g n i t i o nf r a m e w o r k r e d u c e dt h es y l l a b l ee r r o rr a t eb yo 7 f o rm a n d a r i nd i g i tr e c o g n i t i o n w ea l s oe x a m i n et h ed u r a t i o no fm a n d a r i ni n i t i a la n df i n a la n dt h ef a c t o r st h a t h a v ei n f l u e n c e so nd u r a t i o no fs y l l a b l e s t h e nw ed e v e l o p e dad u r a t i o nm o d e lf o r s y l l a b l eb a s e do ng a u s s i a nm i x t u r em o d e l w h i c hl e a dt oao 8 r e d u c t i o ni nw o r d e r r o rr a t e i nt h i st h e s i s ，w em a k et h ef o l l o w i n gc o n t r i b u t i o n st ot h er e s e a r c hi nt h ea r e ao f p r o s o d i cm o d e l i n g ：( 1 ) i n t e g r a t i o nt h ep i t c ha n d f o r m a n ti n f o r m a t i o ni n t of e a t u r es e t f o rb e t t e rs p e e c hr e c o g n i t i o n ；( 2 ) a l le m p i r i c a ls t u d yt h ed u r a t i o no fs y l l a b l ei n m a n d a r i n ，w h i c hi n v e s t i g a t e st h ed i s t r i b u t i o no fs y l l a b l ed u r a t i o n sa n dt h ef a c t o r st h a t i n f l u e n c ed u r a t i o n s ；( 3 ) an o v e ld u r a t i o nm o d e lw h i c hb a s e do ng a u s s i a nm i x t u r e m o d e l k e y w o r d s ：p r o s o d y ，s p e e c hr e c o g n i t i o n , p i t c h ，f o r m a n t ，d u r a t i o n 第一章引言 1 1 语音识别系统概观 1 1 1 历史背景长久以来，人们为了能让机器识别人说话的内容，做了各种各样的尝试。从 4 0 年前计算机时代刚刚到来之际，人们就乐观的认为自动语音识别系统( a s r ) 很快就能出现，然而直到最近一些年，这一系统才开始在广泛的领域里初见光芒。而完全以语音为交互界面的产品，包括实时的语音处理和语言理解，还要很多年才能实现。最初，语音识别的研究是基于统计模式识别和分类方法的，而且是小词汇表的，语音也是在无噪声的环境下录制的。语音经过传统的谱分析技术如离散傅立叶变换、滤波器组等来处理，然后用诸如模板匹配之类的分类方法做出识别决策。也有些早期的系统使用统计模式匹配的方法进行孤立数字识别和音节识别。语音的数学模型早在2 0 世纪4 0 年代就出现了，该模型是基于语言学的研究，把语音看成过滤器系统的输出，如图1 1 所示。脉冲气流经过喉和声道向外辐射，输出即是语音信号，声道的形状决定滤波器的参数。语音信号是以很小的时间间隔来分析的，可以认为在这个间隔内语音信号保持相对稳定，那么这个模型为语音的分析提供了很好的框架。 l i i ) s p e e c h l ) ) 脉冲气流- 三三予语音囝11 语音产生系统和过游嚣橇融 2 0 世纪6 0 年代末7 0 年代初，语音识别的研究集中在以下几个关键领域：特征选择和分析、基于模板匹配的分类技术。倒谱系数和线性预测系数使得语音信 l 号的激励部分被模型化，而声道模型保持不变。动态时间规整( d t w ) 技术在孤立词识别中取得了很大成功，从而掀起了6 0 年代末期语音识别的研究热潮。在孤立词识别系统取得了一定成功后，人们集中精力研究连接词的识别、连续语音的识别、与说话人有关和与说话人无关的语音识别。2 0 世纪8 0 年代，隐含马尔可夫模型( h m m ) 最终代替了动态时间规整( d t w ) 等分类技术，成为连续语音识别的主流技术。隐含马尔可夫模型以概率论为立足点，具有坚实的数学基础，使用最大似然估计的训练方法( b a u m w e l c h 参数估计) ，优于动态时间规整模型。 1 1 2 当前研究趋势目前自动语音识别系统的研究包括如下关键领域：语音增强消除录制环境和信道对声音的畸变影响语言模型使用多话筒阵列的识别说话人、性别、语言的识别不断复杂的应用，如广播新闻识别对话系统模型说话人、环境的快速适应混合识别模型 i b mv i a v o i c e 等连续语音识别系统使得语音识别从实验室逐步走到人们的生活中来，这些语音识别的软件无论是从日常生活使用的角度，还是潜在的语音界面技术都给语音识别这一领域的研究带来了无限活力。现在很多的国家实验室、大学、大公司都在进行大量研究。 1 2 论文组织本文组织如下：第二章介绍隐含马尔可夫模型的基本原理。第三章介绍了汉语语音学的基本知识，由此引出汉语的主要韵律特征。第四章详细讨论了基频、共振峰信息的提取，以及在语音识别中的应用。第五章讨论汉语音节的音长信息，对音长进行了大量的统计，同时提出了基于高斯混合模型的音长模型。第二章语音识别的基本方法 2 1 语音识别系统的基本组成图2 1 语音识别系统的基本框架上图是一个基本的语音识别系统，它主要由声学模型和语言模型组成。当前的语音识别技术主要是基于隐含马尔可夫框架的，以下章节将就各个模块分别介绍。 2 2 隐含马尔可夫模型( h 麟) 2 2 1 马尔可夫过程在研究随机过程时，如果一个过程的过去不影响它的未来我们就称其具有马尔可夫性质。具有马尔可夫性质的过程因而叫做马尔可夫过程，很多物理现象都用马尔可夫过程来建模。把这种想法应用在连续时间和离散时间过程上，分别表示为x ( t ) 和x 。在离散过程中，概率分布函数由前一时刻决定，也就是说 p ( 以+ 。f 以，五) = p ( 以+ lf 以)( 2 1 ) 将这一概念扩展，一个具有马尔可夫性质的过程，如果它的统计特性由它之前的k 个时间段决定，那么它就是一个k 阶马尔可夫过程 p ( x ix ，x o ) = p ( x ix ，一x n “) ( 2 2 ) 具有马尔可夫性质的最简单的模型，是离散时间、离散状态的一阶马尔可夫过程，叫做马尔可夫链。 2 2 2 隐含马尔可夫模型的定义一个隐含马尔可夫模型完全决定于它的初始概率分布、状态转移概率和输出概率分布。输出概率分布由观察空间决定，或者是离散的或者是连续的。为了叙述方便，首先假定i 岫i 的输出矢量具有离散分布。连续分布时的情况类似。观察向量集0 d = 【0 1o ：，】，系统在任何时刻的输出矢量j ，属于o 状态集口口= h ，s ：，s 。，系统在任何时刻所处的状态x 。属于口初始状态概率7 r 乃= p x 。= s ，】，= 1 三( 2 3 ) 状态转移概率4 a = k 口，口，= p 【x 。= s ，i x , = 】，f ，j = i l ( 2 4 ) 生成概率丑 b = 6 f ) ，6 1 0 ) = p y = o ；i 一= j 】，i = 1 l( 2 5 ) 显然，万、a 、b 满足式( 2 6 ) 、( 2 7 ) 和( 2 8 ) 。一= l( 2 6 ) i = 1 l = 1 ，v i( 2 7 ) g l 6 j ( 七) = 1 ，v i( 2 8 ) k = l h m m 相应的分析模型，包含状态、转移弧，如图2 2 所示。止止止丛丛丛图2 2h m m 的结构 2 3 m i d 的训练和识别算法用h m m 来完成语音识别的各项研究任务时，首先需要解决下面三个问题评价问题给定h m m 和一个观察序列，计算该序列的发生概率p ( o i k ) 译码问题给定h m m 和一个观察序列，找到最佳的状态匹配序列学习问题给定一个训练序列，如何调整模型参数，使p ( oj k ) 取最大值 2 3 1 评价问题一前向算法对于给定h m m 模型九和一个观察序列0 邓1 0 2 o t ) ，计算该观察序列的发生概率p ( o i k ) 。我们可以计算任何状态序列s 的概率p ( s i x ) ： p ( sl 五) = 石。a v ：a ，：b a 。 ( 2 9 ) 也可以计算发生概率p ( o i s ，舢 p ( os ，a ) = b ( 0 1 ) 6 、：( d 2 ) _ 6 。( o r ) ( 2 1 0 ) 于是我们可以直接计算p ( o i ”： s p ( 0 1 五) = p ( o l s ，旯) p ( s l 旯) m = 石b ( 0 1 ) d b ，：( d 2 ) 口口* b ( 0 0 ( 2 1 1 ) 显然，上面公式的计算复杂度是o ( t n t ) ，因为有n t 个可能的状态序列。递归算法在解决这一计算问题上显得很有效。可以用前向递归或后向递归，也可以两者并用。我们定义前向概率a ，( f ) 为 a t ( r ) = p ( d 1 0 2 0 ，s ，= ia ) 后向概率屈( f ) 为属( f ) = p ( o 0 r + 2 0 r 旧= f ，旯) 口，( r ) 是在时间t 状态i 时观察到前t 个语音向量的联合概率 t 状态i 产生后t 个语音向量的条件概率。如上定义会给计算带来方便。从定义可以看出，前向概率可以归纳计算： 1 初始化 g ，( 1 ) = 万。6 f ( d 1 ) ，v i = l n 2 递归吖川) ：陉引加。k 0 川) ，w ：l ，v ，_ 1 r 一1 l 坤1j 3 结束 p ( o l 旯) = ( r ) ( 2 1 2 ) r 2 1 3 ) f l , ( t ) 是在时间 r 2 1 4 ) ( 2 1 5 ) f 2 1 6 ) 同样，我们可以给出时间t = t 的后向概率，即可推导出该时刻前的后向概率： 1 初始化屈( 丁) = 1 ，v i = 1 n( 2 1 7 ) 2 递归 n 屈o ) = 口口b ，( d ，+ i ) 岛o + 1 ) ，v i = l ，t = r l 1 ( 2 1 8 ) - l 3 结束 p ( oi 旯) = y 万，b ，( o 。) 岛( 1 ) ( 2 1 9 ) 6 可以看出，并没有象初始概率向量兀i 那样的最终状态概率向量，所以后向概率的初始化允许所有可能的状态作为状态序列的终点。 2 3 2 解码问题一v i t e r b i 算法对于给定观察序列，寻找最佳的状态序列，使用v i t e r b i 算法，这是计算全局最优状态路径概率的递归动态规划方法。我们定义吗( t ) 为部分状态序列概率：妒，( ，) = m a xp ( s i j h ，s ，= ia ) ( 2 2 0 ) u iq t ，i4 ，一1 然后就可以很容易表述v i t e r b i 过程： 1 初始化庐，( 1 ) = 石，b 。( 0 1 ) ，v i = 1 n ( 2 2 1 ) 2 递归办( r ) = m 碍觇p 一1 ) 口p 弘1 ( o r ) ，w = l n ，t = 2 t ( 2 2 2 ) 3 结束矗。( s ，oa ) = m a x 【疵( 丁) 】( 2 2 3 ) 上述算法的结果是p 嘣，也就是最可能状态序列的概率。若想知道这个状态序列中每个状态，可以记录v i t e r b i 递推过程中每一步的下标，然后回溯。在v i t e r b i 算法中，也可以记录除了最优路径之外的多条路径，这样使得我们可以不只得到一个最佳序列，而是产生了一个可能状态序列的网格。想要达到这个目的，一种方法是令牌传递算法，它可以在连续语音识别当中产生词格。 2 3 3 学习问题一b a u m w e l c h 重估算法学习问题是一个给定训练集后如何优化h m m 参数的问题。估算法是目前比较通用的算法。简单的离散h m m 的重估公式可以简化为如下形式：。+ ：型! 竺! ! ：型! ! ! 翌! ! ! ! 竺丝竺! 竺丝! 竺! ” n u m b e ro ft r a n s i t i o n so u to fs t a t ei b a u r n - w e l c h 重 r 2 2 4 ) 6 ) ( 。，) ：丝塑鼍盆塑坠坐型竺旦竺竺型( 2 2 5 ) ”“i t u b e ro ft i m e si ns t a t e ，右式的值由当前值a o 、b j ( o t ) 决定。为了进行如上计算，定义一个状态的驻留概率 y 。( t ) = p ( 5 ，= i 1 0 ，a ) u 2 0 j 两状态的驻留概率为：占。( f ) = p ( s ，= f ，j = ，| 0 ，旯) ( 2 2 7 ) 从前向概率a 。( t ) 和后向概率p i ( t ) 的定义可以看出，观察和状态驻留的联合概率为： p ( s ，= f ，0 i 五) = 口。( ，) 屈( f ) ( 2 2 8 ) 所以一个状态的驻留概率是：删：垫掣：熙 ( 2 2 9 ) 。p ( o i a ) p ( o i 五) 、两状态的驻留概率是：郇) = 盟铲= 坐铲上面两式可以用来表示b a u m w e l c h 公式： t - 1 6 0 ( 0 口。= 掣广以( f ) r n ( f ) f - l f l j ( o ，) = 号l ，) t = l 2 4 特征提取 ( 2 3 1 ) 特征提取是语音识别的第一个步骤，根据不同的应用目的，特征矢量的选取有很多不同的选择，例如l p c 系数、频谱系数、倒谱系数等。目前在语音识别的研究中，通常采用m f c c 系数( m e l - f r e q u e n c yc e p s t r u m c o e f f i c i e n t s ) 。它与其他特征矢量相比，能够更好地反映听觉系统的“l 临界带效应”，在大部分情况下均优于其他系数。 m f c c 系数的提取过程如下： 1 预加重，减少尖锐噪声影响，x ( 疗) 为原始信号。 y ( n ) = x ( n ) 一0 9 7 x ( n 一1 ) ( 2 3 2 ) 8 2 加h a m m i n g 窗，减少j i b b s 效应。窗长2 5 6 2 5 m s ，帧移为1 0 m s 。j w ( n ) 为加窗后的信号。仃= 0 ( n - 1 ) ( 2 3 3 ) 厅= 其它值 s 。( 月) = y ( n ) w ( ”) = 0 ( n 1 ) ( 2 3 4 ) 3 进行离散傅利叶变换( d f t ) 。 x ( k ) = y s 。( ”) p 埘“0 k n ( 2 3 5 ) 4 把第兰步变换得到的频谱系数用图3 3 所示的序列三角过滤器进行过滤处理，得到一组系数m l ，m 2 。过滤器簇中每个三角过滤器的跨度在m e l 标度上相等。所有过滤器总体上覆盖从0 h z 到n y q u i s t 频率，即取样率的二分之一。在本论文的实验中，过滤器的个数取为2 6 个。图2 3m e l 标度三角过滤簇图中的m i 用式( 2 3 6 ) 计算得到 m ，= l n x ( k ) + h 七】( 2 3 6 ) 其中， - k 】_ 0 ，k f i + 1 2 ( k f i 一1 】) ( f i + 1 】一f i 一1 】) 盯f 卜f i l 】) 三! 垡1 3 二盟 ( 厂 f + 1 一f i 一1 】) 盯 f + 1 卜厂【f 】) f i 】为上述三角过滤器的中心频率，满足 f i 一1 】k f i ( 2 3 7 ) f i 】k f i + 1 m e l ( f i + 1 】) 一m e l ( f i ) = m e l ( f i ) 一m e l ( f i 一1 】) ( 2 3 8 ) 5 利用离散余弦变换求得倒谱系数( 2 3 9 ) 。其中p 是三角过滤器的个数。 9 籍 soc64o一4 jo 0 ，、【 = ) ( w 铲魔叩s ( p ( j - 0 5 ， 6 计算上述特征矢量的一阶回归时间差分和二阶回归时间差分法如下： f 2 3 9 ) 其计算方引忙墅笋 4 州归墅铲。t ，其中，d r t 、d ，【妇分别表示第t 帧的一阶和二阶回归时间差分的第i 维系数，为计算一阶回蛆时间差分的窗1 3 大小，r 为计算二阶回归时间差分的窗口大小。 2 5 声学模型对一般目的的h m m 汉语大规模连续语音识别( l v c s r ) ，h m m 建模单元的选择是有讲究的。它必须满足这几个准则： 1 准确性。即能准确地表达语音信号所包含的声学信息。 2 可训练性。能从大量的语料中通过训练获得模型参数。 3 普遍性。即模型集应该是开放的，能够用它组成任意的新词。对于汉语来说，单字模型( 即音节模型) 和声母韵母( 以下笼统地称为音素) 模型都满足这三个准则。在汉语里，无调音节有4 0 0 多个，考虑声调的话约为1 2 0 0 个，音素为5 0 多个，考虑声调因素约为2 4 0 个。在本实验中，选择有调音素作为建模单元，即为每一个音素建立一个3 状态从左到右无跳跃型的h m m 模型( 图 2 4 、。进入状态 b 2 ( x ) b 3 ( x )b 4 ( 。) 退出状态图2 43 - 状态从左到右无跳跃型的h m m 模型图中，状态1 和状态5 分别是进入状态和退出状态，不产生可观察到的特征矢量。确是从状态i 到状态j 的转移概率，b j ( x ) 是状态j 产生可观察特征矢量的 1 0 概率，一般称之为生成概率函数( 离散h m m ) 或生成概率密度函数( 连续h m m ) 。给定一个建模单元m 的发音，识别时其状态序列是未知的，可观察到的是特征矢量序列x - - x l x 2 x x t ，假如用s = s l s 2 s t 表示一个可能的状态序列，s t 是第t 帧的状态。p ( xm ) 可以用下式计算：删i 吖) 2 弘。：珥扣”“( 2 4 2 ) 2 6 语言模型对于一段连续语音而言，词和词之间的搭配符合一定的规律，因此可以通过对大量的语料统计来得到一个统计语言模型。在识别时，利用语言模型可以提高词的识别率。目前常用的语言模型是n - g r a m 统计语言模型。n - g r a m 模型基本的假定是：一个句子中，一个词出现的可能性只依赖于它前面的_ ，个词，而与更前面的历史无关。所以一个长度为m 的句子w = w 。，w ：，w 。出现的先验概率为： p ( w ) = 兀p ( l + w k 。w 。) = n p ( 1 + 。w k 一。) ( 2 2 8 ) 一般采用的n - g r a m 模型主要是双词文法( b i g r a m ) 和三词文法( t r i g r a m ) 。我们需要对词汇表中的所有词统计p lw 1 w ，) 和p w 。l w j ，w k ) 。当然，统计所使用的语料库应适用于相应的系统，同时保证足够大，以使语言模型更加精确。这里需要说明的是，针对不同的语言特点和识别需要，语言模型统计的单元可以是词，也可以是字，甚至可以是按照某种规则划分的语法单元集合。同时，在识别的过程中还可以使用多级语言模型来反映不同层次的语法单元之间的搭配规律。 2 7 小结这一章在结合本论文实验的基础上介绍了基于统计的h m m 自动语音识别。首先介绍了h m m 的定义，并且详细阐述了与h m m 有关的三个问题以及解决方法。其次，介绍了特征参数m f c c 的提取过程。最后，就声学模型、语言模型做了简要的介绍。第三章语音中的韵律信息语言是声音和意义的集合体。语言的声音是语言的物质形式。为了和别的声音区分开来，称语言的声音为语音。语音是最直接地记录思维活动的符号体系，是语言交际工具的声音形式。，韵律信息在人类语音交流中起到很重要的作用。我们可以从声音判断一个说话人的性别、年龄、情绪，就算没有昕清他的讲话内容。韵律也是分析和理解语音的一个很重要的手段。停顿位置可以解决语义的二义性；基频可以用来检测语句的重点；声调可以用来区分不同的语义。因此，研究语音中的韵律，会对语音识别的研究起到很大程度的辅助作用。本章首先介绍了基础的语音学知识，接下来介绍汉语音节的组成、结构和分类，最后是汉语中重要的韵律信息的分析。 3 1 语音学基础语音学是一门研究语音的科学。它主要研究语音的产生、分类，以及人们对语音的感知。 3 1 1 发音器官人的发音器官及其活动情况是语音的生理基础，见图3 1 。人的发音器官分三部分： ( 1 ) 呼吸器官。这部分包括喉头以下的气管和肺。肺是呼吸器官的中心，是产生语音动力的基础。发音的原动力气流就是由肺里输出的。 ( 2 ) 喉头和声带。声带是人类发音器官的发音体，是制造一切响音的机关。喉头是气管上端扩大的部分，是由四块软骨和错综的筋肉构成的一个圆筒。其中最大的一块，可以用手摸得到的叫甲状软骨。声带长在喉头里面，有一端系在这块软骨上，另一端系在另外两块软骨上。声带中间的空隙叫声门。声门可以开闭。平时呼吸时，声门张开略成三角形；发乐音时，声门关闭，气流通过声门，颤动声带发音。有时声门紧闭，气流暂时堵塞，然后气流突然强烈的透过声带，发出一种破裂的声音。 ( 3 ) 口腔、鼻腔。它们都是发音的共鸣器。口腔由上腭和下腭构成。上腭有上唇、上齿、齿龈、硬腭、软腭等。下腭有下唇、下齿，里面是舌头。鼻腔是一个固定的共鸣器。鼻腔在上腭的上面，口腔好比楼下，鼻腔好比楼上。从楼下到楼上有一道活动的门软腭。发音的时候，如果软腭下垂塞住气流通到口腔里的通路，气流就会从鼻腔里出来，这样发出来的音是鼻音。如果软腭下垂还没有完全闭塞气流通到口腔里的通路，气流一部分从口腔流出，一部分经鼻腔流出，这就造成鼻化音。 3 1 2 语音四要素图3 1 发音器官示意图语音和其他声音一样，也是一种物理现象。一切声音的产生都是由于物体的颤动。物体的颤动，振荡着周围的空气，就形成了一种疏密相间的声波。声波刺激人们的听觉器官，于是人们听到了语音。人们所能听到的声音，虽然千变万化，但是都可以从音高、音强、音长、音色四个方面去辨识，见图3 2 。任何声音都包含这四要素，缺少其中任何一种要素声音就不能存在了。音高就是声音的高低。声音的高低是由发音体在一定的时间里颤动数的多少来决定的。多的音高，少的音低。声音的高低同声带的长短、厚薄、松紧有密切的关系。女人、小孩的声带比较短、薄、紧，所以声音高；男人、成人的声带比较长、厚、松，所以声音低。同一个人的声音也有高有低，这是因为人们有绷紧或放宽声带的能力。音高在汉语里是构成音调的主要因素，有区别字义的作用。例如“衣”、“仪”、“以”、“意”的不同，就是靠音高的变化区别开来的。音强就是声音的强弱。声音的强弱是由声波振动的幅度大小来决定的。声波幅度大，声音强；声波幅度小，声音就弱。声波幅度的大小取决于声音体振动的外力大小。语音的强弱同呼出的气流量的大小有关。呼出的气流量大，声音强：反之，声音就弱。平时说的大声说话和小声说话，重读音节和轻读音节，就是音强的不同。音强在普通话里有时也有区别字义的作用。如“红花”，“花”字重读，指的是红的花，如果前重后轻，指的是一种药物。音长就是声音的长短。声音的长短是由发音体颤动持续时间的久暂决定的。颤动持续时间长，声音长；颤动时间短，声音短。在语音里元音比辅音长。音色就是声音的特色。声音的特色是由声波形式的不同来决定的。造成不同音色的因素比较复杂。同一个曲调用两种乐器去演奏，声音不同；同一首歌让两个人去唱，声音也不一样：这主要是由于发音的物体不同而产生的音色不同。啊 ( a ) 、衣( i ) 、乌( u ) 三个音，尽管音高、音强、音长一样，仍然有显著的差异：这是由于共鸣器形状不同而产生的音色不同。语言主要是依靠音色的不同来区别意义的。图3 2 声音四要素 3 1 3 音素、音子和音节语音从音色的角度加以分析，可以得出一个个的音素来。比方“文化”这个词的语音，就可以分析出w 、e 、r l 、h 、u 、a 等六个音素。这里面的每一个音素都不能再继续分析了，所以音素是最小的语音单位。一个音素单独存在或几个音素结合起来构成的单位叫音节。音节就是说话时最自然的发音单位，我们可以从听觉上来把它们一个个的区分开来。汉语的音节容易辨认，一般来说，一个方块字就代表一个音节。它是由一到四个音素构成的。音子是语言中不能再细分的语音，是一段语音流中可以分辨的最小单位。而音素是用来辩义的最小单位。因此，音子是发音的名字，而音素是说话人大脑中潜在的概念。q q - 二* 图3 3 音子和音素元音和辅音音素就它的性质说可以分为元音和辅音两大类。元音也叫母音，辅音也叫子音。发音时，气流在口腔通路上遇不到什么障碍，发音器官的紧张状态比较均衡，气流较弱，声带颤动，声音响度比较大，这种以气流不受阻碍为主要发音特征的声音叫元音。例如普通话当中的a 、o 、e 、i 、u 、v 等都是元音音素。发音时，气流在口腔通路上遇到一定阻碍，发音器官中形成阻碍的部分特别紧张，气流较强，声带不一定颤动，声音响度比较小，这种以气流受到一定的阻碍为主要发音特征的声音叫辅音。例如普通话当中的b 、p 、t 、d 、g 、k 等都是辅音音素。声母、韵母和声调把一个音节分析为一个一个的语音或辅音，这是现代语音学的分析方法。按照传统的分析方法，可以把一个音节分析为声母、韵母和声调三部分。一个音节起头的辅音是声母，声母后头的部分是韵母，全音节的音高变化是声调。汉语里，有些音节，一开头就是韵母，没有声母。例如“我”、“爱”、“延”、 “安”。这类没有声母的音节，也算它有个声母，即所谓零声母。声母、韵母和元音、辅音，名目不一样，意思也不相同。声母、韵母都是就音在音节中的位置而论的，元音、辅音都是就音的性质而论的。声母由辅音来充当，也就是说所有的声母都是辅音。但不能说凡是辅音都是声母。普通话里有二十二个辅音，有二十个专作声母用。有一个辅音r l ，做声母也做韵尾用，例如“n a n ”( 男) 前面的n 是声母，后面的1 1 是韵母。还有一个辅音n g ，专作韵尾用，不作声母。韵母主要有元音来充当，有的韵母一个元音，有的韵母是两个或三个元音。可以说所有的元音都可作韵母，但不是说韵母就是元音。因为还有一部分是由元音加辅音构成的。例如“a i l 、a n g 、e n 、e n g 、o n g ”等韵母里都有个鼻辅音n 或 n g 作韵尾的。 3 2 声母、韵母和声调的分类和结构 3 2 1 声母的发音和分类前面已经讲过，声母是一个音节起头的音节，因此分析声母的发音就是分析辅音的发音。辅音发音的主要特征是气流受到一定阻碍。由于阻碍的部位和阻碍的方式的不同，就造成了各种不同的辅音。阻碍的部位是说发音时气流受到哪一部分发音器官的阻碍，语音学上叫“发音部位”。普通话的声母按照发音部位可以分为7 类： ( 1 ) 双唇音有3 个：b 、p 、m ( 2 ) 齿唇音有1 个：f ( 3 ) 舌尖前音有3 个：z 、c 、s ( 4 ) 舌尖中音有4 个：d 、t 、n 、1 ( 5 ) 舌尖后音有4 个：吐、c h 、s h 、r ( 6 ) 舌面前音有3 个：i 、q 、x ( 7 ) 舌面后音有3 个：g 、k 、h 阻碍的方式是说发音时构成阻碍气流的方式和气流克服阻碍的方式，语音学上叫“发音方法”。普通话的声母按照发音方法可以分为5 类： ( 1 ) 塞音有6 个：b 、p 、d 、t 、g 、k ( 2 ) 鼻音有3 个：m 、n 、n g ，其中只有m 、n 作声母 ( 3 ) 擦音有6 个：f 、h 、x 、s h 、s 、r ( 4 ) 边音有1 个：l ( 5 ) 塞擦音有6 个：i 、q 、z h 、c h 、z 、c 普通话的声母按照发音时声带振动与否又可分为清音、浊音两类。普通话声母中除了m 、n 、i 、1 - 为浊音外，其余都是清音。普通话的声母按照发音时气流强弱，又可分为送气音和不送气音两类。送气音和不送气音是成对的，如b 和p 、d 和t 、g 和k 、z 和c 、z h 和c h 、j 和q 。在语音结构系统里，零声母和辅音声母一样具有区分音节、辨别意义的作用。例如：a i ( 矮) 和h a i ( 海) ，a o ( 袄) 和z a o ( 早) ，就是前者是零声母，后者是辅音声母而把两对字区分开来。可见零声母并非等于零，而是有音位作用的语音结构单位。从实际发音看，零声母音节并不都是纯元音起头的，它常带有或轻或重的摩擦音，或是喉塞音。例如：i ( 衣) 、i e ( 叶) 的起头，有一点与i 同部位摩擦音。零声母音节的起头，虽然常带有某些辅音成分，但是它没有区别意义和构成不同音位的作用。 3 2 2 韵母的发音和分类一个音节除了前面的声母，后面的部分就是韵母。韵母的成分不象声母那样单纯，它是由一个、两个或三个音素构成的。分析韵母的结构可以从( 1 ) 韵头， ( 2 ) 韵腹，( 3 ) 韵尾三个部分来看：一个韵母，如果是由三个音素构成的，那么这个韵母就有韵头、韵腹、韵尾三个部分。例如：i o u 、u e n g 、v a i l 等韵，前面的i 、u 、v 是韵头，中间的0 、e 、 a 是韵腹，后面的u 、n g 、i 1 是韵尾。一个韵母，如果是由两个音素构成的，那么这个韵母只有两个部分。例如： i a 、u o 、v e 等韵，前面的i 、u 、v 是韵头，后面的a 、o 、e 是韵腹，没有韵尾； a i 、0 1 1 、c n 、a n g 等韵，前面的a 、o 、e 是韵腹，后面的i 、u 、n 、n g 是韵尾，没有韵头。一个韵母，如果是由一个音素构成的，那么这个韵母只有韵腹一个部分。例如：a 、o 、e 、i 、u 、v 。韵头就是韵母起首的i 、u 、v ，也叫介音。韵腹是韵母里的主要元音，也就是开口度比较宽，响度比较大的元音。韵尾是韵腹后面的音素，也就是主要元音后面的i 、u ( o ) 、n 、n g 。韵腹是韵母中的主要成分，是不可缺少的。普通话有3 9 个韵母，其中2 3 个由元音充当，1 6 个由元音附带鼻辅音韵尾构成。按韵母的结构特点，一般把韵母分为三类，即：单韵母、复韵母、鼻韵母。 ( 1 ) 单韵母，由单纯元音构成的韵母叫单韵母。普通话有9 个单韵母，其中舌面单元音韵母有6 个，它们是：a 、o 、e 、i 、u 、v 。特殊元音韵母有3 个，它们是：一i 知的元音、一i 资的元音】、e r 。 ( 2 ) 复韵母。复韵母是由复合元音充当韵母。复合元音是由一串元音音素复合而成的，从听觉上已经复合成一个固定的音组。普通话中复韵母有1 3 个。复韵母按主要元音所处的前后位置的不同可分为前响复韵母、后响复韵母、中响复韵母。前响复韵母指主要元音在前的复韵母，有4 个：a i 、e i 、a o 、o u 。后晌复韵母指主要元音在后的复韵母，有5 个：i a 、i e 、u a 、u o 、v c 。中响复韵母指 t 7 主要元音位居中间的韵母，有4 个：i a o 、i o u 、u a i 、u e i a ( 3 ) 鼻韵母。以鼻辅音n 或n g 作为韵尾的韵母叫鼻韵母。普通话中鼻韵母共有1 6 个，分两种。一种是带舌尖鼻音n 的叫前鼻韵母，有8 个：a l l 、i a n 、u a n 、 t l a n 、e n 、i n 、u e n 、o n ：另一种是带舌根鼻音n g 的叫后鼻韵母，有8 个：a n g 、 i a n g 、u a n g 、e r t g 、i n g 、u e n g 、o n g ，l o n g a 按照韵头的不同来分： ( 1 ) 开口呼，不是i 、u 、v 或不拿i 、u 、v 作韵头的韵母； ( 2 ) 齐齿呼，是i 或拿i 作韵头的韵母： ( 3 ) 合口呼，是u 或拿u 作韵头的韵母； ( 4 ) 撮口呼，是v 或拿v 作韵头的韵母。按照韵尾的不同来分： ( 1 ) 开尾韵母，就是没有韵尾的韵母； ( 2 ) 韵音尾韵母，就是拿元音作韵尾的韵母； ( 3 ) 鼻音尾韵母，就是拿鼻辅音作韵尾的韵母： ( 4 ) 卷舌韵母，就是e r 韵和儿化韵( 韵母分类表把它并入开尾韵母) 。 3 2 3 声调的分类和作用一个音节的声音可以高可以低，可以声可以降，可以升而后降，可以降而后升，可以长一点也可以短一点。这一种音节的高低、升降、长短的变化，叫做声调。在汉语里，声调是构成音节的不可缺少的部分。声调和声母、韵母一样，有区别意义的功能。例如： d e n g l j i 4 d e n 9 3 j i 2 z h u 3 1 i 4z h u 4 1 i 3 登记一一等级主力助理以上用横线连着的词语，声母和韵母都相同，就是靠声调的不同来区分的。声调的高低升降是由声带的松紧造成的。发音时，声带紧调子就高，声带松调子就低，声带先紧后松就由高降低，声带先松后紧声调就由低声高。总之，声带的松紧可以由各种不同的变化，于是就造成各种不同的平、升、降、曲的声调形式。声调的高低是相对的，就是说每一类声调的高低升降没有绝对的标准，声调的高低常常随着个人的嗓音、说话环境的不同而有差别。声调的高低，虽然因人因时而已，但是各类声调之间高低起落的相对关系是一致的。比如“衣、移、以、意”四个字，“衣”念高平，“移”念高升，“以” 念降升，“意”念全降。 i r 声调的调值是声调的实际念法，即高低升降长短的形式。描述声调的调值，通常用“五度制声调符号。这套符号用一条竖线表示高低，竖线的左边用横线、斜线、折线表示高低、升降、曲直的变化。竖线的高低分为“低、半低、中、半高、高，五度，用12345 表示，1 表示“低”，2 表示“半低”，依此类推。平调、升调和降调用两个数字，曲折调用三个数字表示。图3 - 3 就是用这套符号来标写普通话的四声。飘，午图3 4 五度制声调符号 s 囊 4 ；、意赛 3 t 枣奢黼 8 * l 。羹调类是声调的类别，即根据实际调值把声调归类，同调值的字归在一起。普通话里有四类声调。调类的名称是“阴平、阳平、上声、去声”。各类的调值是 “高平、高升、降升、全降”。因为是四个声调，所以通常叫“四声”。图3 5 汉语普通话4 种声调的典型曲线 1 9 音节和音节相连读出，声调互相影响，或多或少要发生变化，不能保持原来的调值，这种现象叫做变调。上声的变调：上声在阴平、阳平、去声、轻声前变为“半上”，即由2 1 4 变为2 l l ，如火车、祖国、土地、手巾；上声和上声相连，前一个上声变成“直上” 调，由2 1 4 变成2 4 ，如小组、首长。去声、阴平、阳平的变调：两个去声相连，后字如不变轻声，前字变得短些，由5 l 变成5 3 ，如电报、见面：两个阴平相连，后字如不变轻声，前字变得短些、低些，不是5 5 ，象是4 4 ，如东风、车间；两个阳平相连，后字如不变轻声，前一个字就变得短些，升不到最高，不是3 5 ，而是3 4 。重迭式形容词的变调：“a a ”式的，后一个字变成阴平，也可不变；“a b b ” 式的，后两字变阴平，也可不变。如：亮堂堂、绿油油；“a a b b ”式的，第二字变轻声，第三、四字都变阴平，也可不变。如：热热闹闹、千干净净。 3 3 超音质特征和韵律 3 3 1 超音质特征一般认为，附加在音质( 音段- - s e g m e n t ) 成分上的次要语音功能是超音质特征。音质是音色问题，音色以外的即音高、音长和音强，这些特征在语音上所起的作用可以统称之为超音质特征。就声调语言而言，例如汉语的音节可以没有声母、韵头和韵尾，只有一个元音也可以构成音节，但声调( 即超音质特征中的音高变化) 却是每个音节必不可少的，它起着辨别意义的作用。超音质特征和音质特征有着很多不同之处，例如，在时间方面它不受音索限制，即超出一个音素的范围。a 0 3 这一音节的音高变化，是由两个音素( “音素” 从时间角度来说就是“音段”。) 共同完成的。同时，不受音素音质的限制，是另一个平面上的东西。大部分的超音质特征具有相对性。除音节声调可以有固定形式之外，一般是与周围超音质特征比较才得以体现出来的。例如汉语中轻声音节和非轻声音节就是这样，“东西”、“兄弟”这样的轻声只存在于这种重轻式的音节结合中。超音质特征的种类有： ( 1 ) 音长，指发音时间延续的长短。 ( 2 ) 音高，指发音频率高低，以基频为准，如汉语的声调。 ( 3 ) 音强，指幅度大小，表现为语音中的各种重音。 3 3 2 重要的韵律特征语音传递了很多信息。在物理层，原始的谱信息能使人们识别不同的音素a 而语义的、句法的知识，在理解短语或者句子的时候也都需要。还有很多附加信息通过语言传递出来，如强调、情绪、目的等上下文相关的意

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）韵律信息在汉语语音识别中的应用.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）韵律信息在汉语语音识别中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档