




已阅读5页,还剩52页未读, 继续免费阅读
(通信与信息系统专业论文)基于lbg码本生成改进的说话人识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
兰蝌大学硕士学位论文 摘要 说话人识别技术作为语音信号处理技术的一个重要组成部分,有着十分广阔的研 究和应用前景。在说话入识别方面已经有了许多采用不同参数的识别方法,本文从 基础出发,在学习语音识别技术的基本原理的前提下,将书本中的理论应用化,在 基于特征参数的矢量量化的说话人识别上取得了不错的效果。 本文首先阐明说话人识别原理,在进行初步实验的基础上,比较了不同的声学特 征参数,最终采用了能够反映人对语音的感知特性的m e l 倒谱系数( 姗f c c ) 作为 进行矢量量化的特征参数。 l b g 算法具有理论上的严密性、应用上的简便性以及较好的设计效果,因此本 文在矢量量化聚类时采用此算法。但传统的l b g 算法在码本的生成上存在着码字均 匀分裂问题,针对此问题本文提出了两种不同的解决方案:第一种方案采用变量作 为码本生成的扰动量,即采用变步长分裂方法来提高码本的生成速度;第二种方案 改变初始码本中码字的个数,使码本从开始便在畸变最大的方向进行分裂。在改进 码本的生成方法的基础上,继续传统的l b g 算法,这样既可以继承传统l b g 算法 的优点,又可以得到质量相对较高的码本。在最终的说话人识别上,采用了改进后 的l b g 算法,提高了说话人的识别率。 论文的最后,在识别说话人的基础上,对语种识别做了初步的讨论,指出了下一 步的工作方向。 关键词:说话人识别特征参数矢量量化l b g 算法码本生成改进 兰州大学硕士学位论文 a b s t r a c t a sa ni m p o r t a n tp a r to fs p e e c hs i g n a lp r o c e s s i n gt e c h n o l o g y , s p e a k e rr e c o g n i t i o nh a s a v e r yb r i g h tf u t u r ef o rb o t hr e s e a r c ha n da p p l i c a t i o n s m a n yk i n d so fs p e a k e rr e c o g n i t i o n w i t ht h e i ro w nc h a r a c t e r i s t i c sh a v ea l r e a d yc o m ei n t ob e i n g t h i sp a p e ri sb a s e do nt h e s t u d yo ft h es p e e c hs i g n a lp r o c e s s i n g ,a n dt h e nw ea d o p tt h et h e o r i e s i n s p e a k e r r e c o g n i t i o nd e s i g n a tf i r s t , t h i sp a p e rc l a r i f i e st h ep r i n c i r ,l eo fs p e a k e rr e c o g n i t i o n , t h e nt h r o u g ht h e c o m p a r i s o no fd i f f e r e n ta c o u s t i cc h a r a c t e r i s t i cp a r a m e t e r s ,w ec h o o s et h ep a r a m e t e r m f c ca tl a s t c o m b i n e dw i t hv e c t o rq u a n t i z a t i o nt e c h n o l o g y ,t h es u c c e s s f u lr e a l i z a t i o n o f t h es p e a k e rr e c o g n i t i o ns y s t e mh a sb e e nd e v d o p e d b e c a u s eo ft h er i g o ro ft h e o r y ,c o n v e n i e n c ea n db e t t e rd e s i g ne f f e c ti nl b g a l g o r i t h m ,l b ga l g o r i t h mi sa d o p t e di nc l u s t e r i n gf e a t u r ec o d e b o o k s b u tt h et r a d i t i o n a l l b g a l g o r i t h mh a ss o m ei s s u eo nt h es p l i t t i n go fc o d e b o o k s w ef i n a l l ys o l v ei ti nt w o w a y s ,t h ef i r s tm e t h o du s eav a r i a b l ea st h es p l i t t i n gp a r a m e t e r , w h i c hi st om a k eav a r i a b l e s t e pt oi m p r o v et h eg e n e r a t i o ns p e e d ;t h es e c o n di st oc h a n g et h eo r i g i n a lc o d e w o r d , w h i c hw a so n ei nt r a d i t i o n a l ,w ea d dan e wc o d e w o r di nt h ed i s t o r t i o nd i r e c t i o n , s ot h a t t h es p l i t t i n gc o d e b o o kc o u l dg e tab e t t e rq u a l i t y a tl a s tw ea d o p tt h ei m p r o v e dc o d e g e n e r a t i o nl b ga l g o r i t h m ,a n dm a k eab e t t e rr e c o g n i t i o nr a t e a tl a s t , b a s e do nt h es p e a k e rr e c o g n i t i o n , w em a k es o m ed i s c u s so nt h el a n g u a g e i d e n t i f i c a t i o na n dp o i mo u tw h a tw es h o u l di m p r o v eo nt h i sf i e l d k e y w o r d s : s p e a k e rr e c o g n i t i o n c h a r a c t e r i s t i cp a r a m e t e r s v e c t o rq u a n f i z a t i o n l b g a l g o r i t h m c o d eg e n e r a t i o ni m p r o v e m e n t i l 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下 独立进行研究所取得的成果。学位论文中凡引用他人已经发表或 未发表的成果、数据、观点等,均已明确注明出处。除文中已经 注明引用的内容外,不包含任何其他个人或集体已经发表或撰写 过的科研成果。对本文的研究成果做出重要贡献的个人和集体, 均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名:日期:1 11 :! :。 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产 权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论 文的规定,同意学校保存或向国家有关部门或机构送交论文的纸 质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以 将本学位论文的全部或部分内容编入有关数据库进行检索,可以 采用任何复制手段保存和汇编本学位论文。本人离校后发表、使 用学位论文或与该论文直接相关的学术论文或成果时,第一署名 单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名扭导师签名巡日 期出山 兰州大学硕t 学位论文 1 1 概述 1 绪论 语言是人与外界交换信息时方便、有效的工具。在数字化、信息化到来的今天, 为了更有效更便利的为人们服务,语音信号的处理作为首当其冲的研究问题也就显 示出了它的重要性。通常,语音处理的研究可以分为:作为语音处理的基本手段的语 音分析、语音增强技术;用于便于传输通信和保密的语音压缩编码技术;用于模仿 和代替人的发音功能语音合成技术;代替人耳的听觉功能的语音识别技术等等。本 文所研究的说话人识别则是一项根据语音波形中反映说话人生理和行为特征的语音 参数,自动识别说话人身份的技术,其属于语音识别技术的一个分支。1 1 j 对说话人识别的研究始于2 0 世纪3 ( j 年代。早期的工作主要集中在人耳听辨实验 和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了 单纯的人耳听辨,伴随着电子技术和计算机技术的发展,通过机器自动识别人的声 音成为可能。b e l l 实验室的s p m z a n s k y l 2 f 提出了基于模式匹配和概率统计方差分析的 说话人识别方法,而引起信号处理领域许多学者的注意,形成了说话人识别研究的 一个高潮,其间的工作主要集中在各种识别参数的提取、选择和实验上。 从7 0 年代开始,说话人识别的研究重点逐渐转向对各种声学参数的线性或非线 性处理及新的模式匹配方法上,如动态时自j 规整、主分量分析、隐马尔可夫模型、 神经网络模型和多特征组合等,并且呈现多说话人识别方向。如今,说话人识别已 逐渐进入实际应用阶段,a t & t 应用说话人识别技术研制出智能卡,已应用于自动 提款机。欧洲电讯联盟在电信与金融结合领域应用说话人识别技术,于1 9 8 8 年完成 c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n g t e l e c o m m u n i c a t i o n s ) 计划,并于同年启动了 p i c a s s o ( p i o n e e r i n gc a l l a u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划。在电信网 上完成了说话人识别。同时,m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希 望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要组成部分。 其他的一些商用系统还包括:r r r 公司的s p e a k e r k e y 、k e y w a r e 公司的v o i c e g u a r d i a n 、 t n e t i x 公司的s p e a k e z 等【3 】。国内许多高科技公司,如:中科信利技术有限公司 等,也都专门歼发了许多应用在说话人识别方面的产品。 1 兰州大学硕士学位论文 国际上许多著名大学、研究机构以及很多大公司的实验室部在进行说话人识别方 面的研究,如麻省理工学院林旨实验室( l i n c o l n l a b o r a t o r y ) ,美国的i c s i ( i n t e r n a t i o n a l c o m p u t e r s c i e n c ei n s t i t u t e ) ,美国的s r i 公司的语音技术与研究实验室( s t a r ) 、 法国的u a ( l a b o r a t o i r ei n f o r m a t i q u e a v i g o n o n ) ,加拿大的c r i m ( c e n t r e d e r e c h e r c h e i n f o r m a t i q u ed em o n t r d a l ) 实验室等a 国内的许多大学和研究机构也在这一领域开展了大量的研究工作,并在此领域取 得了丰硕的研究成果,如中科院声学所、中科院自动化研究所、北京大学、中国科 技大学、北京邮电大学、上海交通大学、哈尔滨工业大学等。 语音识别是识别出说话人所说话的内容,而作为语音识别的分支的说话人i 别则 是通过对说话人语音信号的分析和特征提取,确定说话人是否在所确定已知的说话 人集合中,并进一步判断说话人是谁的过程。所以,必须从各个说话人的发音中找 出说话人之间的个性差异。这涉及到说话人发音器官上的个体差异、发音习惯上的 个性差异等不同级别上的差异。所以说话人识别是交叉运用心理学、生理学、语音 信号处理、模式识别与人工智能的综合性研究课题。本文中只是利用了语音信号的 基本参数进行了初步的设计,如果要求进行大规模的说话人识别,则必须同时考虑 到上面说到的各个方面。 一般的训练识别模型如下图1 1 所示: ,玲 t 擀 识别阶段 识别结果 图1 1 说话人识别通用模型 说话人识别包括两个方面的基本内容:说话人辨别( s p e a k e ri d e n t i f i c a t i o n :s i ) 和 说话人确认( s p e a k e rv e r i f i c a t i o n :s v ) 。 说话人辨别足鉴别输入的声音究竟足事先录 好的哪个说话人的声音:而说话人确认则是要判断输入的声音是否是说话人本人的 声音。显然,说话人确认是一个两元判决问题,即是还是不足同一说话人的发爵, 2 兰州大学硕士学位论文 而说话人辨别则是一个多元判决问题,即是哪一位说话人的发音。事先确定识别用 发音内容的说话人识别称为与文本相关( t e x t d e p e n d e n t ) 的说话人识别,说话人识别 发音内容事先不确定,无论说什么话都可进行的浼话人识别称为与文本无关 ( t e x t i n d e p e n d e n t ) 的说话人识别1 4 j 。本文研究的说话人识别主要是与文本无关的说 话人辨别。 1 2 意义 最早的语音识别起源于智能设备中的应用中。智能设备只有听懂人的语言,了 解人的意愿,才能更好的为人服务。语音邮件、网上交易、安全保卫等常常需要进 行身份核对;通过电话业务进行声音的确认,进而进行转账、汇款、股票行情咨询; 用特定人的声音实现机密场所的出入人员登陆;以及一些个人设施。比如掌上电脑 的个性化设置等等。 在军事上:通过电子侦听。在大量的信号中找出监听对象信号;通过语音辨别确 认己方指挥员的命令而非敌方假信号。在刑侦上:从犯罪时所记录的声音确定罪犯 等等。1 5 】 1 3 难点 本文从语音识别的基础出发,主要所采用声音的m f c c 参数,其相对来说比较 好的包含了说话人发声特征,在实验室的条件下的识别情况虽然不错( 达到了9 0 以上) ,但在实际环境中,考虑到说话人识别系统在对说话人进行训练时所伴随的背 景噪声,以及在确认说话人时的背景嗓声等等,这一系列的问题些都是今后需要进 一步研究和改进的方向。 语音信号的变异性。即使对同一说话人和同一文本,语音信号也有很大的变异性。 说话人的语音特征( “声纹”) 不是静态的、固定不变的,它具有时变特性,并常常 与说话人所处的环境、情绪、健康状况有密切关系,会随着时问的推移和年龄的变 化而变化,这就意味着,同一个人的声音的码本只有一定时间的存活周期,需要隔 一定时问进行一次码本的更新;另外传输语音的通信信道的时变效应问题也是语音 信号产生变异的重要方面,这也就是说在通过电话网,万维网等通道传送数据的时 候,很可能由于信道的不稳定性、时变性等问题,导致结果的准确率受其影响。语 兰州大学硕| 学位论文 音信号的变异性从本质上使说话人特征窄间发生移动,说话人模式产生变异,从而 增加了识别过程中的不确定性。 闽值的设计也是说话人识别中的题之一,也是影响说话人识别系统实用化的 难点所在。因为在通常情况下,不同说话人的语音特征参数空间均有部分是重叠的, 事实上往往是一个多模式参数空间分割j 口j 题。在说话人识别系统中,要将待识别说 话人的输入语音计算出的参数与其所声称的说话人的参数进行比较,如果二者的距 离小于规定的闽值,则认为是识别出说话人,否则认为没有识别出说话人。怎样确 定阈值才能使系统的效果最佳,由于对不同的说话人的阂值都必须针对不同的系统 进行实验测定,所以无法有一个统一的标准。 1 4 思路 在识别方法上,常用的说话人识别方法可分为模板匹配法【“、统计概率模型法、 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 法和支持向量机( s u p p o r tv e c t o r ) m a c h i n e ,s v m ) 1 7 等。其中,模板匹配法主要有动态时间规整( d y n a m i c h m e w a r p i n g , d t w ) 法【8 i 和最小近邻( n e a r e s tn e i g h b o r ,n n ) 9 1 法,统计概率模型法主要有隐马 尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 1 1 0 1 、高斯混合模型( g a u s s i a nm i x t u r e m o d e l ,g m m ) 【1 1 l 和分段高斯模型( s e g m e n t a lg a u s s i a nm o d e l ) 1 1 2 1 ,主分量分析 ( p r i n c i p a lc o m p o n e n t s a n a l y s i s ,p c a ) 1 1 3 l 在与文本无关的说话人识别领域,基于高 斯混合模型和通用背景模型( g a u s s i a nm i x t u r em o d e l u n i v e r s a lb a c k g r o u n dm o d e i g m m u b m ) 的说话人识别已经成为主要的识别方法f 1 4 】;人工神经网络法主要有时 延神经网络【1 5 l ,决策树神经网络 1 6 i 等;基于支持向量机的说话人识别系统中使用的 特征也是目前广泛使用的声学特征i ”l ,并且研究人员常常将s v m 与g m m 相结合 来提高说话人识别系统的性能。 本文中采用基于矢鼍壁化( v e c t o rq u a n t i z a t i o n ,v o ) 失真测度的说话人识别方法 1 1 8 l 。基于v q 失真测度的方法是一种无记忆语音源模型,即独立时间序列源模型。 其一般采用l b g 算法设计每个说话人的码本。在说话人识别时,任意待识别的输入 语音信号通过这些参考码本被矢量龟化,从而使v q 的失真值逐帧累积下来。对每 个码本都计算其所有帧的v q 失真累积值。具有最小累积失真值的项彼判定为该说 话人。这一过程如图1 2 所示: 4 兰州大学硕士学位论文 信 出 图1 - 2 基于v q 说话人识别的流程 详细的算法将在第四章中进行介绍,下面简单介绍一下基于v q 的方法的产生。 v q 为一种高效率的信源编码技术,它的压缩原理是五十年代初,由信息论的创 始人s h a n n o n 推导出来的。七十年代末,l i n d e ,b u z o ,g r a y 和m a r k e l 等人解决了 矢量量化码书( 即:l b g 码) 生成的方法【1 9 l ,并首先将矢量量化技术用于语音编码 获得成功。很快v q 技术被推广到其他许多领域。特别在语音识别、说话人识别等 方面,矢量量化得到了很快的发展,v q 技术与h m m 、a n n 等的结合,得到了多 种有效的识别模型。 1 5 论文的组成 论文的工作主要是对说话人识别技术加以研究,主要是针对基于v q 的说话人 识别方法进行讨论。 论文的内容安排如下: 第l 部分:简要介绍了说话识别的背景、意义、思路。 第2 部分:简要介绍了声音产生的过程,语音的发声模型以及语音的一些特征信息。 第3 部分:给出了进行识别之前对所输入的语音信号的分析和处理方法及过程,给 出了各种参数的求解方法。 第4 部分:介绍了v q 算法,分析失真测度对v q 结果的影响,重点讨论了l b g 算 法的原理。讨论了在l b g 码本生成过程中的一些问题。 第5 部分:在前四部分的基础上做了一系列实验,确定了最终的说话人模型。 第6 部分:总结与进一步的工作。 5 兰州大学硕士学位论艾 2 1 概述 2 语音的声学特征 语音是人的发声器官所发出的一种声波,其具有一定的音色、音调、音强和音 长。音色也称为音质,是一种声音区别于另一种声音的基本特征。音调是指声音的 高低,其取决于声波的频率。音强是指声音的强弱,它由声波的振动幅度确定。声 音的长短称为音长,它取决于发音时间的长短。 人在说话时一次发出的具有一个响亮的中心并被明显感觉到的语音片段称为音 节。一个音节可以由单个音素构成,也可以由几个音素构成。音素是语音发音的最 小单位。任何语言的语音都有元音和辅音两种音索。 当声带振动发出的声音气流从喉腔、咽腔进入u 腔,而后从唇腔出去时,声腔 完全开放,气流顺利通过,这种音素称为元音。决定元音音色的主要因素是舌头的 形状及其在口腔中的位置( 舌位) 、嘴唇的形状( 口形) 等。由i d 腔中的舌位高度和舌位 前后位置的改变,可以发出不同的音素。如果将舌位高度分为高、中、低,舌位前 后分为前、中、后,即可以有九种基本的组合,再加上口唇开放程度、咽宽度,就 可发出十一个左右不同的单元音。 元音的另一个重要声学特征是共振峰。声道可以看成是一根具有非均匀截面的声 管,在发音时起共鸣器的作用。当元音激励进入声道时会引起共振特性,产生一组 共振频率,称为共振峰频率或简称共振峰。它一般包括共振峰频率的位置和频带宽 度。由于不同的元音对应于一组不同的共振峰参数,因而共振峰参数是语音识别上 区别不同元音的重要参数。 呼出的气流由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而 克服发音器官的这种阻碍而产生的音素称为辅爵。辅音没有明确的共振峰结构。辅 音发音时的阻碍位置称为调旨点,阻碍的方法称为调旨方式。根据调音方式等的不 同可以把辅音分成如下几类:塞音( 爆破音) 、摩擦旨、塞擦音、鼻音、边旨、颤音、 通酐、# 元音) 。另外,根据发辅音时声带是否振动,可以把辅音分类成浊辅音和清辅 音,声带振动的足浊子,声带不振动的足清音。 元音构成一个音宵的t 干,无论从长度还足从能嚣e 看,元音在署节中郜占主 6 兰州大学硕士学位论文 要部分。辅音则只出现在音符的前端或后端或前后两端,它们的时长和能量与元音 相比都很小,因此可以利用能量检测是否到达某个阈值来进行判定元音和辅音。 在连续语音流中,各音节的响亮程度并不完全相同,有的音节听起来比其它音节 重,这就是重音。重音一般町从词和句子去考虑而分为词重音和语句重音。重音的 声学特征主要表现在时长、占高与音强三个方面,也常常是三者的结合。不同语言 的重音特点是不一样的,对于汉语来说,现代语音学家认为汉语重音主要表现在时 长的增加( 或者说是基音周期数的增加) ;其次是调域的扩大和音高的提升。这或许可 以作为区分汉语和其它语言的一个特征。重音、语调和声调也是构成语音学的一部 分,它们或者用来表示一句话中的重要的单词,或者用来表示疑问句,或者用束表 示说话人的感情。重音和语调是一种附加的信息,其中词的重音是西方语言如英语 的一个重要特点,而语调实际上是讲话声音的调节,它决定了诸多因素,如语气、 语言环境、讨论的话题等。在语音流中由音高、音长和强度等方面的变化所表现出 来的特征称为超音段特征,它是表现说话人情感的重要特征。唧l 2 2 语音的基频 基频f o 是指发浊音时声带振动的频率。它是描述语音激励源的一个重要特征, 也是语音信号重要的参数之一。它包含了语音的韵律信息,但其易受个体差异和环 境的影响。不同的人由于声道的差异,在发同一个音时的基频可能是不同的,即使 是同一个人在不同情态下发音的基频也可能是不同的。通常,基音周期取决于声带 的大小、厚薄、松紧程度以及声门上下之间气压差的效应,随发音者的性别、年龄 及讲话时的情绪而定,男、女声的基音周期分别为5 2 0 m s 和2 5 1 0 m s ,典型的浊音 约持续l o o m s 。 基频可以根据信号的自相关函数来求取。浊音信号的自相关函数在基音周期( f 0 的倒数1 的整数倍的位置上出现峰值,而清音的自相关函数没有明显的峰值出现。因 此只需检测是否有峰值就可判断清音或浊音,检测峰值的位置就可以计算出基音的 周期。 如图2 2 所示,对原信号图2 - 1 作短时自相关,此时相邻峰值点在时间轴上的距 离就是基音周期,其倒数为基频。 7 兰州大学硕e 学位论文 - 潲- 细铲 _i1 # ;r 1 ;1 ;r ;i 1 宇上 图2 1 原信号 2 3 语音信号发音模型 托曩:+ - 一l :一up : 一:! ,:一i “+ ,+ 一:。1 ? 一j 一 ;二# o 。 图2 - 2 基音周期 在研究了语音的产生过程以后,便可以建立一个离散时域的语音信号产生模型。 语音信号数字模跫包括三个子模型:激励模型、声道模型( 共振峰模型) 和辐射模 型。【2 1 1 激励模型: 发浊音时,由于声带不断张开和关闭,会产生间歇的脉冲波。此时的激励信号是 一个以基音周期为周期的斜三角脉冲串。此脉冲可看作加权的单位脉冲串激励单个 斜三角脉冲的结果。这时的整个激励模型用式( 2 1 ) 表示: p ( z ) ;瞰) g ( 加( 专) ( 南) 2 ( 2 1 ) 其中c 为常数,r 为基音周期,4 为幅度控制因子,e ( z ) 为单位脉冲串的z 变 换形式g ( z ) 为斜三角波形二极点模型。 发清音时,声道彼阻碍形成湍流,所以可以模拟为随机白噪声。实际上,通常使 用均值为0 、方差为1 ,并在时间、幅度上随机分布的序列表示。 声道模型 最简单的声道模璎是将其视为多个不同截面积的管子串联而成的系统。在语音信 号的某一“短时”期1 1 日j ,声道町表示为形状稳定的管道。由于语音+ 的短时平稳性, 假设在短时删内,各段管子的截面积s 是常数。设第m 段和m + l 段的卢管截面积 分别是& 、& + 1 ,设: k = ( + 。一) ( 毛+ 。+ & )( 2 2 ) 称为“面积和差比”,其取值范围为【1 ,l 】,实际上这就是线性顶测的反射系数。 另一种声道模型就足将其声道视为一个谐振腔,共振峰就是这个腔体的谐振频 兰州大学硕i :学位论文 率。基于共振峰理论,可以建立三种模型:级联型、并联型和混合型。 1 级联型 将声道看作一组串联的二阶谐振器。根据共振峰理论,整个声道具有多个谐振频 率,所以它可被模拟为一个具有若干个零极点的数学模型;但对于一般元音,可以 用全极点模型: y 0 ) ;鱼二( 2 3 ) 1 _ 荟叩。 其中g 为幅度因子,n 为极点个数,吒是常系数。此时可将此传输函数分解为多个 二阶极点的网络的串联: 瞰) 一鱼而圭孑 ( 2 4 ) 式中m # 2 t j t ( n + i ) 2 的整数,吒,q 为常数系数。 2 并联型 对于非一般的元音和大部分辅音,必须采用既有零点也有极点的模型。此时其传 递函数为: 罗印z ” 矿o ) ,i( 2 5 ) 1 - 荟叩4 在一般情况下n r ,且分子与分母无公因子,并且当分母无重根时。则上式可分解 为: 酢) i 耄瓦孑 ( 2 6 ) 即并联型声道模型。其中吒,瓯,q 为常数系数。 3 混合型 即为上面两种模型的混合使用,可以用来表示不同种类的语音信号,是一种比较 完备的模型。 辐射模型 声道的终端是口和唇,从声道输出的是速度波,而语音信号是声压波,声压波与 速度波二者之比称为辐射阻抗。它表征口和唇的辐射效应,也包括圆形的头部的绕 射效应等。口屠端辐射在高频端较为明显,在低频端时影响较小,所以辐射模型r ( z ) 兰州丈学硕士学位论文 应足一阶类高通滤波器的形式。口唇的辐射效应可表示为一阶后向差分形式,式( 2 7 ) : r ( z ) = 民o - z 。1 )( 2 7 ) 其中r l 是一个约等于1 的常数。 完整的语音信号数字模掣呵以用三个子模型:激勋模型、声道模型和辐射馍型的 串联来表示,其传递函数为: h 0 ) = e ( z ) v g ) 尺0 )( 2 8 ) 从理论上讲,语音信号町看作是声门激励信号( 即基频f o ) 和声道冲激响应信 号的卷积。声门激励信弓的彳:同来自于每个人的声带长短胖瘦和弹性的不同,般 介于4 0 4 0 0 h z 之间。这个振动频率决定了声音的音高,通常女性比男性高,而老年 人比小孩粗。 激励模型 p ( n ) ! 声道模型 l 辐射模型 图2 3 语音生成系统 小结:语音生成系统分成的三个部分,在声门( 声带) 以下的称为“声门予系统” 它负责产生激励振动,为“激励系统”;从声门到嘴唇的呼气通道足声道,为“声道 系统”:语音从嘴唇辐射出去,所以嘴唇以外是“辐射系统”。图2 3 描述了语音信号 产生的过程。 2 4 语音的其它特征信息 语音除了声学特征信息之外,还包含语占的其它特征信息,如高等级的语言规 则信息。在某止语爵识别系统,例如在大词汇鐾的连续语旨识别系统中,可以用c f g 1 0 兰州大学硕士学位论文 ( c o n t e x tf r e eg r a m m a r ) 、双词文法( b i g r a m ) 和三词文法( t r i g r a m ) 等来建立高等级 的语言模型,如词汇模型等。但是,说话人识别系统不同与其它语音识别系统,无 需对每个字词、每个句子的内容做出精确的翻译。对于晚话人识别系统来说,虽然 每个人有自己不同的语言规则,可以用来作为区分其他人的特征信息,但要想对所 识别的每个人都建立相应的语言模型,则需要巨大的工作量,基本属于不可能完成 的任务;并且在面对多语种时,首先要对庞大语言学专业知识进行搜集和组织,然 后加入到说话人识别系统中,这更是非常困难的,所以对于小规模的说话人识别, 一般不会采用这种特征信息。 2 5 本章小结 本章介绍了语音的发声,语音的发声模型以及语音的一些特征信息。 兰州大学硕f 学位论文 3 1 概述 3 语音信号特征参数的提取 本文所进行的说话人识别,主要是通过语音的声学特征来进行判断。想要得到 语音的声学特征,就必须首先对语音信号进行数字化的分析和处理,从而进行语音 信号声学特征参数的提取。倒频谱( c e p s t r u m ) 具有将频谱上的高低频分开的优点,人 的声音的频率一般在3 0 0 h z 3 4 0 0 h z 左右,所以只要取前面几项参数,就可以表示出 语音信号的特性。线性预测编码的倒频谱参数( l p c c ) 1 2 2 】,m f c c i 纠都属于这类倒 频域谱的语音特征。在本文中,我们对语音信号进行分析和处理后,决定求取语音 信号的m f c c 作为语音信号的特征参数。1 2 4 l 3 2 数字化 在生活中,我们听到的声音多为模拟信号,而在电脑中所处理信号只能是数字 化的形式,所以,在对语音信号进行分析之前,必须先将输入的声音进行数字化处 理。 对语音信号的数字化一般包括预滤波、采样和a d 变换。预滤波有两个目的: 一是抑制输入信号各频域分量中频率超出正2 的所有分量( 正为采样频率) ,防止混 叠干扰;二是抑制5 0 h z 的电源频率干扰。接下来对语音信号进行采样,根据采样定 理得知,采样频率不能小于原始语音信号频率的两倍,若小于这个值的话会造成失 真,由于语音的最高频率不会超过4 k h z ,所以将采样频率定在8 k h z 就能保证不失 真了。语音信号经过预滤波后,由d 变换,如最常用的p c m 编码等,将其变换为 二进制数字信号。 这个过程在采样时就已经基本完成。 3 3 预加重 由于语音从嘴唇发出后,会有高频能邕的损失,所以首先对数字语音信号进行 1 2 兰州大学硕士学位论文 预加重。其目的是提升高频部分,使信号的频谱变得平坦,保证在低频到高频的整 个频带中,能用同样的信噪比求频谱,从而便于频谱分析或声道参数分析。一般用 一阶的数字滤波器来实现: y ( z ) 一h ( z ) x ( z ) 一0 - 0 9 6 2 4 ) z ( z )( 3 1 ) 从时域上束看,原取样值x 0 ) 通过高频滤波器后变成y ) y y 。( o ) ) - 。x x ( o o ) ) - o 9 6 x ( n - 1 ) 1 厅n - 1 ( 3 2 ) 1 y ( 刀) i x ( 一 厅 、7 其中n 为最大长度。 3 4 加窗分帧 语音信号从整体来看,其特性及表征其本质特征的参数均是随时间变化而变化 的,因此它足一个非平稳态随机过程,不能用处理平稳信号的数字信号处理技术对 其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道的不同形 状所产生的响应,而这种口腔肌肉运动相对于语音频率来说变化是非常缓慢的,从 另一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内( 一般认为在 1 0 3 0 m s 内) ,其特性基本保持不变,因而可以将其看作是一个准稳态过程,即语音 信号具有短时平稳性。因此,任何语音信号的分析和处理必须建立在“短时”的基 础上,即进行“短时分析”。将语音信号分为一段一段来分析其特征参数,其中每一 段称为一帧,帧长一般取为1 0 3 0 m s 。这样,对于整体的语音信号来讲,我们所得到 的是由每一帧特征参数组成的特征参数时间序列。 一般每秒的帧数约为3 3 1 0 0 帧。为了使帧与帧之间平滑过渡,并保持连续性, 一般采用重叠分段的方法,前一帧和后一帧的重叠部分称为帧移。这里帧移与帧长 的比值一般为o 1 2 ,分帧一般用可移动的有限长窗口进行加权的方法来实现。加窗 的目的是为了让各帧的频谱的能量更集中。理想的窗函数应该是:在时域上,当减 小时间窗两端的坡度时,窗口边缘两端不会引起急剧变化,这样可以使截取出的语 音波形缓慢下降为零,减少语音帧的截断效应;在频域上,要有较宽的3 d b 带宽以 及较小的边带最大值。以矩形窗和汉明窗进行比较看,汉明窗的主瓣宽度比矩形窗 大一倍,其带宽约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的频谱 虽然平滑性能较好,但损失了高频成分,使波形细节丢失;而汉明窗则相反,从这 方面看来,汉明窗比矩形窗更为合适。因此,这罩使用汉明窗作为窗函数。 1 3 兰州大学硕上学位论文 i l o ) :o 5 4 一o 4 6 8 【2 石7 ( 一1 ) 】0 5 “s 一1 ( 3 3 ) 1 0 e l s e 经过分帧处理后,将每一个短时语音帧看成平稳的随机信号,可以利用数字信 号处理技术来提取语音特征参数。 3 5 短时自相关分析 自相关分析是一种常用的时域波形分析方法。自相天函数具有一些性质,如它 是偶函数;假设序列具有周期性,则其自相关函数也是同周期的周期函数等。我们 可以把自相关函数的这些性质应用于语音信号的时域分析中。例如,在前面的章节 中对于浊音语音用自相关分析求出了语音波形序列的基音周期。 定义语音信号矗( 肌) 的短时自相关函数r ) 的计算式如f : - l - k r ) 一( 历l k ( m + 女) 0 k 蔓k ( 3 4 ) 这罩k 是最大的延迟点数。 短时自相关函数具有以下性质: ( 1 ) 如果( 肌) 是周期的( 设周期为。) ,则相关函数是同周期的周期函数,即 r ) = r n + 。) ( 2 ) r ) 是偶函数,即r ( 女) = r ( 一七) ( 3 ) 当k = 0 时,自相关函数具有最大值,即r ( o ) z 1 咒 ) l ,并且r ) 等于确定性 信号序列的能量或随机序列的平均功率。 3 6 能量归一化与短时能量分析 因为说话音量的大小会影响每个帧的能量值,为了消除每个人说话大小声的差 异,因此将能量做归一化的处理。这样一则便于消除音量上的差异,并且也可用来 判断清浊爵的情况。 短时能量代表音量的高低,可根据短时能量大小来去掉所处理的声音一些细小 噪卢。短时能肇为: 1 4 兰州大学硕士学位论文 e ( 厅) 。荟工2 ( ,1 ) ( 3 5 ) 若某帧能量小于一个门限值,则此帧不予考虑,这即是说,我们使用能量来进 行语音起始点检测。 经由上面几个步骤后,可将一段数字语音信号转成许多帧,并去除语音信号 中一些噪声或无声的信息,接着使用特征参数提取方法,可从有效的帧中提取适 当的特征参数。 3 7 线性预测分析l p c 线性预测分析l p c 是语音分析取得特征值的一个重要的方法。它具有能够有效 的反映语音信号的特性且计算速度快的优点。其原理是由于语音样点之间存在相关 性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够 用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之 间的误差在某个准则下达到最小值来决定唯一的一组线性预测系数,这组线性预测 系数反映了语音信号的特性,可以作为语音信号特征参数。 3 7 1 线性预测分析的基本原理 线性预测分析的基本思想是:用过去p 个样点值来预测现在或未来的样点值。 j o ) 一q s o - i ) ( 3 - 6 ) 预测误差为: ( ,1 ) 一s ( n ) 一j ( ,1 ) 一s ( ,1 ) 一罗a t s ( 疗一f ) ( 3 7 ) 一, 这样就可以通过在某个准则下使预测误差达到最小值的方法来决定唯一的一组 线性预测系数a 。 这里我们把线性预测分析和语音信号产生的数字模型联系起来。语音模型可以 用准周期脉冲( 在浊音语音期f a j ) 或白噪声( 在清音语音期间) 激励一个线性时不变系统 ( 声道) 所产生出来表示,这一点,第2 章中已有了部分描述,这里将结合l p c 进行 进一步的描述,如图3 - 1 : 兰州大学硕士学位沦文 e ( n ) 激励信号 卢道模型 s ( n ) 音信号 图3 - 1 其中,系统的输入e ( n ) 的是语音激励,s ( n ) 是输出语音,模型的系统函数h ( z ) 可 以写成有理分式的形式: 1 + 岛z 。 h ( z ) = g 。 一 ( 3 8 ) 1 - 艺叩。1 上式中,系数口。、包及增益因子g 是模型的参数,而p 和q 是选定的模型的阶数。 因而信号可以用有限数目的参数构成的模型表示。根据h ( z ) 的形式不同,有三种不 同信号模型; ( 1 ) 如( 3 8 ) 所示的h ( z ) 同时含有极点和零点,称作自回归滑动平均模型( a r m a 模型) 。 ( 2 ) 当h ( z ) 中的6 f = o 时,h ( z ) 为全极点模型,这时模型的输出只取决于过去的 信号值,这种模型称为自回归模型( a r 模型) 。 ( 3 ) 如果h ( z ) 中的4 。= 0 时,h ( z ) 为全零点模型,这种模型称为滑动平均模型( m a 模型) 。 在语音信号处理中,常用的模型是全极点模型,原因: ( 1 ) 如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是个全极点模型;而 对于鼻音和摩擦音,声学理论表明其声道传输函数既有极点又有零点,但这时如果 模型的阶数p 足够岛,则可以用全极点模型来近似表示极零点模型,因为一个零点 可以用许多极点来近似( 1 - a z - 12 i = a z j :a 蕊z 。 l +。+ 一一+ ( 2 ) 可以用线性预测分析的方法估计全极点模型参数,因为对全极点模型参数估计 是对线性方程的求解过程,比较简单:若模璎中含有有限个零点,则需要求解非线 性方程组,实现起来十分困难。 采用全极点模型,辐射、声道以及声门激励的组合谱效应的传输函数为: 1 6 兰州大学硕士学位论文 刖。器万g 。丽g ( 3 9 ) 其中p 是预测器的阶数,g 是声道的增益因子。由此,语音抽样s ( n ) 和激励信号e ( ) 之间的关系可以用下列的差分方程束表示。 s ) 一g e ( 月) + 艺q s o f ) ( 3 l o ) 即:语音样点间有相关性,可以用过去的样点值来预测未来样点的值。对于浊音, 激励e ( n ) 是以基音周期重复的单位冲激;对于清音,e ( n ) 是白噪声。 在分析信号的过程中,模型的建立实际上是由信号来估计模型参数的过程。由 于信号是实际客观存在的,所以用模型不可能完全精确表示,总是存在误差,并且 预测器的阶数p 无法事先确定,可能选得不是很合适,而且信号是时变的,因此求 解模型参数的过程是一个逼近过程。在模型参数估计过程中,把如下系统称为线性 预测器: 一a ,s ( n f ) ( 3 1 1 ) 式中q 称为线性预测系数。从而,p 阶线性预测器的系统函数具有如下形式: 尸( z ) 一艺叩“ ( 3 1 2 ) 在式( 3 9 ) 中的a ( z ) 称作逆滤波器,其传输函数为: 酢m 一弘= 等 预测误差o ) 为: o ) 一5 0 ) 一艺口,o f ) 一g e ( n ) ( 3 1 4 ) 线性预测分析要解决的问题是:给定语音序列,使预测误差在某个准则下最小。 显然,由于语音信号具有时变特性,线性预测分析必须按帧进行求预测系数的最佳 估值a i 。通常采用最小均方误差准则。把某一帧内短时平均预测误差定义为: e e 2 ) 一e p o ) 一艺n 声。一f ) 】2 ( 3 1 5 ) 为使e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高分攻略2024年初级药师考试试题及答案
- 2025至2030中国美术培训市场经营管理风险与未来投资潜力研究报告
- 小学语文人教部编版四年级下册2 乡下人家教学设计及反思
- 2025至2030中国燃料电池堆市场运营风险调研与产业行情监测报告
- 理清思路的图书管理员考试试题及答案
- 2025至2030中国弹拨乐器运行态势分析与市场前景盈利研究报告
- 2025至2030中国婚纱摄影市场发展环境分析与需求规模研究报告
- 2025至2030中国发酵豆粕市场趋势洞察及营销发展趋势研究报告
- 2025至2030CMOS摄像模组行业现状调查及营销态势规模评估报告
- 2025-2030鸡精行业风险投资态势及投融资策略指引报告
- 健康信息学中医药学语言系统语义网络框架
- 2023年中考语文一轮复习考点梳理+对点训练(原卷版+解析版)(打包7套)
- 幼儿绘本故事:如果不洗澡
- 农业机械使用与维护课程标准
- 汽轮机上缸吊出及翻缸风险分析及管控措施
- 普通高中学生综合素质档案填写样表
- 大连理工大学机械制图习题集答案.
- 管道机器人毕业设计正文
- 小学生数学习惯养成总结-ppt课件
- 地铁工程施工作业流程化管理的主要控制措施_工程管理
- 49.5MW风电场变电所电气部分设计
评论
0/150
提交评论