(通信与信息系统专业论文)基于小波分析的语音识别的研究.pdf_第1页
(通信与信息系统专业论文)基于小波分析的语音识别的研究.pdf_第2页
(通信与信息系统专业论文)基于小波分析的语音识别的研究.pdf_第3页
(通信与信息系统专业论文)基于小波分析的语音识别的研究.pdf_第4页
(通信与信息系统专业论文)基于小波分析的语音识别的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(通信与信息系统专业论文)基于小波分析的语音识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贵州大学工学硕士毕业论文 摘要 语音识剐技术的应用,本藏上在于它旎将输入的语音转化为语言代码,能够大幅度降低 代码率,便于存储和传辕,丙且也容易被计算枫或专用信息处理单元理解其含义,从而开发 出更广泛的应用。例如,机器畿昕懂人类的自然语富。能够有效去除语音信号中的噪声是尚 今照雾研究酶热点| i 霹题,有缀薰要蕊理论价值 帮实耀意义。 本论文研究被噪声干扰的语音信号的去噪和识别课题。首先对语酱信号和噪声的特性进 褥了分耩;接羞砖语瞢浚烈系统的预处理、语音信号分析方法、特妊掇取、模教训练和横掇 躁配方法进行了论述# 语音识别率的提商需要提暾准确的语音特征参数,最好的办法就是对 待识鬟语音进行降啜处理。 本论文选取小波变换阈值去噪原理去除噪声。在对众多小波函数的分析中选择了s y m 8 小波基窝h e m s m e 阕德选择规燹l l ,在s i n 藿谴方法的蓠提下,分别采瘸硬阂值法、较阙僮法 和双变量朗值法,以及不同的小波分解层数进行了察验,得_ 圭j 采用双变量阈值法和5 层尺 度分解褥到比较努鲍去嗓效果释较奎戆信号损失盼成票,对解决夸波基选择窝小波溺篷选择 的两个难点问题提供了一个可行的方法。 , 关穗谶:语音识攒,模叛嚣配,小波去噪,夺波离僮 h l 费媸大学工学硕士毕池论文 l ,j - o - - - - - - - 一 a b s t r a c t 弧ea p p l i c a t i o no fs p e e c hr e c o g n i t i o nt e c h n o l o g ya l l o w st h ei n p u t s p e e c hs i g n a lt ob e c h a n g e di n t os p e e c hc o d e w i t ht h et e c h n o l o g y , n o to n l yt h ed a t ao ft h es p e e c h , w h i c hi s u a n s f e r r e da n ds t o r i e di nc o d em o d e , i sl e s st h a nt h a ti no r i g i n a lw a y , b u tt h es p e e c hc o d ei se a s i e r p r o c e s s e db yc o m p u t e ro ro t h e ri n f o r m a t i o np r o c e s su n i t t h e r e f o r e , t h es p e e c hr e c o g n i t i o n t e c h n o l o g yc a nb ea p p l i e di nm a n yf i e l d s , f o re x a m p l e ,am a c h i n ec a nu n d e r s t a n do u tl a n g u a g e e f f i c i e n ts p e e c h e sd e - n o i s ew h i c hi sar e s e a r c hf o c u si ni ti sm e a n i n g f u lf o rr e a lw o r l da n dh a s 毯g ht h e o r e t i c a lv a l u e 1 1 l ct h e m ei sa b o u td e - n o i s i n go fs p e e c h 、析t hn o i s ea n ds p e e c hr e c o g n i t i o n f t r s t l y , t h e f e a t u r eo fs p e e c hs i g n a a n dn o i s ei si n t r o d u c e d , a n dt h e nt h ec o m p o n e n t so ft h es p e e c h r e c o g n i t i o ns y s t e m , s u c ha sp r e p r o c e s s i n g , m e a n so f 翠c 耋ls i g n a la n a l y s i s , f e a t u r ee x t r a c t i o n , t h e t r a i n i n ga n dt h em a t c h i n go fs p e e c ht e m p l a t e , a r ed i s c u s s e d t oi n c r e a s et h er a t eo fs p e e c h r e c o g n i t i o n ,t h ep a r a m e t e ro fs p e e c hf e a t u r es h o u l db ee x t r a c t e da c c u r a t e l y , s i g n a ld e - n o i s ei st h e b e s tw a yt oa c h i e v et h eg o a l t h e s y m 8 w a v e l e ta n d h e u s u r e t h r e s h o l dr u l ea r ec h o s e n u n d e rt h e s i n r e a d j u s t m e n t m e t h o d , h a r d , s o f ta n dd o u b l et h r e s h o l da r es e p a r a t e l ya d o p t e di nt h ee x p e r i m e n t so fd i f f e r e n t l a y e rw a v e l e t 髓er e s u l t so ft h ee x p e r i m e n ts u p p o r t5l a y e r sc r i t e r i o nd e c o m p o s i t i o nw i 氇t h e d o u b l et h r e s h o l d ,w i t hw h i c hw ec a ng e tg o o dd e - n o i s ee f f e c ta n dr e d u c et h el o s to fs i g n a l a n d t h es t u d y p r o v i d eae f f e c t i v em e t h o do f w a v e l e ta n dt h r e s h o l ds e l e c t i o n k e y w o r d :s p e e c h e sr e c o g n i t i o n ,t e m p l a t em a t c h i n g ,w a v e l e td e - n o i s e , w a v e l e tt h r e s h o l d 贵州大学工学硕士毕业论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含其他个人或集体已经发表或撰写过的科研成果对本 文的研究在做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律责任由本人承担。 论文作者签名: e l 期:至q q 墨生旦 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论 文的全部或部分内容编入有关数据库进, f - i - 检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 沦文作者签名:毒挺盈0 导师签名:1 r 弋 贵州大学蔗学硕士毕蛾论文 。 概述 第一章绪论 童。 语音识别及其应用 语音识嬲,又橼趣动语酱识嬲( a u t o m a t i cs p e e c hr e c o g n i t i o n ,摘称a s r ) ,其研究趟 赫是如何谴机器麓够糖确遗褥漤入韵语脊及其蠹襄,狱便控翻其德设备柬满足人豢的各种满 螫。语音识燃的研究与声学、谱啻学、语誊学、数字信号处理理论、信息论、模式识嬲理论、 最优纯理论、计算橇科学等学科有着紧密的联系糯。 语音谈瓣技术的麟决不仅将健计算辘威先普邋嚣姓的褥心应手的工具,丽且对予 冬多机 器的操作、生产过程的控翩,还存通信、掰语机器翻译等领域来说,语音识捌都太有用武意 蟪4 舭。 l 。l 。2 蝶声环境下语音识吴l l 的发展及现状 1 噪声对语音识别的影响 在语音谶信中,当发送者缝子强噪声酶环境下,细:电,、轻型飞枫、装攀率辆、视制 攀闻等地酵,裁会在接收端接收的语音铸号中含有大量的噪声,导致嘴誉涛或者孵不懂,甚 蛩逢成语酱淹信的盲送。当存在噪声干扰时,我 f 】接收到的怒噪声和纯狰语音混含在一起的 镶号,糖对警纯净语鸯,会噪诺嵌酶统计特性将掇撰噪声源特性、噪声统计觏律、嘹声干撬 语膏的方式、磉声幅度等因素蔼发生变纯。交化的缡果使得纯净语音的特征分布原来是高斯 鲶,现在是非离巍鲍,纛来是擎峰鳇,现在变成双蜂甚至是多蜂酶,均傻秘方差等参数邈会 发生变讫。繇之,噪声的影响馒得原来纯挎语音的横型对予含噪语音来说失效,从而造成识 嬲幢甍斡急麟下降n 。因筵,在发送端将溜入语音中酶噪声澄除具有非常重要熬意义,或者 说,发送端语音降蝶技术是语音信号识别系统的重瓣组成部分。 髓羞隐驽尔霹夫摸壁在语誊滚裂中昀广泛痘飕,语音识嬲技术褥劐缀夫发装,翼藩戆谶 凿识别系统对纯净语脊的识别w 以达到稚常高的耩艘,在寂静的环境下话音识别撩统可以选 捌实囊的鼓采。毽是在多数实舔癍| l l 戆琢壤幸存_ 丧簧释各样黔臻声,搜褥实验室麴潲蘸玮壤 贵州大学工学硕上毕业论文 与实际应用环境的不匹配,系统的识另i j 性能下降。这也是语音识别不能实现商业化的重要因 素。因此,大量的研究表明,在语音识别之前有必要进行语音降噪。因为在含噪语音信号中 很难提取准确的语音特征参数。 抗噪声语音识别是语音信号处理领域里的前沿课题,也是语音识别系统达到实用化所迫 切需要解决的关键问题。 2 噪声环境下语音识别技术的发展 通常在安静环境下录制训练语音。而该语音识别系统面对各种各样的实际应用环境,去 除噪声影响肯定是不理想的。但不可能在每个噪声环境下录制训练语音来训练各种不同环境 下的语音模型,同时噪声会使得说话者的语音存在l o m b a r d 效应嗍。因此,语音识别系统在 噪声环境下识别性能的下降,是由于训练环境下的语音数据和识别环境下的语音数据的严重 不匹配造成的。我们能否通过少量训练环境模型来提高适应多数识别环境的语音识别性能, 就是在不同类型的噪声和不同信噪比的条件下具有良好的鲁棒性( r o b u s t n e s s ) 。一般通过 以下方法解决这个问题: ( 1 ) 使用抗噪特征和抗噪测度 该方法的重点在于研究噪声对语音信号的作用而不是尝试去除噪声,主要研究抗噪声的 语音特征和抗噪声的失真测度。该方法的主要优点是对噪声环境没有任何假设,应用范围广。 在受白噪声的影响下,随着s n r 的下降,倒谱矢量的均值会产生漂移,倒谱矢量的模 值会缩减,而且其分布也不再服从高斯分布。显然,如果能够补偿由噪声引起的特征参数的 变化或者能够提取对噪声不敏感的特征参数,则可以减小由噪声引起的训练和测试条件的不 匹配,从而提高系统的抗噪能力。为了补偿倒谱矢量的模值缩减这一变化,最直接的做法是 给带噪语音特征矢量乘以一个加权因子,进行模值修正,权值的大小可以通过优化测试矢量 和参考矢量之间的欧氏距离来确定。当然,也可以对特征矢量进行模值均衡处理,以减小模 值变化对系统性能产生的影响。同欧氏距离相比,人们发现测试矢量和参考矢量之间的夹角 受噪声的影响更小,基于这一点,c a r l s o n ,m a n s o u r 等人从正交原理出发,提出了c p ( c e p s t r a l p r o j e c t i o n ) 方法,迸一步提高了识别器的性能隗臻嘲。 由于人耳对同信道语音干扰也有很强的抑制能力,人耳对低频的敏感度要高于对高频的 敏感度。在语音信号的参数中引入人耳听觉特性,则可以提高系统的鲁棒性和识别率。与m e l 倒谱频率系数( m f c c ) 类似,h e m a n s k e y 等用一组b a r k 刻度的滤波器组对语音信号进行滤 波,然后用a r 模型来拟合滤波器组的输出,提取了一种p l p ( p e r c e p t u a l l yb a s e dl i n e a r 2 贵州大学工学硕士毕业论文 p r e d i c t i o n ) 参数,改进了识别性能。但如果污染语音信号的噪声不是白噪声,而是有色噪 声或其它语音干扰,那么,倒谱矢量模值的变化将更为复杂,补偿起来也就更为困难。另外, 噪声除了影响倒谱矢量的模值外,还会影响它的统计特性,因此,只补偿倒谱矢量的模值不 可能完全克服系统受噪声的影响m 1 。 ( 2 ) 语音增强方法 将要识别的带噪语音尽可能地转化为与硼练环境相匹配的纯净语音。该方法主要应用于 恢复清晰语音信号质量,从而提高语音识别性副们。 语音增强一般都是作为语音识别过程中的预处理环节,其目的是从带噪语音中削减噪 声,从而提取尽可能纯净的原始语音或原始语音参数,以提高语音质量。噪声对消是一种典 型的语音增强方法,其基本原理是从带噪语音中减去噪声,具体地可采用自适应f i r 横式 滤波器来实现。自适应权值l m s 算法、最陡下降法等算法来进行估计。噪声信号可以是经 另一话筒采集所得的环境噪声,也可以是经同一话筒采集所得的寂静段的噪声。噪声对消的 缺点是残留噪声具有一定的节奏性起伏感,这也就是说增强后的语音中含有“音乐噪声”。 这些滤波器对某些噪声的去除,有一定的效果,但是对于白噪声来讲,效果往往不尽人意。 由于语音信号是典型的非平稳随机过程,在时域上,人们几乎没有什么有效的方法去把 握语音信号的特点,但在短时分析帧内可以近似看成是平稳的,基于短时谱估计的谱减方法 就是从带噪语音的短时谱中估计出“纯净”语音的短时谱,以达到增强的目的。因此在频域 上,人们对语音信号的降噪处理也往往依赖于短时傅立叶变换,以此得到语音信号与噪音的 频谱特性,然后设计相应的滤波器,例如带通滤波器、格型滤波器、维纳滤波器等等。由于 噪声也是随机过程,因此这种估计只能建立在统计模型的基础上。当然,如果在增强过程中 同时考虑频谱的幅度和相位,那么算法将会十分复杂。好在人耳感知对语音频谱的相位并不 敏感,所以目前的增强算法主要是针对短时谱幅度。假设噪声和语音信号在时域是不相关的 和加性的,在这种情况下,带噪语音信号的功率谱是噪声和纯净语音信号的功率谱之和;如 果噪声是平稳的或慢变的,则可用非语音段估计所得的噪声功率谱代替语音段噪声的功率 谱,直接进行功率谱相减,从而可达到增强语音的目的。这种方法称为谱减,谱减方法是压 缩平稳或慢变宽带加性噪声的简单而又行之有效的方法。 谱减技术的缺点是:首先,其性能取决于系统对噪声段和语音段的正确检测,如果检测 错误,不仅谱减技术的效果不明显,甚至会起反作用,其次,谱减后会出现负谱现象。为了 克服负谱的产生,有人提出了许多改进的谱减方法,如非线性谱减技术等;最后,谱减只能 在频谱域中进行,不适合于倒谱域,因为噪声和信号在时域中是完全不相关的,但在倒谱域 3 爨熊大学芰学硬圭擎娩论文 中它们却是撩关的。为此,有入提如了倒谱相减和伪倒谱相减方案,其基本原理楚先将鲥潜 变换到频谱域中,谱减厨再利用反变换回到倒谱域中。 通过对入耳感知特健的研究,人们发现入耳对背爨噪声其有惊人酶抑制能力,谣且入耳 还具有掩蔽效废( 即强信号对弱信号有掩盖的抑制作用) 和“鸡尾酒会”效应( 能够从讲话环 境分辨出所需要的声音 等,正是基于入耳的感知特性,人们提惠了噪声羼菠技术,姨瓒强 语音,削弱噪声。其基本思路是对语音信号戚其参数进行滤波,并给滤波器设定一个门限, 当滤波器的输密大予这令门限时,输出不交,两输出小于这令门限值时,将输出设定为某个 固定值。噪声屏蔽既可以在时域中进行,亦可在频域、对数谱域、或倒谱域中进行。噪声屏 蔽技术鳇优煮是杰低信噪眈条件下,能明显提高识题系统的识别率。其缺点主要有: 第一,由于在屏蔽噪声的同时,也不可避免地屏蔽了一些有利于识别的语音成分,因此, 在鑫信噪比帮纯净语音条件下,会使系统酌识鬟率下酶; 第二,噪声屏蔽需要根据不同的信噪比设置不同的门限,这给实际应用带来了很大困难。 3 ) 噪声环境下豹模型补偿方法 使用纯净语音训练基本语音模跫,在语音的识别阶段,根据现场的环境噪声对语音模板 进行交换,使模型参数适应识瘸语音环境。对每个不勰静识魏环境修改语音模型。该方法需 要描述各个不同的噪声环境。还有人用小波变换和非线性压缩来模拟人耳的听觉模型,也有 人将听觉特性和维纳滤波结合起来,提取了一些新的特征,扶一定程度上改善了识剐系统酶 性能。 上述方法主要缺点避当噪声较强对,识嬲系统的性能仍会严重下降。 2 课题的研究意义 语音是语言信息的载体,语音识别技术的应用,本质上在予它麓将输入的语音转纯兔 语言代码。这样,不仅在存储或传输这些语言代码时的数码率比起存储或传输原来的语音信 号来大幅度降低,还在予它把一种连续酶语音信号变成了一种有限符号集中的符号( 或代 码) ,这样的符号容易被计算机( 或专用信息处理单元) 理解其含义,而且便于与人进行交 流,因而可以进行十分广泛的应用嘲。挪采设想语音浃嬲器毙爨有像人一样的智慧,麓听懂 人类的自然语言,相信语音识别在任何场合都有巨大的用处。但正像我们后面还要提到的一 样,语音识嬲是一令裙巍难的潘遂,在相当长斡一段时露里,语音识餮还缀难固入的听觉能 力相比。 4 嶷州大学工学硕士毕业论文 语音识别技术是计算机技术重要豹发展方向,多媒体时代的来稿,迫切要求解决自动 语音识别的难题。语音识别技术已经成为计算机在亿万百姓中普及的关键技术,并且必将成 为信息产韭的标志性技零和未来计算棰l 酊羲要特征。 目前大多数语音识别系统,在实验室环境下,其系统的识别性能效果已经很好,但是 在存在噪声的环境下,系统的性麓会有较大的下降。因此,抗嗓语音识剐的研究逐渐成为语 音识别领域的研究热点。 8 0 年代中后期发展并成熟起来的小波理论,由予具有对信号的分时分频特征或传播行 为,根据这些特征的不同,可以将有用信号提取出来。基于小波变换的去噪算法满足各种去 噪要求,如低通、高通、陷波、随机噪声的去除等。瓶且与传统的去嗓方法相比较,小波去 噪有着不可比拟的优点。 小波变换有效完成了信号的时间与空间的局部化,对于信号分析是一个强有力的工具。 小波变换具有多分辨率( m u l t i - r e s o l u t i n o ) ,即多尺度( m u l t i - s c a l e ) 的特点,可以由褪 及耪地逐步观察信号;嗣时还具有品质因数恒定,即相对带宽( 带宽与中心频率之比) 恒定的 特点;适当地选择基本小波,便可以使其在时、频鼹域都具有表征信号局部特征的憝力,爨 此非常有利予信号分析。由于小波分析具有上述特性,因此有入把小波变换誉为分析信号的 数学显徽镜。 小波分析由于能同时在时频域中对信号进行分析,所以它能有效地区分信号中的突变 部分和噪声,扶丽实现对信号的去噪。这也是小波分橱豹一个熏要的应瘸领域。但是,由予 应用于去噪的小波母函数是一个集合,在小波去噪的实际应用中采用哪一种小波函数才有最 好盼去噪效粟,是一个有待解决匏、弱时缀鸯实际价值的研究课题。对予不羼的信号奎波去 噪的结果也不尽相同。在实际应用中,我们必须根据实际情况进行小波函数的最优选择。由 于实际应用争通常无法区分真实的蔫号j 和污染它的噪声,因此滩以谖估备耱小波番数的去噪 效果。本文针对一段语音信号为背景,通过在构造给定信号并附加已知嗓声的基础上进行试 验测试,来评佶各种小波遗数的去嗓笼力,以进行夺波去噪的饶化。 小波去噪的另一个履要问题就是阈值的选取问题。采用同一种小波对同一个信号进行 去嗓处理魄对候,阕值豹选取壹接关系羁去噪效采蛉优劣。如聚阕鳘选取过夺,那么有一部 分的噪声小波系数将不能被置零,从而将一部分有用信号去掉,使得去噪后的信号丢失信息。 小波去噪在遨方蘑艮傅立时交换箍得更秀有效,餐楚,这并不意味着它霹以完美的分离有凑 信号和噪声。因此,在小波去噪的过程中如何更有效地进行阈值选取,使得噪声被去除的同 时尽可麓鲍避免有用信号的丢失,这也跫本文要磷究的离题。 s 费燕大学芰学矮圭毕娅论文 3 本文主要内容 语音识别是实现人枫语音交嚣的最重要的第一步,语音识戮( s r ) 的最大优势在于使褥 人机用户界面更加自然和容易。目前的语音识别系统对纯净语音可以达到非常高的识别精 度,健是在噪声环境下,由于训练模型和识别特征之间的失配,语音识别系统的性麓会急威 下降。因此,语音去噪达到真正实用所迫切需要解决的关键问题。 本文所研究的主要是含加性噪声的语音谊号的恢复,重点在于透过小波分析方法实现语 音信号预处理部分的去噪。 本课题研变静主要毯斡裁是适应露翦籀息社会对语音识别技术酶要求,结合小波分撰理 论在信号去噪方面的应用,在以下几个方蕊进行了研究: ( 1 ) 对小波去噪方法进行研究,介绍凡种常餍鳇小波去噪方法,耋点研究和讨论几种 小波阀值去噪算法; ( 2 ) 逶过实验对小波去噪中酶嚣令难点:小波基酶选择及阈值豹合理选取闯题避行讨 论和研究,给出自己的选取方案,并通过对所讨论的算法进行仿真实验,验证算法的有效性。 ( 3 在l i a t a l b 环境下鞫建实验嚣境,遴行语音信号豹去嗓试验检验选取静小波及辩使 方案的有效性。 6 贵州大学工学硕士毕业论文 第二章语音识别技术的基本原理 2 1 语音信号和噪声的特- i 生 2 1 1 语音信号特性 1 语音的声学特性 语音既然是人体的发音器官发出来的一种声波,它就和其他各种声音一样,也具有声音 的物理属性。这就是说,每一种声音都具有一定的音色、音调、音强和音长这四种要素。音 色也叫音质,是一种声音区别于其他声音的基本特性。音调是指声音的高低,音调取决于声 波的频率。声音的强弱叫做音强,它是由声波振动幅度决定的声音的长短叫做音长,它取 决于发音持续时间的长短。说话的时候,很自然地一次发出来的、有一个响亮的中心的、听 的时候也很自然地感到是一个小的语音片段的,叫做音节,它是语言的最小使用单位。一个 音节可以由一个音素构成,也可以由几个音素构成。音素是语音的最小单位。语音除了具有 上述的声音的物理属性外,它还具有另一个重要性质,这就是语音总是和一定的意义相联系, 一定的语音要表达一定的思想和意义。因此,语音中所包含的信息是十分丰富的。 2 语音信号的时域波形特点 语音可以直接用它的时间波形来表示,根据时间波形可以看出语音信号的一些重要特 征清音和浊音这两类音的波形有很大的不同。一般来说,清音的波形类似于自噪声,且具 有很弱的振幅;而浊音具有明显的准周期性,并具有较强的振幅。它们的周期对应的频率就 是基音频率,即使同是浊音,其基音频率也是不同的。 就其本性而言,语音波形是时间的连续函数。因此,从一个音到另一个音逐渐过渡时, 语音信号的特性是随时间而变化的。例如,浊音和清音的激励不同,从浊音过渡到清音,相 应地要改变激励,语音信号的幅值随着时间有很显著的变化。语音信号的这些时变特性在波 形图中都能够很明显地观察出来。 3 语音的频谱特性 不同语音是由声道的不同形状和尺寸决定的,这就决定了它们具有不同的频谱特性。语 音随着时间的变化,决定了其频谱也随着时间而变化。但由于语音频谱随时间变化是很缓慢 7 纛建大学墨学矮圭毕救论文 戆,毽瑟在一簸段爵褥巍暴爨察褥誊翡频谱,霹菇避觳谖受是匿定苓变瓣,麸孛霹黻捷鹫樱 应的频谱信息,这就是所谓的短时谱。语酱髓一个时黛的、非平稳的随机过程。人类发声系 统魏釜毽终搀戆变纯速菠楚毒一定黻度翡,褒一羲殴时瓣蠹( 1 0 3 0m s ) 大瓣声带嚣声遵形棱 有椭对稳定性,可以认为其特征媳不变的,因而语音的短时谱分析也有相对稳定性。在语音 蘩号筵莲孛霹骥麓蘑矮辩潜蕊这种学整装。遂特煮是诿考数字篱号数字憝莲翡令羹要塞 发点。 4 语音信号的鲁棒性 语音信号鼹有多变性。不弱发鬻人所产生酶语音僚号会有缀大程度的差异。即使是鼹一 个入像会卣手心瑾和生穗的影嫡糙:舞紧张、激动或者感雷) ,使得发音筠芷常情况有很大 的誉麓。声学辉辘( 魄如噪音、话簿、滤波器等) 熬影媾,语誊土下文琢壤邸语境萼l 起夔甸 子语调的变纯,字词在语句中不弼位置导致的发音变化,连续语音中协网发音、丢蒲和吃音 瑷象等都会镬谱誊信号发生显著豹变纯。镬瓣避藏为止,人辩述没有找戮一静不受绞少受这 些变化茵素影响的相对稳定的语音特征参数。现在语裔识别系统用的参数对发音入的口音、 年龄、性烈、潞壤语气、情绪、健壤状嚣等瓣素都缀敏感,这傻褥瑗在瓣谖誊识别系统的簧 棒饿徽差。 2 t2 噪声特性 对蠛声遴谨翅分熬标礁穰多,器释分类方法基予誉鬻翡势耩舞凌。本论文主要鸯患了戡 下两种噪声分类。 栅性噪声焉乘性嗓声 - 掇握噪声对输入语鸯僖号鹃干扰方式,哥戮把蠓簿主要分必瓣性蝶声鹈秉性蝶声。 ( 1 ) 乘谜噪声 黍姓噪声是撰嘹声帮谣音在攒蠛是楗莱楚美襄,在糖壤秘语巍鼷是卷积翳关系,蠢魏邀 称为瀚积噪声。在实际成用中,桊饿噪声主瓣包括语膏采集中菱赢风,传输中电话储遒和无 线馈邀熬频率选择特性。瓣某些嚣加性嚷声褥喜,霹馘遴过一定懿变换转换戚热牲螓声,铡 如乘饿噪声可以通过同态变换转撤为加性嵘声。某些与信号相关的量化噪声也可以邋避伪随 瓿噪声捷翡戆方法转换藏每信号独囊懿燕性鲽拳。嚣戴,瓣黍性噪声嚣讨论爨嚣戮转德是翔 性嵘声的问题。下面主鬻分析加性噪声的干摭 8 贵州大学工学硕士毕业论文 ( 2 ) 加性噪声 当噪声对语音的干扰表现为两者信号在时域进行相加时,该噪声被称为加性噪声,显然 噪声和语音在频域也为相加关系。在实际环境中,背景噪声可以看作加性噪声,如风扇的声 音、汽车引擎、周围人说话声等等。加性噪声是对背景噪声一种比较贴切的表述。麦克风等 声音采集设备在正常工作的范围内可以近似看成是一个线性系统,即产生信号的幅度和声强 成正比。从能量角度看背景噪声和语音的声强是相加关系。因此两者对麦克风共同作用所形 成的含噪语音的信号等于各自形成的信号之和。当然严格说来,背景噪声和语音不可避免存 在非线性作用,但其不是含噪语音的主要成分。由于背景噪声的广泛存在性,而且语音识别 系统对加性噪声非常敏感。因此针对这类噪声的研究成为抗噪声语音识别领域里的一个重 点。 语音处理中的加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和同声道其他 语音的干扰等。 周期性噪声主要来源于发动机、风扇等周期性运转的机械,5 0 h z 或6 0 h z 的交流声电气 干扰也会引起周期性噪声。其特点是频谱上有许多离散的线谱。实际信号受多种因素的影响, 线谱分量通常转变为窄带谱结构,而且通常这些窄带谱都是时变的,位置也不固定。周期性 噪声可由滤波方法滤除,条件是噪声可以精确估计,并且可以设计一种滤波器,滤除干扰噪 声而又不产生影响语音可懂度的副作用。有三种滤波器可以消除周期性噪声:固定滤波器、 自适应滤波器和傅立叶变换滤波器。固定滤波器仅在干扰噪声是平稳的时候才起作用。自适 应滤波能自动滤除干扰噪声,如果噪声是平稳的或缓变的,则在无语音期间便可以对噪声进 行估计,并根据估计的结果调整滤波器。傅立叶变换滤波器是采用变换技术通过直接变换频 谱来消除周期性噪声的。当周期性噪声没有得到精确估计,但却能得到它的参考信号时,可 以用自适应抵消技术。脉冲噪声来源于爆炸、撞击、放电及突发性干扰等;其特征是时间上 的宽度很窄。消除脉冲噪声通常可以在时域内进行,其过程如下:根据带噪语音信号幅度的 平均值确定阈值。当信号超出这一阈值时判别为脉冲噪声,然后对信号进行适当的衰减,就 可以完全消除噪声分量,也可以使用内插方法将脉冲噪声在时域上进行平滑。宽带噪声来源 很多,热噪声、气流噪声及各种随机噪声源、量化噪声都可以视为宽带噪声。宽带噪声与语 音信号在时域和频域上基本重叠,只有在无话期间,噪声分量才单独存在。因此消除这种噪 声比较困难。对于平稳的宽带噪声,通常可以认为是白色高斯噪声。 2 带通噪声、冲击噪声与白色噪声 9 贵州大学工学硕士毕业论文 在我们的现实生活中,噪声无处不在,而且种类很多。通常我们可以把噪声分为以下几 种:带通噪声、冲击噪声、白色噪声等。以下给出了这几种典型噪声的特点以及相应的去噪 方法。 ( 1 ) 带通噪声带通噪声又叫有色噪声,与白色噪声相对,即:在某个频带上,信号的 能量突然变大。这种噪声的典型例子为交流电噪声,它的能量重要集中在5 伽z 左右。对于 这种带通噪声,我们可以先对语音信号进行加窗,然后再进行短时傅立叶变换并画出频谱图。 在频谱图中,我们可以看到语音信号中带通噪声的能量主要集中在哪个频带上,得到此频带 的下限和上限。我们根据此频带的下限和上限设计一个带通滤波器对语音信号进行滤波。一 般情况下,这种去除方法可以比较有效的去除带通噪声。 ( 2 ) 冲击噪声所谓冲击噪声就是语音信号的能量在时域内突然变大。这种噪声也很多, 例如建筑工地上打桩机发出的打桩声,在语音信号中每隔一段时间就会出现一个能量峰值。 对于这种噪声也需要对语音信号进行加窗,然后再进行短时傅立叶变换,画出频谱图。在频 谱图中,我们可以对相应时间段上的语音信号的能量进行修改,即:降低冲击噪声的能量。 这种去噪方法一般也能取得比较满意的效果。 ( 3 ) 白色噪声所谓白色噪声就是在频域上不存在信号能量突然变大的频带,在时域上 也找不到信号能量突然变大的时问段,即:它在频域和时域上分布是一致的 2 l 】。对于标准 白噪声,它的均值为零,方差为一个常数,也就是e x ( n ) = 0 ,e x 2 ( n ) = 02 。 2 2 语音识别系统的组成 语音识别系统本质上属于模式识别的范畴。根据模式识别的原理,未知语音的模式与已 知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。图2 - 1 是根据模 式匹配原理构成的语音识别系统的原理框图1 。 2 - 1 语音识别系统原理框图 待识别语音经过话筒变换成电信号后加在识别系统的输入端,首先要经过预处理,预处 l o 爨州大学工鬻硕士毕业谂液 瑾包括挽茬叠失囊滤波、鞭翔重秘端煮裣溅。经过颈懿理后,避音信号鹣特征被提取出来。 常 l l 的特征包撼:短时平均熊量或蠛度、短时警均过零率、短时岛糍美函数、线性预测系数、 衡谱、共振蜂等。撮攥实际需要选择语音特鬣参鼗,这籀特征参数的对闻黪捌便构成了待识 别语巍的模式,将其与融经存储在计算槐内的参考模式逐一进符魄较( 模式匹配) ,获霉最 佳匹配鸯裁决规刚确定的参考模式便是识羟l 结采参考模式是在系使臻蒋获得并襻储起来 的,炎此,要辕入一系列避翔语音储号,提取它们翡特征终为参考模式,这过程称必谶练 过箨。 照然,最健嚣配结巢瓣获搴譬与特征豹选撵、语音模型的好坏、模教是否溅礁都露蕊接豹 关系,这也是秘前语音谈掰过程中的一个难点。 2 2 语音识别系统预处理 研究表黉,语音蔫弩熬频率努餐主要集中在3 0 0 - 3 4 0 0 x z 熬燕鬻蠹。酃么,在囊鬻采祥 过程渤中,采样频率应该魁大于8 1 d l z 才能避免出现信号的混叠失真。正因为采样频率要大 予8 k l l z ,秀t 避免采群信号孛毽4 1 d l z 鑫右薅拜缝噤声赫焱率努量,瘴该在采榉嚣将 3 0 0 - 3 4 0 0 h z 范豳以外的獭攀分量避滤掉。所以,为了避免混叠失冀和噪声平扰,在采样前, 霹戬糟令锐截止戆模擞低逶滤滚器对穰号避暂滤波,该滤波嚣被称捧撬滁叠滤浚嚣藏去赞 滤波器。 预热重是一耱重要麴蘸楚理技术。语音蔼号菝谱懿蔫颏帮势的麓量凌鞍小,其褥度较枣, 它易髓烈千扰的影响。为此,在分拼语音信母也前,对熊赢频部分进行增强。根据谖誊信号 匏祷燕,在语费信号嚣凝搴捷离两髂时,冀磅攀瓣幅廉麴渡6 d b 下降。 端点检测媳指用数字处理技术米找出语凿信号中的嚣种段落( 螂音素、音节、调豢、谒 等鹩始点群终赢鳃密嚣。在汉语审,主要秘鹣是我渤譬鹩两夺端点,遴褥找密其巾孵声母 段和麴母段的番自位置赳。在实嚣感用中,出予环境噪声的影螭,给语音识剐系统的稳定性 ( r o b u s t ) 蒂蘩严使得谮脊识裘系统豹识掰憔毵降低黼不麓实瓣。所臻,噪声语音稳号盼港 音端点检测,怒语音系缆巾搬其关键的一步。妖骞准确鹣粼定语音信号的端点,才镜诞确的 进行疑理。 2 2 艺语音信号分析方法 将语音莹鼙煞涟纛梭溅基来毁纛,蓑霹黻遴步瓣瓣誊蘩琴避褥努褥。必宥势拆逡鼍表 赛魏丈掌工学瑗圭单照论文 示语音信号本藏特征熬参数,才有可韪囊建这些参数进孬高效的语音谈澍缝理。这里要提一 下,在语音分析的全过程中,“短时分析技术”将贯穿其整个过程。因为,语音信号从整体 来看不是一个平稳的信号,不戆艨处理平稳信号的数字信号处理技术对冀进行分辑处理。不 过,晟然语音信号具有时变特性,但是在个短时间范围内( 一般认为在1 0 3 0 m s 的短时 瓣内) ,其特性基本镰持不变鼯相对稳定,蒲以任籍语音蓓号翡分析耨楚理都登缀建立在“短 时的基础上,将语音信号分为一段一段来分析其特征参数,其中每一段称为一样帧 ,帧 长一般取为i o “3 0 m s 。这样,对予整体豹语裔信号来讲,分耩爨戆是由每一辏特镊参数蕴残 的特征参数时间序列。在上一节端点分析过程当中对待分析语音信号进行加窗就是短时分析 鹁最好体现。 根据所分析出的参数的性质的不同,可将语音信母分析分为时域分析、频域分析、倒谱 域分析等。瓣城势耩方法具有箍攀、谤算量小、物理意义臻确等往熹,燕鑫予语音嚣号最重 要的感知特性反映在功率谱中,耐相位变化只起着很小的作用,所以相对乎时域分析来说频 域分析更隽重要。 语音信号中提取出来的特征经过数据压缩后便成为语音的模板。显然,特征的选择对识 臻效莱至关重要,选择的标准应醛蓬满足:( 1 ) 能有效建代表语音特征,包括声道特征襄听 觉特征,具有很好的区分性:( 2 ) 蓊阶参数之间有良好的独立性;( 3 ) 特镬参数要计算方便, 最好有高效翡诗算方法,戮傈透语音识剐豹实对实现。 孤立单词语音识别系统的特链提取一般需要解决两个问题,一个是从语音信号中提取有 代表性魏合适盼特征参数( 帮选嘏有震的信号表示 ;另一个怒进行适当豹数据莲缡。面对 于非特定人语啻识别来讲,则希望特征参数尽可能多的反映语义信息,尽爨减少说潺人的个 人信息( 对特定入语音识飘来讲,燹l l 褶反) 。扶蓓怠论角度讲,这也是信惑医缩的避程。 线性预测( 吣分析技术是匿魏应用广泛的特征参数提取技术,许多成功的应用系统都采 焉基予狰技术提取豹倒谱参数。傻线性预测模型是纯数学模型,没有考鼹入类昕擞系统对 语音的处理特点。 融l 参数和基予感知线性预测( 孔秘分析提取的感知线性预测倒谱,在一定程度上模拟 了人骂对语音的处理特点,应用了入耳听觉感翔方面的一些研究成果。实验证明,聚用这种 技术j 语音识剐系统豹性能有一定提高。 l 语音信号的线性分析 1 9 4 7 年维纳首次提出了线性预测( l i n e a l 州i c t i o n ) 这一术语。在1 9 6 7 年板仓等 1 2 爨州大学工学硕士毕业论文 人首次将线性预测技术应用到了语音分析中。在各种语音分析技术中,线性预测是第一个真 正得到实际应用的技术。 线性预测分析的基本思想是:由于语音样点之闻存在相关性,所以可以用过去的样点值 来预测现在或未来的样点值,即一个语言的抽样能够厢过去若干个语音抽样或它们的线形组 合来逼近。通过使实际语音抽样和线形预测抽样之间的误差在某个准则下达到最小值来决定 唯一的一组预测系数。丽这组预测系数就反映了语音信号的特性,可以作为语音信号特征参 数朋于语音识剐、语音合成等。根据上述的基本思想,用过去p 个样点值来预测现在或未 来的样点值: m 测误差a n ) : p 文, o - x a , ,s ( n - o i = l ( 2 - 1 ) ( 2 _ 2 ) 这样虢可以遥过在某个准鲻下使预测误差狂) 达到最小值的方法来决定唯一的一组线性 预测系数q g = 协,彷。 现在假设我们把用准周期脉冲( 在浊音语音期间) 或白噪声( 在清音语音期间) 激励一 个线性时不变系统( 声逆) 所产生的输出作为语音的模型。 m 殛, = g 1 一, ( 2 - 3 ) 式中,系数a j 、及增益因子g 是模型的参数,而p 和q 是选定的模型的阶数。根据h ( z ) 的形式不弱,裔三魏不褥瓣信号攘型: ( 1 ) 如式( 2 - 3 ) 所示的h ( z 同时含有极点和零点,称作自回归一滑动模型: ( a u t o r e g r e s s i v em o v i n ga v e r a g e ,蔼称为a r m a 模型) ,这是一种一般模型。 ( 2 ) 如式( 2 3 ) 中的分子多项式为常数,即玩一o 时,h ( z ) 为极点模型,这时模型的 输漤只取决于过去的信号值,这种模型称为臼网归模型( a u t o r e g r e s s i v e ,简称为艨模型) 。 ( 3 ) 如栗珏( z ) 的分母多项式为1 ,鼯嚷= o 时,珏z ) 成为全零点模型,称为游动平均 1 3 贵州大学工学硕士毕业论文 模型( m o v i n ga v e r a g e ,简称舭模型) 。此时模型的输出只由模型的输入来决定。 实际应用当中,全极点模型是最常用的,这是因为:如果不考虑鼻音和摩擦音,那么 语音的声道传递函数就是一个全极点模型;而对于鼻音和摩擦音,细致的声学理论表明其声 道传递函数既有零点也有极点,但这是如果模型的阶数n 足够高,可以用全极点模型来近似 表示极零点模型,因为一个零点可以用许多极点来近似。可以用线性预测分析的方法估计 全极点模型参数,因为对全极点模型做参数估计是对线性方程的求解过程,而若模型中含有 有限个零点,则是解非线性方程组,实现起来非常困难。以上是关于对要进行线性预测分析 的语音信号建立语音模型的分析。那么预测误差( n ) 为: p 删= 删一如一力 ( 2 - 4 ) 为了求得预测系数的最佳估值q ,必须使这个误差最小,通常采用最小均方误差准则来保 证预测误差最小。 在求预测系数的最佳估值嘭时,是利用平均预测误差列出线性预测方程,在通过解此 方程求得最佳估值。现在把某一帧内的短时平均预测误差定义为: ( 2 - 5 ) 为了求得短时平均预测误差,将式( 2 5 ) 对口j 求偏导数,且令其值为零,得到: p 戤p ( ,痧一芝翻一力 ( 玎一力) = 0 ,歹= 0 ,1 ,2 尸 ( 2 - 七) ( 2 - 6 ) 式表明采用最佳预测系数时,预测误差( n ) 与过去的语音样点正交。由于语 音信号的短时平稳性,要分帧处理( 1 0 3 0 m s ) ,对于一帧从a 时刻开窗选取的n 个样点的 语音段& ,记中。u ,d 为: 中。u ,力= e p 。( m - j ) s 。( m d ) ( 2 7 ) 则有: p 口f m u ,d = m 。o ,o ) ,= 1 2 一- p 。( 2 8 ) i = l 所以,只要对( 2 8 ) 这组包含p 个未知数的p 个方程求解,就可以得到在语音段墨上, 1 4 责建大学工学磺圭挲鲎论文 ( 2 - 1 4 ) 公式( 2 - 1 4 ) 中,q 为倒谱系数,吒为线性预测系数,n 为倒谱系数的阶数协= l p ) ,p 为线性预测系数的阶数。 实验表明,使翅倒谱可以提高特鬣参数的稳定性,它的主要优点是比较彻底地去掉了语 音产生过程中的激励信息,主要反映声道响应,l p c c 在语音识别应用中获得了良好的效梁。 3m e l 频率倒谱系数 m e l 倒谱系数m f c c 和感知线性预测p l p ,是受人的听觉系统研究成果推动而导出的声 学特蟹,它船不同予l p c 等遴过对入酶发声枧理豹磅究褥得到熬声学特征嗽。对入的听觉 机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的 就是这样一种令人鲍圭蕊感觉发生突变的带宽边界,当两今音调的羰率差小予藕雾带宽时, 入就会把两个音调听成一个,这称之为屏蔽效应。m e l 刻度是对这一临界带宽的度量方法之 m e l 频率倒谱系数首先是将信号频谱的频率轴变换为m e l 刻度,再变换到倒谱域得到 的恻谱系数。其计算过程如下: ( 1 ) 将信号进行短时傅里叶变换得到其频谱。 ( 2 ) 求频谱幅度的平方,邸能爨谱,并用一组三角形滤波器在频域对徽量进行带通滤 波。这缀带通滤波器的中心频率是按m e l 频率刻度均匀排列的( 间隔1 5 0 m e l ,带宽 3 强e 1 ) ,每个三角形滤波器的两个底点的频率分别等于穗邻的两个滤波器的中心频率,印 每两个相邻的滤波器的过渡带互相搭接,且频率响应之和为l 。滤波器的个数通常与临界带 数裰近,设滤波器数为麓滤波后得到的输出为: 拟詹) ,k = l 2 ,m2 - 1 5 ) ( 3 ) 对滤波器组的输如取对数。然后作2 m 点逆傅里叶变换即可得到m f c c 。由于对称 性,此变换式可篱纯为: (:。=:;垂loggx(k)cos学】,z:=l,2,2: ( 2 ,6 ) q = 掣号竺】,珏= l ,扣,上 ( 2 啪) 王= | j h 这里,m f c c 系数的个数l 通常取最低的1 2 l6 。在谱失真测度定义中通常不用0 阶倒谱系 1 6 薹i 迦嚣 旌一栉戳一 等挚叩 学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论