(测试计量技术及仪器专业论文)基于神经网络的抗噪声语音识别算法的研究.pdf_第1页
(测试计量技术及仪器专业论文)基于神经网络的抗噪声语音识别算法的研究.pdf_第2页
(测试计量技术及仪器专业论文)基于神经网络的抗噪声语音识别算法的研究.pdf_第3页
(测试计量技术及仪器专业论文)基于神经网络的抗噪声语音识别算法的研究.pdf_第4页
(测试计量技术及仪器专业论文)基于神经网络的抗噪声语音识别算法的研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论义 摘要 摘要 语音识别的最终目标是实现人与机器之间进行自然语言的通信,它涉及到生理学、语 言学、计算机科学以及信号处理等诸多领域。在语音识别的实际应用中,噪声一直是制约 该技术广泛应用的主要问题之一。因此,本课题所确定的研究目标是提高噪声环境下语音 识别的性能。 语音识别是一个复杂的非线性过程,利用传统的基于线性系统理论的方法如隐马尔可 夫( h m m ) 模型法来研究语音识别是有一定局限性的。另一方面,随着人工神经网络( a n n ) 研究与应用的逐渐深入,基于a n n 的语音识别方法,逐渐成为人们关注的焦点并获得了良 好的应用。因此,本文利用神经网络实现了语音识别系统的建立。 本文首先介绍了语音识别的基本概念、背景噪声对语音识别的影响以及语音识别过程 中的预处理、特征提取及识别算法等各个环节的常规方法,然后,重点阐述了本课题所研 究的两个方面内容:其一,在前端的特征提取阶段,通过深入地了解目前与人类听力相关 的生理及心理的种种研究成果,给出了一种新的抗噪特征提取方法,即小波与谱压缩相结 合的方法;其二,在后端的识别器设计阶段,提出了种改进的粒子群算法( t p s o ) ,并 将该算法成功地用到了所设计的神经网络模型的参数学习中,建立了比较高效的基于改进 的b p 神经网络( i p s o b p ) 及改进的量子神经网络( i p s o - q n n ) 的语音识别系统。通过m a t l a b 软件建立实验平台,对常规的识别方法与新的识别方法的识别陀能与应用特点进行了比 较、验证,仿真实验证明新算法的识别效果良好。 关键词:语音识别;鲁棒性;人工神经网络;量子神经网络;谱压缩;粒子群算法 南京邮l 乜大学硕:i j 研究生学位论义 a b s t r a c t a b s t r a c t t h ea i mo fs p e e c hr e c o g n i t i o ni st oc o m m u n i c a t eb e t w e e nh u m a na n dm a c h i n e ,w h i c h i n v o l v e sv a r i o u sa r e a ss u c ha sp h y s i o l o g y , l i n g u i s t i c s ,c o m p u t e rs c i e n c ea n ds i g n a lp r o c e s s i n g h o w e v e r , n o i s ei so n eo ft h em a i nh i n d r a n c e si nt h ep r a c t i c a la p p l i c a t i o no fs p e e c hr e c o g n i t i o n s ot h er e s e a r c ho b j e c t i v ei st oi m p r o v et h ep e r f o r m a n c eo fs p e e c hr e c o g n i t i o ni na ne n v i r o n m e n t w i t hm o r en o i s e i t i sf o u n dt h a ts p e e c hr e c o g n i t i o ni sac o m p l e xn o n l i n e a rp r o c e s s t h em e t h o d sw h i c h b a s e do nc o n v e n t i o n a ll i n e a r - s y s t e mt h e o r y ,s u c ha sh i d d e nm a r k o vm o d e l ( h m m ) h a v et h e i r l i m i t a t i o n si ns p e e c hr e c o g n i t i o n o nt h eo t h e rh a n d w i t ht h ed e v e l o p m e n ta n da p p l i c a t i o n so f a r t i f i c i a ln e u r a ln e t w o r k s ( a n n ) ,m o r ea n dm o r er e s e a r c h e r sf o c u so na n na n da c h i e v e dal o t s oas p e e c hr e c o g n i t i o ns y s t e mw h i c hb a s e do na n ni se s t a b l is h e di nt h ep a p e r f i r s t l y , t h eb a s i cc o n c e p to fs p e e c hr e c o g n i t i o n ,t h ei n f l u e n c eo fb a c k g r o u n dn o i s eo nt h e s p e e c hr e c o g n i t i o na n do r d i n a r yw a y so fp r e t r e a t m e n t ,f e a t u r ee x t r a c t i o na n dr e c o g n i t i o n a l g o r i t h ma r ei n t r o d u c e di nt h i sa r t i c l e s e c o n d l y , t w or e s e a r c ha c h i e v e m e n t sa r eh i g h l i g h t e d 。t h e f i r s to n e ,an e wm e t h o do fr o b u s tf e a t u r ee x t r a c t i o nw h i c hc o m b i n e sw a v e l e tw i t hs p e c t r a l c o m p r e s s i o ns c h e m ei sp r e s e n t e di n t h i sp a p e rb yv a r i o u sr e s e a r c hr e s u l t sw h i c hb a s e do nt h e p h y s i o l o g i c a la n dm e n t a ls t u d y i n gr e l a t e dt oh u m a nh e a r i n g t h eo t h e ro n e ,d u r i n gt h es t a g eo f d e s i g n i n gr e c o g n i z e r , t h ei m p r o v e dp a r t i c l es w a r mo p t i m i z a t i o n ( i p s o ) i sp r e s e n t e da n di s a p p l i e ds u c c e s s f u l l yt op a r a m e t e rl e a r n i n go fa n n a tt h es a m et i m e ,ah i g h e re f f i c i e n c ys p e e c h r e c o g n i t i o ns y s t e mw h i c hb a s e do ni p s o b pa n di p s o q n ni se s t a b l i s h e d b yc o m p a r i n gt h e p e r f o r m a n c ea n da p p l i c a t i o nc h a r a c t e r i s t i c sb e t w e e nt h eo l dw a y sa n dt h en e ww a y si ns p e e c h r e c o g n i t i o nt h r o u g hm a t l a bs i m u l a t i o n ,e x p e r i m e n t a lr e s u l t ss h o w e dt h a tt h en e wo n ed i da b e t t e rj o bi ns p e e c hr e c o g n i t i o n k e y w o rd s :s p e e c hr e c o g n i t i o n :r o b u s t n e s s :a i r t i f i c i a ln e u r a ln e t w o r k s ;q u a n t u mn e u r a l n e t w o r k ;s p e c t r a l c o m p r e s s i o n p a r t i c l es w a r mo p t i m i z a t i o n 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名: 日期: 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:导师签名:日期: 南京邮电大学硕十研究生学位论文第一章绪论 1 1 研究背景 第一章绪论 语音是人类特有的工具,也是人们互相传递信息的最主要的手段,以语音信号为处理 对象的语音识别技术则是近年来信息技术领域中的重要技术之。 语音识别,又称为自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) ,是一种让 机器“听懂 人类口述语言的一门技术。科研人员对于语音识别技术的研究己经持续了5 0 多年,但是,在该技术实现的过程中,遇到的困难很多,一些困难是现在已经存在的实际 运行产品都无法真正切实解决的,这也是严重制约识别系统应用广泛性的_ 个重要的原 因。 在语音识别技术所遇到的各种问题中,噪声问题一直是一个最为关键的问题。现实环 境中不可避免的存在着各种背景噪声,而现有的语音识别系统通常是在无噪环境f 对干净 语音进行训练的,当这些系统被应用于噪声环境中时,这种模式的不匹配就导致了识别系 统性能的急剧下降。另一个方面,现在的语音识别技术经常采用一种叫隐含马尔可夫模型 的算法,利用该算法所设计的识别系统的性能( 识别率,抗噪声等) 往往无法满足实用的 要求,在这种情况下,人工神经网络技术以其非线性、自适应、鲁棒性和自学习等显著优 势获得了在语音识别中的重要应用。因此,本课题以基于神经网络的噪声环境下的语音识 别为研究对象。 1 2 语音识别技术简介 语音是人类发声器官发出的一种声波,它具有音色,音调,音强和音长四个要素。 其中,音色( 也叫音质) 是一种声音区别于另种声音的基本特征。音调是指声音的高低, 它取决于声波的频率。人们通常所说的音频( a u dm ) 信号的频率范闸为2 0 h z 一2 0 k h z 的信号, 人的发音器官发出的声音频率大约是8 0 3 4 0 0 h z ,但人说话的信号频率通常为3 0 0 3 0 0 0 h z , 人们把这种频率范围的信号称为话音( s p e e c h ) 信号,这个也是我们要重点研究的信号频 段。另外,声音的强弱叫音强,由声波的振动幅度决定。声音的长短叫音长,取决于发音 时间的长短。语音识别中还常常涉及到识别单元音节和音素的概念,所谓音节,就是说话 人一次性发出,具有一一个响亮的中心且被明显感觉到的语音片段。一个音节可以由一个音 堕室些皇查堂堡土型! ! 竺兰竺丝竺墨二雯堕堡 素构成,也可以由几个音素构成,音素则是语音发音的最小的单位。 所谓的语音识别,就是计算机通过对人类语音的识别和理解;将人类的语音信号转变 成相应的文本或命令的技术,也就是让计算机听懂人说话。对于语音识别的分类方法有很 多,如果根据识别的语音信号的连续性、离散性束划分,语音识别可以分为:孤立词识别 和连续语音识别:如果根据识别任务的词汇大小柬分,可以分为:小词汇表( 一般1 0 0 词 以下) 、中词汇表( 一般1 0 0 - 5 0 0 词以下) 和大词汇表( 一般5 0 0 词以上) :如果再根据说话 人的确定性来分,又可以分为:特定人语音识别和非特定人识别等。 不同的语音识别系统的具体实现细节有所彳i 同,但所采用的功能模块及识别原理基本 是类似的,常见的语音识别系统的原理性方框图如图1 1 所示: 训练 f 暑罄霉卜 匿亘卜臣副菱篓羲 _ 圈 :釜型蔓卜 亘亘卜臣引鋈蒌董卜1 重霍悯 识别 l 型1 1 语音识圳系统的原理性方框幽 下面就对一些主要模块进行简单的介绍: l 预处理 无论是己知的语音信号还是待检测的语音信号都需要经过话筒变成电信号后加在识 别系统的输入端,接着进行一系列的预处理工作,预处理部分主要包括反混叠失真滤波器、 预加重器、加窗、端点检测器和模数转换器。该阶段主要实现了语音信号的采集、滤除混 叠和干扰信号、进行高频部分信号的提升、以及加窗分帧、检测信号的起始和终止点,同 时将其转换成数字信号。 2 特征提取 经过预处理后的语音信号,就进入到特征提取阶段,这个阶段的主要目的是获得能标 识语音信号的特征向量。目前常见的特征参数主要有以下三类:一是基于人发声机理的特 征参数,如线性预测系数( l p c ) 等;二是模仿人耳听觉模型的特征参数,如感知线性预测 特征参数( p l p ) 等;三是倒谱参数,般是在上述特征的基础上加以倒谱计算而实现的。 3 模式学习 即按照一定的准则,从大量已知的模式中获得能表征该模式本质特征的模型参数。 4模式识别 2 堕室坚皇奎兰堡:! :堕壅竺兰垡堡兰 笙二至竺笙 将测试语音的特征提取出来后输入到上一步训练好的模型中,通过一定的准则和模式 匹配的算法来获得识别结果,也就是从训练学习后得到的模式库中找到那个和待测语音信 号最佳匹配的模式。 l 。3 语音识别的发展状况 对语音识别的研究工作可以追朔到2 0 世纪5 0 年代,a t & t 贝尔实验室的a u d r y 系统是 第一次实现了十个英文数字的语音识别系统。 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划 和线性预测分析技术( l p ) 口3 ,它对语音识别的发展产生了深远影响。 7 0 年代,l p 技术得到进一步发展,动态时问归f 技术( d t w ) 耻1 基本成熟,特别是矢量 量化( v q ) 和隐马尔可夫模型( h m m ) 妇1 理论在实践上的运用,初步实现了基于线性预测倒谱和 d t w 技术的特定人孤立语音识别系统。 2 0 世纪8 0 年代,随着h 洲模型和人二 :神经元网络( a n n ) 。”等技术在语音识别中的成功 应用,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大语音识别障碍,使 语音音素识别率有了长足的进步。 9 0 年代之后,语音识别与自然语言处理相结合,发展了基于自然口语识别和理解的人 机对话系统,与机器翻译技术相结合,逐步发展出面向不同语种的人类之j 、日j 交流的直接语 音翻译技术。 我国的语音识别研究工作一直紧跟国际水平,国家也很重视。目前,我国在语音技术 研究水平和原型系统丌发方面已经达到世界级水平,在中国科学院自动化研究所模式识别 国家重点实验室,汉语非特定人、连续语音听写机系统的普通话系统,其错误率可以控制 在】o 以内的水平,并具有非常好的自适应功能。 1 4 噪声语音识别概述 目前,制约着语音识别技术应用和产业化的最主要的难题就是方言口语和背景噪声 瞄订0 其中,噪声环境下对语音识别的研究已经吸引了越来越多的学者,他们都把精力放在 了如何提高噪声环境下的识别系统的鲁棒性和可靠性方面。在理想的无噪环境下设计及训 练的识别系统,就像是温室早的花朵,经不起外面复杂环境的考验,一旦到了具有较大的 背景噪声的识别现场,其性能就会大大下降,导致应用系统的使用性能大打折扣。 南京邮l 【i 人学顾i :研究生学位论义第一章绪论 1 4 1 噪声分类及带噪语音的模型 噪声有多种分类方式。如果根据噪声对语音频谱干扰的方式的不同,噪声可分为加性 噪声和乘性噪声。其中,加性噪声对语音的干扰表现为两者信号在时域相加的关系,而乘 性噪声的干扰为两者在频谱上相乘,时域中则为卷积的关系,因此也称为卷积噪声。在实 际应用中,背景机器噪声、背景其他人的说话声等都属于加性噪声,而房间的回声、不同 麦克风的频谱特性等则属于乘性噪声。 根据噪声统计特性随时间变化的程度柬分,还可以将噪声分为平稳噪声、缓变噪声和 冲击噪声。其中,平稳噪声的特点是:其统计特性不随时间发生变化,典型的平稳噪声是 人为产生的白噪声。缓变噪声是在实际场合经常遇到的噪声,这种噪声的统计特性会随时 间发生缓慢的变化。冲击噪声则指其特性会在短时间内突然发生急剧的变化,表现为时域 波形中突然出现的窄脉冲,这种噪声有非常大的随机性,相对于自仃两种噪声来说比较难于 建模。 除此以外,根据噪声覆盖信号频带的多少,噪声又可以分为全频带噪声和窄带噪声。 在文献 4 中提出了典型的声学环境带噪语音的模型,如图1 2 所示: 图1 2 卢学环境的典型模弛 该模型n 1 考虑了可能对语音识别系统产生不良影响的几种典型的噪声和失真。其中包 括人类说话时的语音生成和感知之l - 日j 的相互作用,即l o m b a r d 效应( 如声音的高低,语速 的快慢,音调及共振峰的变化等) 、环境背景噪声a l ( n ) 、麦克风失真h l ( n ) 、传输信道中的 加性噪声a 2 ( n ) 和卷积噪声h 2 ( n ) 、接收端的加性噪声a 3 ( n ) 等。根据以上模型,说话人的 纯净语音s ( n ) 与识别器接收到的带噪语音y ( 门) 的关系如表达式( 1 1 ) : y ( n ) = s ( n ) l l o m b a r d + a l ( n ) 】h l ( n ) + a 2 ( n ) 丰h 2 ( n ) + a 3 ( n ) ( 1 1 ) 在该模型中,背景噪声、信道的加噪声以及接收端的噪声都属于加性噪声,而系统中 的麦克风失真和信道失真则属于非加性的乘性噪声。一般的,语音识别系统对于加性噪声 4 南京邮r 乜大学顺 j 研究生学位论义第一帝绪论 更加敏感,对于非加性噪声,有些是可以通过变换转化成加性噪声的墨j ,例如,通过同态 变换将乘性噪声转化为加性噪声。因此本文将加性噪声作为抗噪语音识别研究中的重点。 1 4 2 常见的抗噪声方法 根据所使用技术的不同,目前有以下几个常见的抗噪声方法: l 提取抗噪声的语音特征 一般的,带噪的语音特征的分稚与纯净语音特征的分布是不同的,因此通过寻找对噪 声影响不敏感的语音特征。可以减小噪声对识别系统的影响,使训练好的语音模型仍能适 用于带噪语音的识别。这类方法的优点是对噪声环境没有任何假设;不用估计环境噪声的 特性以及修改或重新训练语音模型,因此,其应用范围广,但由于没有利用到坏境噪声的 知识,其性能通常并不够理想。目i j 订,基于这个方面的主要研究有: ( 1 ) 基于听觉模型的特征。如:基于感知的线性预测倒谱系数( p e r c e p t u a l l yb a s e d l i n e a r p r e d i c t i o np l p ) m 1 ;基于神经纤维激活率短时特性的抗噪声语音特征( e n s e m b l e i n t e r v a lh i s t o g r a me i h ) n 3 ;基于掩蔽效应特征提取方法的感知非均匀谱压缩( p n s c ) 和 信噪比依赖非均匀谱压缩( s n s c ) 技术1 。 ( 2 ) 基于语音的予带特征。如:语音识别的概率结合子带特征阳1 和特征结合子带特征 ( f e a t u r ec o m b i n a t j o nf c ) 的方法1 ”! 。 2 语音增强 将待识别的噪声语音尽可能地转化成为与训练环境相匹配的纯净语音,即恢复清晰的 语音信号,从而提高语音识别的性能。这类方法一般具有计算简便的优点,但出于语音增 强的最终接受对象是人类的听觉系统,因此某些算法在设计上并不都适用于语音识别系 统。目前已经比较成型的研究有:( 1 ) 噪声对消法1 ;( 2 ) 谐波增强法n 引;( 3 ) 基于小波 变换的语音增强3 1 ;( 4 ) 基于麦克风阵列的语音增强1 等。 3 噪声环境下的模型补偿方法 即通过修改语音模型的参数,使其能更准确地描述噪声环境中语音信号的统计特性, 从而提高识别系统的性能。该方法需要描述各个不同的噪声环境,因为考虑了环境噪声的 特性,该方法通常可以耿得很好的识别效果,但对不同的识别环境都要求修改语音模型, 其计算量一般较大,目d 矿已经比较成型的研究有: ( 1 ) 基于模型的预测补偿技术。这类技术的一个基本假设是识别系统的性能在训练 环境与识别环境相同时是最优的,因此它尽可能地将纯净环境中训练的语音模型变换为与 雨京邮i 乜人学坝l :研c 生学位论义第一币绪论 噪声环境接近理想匹配的训练识别模型。 ( 2 ) 噪声数据训练法“钔。为了减少语音模型与噪声环境中语音的统计特性的不匹配, 该方法实现了将工作环境的噪声加到训练的语音数据中,用带噪的语音数据来训练语音模 型的解决方案。 ( 3 ) 具有区分能力的训练n 砌 1 5 本文的研究内容 出于噪声条件下的语音识别是一个难点,也是制约着语音识别进一步发展的关键因 素。本文重点针对噪声情况下的语音识别进行研究,主要考虑了如何提高噪声条件下识别 系统的性能( 识别速度和识别率) 问题,其中所做的主要工作有: l 在前端的特征提取阶段,以提高噪声环境下的识别率的问题为核心,提出了新的抗 噪声的特征向量提取方法,其中重点做了2 个方面的工作: 其一,利用小波变换将预处理后的语音信号进行小波子带分解,充分利用了小波的抗 噪声特性;其二,通过对人耳的听觉掩蔽效应的研究,得到了一种基于听觉掩蔽理论的特 征提取算法一一谱压缩特征提取法。在陔算法中,利用谱压缩的原理,将小波变换后的子带 语音信号进行压缩,然后利用常规算法,再提取其有效的语音特征。实验表明,该语音特 征可以在噪声环境下得到较高的识别率,具有抗噪声的特点。 2 研究并改进了粒子群优化算法p s o 。该算法是作为一种用于训练语音识别模型的优 化算法而被提出的,其有效性决定了语音识别率以及识别的速度。通过研究目前常见的 p s o ,本文将重点放在了避免粒子寻优过程中进入到局部最优的方面,通过早熟的判断和 有针对性的早熟处理,得到了行之有效的改进p s o 算法( i p s o ) 。 3 在后端的识别器设计阶段,本文选用了神经网络来建立识别模型。分别选用典型的 b p 网、r b f 网来建模,并将2 中所提出的优化算法( i p s o ) 用到b p 网的参数寻优过程中。 同时,鉴于量子神经网络的并行计算处理的特点,本文还提出了一种量子神经网络的模型, 并成功地将改进的优化算法i p s o 用到了量子神经网络参数的学习过程中,使得整个语音 识别系统的设计既考虑到了识别率的问题也考虑到了识别速度问题,实验仿真证明了该方 法有效性。 6 南京邮电大学硕:l :研究生学位论文第_ 二章语爵识别的预处理及特征提取的桀奉方法 第二章语音识别的预处理及特征提取的基本方法 2 1 语音识别的预处理 语音信号的预处理是语音识别的前提与基础,在语音识别中具有举足轻重的地位。主 要包括:语音信号的数字化、预加重、加窗分帧、端点检测。下面就对各个部分进行简单 的介绍: 2 1 1 语音信号的数字化 就是将语音信号变成数字信号并送入到计算机。 1 首先,对语音信号进行预滤波,这个过程一方面用于抑制输入信号中的超过圭f 的频 z 率分量,防止混频干扰,另一方面用于抑制5 0 h z 电源工频的干扰。 接下来就是采样和量化阶段,就是将语音信号转化成数字化声音信号的过程。话筒中 传来的语音信号为模拟信号,而计算机所能理解的信号为数字信号,这个从模拟量到数字 量的转变过程称模一数变换。现在,只要在计算机上用声卡及外接话筒就可以很容易地将 话筒中传来的模拟语音信号采成数字信号并存入到计算机中。在这个过程罩,主要考虑两 个指标:一个是采样频率,根据香农采样定理,信号的采样速度只需大于信号带宽两倍以 上即可保证采集不会丢失信息。由于语音信号的能量绝大部分集中在4 k h z 以下的频段, 因此,语音识别时常用的采样频率为i o k h z 或1 6 k h z :另一个指标是采样精度,该参数一 般取决于采样量化的比特数和信噪比。 2 1 2 预加重 预加重n 铂的目的是对语音信号中的高频部分频谱进行提升,从而增加语音高频部分的 分辨率,便于语音参数的分析。由于语音信号的平均功率谱受到声门激励和口鼻辐射的影 响,高频端大约在8 0 0 h z 以上按6 d b 倍频程跌落,所以语音频谱的频率越高,相应的成分 越小,高频部分的频谱比低频部分难求。为此,在预处理中要进行预加重处理。 南京邮电大学硕i :研究生学位论义 第:章语哥识别的颅处理发特征提取的摧奉方法 预加重的一般做法是将语音信号通过一个一阶高通滤波器1 一a z ,通常称之为预加重 滤波器,该滤波器可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。预 加重滤波器的传递函数为: ( z ) = 1 一舷一 ( 2 】) 预加重前f i 时刻的语音信号为s ( n ) ,经过预加重滤波器后得到的信号为r ( n ) ,则: 联彪) = s ( n ) 一a s ( n 一1 ) ,a 的取值般在o 9 一1 o 之问,比较常见的取值是0 9 3 7 5 。在m a t l a b 中预加重所使用的主要语句是:x x = f i l t e r ( j 1 0 9 3 7 5 1 ,l ,砷,其中z 为待识别的语音信号, x x 则为预加重后的语音信号。 2 1 3 分帧加窗 语音信号的波形具有很强的时变特性。但是,由于不同的语音是由人的口腔肌肉的运 动构成声道的某种形状而产生的响应,而这种口腔肌肉的运动相对于语音频率来说,是非 常缓慢的,所以,虽然语音信号具有时变的特性,但在较短的时间( 如:1 0 - 3 0 m s ) 之内, 语音信号的特性可以认为是基本不变的,这个就是人们常说的“短时平稳特性”n 引。我 们利用这个特性,将语音信号进行分帧,即将其截取能够具有短时平稳的一段语音信号来 进行分析,所截取的每一段就是帧,而该语音段的长度就是帧长,在这个帧长之内,我 们可以把语音信号的基本特性看作是不变的,这也是接下来进行语音处理的基础。 分帧可以采用连续或交叠分段的方法,但一般采用后者,这是为了帧与帧之间的平滑 过渡,保持其连续性。前一帧和后帧的交叠部分为帧移,帧移与帧长的比值一般为0 1 2 。 分帧的具体过程是通过对语音信号加入窗函数来实现的,即s 。,( 门) = s ( n ) 半w ( 7 ) ,其中s ( n ) 为 加窗前的语音信号,s 。( 甩) 加窗后的信号,w ( n ) 为窗函数。 一般的,好的窗函数要具有如下的特点:在时域内,加窗后的函数相当于语音信号和 窗函数的相乘,所以要减少时间窗两端的坡度,使得窗口边缘两端不引起急剧变化而平滑 过度n o ,从而减少语音帧的截断效应;在频域内,则要求具有较宽的3 d b 的带宽以及较小 的边带最大值。 常见的窗函数有:矩形窗,汉明窗,汉宁窗: 南京邮电大学硕j :研究生学位论文第二章语爵识别的预处理及特钲提取的皋奉方法 矩臁w = 墨:羔肛n 汉临w = f 也4 6 c o s 皿删一刀 三三篡肛1 汉宁窗:w c 抢,= 三:5 1 一c 。s 2 刀”7 1 。门 n :- e 1 妇p 其中,n 为帧长 ( 2 2 ) ( 2 3 ) ( 2 4 ) 在上面的几个窗口中,汉明窗的旁瓣最低,可以有效的克服泄露现象,具有更平滑的 低通特性。因此在语音信号的预处理中,一般选用汉明窗来进行语音的分帧。 2 1 4 端点检测 端点检测就是在从包含语音的段信号中确定出有效语音信号的起始和终止点。端点 检测的f 确性极大地影响着识别系统的识别效果。通常的端点检测的方法有短时能量、短 时平均幅度和短时平均过零率。下面就对这些方法进行简单的介绍: 1 短时能量: 一般的,在信噪比较高的情况下,无语音信号的噪声能量很小,而有语音信号的能 量则显著增大。出此,语音信号的短时能量可以区别语音信号的起始点和结束点。 短时能量n 伽的定义为一帧样点的加权平方和: e = 瞳( 朋) w ( 赡二脚) 】2 = x ( 腕) w ( 以一珑) 1 2 ( 2 5 ) 埘= 朋= j t - - ,+ f 其中,为窗长 2 短时平均幅度 在1 所定义的短时能量函数中,要对语音信号的采样值进行平方和运算,这就使得该 参数对信号电平过于敏感,运算时,有时会产生溢出。因此,人们常常用短时平均幅度口蝴 来替换之,即采用( 2 。6 ) 式的定义: m 。= f x ( 刀) 陬n - m ) = f x ( 行) f 似行一聊) ,= 一i l l = t i - n + i ( 2 6 ) 相对来说,利用这种方法来区别有声和无声时,两种信号的幅度相差不大。 以上方法都反映了语音信号的强度,但其自仃提是信噪比较高,该前提在实际应用中往 往很难保证。在这种情况下,用以上方法检测语音段的起i i 上点就不太可靠了,因此, 9 垦塞堕皇奎兰堕:! :塑! i 竺兰垡丝塞 笙三里堕堂望墨! ! 塑堡竺些丝塑塑:丝坠塑苎查塑鎏 r a b i n e r 提出短时平均过零率方法。 3 短时平均过零率 短时平均过零率表示一帧语音信号波形穿过横轴( 零电平) 的次数。对于连续语音信 号,过零即意味着时域波形通过时| 日轴,而对于离散信号,如果相邻的取样值具有不同的 代数符号就称为发生了过零。 平均过零率的定义如( 2 7 ) 式: 乙= f s g n z 沏) 卜s g n x ( 所一1 ) 扣( n - - m ) = l s g n 【x ( 垅) 卜s g n x ( 撇一1 ) 】p ( 甩一朋) ( 2 7 ) 肼= 一脚= 盯一 ,+ i 其中,s 啡l = x ,? o ,是符号函数 ,肥j j 丁叫默 石( 甩) p ) 其中,c 。是直流分量,在实际应用中通常不用。 2 2 3m e f 频率倒谱系数( m f c c ) ( 2 9 ) ( 2 1 0 ) 以上两种系数是基于发音模型或合成的参数,都没有充分利用人耳的听觉特性。实际 上,人耳所听到的声音的高低与声音的频率并不成线性萨比关系,人耳的这种听觉特性是 l i 南京邮电入学坝l :研究生学位论文 第| 二章语舀识别的颅处理及待1 j l :健取的暴本万弦 符合m e l 频率尺度的,而m e l 频率尺度的值大体上对应于实际频率的对数分布关系,具体关 系可用式( 2 1 1 ) 表示: m e l ( f ) = 2 5 9 5 l o g l o ( 1 + f 7 0 0 ) ( 2 1 1 ) i d e l 频率倒谱系数( m f c c :m e lf r e q u e n c yc e s t r u mc o e f f i c i e n t s ) 是将信号的频谱 在频域将频率轴变换为m e l 频率刻度,再变换到倒谱域得到的倒谱系数。实验可以证明w c c 倒谱系数l 匕l p c c 参数能更好的提高系统的性能。 m f c c 参数计算流程图如图2 1 所示: 幽2 1m f c c 参数计算流科图 其实现的具体过程为: l 原始语音信号j ( ,2 ) 经过预加重、分帧、加窗等处理,得到每个语音帧的时域信号x ( 刀) ; 2 将时域信号x ) 后补若干0 以形成长为n ( 一般取n = z 5 6 ) 的序列,然后经过离散傅立 叶变换( d f t ) 后得到线性频谱x ( k ) ,其变换公式为: n 一1 x ( 尼) = x ( n ) e 掣删, ( o ,z ,k n 一1 ) n = 0 ( 2 1 2 ) 3 由上述线性频谱x ) 求其频谱幅度的平方得对应的能量谱,并用一组三角形滤波器在 频域对能量谱进行带通滤波,即通过m e l 频率滤波器组得到m e l 频谱,然, 厢刈共遄* 1 a - - j 州,姒h 匕p 量处理,得到对数频谱s ( 聊) 。其中,从x ( 七) 到s ( 垅) 的总的传递函数为: s ( m ) :l n 兰f x ( 七) f 2h 。( 尼) 】,( o m m ) 而: ( 2 1 3 ) 南京邮电大学硕。i :研究生学位论文 第二章语青识别的j 硬处理及特钲提取的基本方法 h 。( 七) = 0 , k f ( m 一1 ) 厂( 聊) 一f ( m 1 ) ( 聊+ 1 ) 一k f ( m + 1 ) 一f ( m ) o ( k f ( m 一1 ) ) ( 。f ( m 一1 ) k 厂( ,竹) ) ,( 0 ,靠 m ) ( 2 1 4 ) ( 厂( 朋) k f ( m + 1 ) ) ,( o m f ( m + 1 ) ) f ( m ) = 若胁f 1 【讹,( f ) + m 丝型学】 无,z 分别滤波器的最低和最高频率,n 为d f t 的窗宽,只为采样频率,m 为滤波器的 个数,m e l 。1 ( 厂) = 7 0 0 ( e ”一1 ) 。 这里,由h 。( k ) 定义的这组带通滤波器的中一心频率是按m e l 频率刻度均匀排列的,每 个滤波器的三角形的两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个相 邻的滤波器的过渡带相互搭接,且频率响应之和为1 ; 4 将对数频谱s ( m ) 经过离散余弦变换到倒谱频谱域,即可得至l j m e l 频率倒谱系数: 咖) = 蓦忡o s ( 警产) , ( o 同频率的前向掩蔽的阈值 同频率的同步掩蔽的阈值,而从有效性上来 看,其有效性效果刚好和以上的次序是相反的,即不同频率的日 f 向掩蔽对信号的有效性最 差,它需要高的掩蔽谱才能掩蔽原信号。 2 另一方面,同频率的前向和同步掩蔽闽值的曲线基本是线性的,而不同频率的前向 和同步掩蔽闽值的曲线是一个多项式形式的曲线,它们的有效物理信号与掩蔽噪声的增加 比例关系是不同的,那么该怎样描述这种增量不同的关系昵? 图中的曲线形式很容易让我 们联想到曲线的斜率,这个思路也是接下来研究的谱压缩算法的基础。 3 2 3 由听觉掩蔽理论所得到的谱压缩算法 通过以上的研究中,我们可以知道:在语音信号和噪声混合的信号中,语音信号是被 掩蔽信号,噪声是掩蔽信号,并且从能量角度来看,语音信号的变化量是小于其对应的掩 蔽噪声阂值的变化量的。因此,我们可以对混合信号能量谱进行一定比例的压缩,这时, 虽然噪声掩蔽闽值和信号能量都被压缩了,但掩蔽门槛降低的级别要大于信号降低的幅 度,这样就完全有可能使得被压缩后的语音信号大于当时的掩蔽门槛( 即被压缩后的语音 信号所对应的掩蔽门槛) ,使得有效的语音处于人耳可闻的范围之内,也就是说,在谱压 缩的过程中,用于识别的语音信息被压缩并损失了,但由环境噪声所引起的偏差( 失配) 也 因此被减小了,根据两者被压缩后的理论效果的不同,就得到了谱压缩算法,以上就是陔 算法的主要理论依据。 除此以外,我们还可以从另一个角度来证明该理论的可行性。人的听觉声调和响度 之间的转换关系是满足谱压缩指数的规律砷3 的,即满足:n = i 。,其中的c 是听觉指数率的 指数,i 是声压密度,n 是响度。该转换关系的表达式与谱压缩算法的形式非常类似,其 中的c 就相当于谱压缩的压缩因子。因此,谱压缩算法又进一步满足了人的听觉声调和响 度之间的转换关系,这也是谱压缩的理论的重要理论依据。 本设计中采用的谱压缩的算法是利用压缩因子束压缩带噪语音信号的能量谱的,其具 体表达式如下: e k l = ( e k ) 甜 ( 3 3 ) 在式( 3 3 ) 中,e k l 是压缩后的能量谱,戤是原语音信号的能谱,础是压缩因子,其取 值范围为0 一l 之间。 2 2 南京邮电人学硕一i :硐f 究生学位论义第三章改进的语背信垮特锸l :提取方法 上面所述的谱压缩算法中,一个关键的因素就是压缩因子,如何来确定压缩因子础是 整个算法的核心。前面,我们已经通过研究有关听觉的生理研究成果得出了一些结论,根 据这些结论,我们知道:不同的掩蔽信号,对于被掩蔽的信号会产生不同的掩蔽效应,其 中,对于同频的前向和同步掩蔽,其掩蔽阈值随信号能量增长都是线性的,所以其压缩因 子可以取同样趋势的因子。并且,对于不同能级的信号可以取相同的压缩因子,这个原因 也来自于掩蔽曲线的线性化特点,即信号压缩变化的范围确定后,其掩蔽阂值降低的幅度 也是确定的了,所以,本算法确定这两个因子都为常数。另一个方面,不同频率的前向和 同步掩蔽相对来说则有很大的不同,其阈值变化是非线性的,两个曲线的走向不完全相同, 但大体说,基本都满足一种多项式的形式,那么用什么来拙述当信号能谱被压缩后,相应 的掩蔽阈值的变化的大小呢? 显而易见,其答案就是曲线斜率k 。在图3 4 中,曲线的斜 率越大( 即k 值越大) ,则在同等信号压缩的情况下,其掩蔽阈值被压缩的越多,就是说, 被压缩后的信号就越可能超过当时情况下的阈值而被人耳所接受,这时,因为不需要太大 的压缩就可以达到预先的目的,所以我们就可以取较小的压缩,对应较大的压缩因子础 ( 取值为0 - i 之间) 。反之,当斜率越小( k 值越小) ,则需要相对大的压缩,对应较小的压 缩因子旅。这就是压缩因子确定的主要依据,在这种情况下进行的谱压缩可以看作是一种 非线性的压缩。 由于斜率k 和压缩因子的大小的变化趋势是相同的,根据图3 。4 的掩蔽曲线,我们先 通过曲线对应的斜率的大体变化得到其谱压缩因子口七的变化趋势图。以实验人c ( ) 的不同 频率的前向和同步掩蔽曲线为例,其信号能级相对于谱压缩因子础的变化如图3 5 所示: 压缩园寻 a k 4 口七3 a k 2 盘缸l 0 信号能级( d b ) 图3 5c 0 的信号能级与谱乐缩冈子的关系 可见,图3 5 中的曲线类似于二抛物线, ( 3 4 ) 的关于压缩因子的算法: 它是信号能量所依赖的。因此,这罩构造了式 2 3 南京邮电人学硕l : o d z 生学位论文 第三幸改进的语啬信吁特缸提取方法 破= 扣e x p ( 彬( 半) 2 2 ) + l 圳一1 ( 3 4 ) 其中,e k 为当前帧语音信号的能量,e k o 和盯分男u 为一个语音信号中的所有帧的能量的 期望和方差,k 为信号的频率,a 是常数,其取值为大于1 的数,并且随着的a 的增大,础 逐渐变小且压缩因子础是一个介于0 - 1 之问的数。 在该算法表达式中:k 是语音信号的频率,增加该变量的原因是:目前,有心理生理 学的研究成果。坦1 表明:语音谱中的些频率分量( 如:低频) 具有很强的抗噪特性,而另 一些谱分量( 如:高频分量) 是极易受噪声影响。因此,此压缩算法中考虑了频率的问题, 其压缩因子随着频率k 的增加慢慢减小,也就是说对于高频带或频点来说,础是一个较小 压缩因子,即较大的压缩,反之亦然,这样就符合了心理生理学的实验结果。 至于常量a 的设计,主要考虑到噪声条件下的信噪比的问题。在对谱压缩进行分析的 过程中,我们会很容易想到噪声条件下的信噪比( s n r ) 问题,信噪比也是影响谱压缩的 一个很重要的方面。个显而易见的例子:如果信噪比很大,一个极端的情况,当信噪比 趋于无穷大的情况,此时的噪声信号为0 ,那么就没有必要进行谱压缩了,此时的破取值 应该为1 ,即没有任何压缩,信号保持原值。所以,s n r 越大,压缩因子础就应该越大, 对应越小的谱压缩,反之,s n r 越小,压缩因子口七就越小,对应越大的谱压缩,而当信噪 比为无穷大时,放增大到l ,保证放的取值在0 - 1 之阃。 除此以外,压缩因子对于信噪比的依赖也可以从e z w i c k e r 的实验研究中得到其理 论依据口羽,图3 6 为e z w i c k e r 设计的实验数据图: 图3 6l k h z 音调在4 0 和6 ( ) 扣每1 3 八度音科p i n k 噪声卜的部分响度曲线”杞 从图中可以看出:音调的听觉晌度是受背景噪声大小影响并产生不同的程度的掩蔽效 果的。而且,受噪声掩蔽的能量一响度曲线比没有噪声的情况下的能量响度曲线来得陡峭, 且噪声越强,其语音的能量- n l ;j 度曲线变化的越剧烈,越陡峭( 注意这罩的2 0 d b 及4 0 d b 2 4 童室塑皇查堂塑主婴壅竺堂竺笙奎 :翌兰! 塾丝竺至笪笪芏竺堑丝娶銮鲨 仅仅指噪声大小,而非信噪比) 。当音调的能量增加,其掩蔽和非掩蔽下的听觉响度值非 常接近,即:当s n r 很大的时候,其听觉感知响度变得不受背景噪声影响了。这就意味着: 语音信号能量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论