（计算机应用技术专业论文）神经网络在语音质量客观评价中应用的研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：58 大小：1.49MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）神经网络在语音质量客观评价中应用的研究.pdf_第2页

（计算机应用技术专业论文）神经网络在语音质量客观评价中应用的研究.pdf_第3页

（计算机应用技术专业论文）神经网络在语音质量客观评价中应用的研究.pdf_第4页

（计算机应用技术专业论文）神经网络在语音质量客观评价中应用的研究.pdf_第5页

已阅读5页，还剩53页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页摘要在传统的基于听觉模型的语音质量客观评价方法中，通常需要引进过于复杂的符合人耳特性的数学模型，用来描述听觉系统的感知行为，给实际使用带来了很大的不便。本文将从谱失真测度本身出发来解决这一问题，即用较简单的特征参数描述语音信号的谱特征，如m n 频率倒谱系数( m f c c ) 和b 缸k 谱距离( b s d ) 测度，来代替复杂的数学模型逼近，而把那些反映听觉特性复杂的处理功能放在矢量测度中来定义和计算。并且，对于高度非线性的听觉系统，采用从有限的实际样本中“自学习”到具有输入输出关系能力的人工神经网络模型来实现。在这有限的样本有足够的代表性的条件下，可以较好地逼近真实的听觉特性。基于这一思路，本文针对语音质量客观评价的应用，以多层感知器和径向基函数网络模型替代m f c c 、b s d 参数对应的欧氏距离，并以主观评价结果作为期望值对网络进行训练，得到了既真实充分地反映了人耳听觉特性，又计算简便的谱失真测度。径向基函数神经网络由于基函数具有快速学习能力的特性，并且所需逼近的非线性函数的形式对网络性能的影响并不是至关重要的，所以成功应用网络的关键因素是基函数中心的选取，中心选取不当构造出来的网络性能一般不能令人满意，故本文用了大量的篇幅讨论了高颠函数中心的选取算法，以便有助于网络能够成功地用于实际。网络所需要的训练样本数据应该是典型的、均匀分布的，整个数据集能够代表所有数据特征的，但稍微有些冗余数据也是允许的。由于输入网络训练的语音谱失真测度数据是高维的，充斥着冗余数据和垃圾数据，所以对数据的预处理要求很高，本文也给出了数据预处理的方法。最后，结合本文所得结果和其他文献得出的结果进行了比较和分析，并指出了今后的研究工作重点。关键词音质客观评价；听觉模型；径向基函数网络：基函数中心西南交通大学硕士研究生学位论文第1 l 页 a b s t r a c t i nt r a d i t i o n a lo b j e c t i v ee s t i m a t i o no fs p e e c hq u a l i t yb a s e do n a u d i t o r ym o d e l ，i ti sn e c e s s a r yt oi n t r o d u c es o m em a t h e m a t i c sm o d e l s w h i c hi sa d a p t e dt o e a rc h a r a c t e r i s t i o s s oa st od e s c r i b et h e p e r c e p t i o no fa u d i t o r ys y s t e m ，b u t i ti sat r o u b l ei np r a c t i c e i nt h i st h e s i s 。t h ep r o b l e mw i l l b es o l v e db yu s i n gs p e c t r a l d i s t o r t i o nm e a s u r e s ，t h a ti s ，u s i n gs i m p l ec h a r a c t e r i s t i ep a r a m e t e r s i n d i c a t et h es p e c t r a lc h a r a c t e ro fs p e e c hs i g n a l ，s u c ha sm e lf r e q u e n c y c e p s t r a lc o e f f i c i e n t ( m f c c ) a n db a r ks p e c t r a ld i s t a n c e ( b s d ) m e a s u r e ， t or e p l a c et h o s ec o m p l e xm a t h e m a t i cm o d e i s ，a n dd e f i n i n ga n dc o m p u t i n g t h o s ec o m p l e xp r o c e s s i n gf u n c t i o nr e f l e c t i n ga u d i t o r yc h a r a c t e r i s t i c s i nv e c t o rm e a s u r e i na d d i t i o n ，c o m p a r e dw i t hh i g hn o n 一1 i n e a ra u d i t o r y s y s t e m ，a r t i f i c i a ln e u r a ln e t w o r kh a st h ec a p a b i l i t y t o1 e a r nf r o m l i m i ts a m p l es e t sa n dm a pi n p u tt oo u t p u ti nv a r i o u sd i m e n s i o n s a n d u n d e rt h ec o n d i t i o nt h a tt h e r ea r es u f f i c i e n ta n dr e p r e s e n t a t i v e s a m p l e s ，t h en e t w o r k w i i ic o m ec l o s et or e a la u d i t o r yc h a r a c t e r i s t i c s s a t i s f a c t o r i l y b a s e do nt h i sw a y ，t h i st h e s i sa i m e da tt h eo b j e c t i r e e s t i m a t i o no fs p e e c hq u a l i t y ，m u l t i l a y e rp e r c e p t r o na n dr a d i a lb a s i s f u n c t i o nn e t w o r k ，i n s t e a do fe u c l i d e a nd i s t a n c ec o r r e s p o n d i n gt ot h e p a r a m e t e r so fm f c ca n db s d ，a r et r a i n e db yc h a r a c t e rp a r a m e t e r sa n d t h es u b j e c t i v ea s s e s s m e n tr e s u l t sn a m e de x p e c t e dv a l u e s a sar e s u l t ， i tr e a l l yr e f l e c t st h ec h a r a c t e r i s t i c so fe a re f f e c t i v e l y ，a n dr e d u c e s t h ec a l c u i a t i n gt i m ei ns p e c t r a ld i s t o r t i o nm e a s u r ea sw e l l r a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r kh a st h e c o m p e t e n c e o f l e a r n i n gr a p i d l y b e c a u s eo fb a s i sf u n c t i o n n om a t t e rw h a tt h e n o n 一1 i n e a rf u n c t i o nt h a tt h en e t w o r kw a n t st oa p p r o x i m a t ei s ，i ti s n o te a s yt oi n f l u e n c et h ep e r f o r m a n c eo ft h en e t w o r k t h ek e yp o i n t i st h ec h o i c eo ft h ec e n t e ro fb a s i sf u n c t i o n t h ep e r f o r m a n c eo f n e t w o r ki sn o ts a t i s f i e di ft h ec e n t e ri su n s u i t a b l eo ri m p r o p e r s o h o wt oc h o o s et h ec e n t e ro fb a s i sf u n c t i o ni so u t l i n e di nd e t a i ls o 西南交通大学硕士研究生学位论文第1 i i 页 a st oh e t pn e t w o r kp l a yi np r a t t i c es u c c e s s f u l l y m o r e o v e r ，t h es a m p l e sd a t ai nn e t w o r kt r a i n i n gs h o u l db et y p i c a l ， w e l ld i s t r i b u t e db u taf e wr e d u n d a n td a t ai sp e r m i t t e d b e c a u s eo ft h e h i g h d i m e n s i o n ，h i g h r e d u n d a n ta n df u l 1o fn o i s yt r a i n i n gs a m p l e s ，it i sn e c e s s a r yt op r e s e n tt h ep r e p r o c e s s i o no fs a m p l ed a t a a tl a s t ，c o m p a r e dw i t ho t h e rt r a i n i n gr e s u l t s ，t h er e s u l t su s i n g w h a tt h et h e s i si n t r o d u c e di sp r e s e n t e d a n db a s e d0 nt h ec o m p a r i s o n s a n da n a l y s i s ，h o wt h er e s e a r c hw o r kw i l l g oo ni sa l s oi n d i c a t e d k e y w o r d ：o b j e c t i v e e s t i m a t i o n r a d i a lb a s i sf u n c t i o nn e t w o r k ： o fs p e e c hq u a l i t y ：a u d i t o r ym o d e l b a s i sf u n c t i o nc e n t e r 西南交通夫掌硕士研究生学位论文第1 页第1 章绪论 1 1 语音质量评价的重要性和应用价值语音作为信息传递的重要载体，与其媚关构成的通信、编码、存储和处理等语音系统已成为现代社会信息交流的必要手段，且已广泛应用于社会各个领域。这些系统的性能好坏成为信息交流是否畅通的重要因素，而评价这些系统性能优劣的根本标志是在于系统输出语音质量的好坏。进行主观音质评价虽然能够比较客观给出评价结果，但是，靠入耳判断完成的主观评价，存在费力( 包括人力和财力) 、费时，而且条件不具备还无法组织实施等缺点，所以人们早就寄希望于用设备来客观评价语音产品的音质。在综合业务信息网的语音通信业务，将要用到多种语音编码技术或多种语音终端设备，提供这些产品研究或研制的单位，在研究或研制过程中要经常甚至反复开展语音编码技术和产品的音质评价。在信息网的规划建设中，也可能对网络不同接点以及用户终端的音质进行评价，靠主观评价( 即使是采用非正式的) 实验完成所要的评价是极不现实的。另外，在国防通信装备试验站，电子对抗试验基地( 或试验靶场) 等外场进行通信及干扰效果试验中，需要及时对话音质量及受到干扰的等级给出评价，但同时由许多人来统计性地完成主观评价是根本不可能的。如果研究出了客观音质评价设备，就可机动、灵活、方便、并可随时随地实现音质评价。因此，为了满足这些普遍的需求，研究客观音质评价系统模型研制是非常有必要的，并一定会得到广泛应用。 1 2 国内外该领域的研究现状与问题最早的客观评价方法可以追溯到四十年代束，由n r f r e n c h 和j c s t e i n b e r g 于1 9 4 7 年提出的清晰度指数a i 方法。由于受当时科学技术发展水平限制，语音质量客观评价方法研究并没有得到很大的发展，直到进入七十年代以后，随着通信技术的迅速发展，由于要对语音编码技术、通信设备西南交通大学硕士研究生学位论文第2 页系统进行选择、性能测试以及标准化等工作，就必须对这些语音系统输出的语音质量进行大规模评测，这样具有方便、快捷、省力等特点的客观评价方法就得到了蓬勃的发展! 在这期间，亚特兰大乔治亚工学院的t p b a r n w e l l 和s r o u a c k e b u s h 在这一领域所作的研究工作令人瞩目，他们对八十年代中期以前的语音质量客观评价研究工作作了系统总结，并于1 9 8 8 年出版了一本关于语音质量客观评价的专著“1 。s r q u a c k e b u s h 和t p b a r n w e l l 首先建立了语义、语法和音素平衡的未失真语音库，其中所有的未失真语音由四人发音( 三男一女) ，每人1 2 个句子，共4 8 个未失真句。对这些未失真语音进行2 4 6 种失真处理，得到1 1 8 0 8 个样本的失真语音库。所有的未失真语音和失真语音样本都进行了主观评价，得到主观评价分，荐以未失真语音作为参考，对失真语音进行了6 0 0 多种客观评价方法测试，并建立了线性和非线性回归分析，得出与主观评价值相关性较高的几种客观评价方法为：谱距离相关度达n o 8 0 ；斜率加权谱距离相关度达n o 7 4 ；对数面积比相关度为0 6 2 等。他们的工作为以后语音质量客观评价方法的研究奠定了基础。在八十年代后期提出的语音质量客观评价方法主要有口1 ：加拿大b e l l n o r t h e r nr e s e a r c h 提出的一致函数方法( c h f ) ，c h f 是一种加权信号失真比测度方法，它通过描述人的听力敏感度、人对噪声的阀值效果以及电话听筒接收的敏感度等来对电话语音质量进行评价，c h f 方法与主观评价值的相关度达到o 8 1 6 ：日本n t t 研究人员n k i t a w a k i 等人提出的倒谱距离( c d ) 方法，在当时这是一种与主观评价相关性较好的方法，c d 方法是根据输入和输出语音信号的j 阶l p c 系数推出各自的倒谱系数c ：( f ) 和c ，( i ) ，然后求出它们之间的倒谱距离，其相关度达到为0 9 0 2 ；法国j l a l o u 于1 9 9 0 年提出了信息指数( i n f o r m a t i o ni n d e x ，i i ) 方法，i i 方法将语音频谱分为1 6 个临界带宽，在每个频带内运用频率加权和听力阈值等计算方法来评价语音质量，其与主观评价值的相关度为0 6 8 8 ；美国电信科学研究院i t s 学者 r k u b i c h e k ，e a q u i n c y 等人提出的专家模式识别e p r 方法，e p r 方法运用贝叶斯估计原理以寻找语音信号的特征参数与语音质量之间非线性关系，在 i t s 测试中其相关度达n o 8 8 6 ，c h f ，c d ，i i 和e p r 这四种方法也是原c c i t t 建议方法。进入九十年代后，语音质量客观评价方法研究取得了飞跃的发展，特别西南交通大学硕士研究生学位论文第3 页是在近几年取得的成果最大，与主观评价的相关度达到了0 9 左右。 s w a n g 于1 9 9 2 年提出的巴克谱失真b s d 方法对以后的影响较大”1 ，b s d 方法是以人的听觉能力和听觉心理特点为基础构造出一种听觉转换模型 b s d 在三个层次上模拟了人对语音信号的感知机理：( 1 ) i i 盎界频带分析处理： ( 2 ) 等响曲线预加重；( 3 ) 语音强度f 听觉晌度变换等。听觉转换模型见图 1 1 。。图1 - 1b s d 方法的听觉转换模型输入语音x m ) 和输出语音y 分别按听觉转换模型进行相同的预处理，得到b a r k 谱l 例和l ，例，然后进行b s d 计算b s d 定义为： r， b s d ；殴( ) 一砖( f 计其中，a 为临界带宽的个数，业( f ) 为第七帧输入胃语音的b a r k 谱，班( f ) 为第帧输出语音的b a r k 谱。继s w a n g 等之后， r y a n t o r n o ，w y a n g 等学者于近几年先后对b s d 进行了进一步研究，提出了 m b s d 方法。另外，我国学者在b s d 基础上也作了许多研究工作( 4 - s 。 s v o r a n 在总结前人工作基础上，提出了一种度量标准化段m n b ( m e a s u r i n gn o r m a l i z i n gb l o c k ) 的语音质量客观评价方法”1 ，并在删b 基础上于1 9 9 9 年提出基于m n b 的听觉距离a d m n b ( a u d i t o r yd i s t a n c eb a s e do n m e a s u r i n gn o r m a l i z i n gb l o c k ) 评价方法 a - 9 os v o r a n 认为人对语音质量优劣好坏的评价过程应包括两个方面，一个是听过程，另一个是判断过程。虽然这两个过程不能被严格区分开，但是人在感觉语音质量时在这两个过程中的行为是有所不同的。象m b s d 方法都比较侧重于模拟人的听过程( 听觉模型) ，而对判断过程则予以很大的简化。a d m n b 方法则在考虑听过程的基础上，采用m n b 方法来模拟人的判断过程，在m n b 的基础上再求出听觉距离a d 西南交通大学硕士研究生学位论文第4 页 ( a u d i t o r yd i s t a n c e ) ，以其作为评价的尺度标准。由于a d m n b 方法综合了听过程和判断过程，因而评价结果与主观评价值的相关程度较高。s v o r a n 在大量实验基础上提出了两种m n b 结构。在所有的研究方式中，通常都是将客观评价结果与主观评价结果通过一种函数映射关系来衡量客观评价方法的性能，可用雪。一r ( q ) 表示，其中t 为转换函数，d j 为第卅、样本的客观评价值，毫为由r ( ) 将d f 转换成的主观评价值，t ( ) 可以是线性或非线性回归关系也可以是多项式拟合关系。由于客观评价实质上是对主观评价值的一种预测，因此客观评价方法的性能好坏是以其与实际主观评价值的相关性来衡量，即毒与置的相关程度，s 为实际主观评价值。这种相关程度可用它们的相关度p 和误差范围。来表示。计算公式见式( 卜1 ) ： d 曩。：。 1 一p ：声 ( 1 - 1 ) 其中，n 为样本数，s 。表示实际主观评价，童表示由客观评价方法预测出的主观评价值，p ，、盯，分别为实际主观评价值的均值和标准方差。从客观评价方法的发展历程以及各种方法的结果来看，语音质量客观评价的研究具有以下特点： ( 1 ) 从语音质量客观评价的过程来看，客观评价方法研究大致经历了这样几个阶段：时域阶段( 立n s n r 等) ，频域谱分析阶段( 如s d 等) ，模型参数( i - p c 分析) 阶段( 如c d 等) 、听觉模型阶段( b s d ，m b s d 等) 及听觉模型与判断模型的混合( h y b r i d ) 模型阶段( 如a d m n b 等) 。当然，各阶段不是严格分开的，而是互相混叠，特别是新方法往往是建立在传统方法基础上。 ( 2 ) 听觉模型在语音质量客观评价研究中占有十分重要的地位。纵观客观评价的发展过程可以清楚看到只要在评价中考虑了人对语音信号的感知特性就会大幅度提高整个评价方法的性能。从近几年的研究成果来看，性西南交通大学硕士研究生学位黻第5 页能较好的客观评价方法都以听觉模型为基础，如b s d 、m b s d 、a d m n b 等e 因此，可以说从人的听觉器官功能和听神经系统的特点来进一步研究客观评价模型是将来的发展趋势之一。 ( 3 ) 判断模型的研究已开始得到重视。人对语音质量的评价包含两个过程：听过程和判断过程，因此，有必要构造良好的判断模型，并与听觉模型相结合。虽然目前判断模型的研究已有所进展，如a d m n b 方法等，但在这方面的研究工作还有待于进一步深入下去，本文不予赘述。另外，随着研究的深入，客观评价研究也要求引入新的分析技术，如非线性预测分析，小波变换技术，高阶统计分析技术，模糊处理技术以及人工神经网络技术等等。这些技术预计更能挖掘人的听觉感知机理，更畿从类似人的听觉行为来进行语音质量评价。在语音处理的许多场合，如通信系统语音质量客观评价、语音编码和合成及识别等，都涉及到谱失真测度这一概念。它用于比较谱特征空间中两矢量的差异。作为语音的谱失真测度应具有非负性、与主观感知的吻合性以及计算上的简便性。这里与人的主观听觉感知的吻合性对语音谱失真测度来讲是关键问题。通常解决这一问题的方法是在谱特征的形成过程中采用数学模型来描述听觉系统的感知行为，如l p c 倒谱、m e l 倒谱、p l p 和b a r k 谱等，或直接仿真人耳的生理结构，如s e n e f f , e i h 模型等。然而由于对听觉系统行为和人耳生理结构的了解还不够深入，这些方法总不能够给出令人十分满意的结果，况且引入过于复杂的数学模型也会给实际使用带来很多不便。 1 3 本文研究的主要工作及内容安排目前，在强干扰信道条件下，实现对受扰语音信号准确的客观音质评价，已被作为国家军事预研项目进行了立项。本文作者就是参与了电子科技集团第三十所与西南交通大学神经网络与信息技术研究所签定的协作研究项目 “神经网络在客观音质评价系统中的应用”，并以此为背景展开论文的写作。项目的主要工作包括两个方面，一是在强干扰信道条件下，提出实现可靠检测的同步方法；二是用人工神经网络实现客观音质评价系统。本文就是针对项目中第二个方面确定了研究目标，即将径向基函数( r b f ) 神经网络的特性应用于语音质量客观评价方法的研究，利用前向人工神经网络的多维非西南交通大学硕士研究生学位论文第6 页线性映射原理实现语音质量客观评价的策略。具体原理是将多维语音特征空间到一维失真测度的非线性映射，和失真测度到主观得分估计的非线性参数回归分析过程，整合到一个前向神经网络当中实现。它可以避免对听觉感知进行复杂的显式表达，而直接以主观测试值作为网络的输出期望值，使得网络能够自适应地逼近听觉系统的高维非线性感知特性；也无须预先对回归分析的函数形式进行假定，从而避免由于回归模型建立不正确所带来的误差。本文的主要研究内容： ( 1 ) 力争在系统中容纳能够较好模拟人的主观感知特性的人工神经网络，作为评测的逻辑部件，但a n n 的复杂程度各异、形式多种多样，而客观音质评价又是一个涉及人的主观感知特性和复杂多变语音特征的问题，有着特别巨大统计实验工作量。因此，选择网络结构性能良好、训练时间较短，实际应用泛化性良好，而又使得客观音质评价能够满意地逼近人的主客观评价结果的神经网络，就是一个非常关键的技术难题。 ( 2 3 研究r b f 网络结构，学习算法，重点研究弼络隐层中心选择算法。 ( 3 ) 进一步研究数据对r b f 祠0 经网络训练的影响，选取并比较适当的隐层节点训练方法。训练开始前采用统计的方法处理数据，使得训练速度加快，更容易接近期望值，使得主客观相关性将更好。 ( 4 ) 研究适合神经网络特性的谱失真测度数据的预处理方法。 ( 5 ) 实现适合本项目的r b f 神经网络训练、工作的模块。利用已建立的语音库，包括语句和数字串，使用m e l 和b a r k 谱系数提取特征参数，并作为网络的输入，以平均意见得分( m o s ) 为网络训练期望值，对该网络进行训练。训练算法采用改进的经典r b f 算法。最后研究检验利用训练好的e b f 进行客观评价与主观测试结果的相关性。根据项目中的具体要求，结合本人实际的实验统计结果，这里提出的基于神经网络的音质客观评价算法均达到了如下性能指标：主客观相关系数达到o 9 0 以上：评测效率可以在5 分钟内给出评价结果。论文的具体内容如以下安排：第二章讨论了语音质量客观评价的常用方法及其分类，描述了传统听觉模型的特点并指出了所存在的问题，最后给出了基于多层感知器的音质客观西南交通大学硕士研究生学位论文。第7 页评价的方法，引出了径向基函数网络。第三章系统地介绍了人工神经网络的一般原理，包括它的特点、工作机理和结构等。给出了几个典型的神经网络，并详细介绍了误差逆传播( b p ) 神经网络。第四章具体讨论了关于径向基函数网络的般原理、基本结构，以及对基函数参数包括中心和宽度的学习算法的研究。给出了渐增式隐节点的径向基函数网络的隐节点分裂准则和停止分裂准则。最后给出了基于径向基函数神经网络评价系统的结构及主客观的统计相关模型。第五章结合项目结果讨论了话音和数字串通过数据预处理，进入径向基函数神经网络训练后给出的结果及与其他结果的比较。最后分析、总结并比较了不同评价方法的实验结果。在对全文进行总结的基础上，提出了今后进一步的工作展望。西南交通大学硕士研究生拳位论文第8 页第2 章语音质量客观评价的方法 2 1 语音质量客观评价方法的分类语音质量客观评价研究自七十年代以来迅速发展，国内外学者提出了数以千计的客观评价方法。这些方法从评价结构上可分为基于输入输出和基于输出这两大类方法，从它们各自使用的主要技术( 如谱分析、l p c 分析、听觉模型分析、判断模型分析等) 和主要特征参数( 时域参数、频域参数、变换域参数等) 又可以分为以下六类： ( 1 ) 基于s n r 评价方法【1 1 信噪比是一种广为应用的简单客观评价方法，高信噪比是高质量语音的必要条件，但不是高质量语音的充分条件。大量的实验表明，单一的s n r 预测主观评价值的能力极差。经过改进的分段信噪比、变频分段信噪比等方法与主观评份的相关度有所提高，但都只是对高速率的波形编码语音而言。 ( 2 ) 基于l p c 技术评价方法 1 , 1 0 , 1 1 , 1 2 】这类方法是以l p c 分析技术为基础的，把l p c 系数及其导出参数作为评价的依据参量。由l p c 导出的方法有：l r c ( l i n e a rr e f l e c t i o nc o e f f i c i e n t ) 、 l i r ( l o g l i k e l i h o o dr a t i o ) 、l s p ( l i n e s p e c t r u mp a i r s ) 、l a r ( l o g a r e a r a t i o ) 、i t a k u r a 、c d l l o l 等方法以及它们的一些改进方法【1 1 , 1 2 1 ( 3 ) 基于谱距离评价方法 1 , 1 3 , 1 卅基于谱距离的评价方法是以语音信号平滑谱之间的比较为基础的。谱距离评价有很多种，主要有：s d ( s p e a r a ld i s t a n c e ) 、l s d ( l o g s d ) 、f v l i s d ( f r e q u e n c yv a r i a n tl i n e a rs d ) 、f v l o s d ( f r e q u e n c y v a r i a n tl o gs d ) 、 w s d ( w e i 曲t e d s l o p es d ) 、i l s d ( i n v e r s el o gs d ) 等方法1 1 3 , 1 4 】。 ( 4 ) 基于听觉模型评价方法f 3 , 1 5 - 1 7 】该类评价方法是以人感知语音信号的心理听觉特性为基础。具有代表性的听觉模型方法有b s d 、m b s d 、p s q m 、p l p 、m s d ( m e l s p e c t r a ld i s t o r t i o n ) 等。 ( 5 ) 基于判断模型的评价方法【7 9 1 8 】这类评价方法是在选择表达语音质量的特征参量基础上，更主要侧重于西南交通大学硕士研究生学位论文第9 页模拟人对语音质量的判断过程。如s v o r a n 提出的a d m n b 方法【_ “9 】及我国学者丁瑾等提出的模糊决策树方法等l l “。 ( 6 ) 其它评价方法i 2 j 主要有一致函数c h f 法、信息指数i i 法、专家模式识别法等。 2 2 传统听觉模型评价方法及存在的问题听觉模型评价方法的合理之处主要是考虑了入耳晌度识别的对数特性。人的听觉是一个复杂的主观心理感知过程，改进客观评价方法的手段之一就是在评价中综合考虑人的主观因素的影响，文献【1 】列举的几种考虑人耳听觉特性的客观评价方法就反映了这种研究趋势。近年来随着对人耳听觉机理研究的深入，出现了更全面更精确的人耳听觉模型。文献【1 9 】提出的人耳听觉模型比较有代表性，它将人的听觉系统对声音信号的处理分为3 个阶段：分析、传递和还原阶段。分析阶段主要考虑耳蜗的分频效应，耳蜗的外端对高频敏感，内端对低频敏感，这种特性可以用一组中心频率不同的带通滤波器来模拟。传递阶段声波振动沿基膜传播并在听觉神经纤维内产生电流，最终传入听觉中枢。还原阶段是听觉系统提取语音中诸如音质、音调、时域和位置信息的阶段。经过以上几个阶段的信号可以认为是语音近似的短时频谱，在下文中称其为听觉频谱，其数据量已经被大大压缩，文献f 1 9 1 证明了从这些压缩后的数据中仍然可以重构原信号，因此可以认为语音信号的这种表述形式去除了冗余数据而保留了语音的基本特征。实际上整个过程可以理解为一个语音特征的提取过程，这与客视评价的思路是一致的，这种特征在提取过程中充分考虑了人的听觉特性，因此把它作为语音质量的评判标准比传统方法更为合理。现有的语音客观评价方案一般基于输入输出语音之间的失真程度。按照计算失真的方法不同，又分为波形失真、频谱失真和频谱包络失真。其基本思想都是把语音的某种变换( 时域或频域的1 作比较，以差异的大小来衡量失真的大小。例如在倒谱的客观评价方法中，就是用倒谱距离来衡量失真的大 4 、。倒谱距离的定义为d 、= ( c 。一c ：) 2 ，式中c 。和c ：分别是输入语音和输出话音的倒谱系数。西南交通大学硕士研究生学位论文第1o 页类似地，可以定义听觉频谱的谱距离。如果输入和输出语音信号经过听觉模型处理后的听觉频谱数据分别为w ，和w ：，则定义d ：= ( m w ：) 2 为听觉频谱的谱距离，以此谱距离来评价语音的失真。作为语音的谱失真测度应具有非负性、与主观感知的吻合性以及计算上的简便性。这里与人的主观听觉感知的吻合性对语音谱失真测度来讲是关键问题。通常解决这一问题的方法是在谱特征的形成过程中采用数学模型来描述听觉系统的感知行为，如l p c 倒谱、m e l 倒谱、p ip 和b a r k 谱等，或直接仿真人耳的生理结构，如s e n e f f 、e i h 模型等。然而由于对听觉系统行为和人耳生理结构的了解还不够深入，这些方法总是不能够给出令人十分满意的结果，况且引入过于复杂的数学模型也会给实际使用带来很多不便。从谱失真测度本身出发来解决这一问题，即用较简单的特征参数描述语音信号的谱特征，避免用过于复杂的数学模型来逼近，而把那些反映听觉特性复杂的处理功能放在矢量测度中来定义和计算。并且，对于高度非线性的听觉系统，采用具有从有限的实际样本中“自学习”到系统的输入输出关系能力的人工神经网络模型来实现，在样本足够满意的条件下，无疑可以更好地逼近真实的听觉特性。同时以主观评价结果作为期望值对网络进行训练，得到了既真实充分地反映了人耳听觉特性，又计算简便的谱失真测度。 2 3 基于多层感知器的音质客观评价我们首先定义一个】i f k 1 的三层感知器来构成客观评价系统，其网络结构如图2 1 所示。对应于每一个输入误差特征矢量e ，该系统的输出m ，的表达式为 m 。= ( y f ) 乩阶，+ 礁k b 二 2 ) ) ) ) 沼；l ( w 2 ( w l 气) ) 式中，m 为矢量的维数，k 是隐节点的个数，w 1t h 可，w ：；( w ，r 。，( - ) 西南交通大学硕士研究生学位论文第1 1 页取为t a n s i g m o i d 函数【2 0 ，2 ，即，b ) = 专一1 ( 2 - 2 ) 图2 1 三层感知器构成的音质客观评价系统该函数在数学上与t a r t h 函数相当，但可以使得b p 算法的学习速度较快，而不至于过于影响训练精度。由于m o s 估值m o s 与e ；呈负相关关系，当e 。为。矢量时m o s ；5 ，而当e ，为无穷大矢量时，m d s 一0 ，所以需要定义网络的输出节点函数为【2 7 j m ；一l ( y 。) 一5 一y f ， i 。1 , 2 ，一，k ( 2 - 3 ) y i 为输出节点的输入，它是岛的非线性函数。用于多层感知器设计的反向传播算法可以看作是一种递归技术的应用，在统计学意义上又被称为随机逼近( s t o c h a s t i c a p p r o x i m a t i o n ) 。神经网络是一种非线性系统，参数的学习必须基于非线性优化技术。b p 网络使用梯度下降算法，参数估计会陷于所选优化测度的局部最小点，当然也可以用其它优化技术，如模拟退火、遗传算法等，但需要付出较大的算法复杂度代价【2 引。在前向网络中，第一隐层的每个节点形成输入空间中一个分离的超平面，超平面的方向由第一层的权值确定。这些超平面将输入空间划分成许多细胞 ( 单元) ，后续层燎这些子单元重新组舍形成类区域。但把类分为多少子单元是无法确定的，因此选择合适的隐节点数通常由实验确定，与图( 4 3 ) 类似。一般随着隐节点数的增多系统性能会提高，但会达到一个平衡状态，此后额外增加的隐节点实际上会降低性能，因为这会使训练更困难，也增加了训练数据过拟合( o v e r f i t t i n g ) 的可能性玎】。当网络学会了对特定训练点的分类但不能获得该类的相对概率分布时，就出现了过拟合现象。其表现是西南交通大学硕士研究生学位论文第1 2 页训练数据集的误差比从同一分布随机选择的后续数据集的误差小，即网络不具备在相似的输入一输出模式间扩展的能力。因此，郢使成功地采用b p 网络构成了一个语音质量客观评价系统，但要使这种系统的顽健性很强，还存在很大的困难。对语音质量客观评价这样的任务，本质上可理解为用前向神经网络进行高维空间上的超曲面拟合。对于给定的训练数据，对应于每个m 维误差平方矢量，e ，= 盼。一x 圩，b ：j x ：) 2 ，x 。一z 二) 2j ，有一个主观评价m o s 值，这可以看成是 “1 维空间中的一个点。神经网络的训练过程就是在这个m + 1 维空间中寻找一个最佳超曲面来拟合这些训练数据，而扩展应用就等同于利用这个多维曲面去对测试数据进行插值( i n t e r p o l a t i o n ) 。对于这样的问题，采用径向基函数作为这种前向神经网络的隐层构成语音质量客观评价系统就具有更大的优越性】。r b f 神经网络的概念是1 9 8 5 年由p o w e l l 提出并用于解决实多变量插值问题。径向基函数神经网络( r b f n ) 通常只有也只需三层即可实现任意复杂的曲面逼近，即输入层、隐层和输出层，如图2 - 1 所示。从输入空间到隐层空间的变换是非线性的，其作用是将输入矢量在隐层基函数系中分解，或者说将输入矢量映射到隐层空间。当r b f 的中心确定以后，这种映射关系也就确定了。c o v e r 首先在数学上证明了把一个模式分类问题映射到高维空间比映射到一个低维空间更具有线性可分性【4 2 】，而r b f n 隐层空间的维数通常都是较高的。另一个重要的事实是，隐层空间的维数与逼近光滑的多变量函数的网络的容量有直接联系，隐层空间的维数越高则这种逼近就越准确。从隐层空间到输出层空间是线性的，即网络的输出是隐单元输出的线性加权和。此处的权即为网络可调参数。由此可见，从总体上看，网络由输入到输出的映射是非线性的，而网络输出对可调参数却是线性的。这样网络的权就可由线性方程直接解出或用递推最小二乘( r l s ) 方法计算，从而大大加快学习速度并避免局部极小问题。、西南交通大学硕士研究生学位论文第13 页第3 章人工神经网络 3 1 神经元模型的提出、一学职一爹。每个神经元都由一个细胞体，一个连接其他神经元的轴突和一些向外伸出的其它较短分支树突组成。轴突的功能是将本神经元的输出信号( 兴奋) 传递给别的神经元，其末端的许多神经末梢使得兴奋可以同时传送给多个神经元。树突的功能是接受来自其它神经元的兴奋。神经元细胞体将接受到的所有信号进行简单地处理( 如：加权求和，即对所有的输入信号都加以考虑且对每个信号的重视程度体现在权值上有所不同) 后由轴突输出。神经元的树突与另外的神经元的神经末梢相连的部分称为突触。神经元的模型，如图3 2 所示。西南交通大学硕士研究生学位论文第1 4 页大脑之所以能够处理极其复杂的分析、推理工作，一方面是因为其神经元个数的庞大，另一方面还在于神经元能够对输入信号进行非线性处理。因此，对图3 _ 3 可进一步建立起更接近于工程的数学模型。 x x 图3 - 2 神经元模型这是一个多输入单输出的非线性器件，其中的权值w 即代表神经元之间的连接强度，f ( u ) 为非线性函数。图3 - 3 神经元的数学模型 y 可以看出人工神经元相当于一个多输入单输出的非线性阈值器件。每一个神经元( 如神经元j ) 接受其他神经元( 如神经元i ) 的信息传递，总输入的关系式为：，。z 铲口， ( 3 1 ) 式中，w f 为从神经元i 到神经元j 的连接权值；而为神经元i 的输出：口。表示神经元j 的闽值。神经元j 的输出关系式为： 0 j = f ( 1 j ) ( 3 - 2 ) 西南交通大学硕士研究生学位论文第15 页这里函数，( ) 称为激励函数，根据，( ) 的不同，可将神经元模型分为不同的类型，如离散型、连续型、微分差分型和概率型。 3 2 人工神经网络的特点人脑的每个神经元大约有1 0 3 1 0 4 个树突及相应的突触，一个人的大脑总计约形成1 0 “1 0 ”个突触。用神经网络的术语来说，即是人脑具有1 0 “ 1 0 1 5 个互相连接的存储潜力。虽然每个神经元的运算功能十分简单，且信号传输速率也较低( 大约1 0 0 次，秒) ，但由于各神经元之间的极度并行互连功能，最终使得一个普通人的大脑在约1 秒内就能完成现行计算机至少需要数 1 0 亿次处理步骤才能完成的任务。人工神经网络正是模拟人脑的神经元广泛互连而成的系统，它的这一结构特点决定着人工神经网络具有高速信息处理的能力。人工神经网络的知识存储容量很大。在神经网络中，知识与信息的存储表现为神经元之阎分布式的物理联系。它分散地表示和存储于整个网络内的各神经元及其连线上，每个神经元及其连线只表示一部分信息，而不是一个完整具体概念，只有通过各神经元的分布式综合效果才能表达出特定的概念和知识。由于人工神经网络中神经元个数众多以及整个网络存储信息容量的巨大，使得它具有很强的不确定性信息处理能力。即使输入信息不完全、不准确或模糊不清，神经网络仍然能够联想思维存在于记忆中的事物的完整图象。只要输入的模式接近于训练样本，系统就能给出正确的推理结论。正是因为人工神经网络的结构特点和其信息存储的分布式特点，使得它相对于其它的判断识别系统，如：专家系统等，具有显著健壮性的优点。生物神经网络不会因为个别神经元的损失而失去对原有模式的记忆。最有力的证明是，当个人的大脑因意外事故受轻微损伤之后，并不会失去原有事物的全部记忆。人工神经网络也有类似的情况。因某些原因，无论是网络的硬件实现还是软件实现中的某个或某些神经元失效，整个网络仍然能继续工作。人工神经网络同现行的计算机不同，是一种非线性的处理单元。只有当神经元对所有的输入信号的综合处理结果超过某一门限值后才输出一个信西南交通大学硕士研究生学位论文第16 页号。因此神经网络是一种具有高度非线性的超大规模连续时间动力学系统。它突破了传统的以线性处理为基础的数字电子计算机的局限，标志着人们智能信息处理能力和模拟人脑智能行为能力的一大飞跃。 3 3

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）神经网络在语音质量客观评价中应用的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）神经网络在语音质量客观评价中应用的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档