(信号与信息处理专业论文)基于说话人识别信道补偿的研究.pdf_第1页
(信号与信息处理专业论文)基于说话人识别信道补偿的研究.pdf_第2页
(信号与信息处理专业论文)基于说话人识别信道补偿的研究.pdf_第3页
(信号与信息处理专业论文)基于说话人识别信道补偿的研究.pdf_第4页
(信号与信息处理专业论文)基于说话人识别信道补偿的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)基于说话人识别信道补偿的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 说话人识别技术因有其独特的方便性、经济性和准确性等优点,在生物 识别领域有其广阔的应用前景。尽管在实验室环境条件下,说话人识别系统 已经取得了较大的成功,但是实际应用中性能大幅下降,为提高系统的实用 性,需重点要解决信道顽健性的问题。 本文从信道补偿出发,研究如何提高说话人识别系统的信道顽健性。在 信道补偿方面,考虑到留数受信道影响,将留数归一化方法和倒谱均值减方 法相结合,综合考虑了语音信号受电话信道的线性和非线性影响,得到一种 新的基于信道补偿的联合特征补偿方法。在此基础上应用g m m 模型和说话 人自适应模型算法,根据得分进行判决,首先对聚类差别大的采用对数似然 分数判决,确定其归属类别。其次对类归属相似的特征进行零规正( z n o r m ) 判决,判决阂值采用实验得到阈值,进一步提高识别效果。 此外,本文实现了电话语音识别系统软件的开发。该系统经过实验验证, 性能良好,采用联合补偿方法后,在信道相同时,识别率达到9 8 以上;在 信道交叉时,识别率也超过了6 7 ,比基线系统提高1 7 左右。 关键词:说话人识别;信道顽健性;自适应提升;倒谱均值减;零规正 哈尔滨工程大学硕士学位论文 a bs t r a c t s p e a k e rr e c o g n i t i o nt e c h n o l o g yh a saw i d e l ya p p l i c a t i o nf u t u r ei nf i e l do f b i o m e t r i c sr e c o g n i t i o n ,o w i n gt oi t ss p e c i a la d v a n t a g e si nf a c i l i t y ,e c o n o m ya n d a c c u r a c ya n ds oo n a l t h o u g hi nt h el a be n v i r o n m e n t ,s p e a k e rr e c o g n i t i o ns y s t e m h a sa c h i e v e dg r e a ts u c c e s s ,i t sp e r f o r m a n c ed e t e r i o r a t eo b v i o u s l yi nt h ep r a c t i c a l a p p l i c a t i o n i no r d e rt oe n h a n c et h ep r a c t i c a l i t yo ft h es y s t e m ,i tn e e d st of r e dt h e s o l u t i o no ft h ec h a n n e lr o b u s t n e s s h o wt or a i s et h ec h a n n e lr o b u s to ft h e s p e a k e rr e c o g n i t i o ns 3 ) s t e mi s r e s e a r c h e db a s e do nc h a n n e lc o m p e n s a t i o n i nt h es i d eo f c h a n n e lc o m p e n s a t i o n , c o n s i d e r i n gt h ec h a n n e lc o u l da f f e c tt h er e s i d u e s ,t h ep a p e rc o m b i n e st h e n o r m a l i z a t i o no fr e s i d u e sa n dc m s ,c o m p r e h e n s i v e l yc o n s i d e r st h ec h a n n e ll i n e a r a n dn o n l i n e a ri n f l u e n c eo nt h ev o i c e s i g n a l s ,a n d o b t a i n san e wj o i n t c h a r a c t e r i s t i c sc o m p e n s a t i o nm e t h o db a s e do nc h a n n e lc o m p e n s a t i o n o nt h e b a s i s ,w eu s et h eg m mm o d e la n ds p e a k e ra d a p t i v em o d e la l g o r i t h m ,a n dj u d g e b a s e do nt h es c o r e f i r s tw eu s et h el o g l i k e l i h o o ds c o r ei u d g m e n tf o rt h o s ew h o h a v ec l u s t e rc o m p a r a t i v e l yg r e a td i f f e r e n c e sa n dd e c i d et h ec a t e g o 积功e nw ed o t h ez n o r mj u d g m e n tf o rt h es i m i l a rf e a t u r e so fc a t e g o r ya s s i g n m e n t ,a n dt h r o u g h t e s tt oo b t a i nt h ed e c i s i o nt h r e s h o l d , a n df u r t h e ri m p r o v et h er e c o g n i t i o ne f f e c t i na d d i t i o n , t h ep a p e rs u c c e s s f u l l yr e a l i z e st h es o f td e v e l o p m e n to ft h e t e l e p h o n es p e e c hr e c o g n i t i o ns y s t e m t h es y s t e m , t ob ew o r k i n gw e l l ,h a sb e e n v e r i f i e dt h r o u g he x p e r i m e n t a ls t u d y a f t e ru s i n gt h ej o i n tc o m p e n s a t i o ni nt h e s a m ec h a n n e l ,t h er e c o g n i t i o nr a t i oc o u l dr e a c ho v e r9 8 ,a n do v e r6 7 w h e n c h a n n e lb e h a gd i f f e r e n t ,i m p r o v e db y17 t ot h eb a s e l i n es y s t e m k e y w o r d s :s p e a k e rr e c o g n i t i o n ;c h a n n e lr o b u s t n e s s ;a c w ;c m s ;z - n o r m 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出。除文中己注明引用的内容外,本 论文不包含任何其他个人或集体已经公开发表的作品成 果。对本文的研究做出重要贡献的个人和集体,均已在文 中以明确方式标明。本人完全意识到本声明的法律结果由 本人承担。 作者( 签字) :蝉 日期:山暑年3 月日 哈尔滨工程大学硕士学位论文 1 1 课题背景 第1 章绪论 随着信息技术的高速发展,人们在享用信息技术带来便利和快捷的同时 也被越来越多的信息安全问题所困绕,人们不得不牢记许多各种不同的口令 和密码,即便如此,仍然出现密码被盗,口令遗忘等情况,给人们带来不便 和麻烦,甚至造成很大的损失。为了提高信息的安全性,同时保证用户服务 的便利,利用人自身的生物特征进行用户身份认证技术一生物特征识别技术, 越来越引起人们的关注。与其它生物特征识别技术相比较,说话人识别技术 具有简便、准确、经济、可扩展性良好等优点,因此说话人识别技术有着广 阔的应用前景【l j 。例如在电话网络的银行账目交易、电话购物、信息服务、 数据库访问、语音e m a i l 、计算机远程登录等领域的应用;另外说话人识别 系统还可以应用在保密通信、保密部门的身份验证、法庭鉴别,刑事侦察等 方面;在呼叫中心等应用上,说话人识别技术同样可以提供更加个性化的人 机交互界面。 说话人识别是一个模式识别匹配的过程。在这个过程中,计算机首先要 根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需 的特征建立说话人识别所需的模板。而计算机在识别过程中要根据说话人识 别的整体模型,将计算机中存放的语音特征模板与输入的语音信号特征进行 比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的 模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。显 然,这种最优的结果与特征的选择、说话人模型的好坏、模板是否准确等都 有直接的关系。 一个说话人识别系统性能好坏的关键首先是它所采用的语音模型能否真 实地反映话音的物理变化规律,所用的语言模型能否表达自然语言所包含的 丰富语言学知识。然而无论是语音信号还是人类的自然语言都是随机、多变 哈尔滨工程大学硕士学位论文 和不稳定的,很难把握,这就是目前说话人识别过程中的最大难点。其次, 模板训练的好坏也直接关系到说话人识别系统识别率的高低。为了得到一个 好的模板,往往需要有大量的原始语音数据来训练语音模型。因此,在开始 进行语音识别研究之前,首先要建立起一个庞大的语音数据库和语料数据库。 一个好的语音数据库包括足够数量、具有不同性别、年龄、口音说话人的声 音,并且必须要有代表性,能均衡地反映实际使用情况,但是往往这些具有 代表性的数据是很难找全的。 目前说话人识别系统在实验室阶段取得了较大的成功,文本无关的说话 人身份识别正确率甚至超过了9 8 ,但这都是在噪声污染小、信号传输信道 一致、说话人情绪稳定等情况下得到的。在实际应用中,许多制约因素使识 别系统性能显著下降,这些制约因素主要包括以下几种: 一是录音环境影响,系统受噪声的大小及噪声的种类影响较大。如交通 背景噪声,风扇背景噪声和其他背景语音噪声等。 二是传输信道影响,系统在不同的信道下表现的性能有很大的差异,特 别是在训练语音和测试语音信道不匹配的情况下,误识率明显上升。信道不 匹配的种类很多,麦克信道、电话信道、网络信道、无线网络信道等相互之 间的不匹配,情况十分复杂,处理的方法也不一样,本文重点研究电话信道 与麦克信道之间的影响。 三是话者本人影响,同一说话人在不同情绪和不同时间下的录音对系统 性能影响也较大。事实上,同一个人在喜、怒、哀、乐等不同境况下,发声 的差异比较大,语音特征变化也比较大。 四是系统稳定性影响,与语音的长短,测试训练的复杂程度都有一定的 关系等等。 事实上,早在八十年代初的时候,国外很多研究者就发现,通常实验室 中的语音识别系统,当工作在实际含有噪声的环境下时,性能明显下降。 b d a u l r i c h ,l r a b i n e r 和t m a r t i n 演示了一个在安静条件下识别率为9 5 的 孤立词系统,当在s n r 为1 8 d b 的条件下识别率只有6 0 。语音识别系统当 2 哈尔滨工程大学硕士学位论文 在实际环境使用时,训练和测试环境中传输通道的不匹配也将明显引起系统 性能的下降。a a c e r o 和r s t c m 2 9 报道了对大词表语音识别系统s p h i n x 2 , 在麦克风特性匹配的条件下识别率可达8 5 ,而同一系统在麦克风特性不匹 配的条件下,其识别率仅为1 9 。由此可见,环境中的背景噪声以及传输通 道变化引起的畸变是影响语音识别技术走向实用化的比较关键的问题。 p e d r o 等人对基于电话网络的音素识别结果进行了分析【3 j ,他们采用了两 个语音库:干净的原始语音库和经过不同类型电话信道后得到的语音库。需 要声明的是,这两个语音库的语音内容是相同的。研究结果表明,在语音信 号质量下降时,识别率降低了约1 1 4 ,尤其是当应用干净的语音数据训练, 而用经过信道失真的语音数据识别,即信道不匹配时,识别率降低了约 2 1 4 。 在n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 历年的测试中,信 道不匹配问题也一直是受到关注的主要问题之一。虽然随着信道顽健性 ( r o b u s t n e s s ) 技术的发展,信道不匹配带来的识别性能下降情况有所好转,但 是与信道匹配的情况相比还是有相当的差距,即使到了2 0 0 3 年,r e y n o l d s 的实验【3 j 仍然表明了这种差距的存在。 在上述说话人识别系统所面临的实际问题中,训练语音和测试语音之间 的传输信道不匹配是致使系统性能下降的关键原因之一州。本文研究的是电 话信道与麦克信道之间的传输影响,传输信道的不匹配是指,系统训练时的 语音数据所采用的传输信道和话机类型与测试时所采用的传输信道和话机类 型不同。语音数据本身会由于信道传输特性与话机频率等参数的影响产生失 真,这样导致的结果就是训练时的语音特征与测试时的不匹配,从而使得原 来的识别策略不再适用,因而系统性能下降。在实际应用中,训练和测试时 所使用的信道和话机往往是不同类型的,即使是同一类型,其特性参数也不 完全一致。 随着语音识别技术朝着实用化的方向发展,研究不依赖于环境变化的顽 健的语音识别系统就显得尤为重要。因此,如何消除信道失真,即增强信道 3 哈尔滨工程大学硕士学位论文 顽健性是提高说话人识别系统实用性不得不考虑的一个关键问题,它的研究 一直是说话人识别领域的个重要课题。本文从研究电话信道补偿技术出发, 力求减少电话信道失真的影响,达到提高说话人识别系统性能的目的。 1 2 国内外研究现状 目前,对信道不匹配问题的抑制方法主要有信道补偿技术【5 1 和提取说话 人相关的顽健( r o b u s t ) 特征两大类方法,而对前者的研究主要集中在语音识 别方面。贝尔实验室和i b m 公司都在这一领域走在了前列,取得了显著的成 果,并且在商业上应用成功,贝尔实验室主要偏重于电信方面应用的语音识 别系统,如电话查询等;而i b m 则偏重于商务应用,在连续语音识别上取得 了不小的成功,但都对噪声环境下或方言的语言识别率和稳健性等都不尽人 意。国内研究起步比较晚,研究说话人识别研究的单位主要是一些大学和研 究所,如北京大学信息中心、清华大学自动化系、东南大学、中科院、东南 大学、哈工大等,但研究与应用水平都和国外有较大的差距。 信道补偿方法有多种,通常人们把信道补偿方法分为特征空间补偿方法、 模型空间补偿方法和得分空间补偿方法三类。 1 特征空间补偿方法 特征空间补偿方法旨在特征提取阶段去除信道的影响。该方法认为录制 训练语音的信道为标准信道( 通常将其影响忽略不计) ,测试时首先估计出 录制测试语音的信道对特征的影响方式和影响程度,然后对失真特征做一个 反变换消除信道对特征的影响,用补偿后的特征参与测试,得出最终结果。 特征补偿方法适用于语音识别和说话人识别,目前常用的特征空间补偿 方法有倒谱差分、倒谱平均减c m s ( c e p s t n a nm e a ns u b t r a c t i o n ) t 6 1 、 a c w ( a d a p t i v ec o m p o n e n tw e i g h t i n g ) 7 1 、l i f t e r t s l 、r a s t a ( r e l a t i v es p e c t r a ) 处理技术【9 】等等,其中以倒谱均值减算法计算量小,补偿效果好而得到广泛 的应用。 2 模型空间补偿方法 4 哈尔滨丁程大学硕士学位论文 模型空间补偿方法从说话人目标模型的角度出发,减少信道对系统性能 的影响。与特征空间补偿方法不同,模型补偿方法是以信道估计模型为对象, 对模型的各个参数作相应的补偿,达到模型具有一定稳健性的目的。 目前模型空间补偿的方法主要有混合高斯模型( g m m ) 1 0 1 1 1 1 自适应补偿, 人工神经网络也是刚发展起来的新型模型补偿方法,文献【1 2 】中,采用与话机 类型相关的背景模型,使训练语音和背景模型保持一致。说话人模型合成s m s ( s p e a k e rm o d e ls y n t h e s i s ) o b l 也是一种模型空间补偿方法,利用与说话人无关 的信道变换,合成与测试段信道类型一致的说话人模型。此外,还有基于预 测的模型补偿方法和统计匹配方法等等。 3 得分空间补偿方法 由于信道失真的影响,在测试时模型对测试语音给出的最终得分往往会 产生一个固定的偏差。得分空间补偿方法正是从这一角度出发,预先估计出 得分偏差,测试时从原有模型得分中除去这一偏差,最终的判决策略是针对 除去偏差的所有得分做的。 较著名的得分空间补偿方法有z n o r m ( z e r on o r m a l i z a t i o no rc e n t e r e d n o r m a l i z a t i o n ) 和h n o r m ( h a n d s e tn o r r n a l i z a t i o n ) 方法 1 4 1 ,这两种方法的主要 思想是通过对似然比分数归一化,使得似然比分数分布服从标准正态分布, 这有利手采用说话人无关的单一判决阈值。文献【1 5 】【1 6 1 表明这两种方法在电话 信道下的说话人识别测试中表现出很好的性能。 在上述三种补偿方法中,特征空间补偿方法应用最为广泛,因为它与任 何特定的模型和得分算法无关,但又与语音信号本身的固有属性相关,所以 广泛应用于语音识别和说话人识别应用中。 此外,还有一些其它补偿方法,它们与所提取的特征无关,仅仅是从信 号角度研究信道失真问题,因此可以将其归类到信号处理方法中去。比较有 代表性的方法有q u a f f e d 提出的线性滤波器串联方法旧,使用v o l t e r r a 级数或 神经网络i ls 】等对信道建模的方法等等。 哈尔滨工程大学硕士学位论文 1 3 说话人识别技术存在的难点 说话人识别作为一个新兴的技术,在发展和探索的道路上逐渐成熟,但 离实际应用仍有很大差距,具体体现在以下几点: l 、到目前为止,仍没有找到简单可靠的说话人语音特征参数。语音中包 含了丰富的信息,就个体特征信息特征而言,没找到很好的分离方法。 2 、语音信号的变异性,即使是对同一个人,在不同的时间、不同的情绪、 不同的健康状态和不同的环境中的语音,其个性特征都在变化之中,从而增 加了识别的难度。 3 、声音通过信道传输时,会增加噪声干扰和产生频谱畸变影响,即使是 同一线路,在不同的环境下仍有不同的表现。 4 、特征空间有限,对于太大的特征空间参数,会产生特征空间相交,降 低识别效果,同时严重影响计算速度等等。 5 、声学噪声的影响、麦克和话机的匹配性能,模型训练时间的长短等等 都是难以克服的因素。 1 4 本文研究的内容 说话人识别的关键是能否运用系统模型和算法,抓住语音信号中最稳定 的信息,因此提高说话人识别系统的信道顽健性有着重要的实际意义,本文 主要围绕说话人识别系统的信道顽健性技术展开研究,从电话信道补偿上研 究,提高系统的信道顽健性。 主要研究内容如下: l 、电话信道补偿研究,分析电话和麦克信道之间的差异,应用a c w 和 c m s 算法补偿方案进行仿真和实验,提出一种综合应用a c w 、l i f t e r 和c m s 的联合补偿方案,并进行该方案的信道补偿实验分析,得到多种实验结论; 2 、对基线系统中混合高斯模型( g m m ) 的模型参数增加自适应算法和 得分补偿算法,迸一步提高系统性能; 6 哈尔滨工程大学硕士学位论文 3 、开发一个可以实用的识别系统平台。 7 哈尔滨工程大学硕士学位论文 第2 章基线系统和语料库建立 本文所使用的说话人识别基线系统( b a s e l i n es y s t e m ) 是文本无关的说话 人辨认系统。此系统采用l p c c 倒谱系数为特征参数,6 4 维的高斯混合模型 ( g m m ) 为识别模型,针对同一语料在麦克和电话信道条件下分别进行了测 试。其中语料库中的语料均为实验室环境下录制的,语料库的设置充分考虑 到了后面的实验设置。 2 1 引言 说话人识别的基本原理如图2 1 所示。系统实现主要包括两个阶段:训 练阶段和识别阶段。在训练阶段,由说话人通过信道录入一定长度的语音, 计算机从此语音信号中提取体现该说话人个性特征的声学参数,再根据一定 的模板( 模型) 建立方法形成该说话人的模板,并存入说话人模板库中;在 识别阶段,计算机用同样方法提取待识别说话人的语音信号的声学参数,并 根据一定的判决方法来判断待识别说话人的身份【1 9 l 。 从图2 1 可以看出,说话人识别系统的实现可以分解成如下几个基本问 题: 特征提取; 说话人模板建立,即训练问题; 测试语音与说话人模板的匹配计算; 识别与判决策略。 本文所使用的基线系统为文本无关的说话人辨认系统,主要针对说话人 辨认系统的应用场合而设计的。选用文本无关系统的原因在于说话人辨认系 统的应用场合中文本的不确定性,以及文本无关系统自身的用户方便性和应 用范围广等优点。 8 哈尔滨工程大学硕士学位论文 图2 1 说话人识别基本原理 2 2 说话人识别基线系统 说话人识别系统按识别任务可以分为两类:说话人辨认系统和说话人确 认系统【2 0 】。前者用以判断某段语音是若干人中的哪一个人所说的,是“多选 一 问题;而后者用以确定某段语音是否是指定的某个人所说的,是“一对 一 判别问题。二者的应用场合不同,说话人辨认系统主要应用在国防监听、 刑侦破案、个性化应用等场合,说话人确认系统主要应用在电子交易、公安 取证、声控锁等场合,本基线系统为说话人辨认系统。 2 2 1 预处理 1 、静音处理 在电话通讯中,据统计,有用的语音只占信道时间的4 0 左右,而只有 纯语音段才包含了说话人相关的信息,为提高计算效率,尽可能去掉无用的 静音语料,并且在系统算法中,应用了对数似然比分数算法【2 1 1 ,该算法要求 语音特征矢量不能为零矢量,所以在训练说话人模板时必须使用纯语音段, 这就需要对训练语音进行预处理,剔除语音中的静音语料。 本文主要根据帧能量的大小来确定某一帧语音到底是语音帧,还是静音 帧。这样做的难度在于,静音段并不是一点声音也没有,可能包含有少量的 背景噪声、交流噪声等。本文采用的是固定能量阈值判别方法,对于说话人 9 哈尔滨工程大学硕士学位论文 身份识别来说,稍高点的阈值并不影响识别的精度,且能很好的除去全部静 音和大部分的清噪音,能量阈值采用多次实验的方法获得。阈值的提高必将 减少有效语料的长度,为此,本文适当延长了训练和测试的语音长度。根据 前人实验的经验,这里训练语音取3 0 5 0 分钟语料,测试语音取弘6 秒。 2 、预加重处理 由于声门脉冲形状和口唇辐射的影响,语音信号的频率在总趋势上会有 高频衰落的现象,所以语音信号经过采样和量化后,一般还要对语音信号进 行预加重( p r e e m p h a s i s ) 处理,实验表明,大约在8 0 0 h z 以上每倍频程下 降6 分贝。要抵消这一影响,通常对高频部分作一个提升,使信号变得平坦。 在做l p c ( 1 i n e a rp r e d i c t i o nc o d i n g ) 分析之前采用一个非常简单的一阶f i r 滤 波器进行预加重,提升高频成分。其传递函数为1 一a 2 ,式中a 为预加重系 数,对以频率1 0 l ( h z 的采样语音,一般a = 0 9 5 0 9 7 。 下面是汉字“七 的发音在预加重前后的时域和其中一帧的频域波形图, 预加重系数取a = 0 9 7 。 i 0 哈尔滨工程大学硕士学位论文 加 80 删 馨2 0 一加 ,、 斟晰 af 、 懈v rr1 l fw 删1 f 、v 、 良。 i 。 i 。1 l i l i 1 l ”,v - 州m w 州m il 口5001 口0 01 5 0 口2 0 0 02 5 0 03 0 叩3 5 叩4 咖 预加重之前语音频域波形( h z 】 图2 2 语音在预加重前后时域和频域波形对比图 从图2 2 可以看出,预加重处理对语音时域波形影响不是大,基本保持了 原有波形的变化趋势,但是在频域就有较大的变化,经预加重后,频域上高 频部分的幅度有了较大的提升,低频部分变化不大,符合设计要求。 3 、分帧处理 理论上讲,由于声音是人体肌肉牵引颤动发声的,故它的变化是个相对 缓慢的过程,实验表明,在1 0 m s , - , 3 0 m s 内,语音特征基本不变,即相对稳定, 可以看着是一个准平稳的随机过程。所以语音信号的处理必须建立在这一短 时的基础上进行分析,这种短时是指一段有效语音,也就是所说的帧。 分帧一般采用交叠方法,目的是为了帧与帧之间变化平滑,保持一致的 连续性,相临两帧的重合部分为帧移,帧移长度一般为帧的叽1 2 倍,本文 取1 2 。其实帧的选取就是一个加矩形窗的过程,但是矩形窗的频谱泄露最 大,为了减少频谱泄露的影响,本文采用汉明窗。 哈尔滨工程大学硕七学位论文 图2 3 矩形窗和汉明窗频域波形图 图2 - 3 是窗长为2 0 0 个样点,采样频率为8 0 0 0 h z 的两种窗函数的频谱波 形图。从图上可以看出,在频域,矩形窗主瓣比汉明窗主瓣窄,主瓣性能好 于汉明窗,但是矩形窗的旁瓣幅值远大于汉明窗,频谱衰减性能汉明窗远胜 于矩形窗。由于本文所采取的特征都是频域信号,为减少频谱泄露的影响, 分帧处理采取加汉明窗。 2 2 2 特征提取 l p c c 特征参数的优点是它比较彻底地去掉了语音产生过程的激励信 息,主要反映声道响应,而且往往只需十几个倒谱系数就能较好地描述语音 的共振峰特性,该参数在说话人识别应用中获得了良好的效果【2 8 1 ,而l p c c 一阶差分能够较好地反映l p c c 的动态信息,因此,系统采用基线系统的特 1 2 哈尔滨工程大学硕士学位论文 征由1 0 维l p c c 2 1 1 及其一阶差分共2 0 维特征组成。 图2 4l p c c 系数提取过程 l p c c 由l p c 系数得到,l p c 系数是语音特征线性预测的加权系数组合, 一般来说可以用系数序列 口, 来定义一个尸阶线性预测器f ( z ) , f ( z ) = 口,z 一,可以将这个p 阶线性预测器从时域角度来理解,就是用信号 前尸个稃本信号值得到当前样本的预测值量( 珂) = 口,x ( 拧一f ) ,因为线性预测 器f ( z ) 是用a r 【2 2 1 模型的系数 口, 来构造的,而强模型是在最小均方误差 上对数据的拟合,所以线性预测器f ( z ) 必然是一个最佳预测器。语音信号的 线性预测就是根据这一重要性质,从语音信号序列x ( 门) 出发,依据最小均方 误差准则,估计出一组线性预测系数囊, , 口, 也被称为线性预测系数或l p c 系数。 为了使模型能够很好的符合语音产生的模型,模型维数p 应与共振峰的 个数相对应,通常是一对极点对应一个共振峰。此外当语音为鼻音和摩擦音 时,声道传递函数并不符合全极点模型的假设,而是一个既有极点又有零点 的模型。但是由于可以用多个极点来近似一个零点,所以仍然可以采用全极 点模型的假设,但要求有足够的维数。考虑到这些情况后,一般计算模型的 维数为p - - 2 d ,d 为共振峰的个数。因电话语音共振峰个数一般不大于5 , 故本文采用线性预测系数维数p - - 1 0 。为了得到线性预测系数溉 的值,本文 采用杜宾( d u r b i n ) 算法求得。 l 、杜宾算法 该算法的计算过程如下: 计算自相关系数尺。( ) ,j = 0 ,1 ,2 ,3 ,p ; e o lr 。( o ) ; i = i ; 哈尔滨工程大学硕士学位论文 开始按如下公式递推运算: + f 一1 尺。( i ) 一口r 。( i - j ) t = 口;o = k i 口夕= 口p t 口等 _ ,= 1 , - - i - 1 ( 2 - 1 ) ( 2 - 2 ) ( 2 - 3 ) e o = ( 1 一砰) 口等 ( 2 - 4 ) 使f = f + 1 ,若f p ,则算法结束退出,否则返回第步,按公式( 2 一1 ) 到公式( 2 4 ) 进行递推。 上面公式中括号去的上标表示的是预测器的维数,口? 表示第f 阶预测器 的第,个预测系数,e ( 为第f 阶预测器的预测残差能量,这样经过递推计算 后,可以得到f = 1 , 2 ,p 各阶预测器的解,最终解为: 石,= a ( ,p = 1 , 2 ,p ( 2 5 ) p e 力= 兄( o ) 兀( 1 一砰) ( 2 6 ) = l 由于各阶预测器的预测残差能量e ( 订都是非负的,因此可以得出参数k 必 须满足: lk 。l l扛1 , 2 ,p( 2 - 7 ) 且e 必须随着预测器维数的增加而减小,参数k 称为反射系数,iti l 这个条件十分重要,因为它保证了系统稳定的条件,也就是确保了系统的极 点都在单位圆内的充分必要条件。 2 、l p c c ( l i n e a rp r e d i c t i v ec o d i n gc e p s t r u m ) 提取过程 如图2 4 所示,首先对输入的模拟语音信号j ( f ) 进行采样量化和预加重处 理,得到离散语音信号s ( f ) ,其中1 刀n ,n 为总的采样点个数,特征提取 是在s ( f ) 上进行的。由于人的发音器官的肌肉运动速度较慢,所以语音信号 1 4 哈尔滨工程大学硕士学位论文 可以认为是短时平稳的。根据这一特性,在特征提取中需要对语音信号进行 分帧处理,具体分帧是采用可移动的有限长度窗口进行加权的方法来实现的。 即用某种窗函数w ( 刀) 来卷积s ( o ,从而形成加窗语音信号s w ( n ) : ( ,2 ) = s ( 刀) o 似刀) ( 2 - 8 ) 其中,运算符。代表卷积运算。不同的窗口形状将决定短时参数的性质, 基线系统采用汉明窗作为窗函数,帧长2 5 毫秒,帧移1 2 5 毫秒。 然后计算加窗语音信号的l p c 系数,最后根据l p c 和l p c c 之间的关 系得到l p c c 特征。l p c 与l p c c 之间的关系( 2 9 ) 如下: ( 1 ) = q ( 甩) = + 善n - li k 曲c 凹( 岔) l n : p ( xi 兄) = y p ( x ,fi 五) = e p ,n b 。( 矗) - - i - p ,b t ( x 。) ( 2 - 1 0 ) 其中,其中p ,是对每个类别的加权值,且每个说话人特征状态的概率密度函 数( p d f ) 为: 玩( 石) : f p 一争卜删”所 ( 2 11 ) ( 2 万) ii 其中r 是特征矢量的维数,而且假定丁个观测的特征矢量是相互独立的。函 数玩( x ) 是r 维的高斯概率密度函数,具有依赖于状态的均值矢量麒和协方 差矩阵,。假设现在有一个元的估计值,记为。目标就是找到一个新的估 计值“,使得: p ( x i 矿“) p ( x l )( 2 - 1 2 ) e m 算法就是在+ 1 未知时,最大化对数似然函数l o g p ( x ,ii “) 】的期望值, 而观测的特征矢量x 和当前估计矿是己知的,对于所有声学特征类,该期望 值为: e ( 1 0 9 p ( xi 矿1 ) 】) = p ( x ,ii2 k ) l o g p ( x ,fl “) 】 ( 2 1 3 ) 这个求和式是e m 算法中求期望的步骤。可以看出,用以上的公式对岔“最 大化e ( 1 0 9 p ( xi 力“) 】) ,可以增加第k 次对数概率,即p ( xl “) p ( xi ) 。 这个最大值问题的解是通过将e ( 1 0 9 p ( xi “) 】) 对未知的g m m 均值、方差 和加权参数求导得到的,即对于名= p ,以,) ,有: p 卜万w 磊l - z p 【i 一= h 庇( 2 - 1 4 ) 矿1 = 譬筹鲁 p 嘲 1 7 :+t:l:;:;!兰:!婴一?+(?+)r(216 ) 叫 = 1 p ( = i l x 。,) 尸。护 一叫 其中, 地刮哟2 鑫蔫 任 b f ( x 。) 是在第i 次迭代中的第七个p a f 混合分量,其中协方差矩阵中t 表示矩 阵转秩。这个步骤被称为e m 算法的最大化步骤。把g m m 中的参数用新的 模型参数替换,得到混合分m 的x - - 次估壬 - b f “o 。) ,以上两个步骤重复进 行,直到满足条件退出迭代循环。实际使用中,一般使用收敛误差值小于设 计值和规定固定循环次数为迭代条件,防止进入死循环。 2 2 4 识别过程 对于有个说话人的识别系统,系统中的每个说话人用混合数为,的 g m m 来表示。在识别阶段,假设待识别的语音特征矢量集为 x = x a ,x 2 ,x r ) ,则该人为第甩个说话人的后验概率为: 烈w 卜锷掣2 黑 p 其中,以为第刀个说话人的模板;p ( 以) 为第,1 个人说话的先验概率;p ( x ) 为所有说话人条件下特征矢量集x 的概率密度;p ( xl 九) 为第万个人产生 特征矢量集x 的类条件概率。 识别结果由最大后验概率准则给出,即: ,z a r g m a 。x p ( 2 ix ) ( 2 _ 1 9 ) 其中刀。表示最终判决结果。一般情况下,假设每个人说话的先验概率相等, 即: p ( 以) 5 万1 1 ,l = 1 ,2 ,( 2 - 2 0 ) 此外对于每个说话人,式( 2 一1 8 ) 中的p ( x ) 都相等。这样,式( 2 1 9 ) 可以写 哈尔滨工程大学硕士学位论文 成: 疗= a r g 燃p ( x i 以) ( 2 2 1 ) 这时,最大后验概率准则就转化成了极大似然准则。 通常为了简化计算,一般采用对数似然函数: ( xl 丸) = l n p ( xi 九)( 2 - 2 2 ) 判决结果由式( 2 2 2 ) 给出。 , 刀a r g m a 。x l ( xi 以) ( 2 2 3 ) 式( 2 2 2 ) 就是闭集测试判决准则。 2 3 语料库建立 为了突出麦克信道和电话信道的区别,保证原始语料的一致性,本语料 库用录音笔录制。录音笔录音格式为1 6 b i t ,采样频率8 0 0 0 h z ,高质量录音 模式。本实验中共采集l o 人声音数据,每人录音l 肛1 5 分钟,其中男声5 人,女生5 人。电话信道语音采用播放录音笔中的原声再次经过电话信道录 音得到,所得数据为电话信道下的语料库,这样就确保了两语料库来自同一 语料库,提高了第三、第四章中实验效果的可靠性。 语料库录制完成后,用c o o le d i tp r o2 0 软件将语音分割成不同的训练语 料库和测试语料库,训练语料库每人语音长度为5 1 0 分钟,测试语料库每 人4 0 6 0 个语音片,每个语音片时长3 6 秒,保存格式为纯数据的p c m 文 件格式。 背景语料库采取广播录音,主要是新闻联播、焦点访谈、大专辩论会、 评书、音乐欣赏等节目录音,另外还增加交通背景声、集市交易背景声等嘈 杂背景的录音,录音片段为5 0 个,总时长约4 0 0 分钟,从中截取部分录音片 段作为测试背景语料,详细见表2 1 。 语料库中录音笔录音的语料均在实验室环境下录制的。这降低了问题复 杂性,因为实验室环境相对比较安静,可以不考虑背景噪声的影响,使本文 1 9 哈尔滨工程大学硕士学位论文 专注于信道不匹配问题。但实验室也并不是绝对安静的,其中包含了少量的 背景噪声,如交谈、计算机机箱内风扇的声音、电话铃声等等,这里将其忽 略不计。 表2 1 语料库 内容性别人数语音文件数单个录音时长总录音时长 训练语男5 55 l o 分钟4 2 分钟 料库 女555 1 0 分钟3 8 分钟 测试语男52 2 03 “秒1 8 分钟 料库女52 3 03 “秒1 6 分钟 背景训男 2 02 05 l o 分钟1 2 0 分钟 练语料女2 02 05 1 0 分钟1 2 0 分钟 库混合 1 01 05 1 0 分钟7 0 分钟 背景测男2 02 5 03 “秒1 6 分钟 试语料女2 02 5 03 “秒1 6 分钟 库混合 1 01 0 03 “秒1 0 分钟 2 4 实验分析 基线平台采用v c + + 编程,对实验人数1 0 人,每人4 0 组识别数据进行 分析,采用1 6 和6 4 维g m m 模型得到由麦克信道训练,训练和识别特征为 l p c c 参数,在麦克、电话和交叉信道下识别率的性能参数列表如下: 表2 2 说话人识别基线系统性能 麦克信道训练 g m m 维数麦克信道电话信道 电话信道识别 1 6 维9 1 6 9 0 3 5 2 3 6 4 维 9 2 8 9 1 2 5 3 1 由实验可以看出,以l p c c 为基础的基线系统,麦克信道下识别效果略 高于电话信道,同时其识别率随g m m 模型的维数增加也有轻微的增加,当 哈尔滨工程大学硕士学位论文 从1 6 维增加到6 4 维时,性能提高约1 ,可见当增加高斯模型维数到一定 数目后,效果不会有大的提高升,本文取6 4 维高斯模型。 2 5 本章小结 本章重点讨论了说话人识别基线系统的情况,包括基线系统所使用的特 征、模型以及判决策略等。在训练说话人模板时,本文并不是使用整个训练 语音文件,而是从中抽取出纯语音帧,即有效帧来进行训练。后面的信道顽 健性方法都是在基线系统上扩展的。 从基线系统的性能上看,只有l p c c 特征参数作用的情况下,相同信道 识别效果还是比较理想,均达到9 0 以上,但交叉识别的正确率只有5 2 0 6 左 右,性能比较低。 2 1 哈尔滨工程大学硕士学位论文 第3 章基于电话信道的联合补偿方法 由于信道不匹配的影响,致使语音信号的声学参数发生改变,不能准确 反映原来的信息,信道补偿技术利用某种方法对声学参数进行修改,使之与 训练时的声学参数相匹配,从而提高性能。信道补偿方案通常放在特征空间、 模型空间和得分空间进行,可以选择其中一个或多个空间进行补偿。 图3 1训练与测试环境不匹配的影响 在语音识别领域,信道补偿方法的应用已经使得系统的识别率有了很大 的提高。虽然说话人识别和语音识别有一定差异,但是许多成功的信道补偿 方法都可以应用到说话人识别领域,来提高说话人识别系统的信道顽健性。 特征空间补偿方法是目前应用最广泛的补偿方法,本文也是从特征空间补偿 出发,力求更有效的补偿方案,以提高说话人识别系统的性能。 在电话信道补偿算法中,大多数方案都是基于信道线性补偿的,例如著 名的倒谱均值减( c m s ) 、r a s t a 等,补偿效果都比较理想。对于非线性信 道的影响,一直没有找到好的补偿办法,如频谱和语音共振峰上引起的非线 性变化等。目前抑制非线性频谱变化效果较好的有自适应加权( a c w ) 算法, 本文结合二者的特点,在信道线性和非线性变化中作某种均衡,使电话信道 补偿性能有进一步的提高。 哈尔滨工程大学硕士学位论文 3 1电话信道影响 语音经过麦克信道和程控交换机的电话信道【2 5 1 1 2 6 1 ,其产生的结果有很大 的不同,麦克的采样频率高,频谱特性保持比较好;在电话信道上,采样频 率只有8 0 0 0 h z ,同时信道网络也会影响语音频谱包络的外形,产生虚的峰值 包络,虚峰的产生和频谱的漂移证实了语音信号经过电话信道后产生了畸变。 图3 2 同一语音在麦克和电话信道下的谱包络图 图3 2 是同一帧语音在不同信道下的谱包络图,其中实线表示语音信号的 麦克信道谱包络,虚线表示语音信号的电话信道谱包络。从图3 2 可以看出, 电话谱包络相对于麦克谱包络波形基本相似,波峰之间有接近的平移现象, 造成波形上下移动的是电话信道线性影响的结果;同时两波形也出现两个明 显的差异,一是多了个波峰( 虚峰) ,二是两谱图有相对的移动。图3 2 中, 在1 3 0 0 h z 频率处,电话信道谱包络产生了个虚峰,它的位置接近于麦克 信道第一和第二谱包络共振峰频率差位置,这个虚峰的产生就是电话信道非 哈尔滨工程大学硕士学位论文 线性影响的结果。从上面分析可以得出这样的结论,语音信号经过电话信道 后,既有线性的漂移,又有非线性的虚峰产生。 3 1 1 电话信道的线性影响 1 、加性噪声影响 语音信号在话筒录入和信道传输过程中,不可避免的有噪声的干扰,这 里假设受干扰的语音噪声序列y n 】,它是由原语音信号序列x n 】和噪声序列 b n 】组成。 y n 】_ x n 】+ b n 】( 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论