(控制理论与控制工程专业论文)基于矢量量化和隐马尔可夫模型的说话人识别研究.pdf_第1页
(控制理论与控制工程专业论文)基于矢量量化和隐马尔可夫模型的说话人识别研究.pdf_第2页
(控制理论与控制工程专业论文)基于矢量量化和隐马尔可夫模型的说话人识别研究.pdf_第3页
(控制理论与控制工程专业论文)基于矢量量化和隐马尔可夫模型的说话人识别研究.pdf_第4页
(控制理论与控制工程专业论文)基于矢量量化和隐马尔可夫模型的说话人识别研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(控制理论与控制工程专业论文)基于矢量量化和隐马尔可夫模型的说话人识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理r 大学硕士学位论文 摘要 说话人识别是指通过说话人的语音特征来自动识别说话入的身份,它在许 多领域内都有良好的应用前景。本文通过分析说话人识别基本原理与系统结构, 考察现有的说话人识别技术,研究线性预测倒谱系数及其差分、美尔倒谱系数 及其差分特征参数相结合,矢量量化( v q ) 与隐马尔可夫模型( h m m ) 相结合的 方法应用于说话人识别,建立说话人识别系统。 本文首先从语音信号的预处理开始分析,对语音信号进行了端点检测,滤 除了语音信号的无声段和噪声,为语音特征参数的提取提供了有效的语音段。 本文还比较了传统的语音端点检测方法与基于l c p 美尔倒谱特征的端点检测方 法的性能,通过比较基于l c p 美尔倒谱特征的端点检测方法能够更好地在高噪 声环境下检测出语音端点来。 本文应用全极点模型提取语音信号的线性预测系数,并推导出其倒谱系 数,获得线性预测倒谱系数及其差分,用以描述说话人声道的动态变化。选用 美尔倒谱系数及其差分作为语音识别的特征参数,来描述人耳的听觉频率非线 性特性。实验证明这种将倒谱系数与其一阶差分结合在一起形成新的特征参数 与单纯的线性预测倒谱系数和美尔倒谱系数相比能有效地提高识别率。 识别算法方面,分析了目前常用的矢量量化( v q ) 方法和隐马尔可夫模型 ( h m m ) 方法,介绍了矢量量化的基本理论及其l b g 算法,还分析了隐马尔可 夫模型的理论基础及其有关实现算法,研究了其在说话人识别中的应用。 最后用m a t l a b 软件仿真实现了一个说话人识别系统,该系统包括了说话人 辨认模块和说话人确认模块。程序界面友好,操作方便。先对实验中的l o 个人 进行声音采集,预处理,然后在仿真系统上,分别用v q 和h m m 两种识别算法 进行实验仿真。最后又提出了基于v q 和h m m 的说话人识别系统,在隐马尔可 夫模型前端采用矢量量化为每一说话人设计码书,避免了由于说话人使用同一 码书带来的量化误差,接着将误差又带到下一级的h m m 识别,引起误差积累效 应。获得了很高的识别率。具有运算速度快,计算量小,差错率低等优点。 关键词:说话人识别,线性预测倒谱,美尔倒谱系数,矢量量化,隐马尔可夫 模型 武汉理一j :大学硕十学位论文 a b s t r a c t s p e a k e rr e c o g n i t i o ni st h ep r o c e s so fa u t o m a t i c a l l yr e c o g n i z i n gw h o i ss p e a k i n g o nt h eb a s i so fi n d i v i d u a li n f o r m a t i o ni n c l u d ei ns p e e c hs i g n a l s i th a sw e l l a p p l i c a t i o np r o s p e c t si nm a n yf i e l d s b ya n a l y z i n gt h eg e n e r a lp r i n c i p l e sa n ds y s t e m s t r u c t u r eo fs p e a k e rr e c o g n i t i o na n dc o n s i d e r a t i o ns u b s i s t e n tt e c h n o l o g yo fs p e a k e r r e c o g n i t i o n l i n e a rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t ( l p c c ) a n dm e lf r e q u e n c yc e p s t r a l c o e f f i c i e n t s ( m f c c ) c h a r a c t e r i s t i cp a r a m e t e ra r ec o m b i n e dt o g e t h e r ,t h ev e c t o r q u a n t i z a t i o n ( v q ) i sc o m b i n e dw i t hh i d d e nm a r k o v s ,m o d e l ( h m m ) a n da p p l i e dt o t h ed i s c e r n m e n tm e t h o dt h a tt h es p e a k e rr e c o g n i t i o n s e tu ps p e w e r sr e c o g n i t i o n s y s t e m t h i sd i s s e r t a t i o nh a sa n a l y z e ds i n c e p r e t r e a t m e n to ft h es i g n a l o ft h e p r o n u n c i a t i o n ,m e a s u r et h ee x t r e m ep o i n tt ot h es i g n a lo ft h ep r o n u n c i a t i o n ,f i l t e r e x c e p ts i l e n ts e c t i o na n dn o i s eo ft h es i g n a lo ft h ep r o n u n c i a t i o n ,h a so f f e r e dt h e e f f e c t i v ep r o n u n c i a t i o ns e c t i o nf o ra b s t r a c t i o no ft h ec h a r a c t e r i s t i cp a r a m e t e ro ft h e p r o n u n c i a t i o n t r a d i t i o n a lp r o n u n c i a t i o ne x t r e m ep o i n td e t e c t i o nm e t h o da n do nt h e b a s i so fl p c m f c ce x t r e m ep o i n tp e r f o r m a n c eo fd e t e c t i o nm e t h o dh a v er e l a t i v e l y a l s oi nt h ea r t i c l e ,d r a wt h ec o n c l u s i o n :o nt h eb a s i so fl p c m f c ce x t r e m ep o i n t d e t e c t i o nm e t h o dc a nf i n e l ya p p e a rp r o n u n c i a t i o nc o m eb ye x t r e m ep o i n tt om e a s u r e u n d e rt h ee n v i r o n m e n to fh i g hn o i s i n g t h i sd i s s e r t a t i o nu s e st h el i m i tm o d e lc o m p l e t e l y ,d r a wl p c co ft h es i g n a lo f t h ep r o n u n c i a t i o n ,w a si ta p p e a re e p s t r a lc o e f f i c i e n t ,g o tl i n e a rp r e d i c t i o nc e p s t r a l c o e f f i c i e n ta n dt h ed i f f e r e n c ed i v i d et od e r i v e ,u s e dt od e s c r i b et h ed y n a m i cc h a n g e o fs p e a k e r ss o u n dc h a n n e l s e l e c t e df o ru s em f c ca n dt h ed i f f e r e n c ea n dd i v i d e dt h e c h a r a c t e r i s t i c p a r a m e t e r a s p h o n e t i cr e c o g n i t i o n ,t o d e s c r i b et h en o n - l i n e a r c h a r a c t e r i s t i co ff r e q u e n c yo f s e n s e o f h e a r i n go f e a r so f p e o p l e i nt h er e s p e c to fr e c o g n i t i o na l g o r i t h m ,t h i sd i s s e r t a t i o nh a sa n a l y z e dt h ep o p u l a r m e t h o do fv qa n dh m m ,i n t r o d u c e dt h eb a s i ct h e o r yo fv e c t o rq u a n t i z a t i o na n d t h el b ga l g o r i t h m ,a l s oa n a l y z e dt h eh i d d e nm a r k o vm o d e la n di t st h e o r e t i c a l f o u n d a t i o nf o rt h er e a l i z a t i o no fa l g o r i t h m s ,s t u d i e di nt h es p e a k e rr e c o g n i t i o n i i a p p l i c a t i o n f i n a l l v ,r e a l i z e as p e a k e rr e c o g n i t i o ns y s t e mb ym a t l a bs o f t w a r e ,w h i c h i n c l u d e s s p e a k e r i d e n t i f i c a t i o na n ds p e a k e rv e r i f i c a t i o n f i r s te x p e r i m e n t 10 i n d i v i d u a l sv o i c ec o l l e c t i o n ,p r e t r e a t m e n t ,a n dt h e ni nt h es i m u l a t i o ns y s t e m ,w e r e t 、) l ,ok i n d so f v qa n dh m mr e c o g n i t i o na l g o r i t h ms i m u l a t i o ne x p e r i m e n t i nt h ee n d , t h i sp a p e rp r o v i d e sam e t h o do fc o m b i n i n gv qw i t hh m m t os e tu ps p e a k e r r e c o g n i t i o ns y s t e m d e s i g no n ey a r do fb o o k si nt h ea m o u n to f v e c t o ra d o p t e do f m o d e l 】b o n to fh i d d e nm a r k o v ,a v o i dt h eq u a n t i z a t i o ne r r o rt h a tt h es p e a k e ru s e st h e s a m ey a r do fb o o k st ob r i n g ,t h e nt h e e l t o rw e n ti n t ot h en e x tc l a s sh m m d i s c e r a c u a s e dt h ee t r o rt oa c c u m u l a t et h ee f f e c t ,g o t t e nv e r yh i g hd i s c e r n m e n tr a t e t h ea d v a n t a g ew a sf a s to p e r a t i o n ,t h ec a l c u l a t i n ga m o u n t ,t h el o w m i s t a k er a t e k e yw o r d :s p e a k e rr e c o g n i t i o n ,l p c c ,m f c c ,v q ,h m m i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名:日期: 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:导师签名:日期: 武汉理一 大学硕士学位论文 第1 章绪论 1 1 说话人识别的研究背景 随着全球化、网络化、信息化、数字化时代的到来,人们对高可靠性身份 验证技术和身份识别技术的需求也日益增长。传统的以密码为特征的身份认证 技术难于满足高安全性和长效安全性的要求,而以生物技术和信息技术为基础 的生物认证技术则可以弥补传统认证技术的缺陷。生物认证技术是一种便捷的、 先进的信息安全技术,已经在现实生活中得到了广泛的应用。它根据人体自身 的生理特征( 指纹、手形、脸部、虹膜) 和行为特征( 声音、签名) 来识别身 份的技术,它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身 份验证技术,能满足现代社会对身份鉴别的准确性、安全性与实用性的要求。 在信号检测与处理、模式识别、人工智能、机器学习等理论与技术发展的推动 下,生物认证技术将会进入一个辉煌的时代。微软创始人比尔盖茨就曾预言 “以人类生物特征进行身份验证的生物识别技术,在今后数年内将成为i t 产业 中最为重要的技术革命”【l 】。 语音是人类的自然属性之一,由于说话人先天发声器官的生理差异以及后 天形成的行为差异,每个人的语音都带有强烈的个人色彩,这为通过分析语音 信号来识别说话人奠定了基础。用语音来识别说话人的身份有着许多优点,如 语音是人类的固有特征,不会丢失或遗忘;语音信号的采集方便,系统设备的 成本低;另外,利用电话网还可以实现远程客户服务等等。近年来,利用语音 特征进行身份识别的说话人识别( 也叫声纹识别) 在生物认证技术领域中越来越 受到研究者的关注【2 】。 1 2 说话人识别的发展与现状 对说话人识别的研究始于2 0 世纪3 0 年代,早期的工作主要集中在人耳听 辨实验和探讨听音识别的可能性。随着研究手段和工具的改进,研究工作逐渐 脱离了单纯的人耳听辨。b e l l 实验室的l g k e s t a 目视观察语谱图进行识别, 提出了“声纹( v o i c e p r i n t ) 的概念。之后,随着电子技术和计算机技术的发 展,可以通过机器自动识别人的声音。b e l l 实验室的s p r u z a n s k y 提出了基于 武汉理丁大学硕士学位论文 模式匹配和概率统计方差分析的说话人识别方法,引起了信号处理领域许多学 者的注意,形成了说话人识别研究的一个高潮,其间的工作主要集中在各种识 别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应用于说话人 识别【3 1 。 真正意义上的“自动 说话人识别研究始于2 0 世纪6 0 年代,从那时开始 到现在的4 0 多年间,随着数字滤波、快速傅立叶变换、同态信号处理、线性预 测编码、矢量量化等算法的不断出现和完善,加之微电子技术的发展和计算机 的普及,使这一领域的研究取得了快速的进展【4 1 。说话人识别研究的重点转向说 话人个性特征的分离提取、个性特征的增强、对反映说话人特征的声学参数的 处理以及新的说话人识别模式匹配方法上,如动态时间规整( d t w ) 、主分量分析 ( p c a ) 、矢量量化( v q ) 、隐马尔可夫模型( h 删) 、人工神经网络方法( a n n ) 以及这 些方法的组合技术上等。 如今,说话人识别技术己经逐渐走入实际应用,其中,a t & t 应用说话人识 别技术研制出了智慧卡( s m a r t c a r d ) ,并己应用于自动提款机。欧洲电信联盟在 电信和金融结合领域通过应用说话人识别技术在1 9 9 5 年完成了c a v e ( c a l l e r v e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,并于同年又启动了 p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r a t i o n ) 计划,在电信网上完成了说话人识别【5 】。同时,m o t o r o l a 和v i s a 等公司成立了 v - c o m m e r c e 联盟,实现电子交易的自助化,其中通过声音确定人的身份是此项 目的重要组成部分。 国内的说话人识别研究主要在一些大学和研究所。例如:北京大学迟惠生教 授领导的科研组、清华大学吴文虎教授领导的科研组、东南大学陈永斌教授领 导的科研组、中科院自动化所、中科院声学所、哈尔滨工业大学高文教授领导 的科研组等。 1 3 说话人识别的难点 说话人识别技术发展到今天虽然已经有几十年的历史,取得了许多优秀成 果,但仍然存在着大量难点,直到今天还末达到令人满意的程度。尽管一些识 别器已经投放市场,并用于商业军事、工业控制等领域,但基本上还停留在实 验阶段,尤其是如何在高噪声环境下提高识别率等方面有待进一步发展,当然 2 武汉理j l 人学硕士学位论文 在语音处理的两领域,语音识别和说话人识别中,相对于语音识别来说,说话 人识别更加困难【6 1 。例如在接听电话时一般不会搞错通话内容,却经常不知或误 判对方的身份,这主要是由说话人特征提取的问题所引起,归结为以下几个方 面的原因: ( 1 ) 目前还没有很好的方法把说话人的特征从说话人的语音特征中分离出 来: 说话人识别的信息来自是说话人所说的话,其语音信号中既包含了说话人 语音内容的信息,也包含了说话人的个性信息,是语音特征和说话人个性特征 的混合体。 ( 2 ) 说话人的特征具有长时变动特性,会随着时间和年龄的变化而变化: 说话人的个性特征不是固定不变的,常常与说话人所处的环境、说话人的 情绪、说话人的健康状况有密切关系,不同的环境噪声增加了说话人识别的难 度。 ( 3 ) 声音容易被录音模仿: 利用高精度的数字录音机可以窃取他人的声音,从而降低了声音在身份验 证方面的可靠性。 ( 4 ) 信道中的说话人识别研究比较困难: 声音在电话线路上传输时,会受到线路噪声的影响,不同通信线路的噪声 也不同。受电话线路带宽的限制( 人耳能感受声音的频率范围在2 0 h z - - 2 0 0 0 0 h z 之间,而电话线路的通带在3 0 0 h z - - 3 4 0 0 h z 之间) ,语音信号在电话线路上传输 时会产生较大的失真阴。在移动通信中,由于语音信号要经过声码器压缩,语音 信号会产生更大的失真。 1 4 本文的研究内容 说话人识别系统的关键部分是特征提取和模式匹配,其中特征提取语音信 号中表征人的基本特征,此特征能有效地区分不同说话人,并且对同一说话人 的变化保持相对的稳定性和可靠性。深入地研究不同参量的特征,进行分析比 较,合理选取,并且通过对不同特征参量的组合来提高实际系统的性能。当然, 对于一个实用的说话人识别系统也应该考虑识别率、识别速度,以及对存储的 要求等重要指标。 3 武汉理i :大学硕十学位论文 本文在前人研究的基础上,针对这两部分的关键技术进行了探讨。在特征 提取方面,分析了当前最常用的两种特征参数:线性预测倒谱系数( l p c c ) 和 l d e l 频率倒谱系数( m f c c ) ,并对其进行了改进,将l p c c 和m f c c 分别与其一 阶差分组合在一起形成新的特征参数。在模式匹配方面,分析现有的矢量量化 技术和隐马尔可夫技术,提出了一种新的矢量量化技术和隐马尔可夫模型技术 相结合的说话人识别系统,并通过m a t l a b 软件进行仿真【7 1 ,获得实验所需的结 论。 本论文主要分7 章: 第1 章:主要介绍了说话人识别的研究背景、国内外的发展与现状、技术 难点及本文的研究内容。 第2 章:主要介绍了说话人识别技术的基本原理、常用特征参数、分类、 主要识别方法及系统性能评价。 第3 章:主要介绍了说话人语音产生的机理、语音信号的数学模型、预加 重和语音的端点检测。 第4 章:主要介绍了特征提取的基本过程,分析了l p c 倒谱特征、美尔倒 谱特征等系数。 第5 章:介绍了矢量量化的基本理论及其l b g 算法,分析了隐马尔可夫模 型的理论基础及其有关实现算法,研究了其在说话人识别中的应用。 第6 章:利用m a t l a b 进行仿真实验说话人识别系统,验证所提出的说话人 识别方法及各种理论、算法。 第7 章:总结论文并分析了今后说话人识别技术的发展方向,以及还有待 进一步解决的问题等。 1 5 本章小结 本章介绍了说话人识别研究的背景,国内外研究水平及现状,分析了说话 人识别技术现有的难点,最后阐述了本文的研究内容及组成章节。 4 武汉理t 人学硕十学位论文 第2 章说话人识别概述 说话人识别和语音识别一样,都是通过对所接收到的语音信号进行处理, 提取相应的特征或建立相应的模型,然后据此做出判别。因为识别目的不同, 在处理方法上也各有差别。一般语音识别的目的是为了提取语音信号包含的词 语的共性信息,尽量把不同入说话的差别归一化,说话人识别力求得到包含在 语音信号中的说话人的个性特征,因此就要强调不同人之间的特征差异。 2 1 说话人识别的基本原理 说话人识别系统一般由预处理、特征提取、建立模型、模式匹配、判决等 部分组成,其系统组成框图如图2 1 【8 1 。 图2 1 说话人识别系统组成框图 预处理包括归一化、去掉无声段和噪声等:特征提取、包括采样、量化、预 加重、加窗等。建立说话人识别系统,分为两个阶段,l i p - i ) l l 练阶段和识别阶段。 在训练阶段,系统的每个使用者需要说出若干训练语句,系统据此建立每个使 用者的模板。在识别阶段,将待识别人发出的语音中提出特征参量与在训练过 程中建立的模板进行比较,并根据一定的模式匹配方法得到判决结果【9 1 。总的来 说,要实现说话人识别,应解决如下基本问题: ( 1 ) 语音信号的预处理和特征提取 特征提取就是提取能够有效表征说话人个性特征的参数。实际上现在所提 5 武汉理下大学硕十学位论文 取的特征都是从语音信号模型中得到的,这些特征既包含了说话人的语音特征, 又包含说话人的个性特征,互相交织在一起存在于语音参数中,目前还没有建 立起准确分离和提取说话人个性特征的技术。 ( 2 ) 说话人模型的建立和模型参数的训练 模型的建立包括模型结构的表示或参数估计算法。模型训练要求系统能够 识别说话人,首先用说话人的语音对系统进行训练,并且在识别系统建立和扩 展时,都需要对模板进行训练。由于说话人的声音常随时期和年龄的变化而变 化,常常需要在说话人辨认结果是正确时,由测试音对已识别j 下确的说话人的 模型进行自适应调整和修正,从而构成自适应说话人识别系统。 ( 3 ) 模式匹配 模式匹配的目的也就是进行识别。随着技术的发展,说话人识别的方法层 出不穷,包括矢量量化,模板匹配,隐马尔可夫模型,高斯混合马尔可夫模型, 人工神经网络等方法。 ( 4 ) 判决策略 根据匹配结果判决说话人是否是所声称的说话人,即说话人确认,或说话 人到底是谁,即说话人辨认。 ( 5 ) 自适应部分 考虑人的状况不断变化,为提高系统适应说话人特征的长时间变动情况, 有些系统设有自适应一部分,能够根对话人识别结果得到的说话人的模型参数 进行实时修正。 2 2 说话人识别类型的分类 说话人识别是通过对说话人语音信号的分析和提取,确定说话人是否在所 登记的说话人集合中,以及说话人是谁,可以将说话人识别分为说话人辨认和 说话人确认【l o 】。 ( 1 ) 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 说话人辩认是把待测的说话人的语音判断是否为多个参考说话人之中的某 一个,是多选一的问题。在这种应用中,通常不要求说话人提供个人姓名或个 人编号,系统把说话人的信号特征与计算机中采集的众多人员的特征相比较, 从而确定是谁。 6 武汉理丁人学硕十学何论文 ( 2 ) 说话人确认( s p e a k e rv e r i f i c a t i o n ) 说话人确认是把待测说话人的语音特征与所声称的参考说话人的语音特征 相比较,这种确认只有两种情况,即得到确认或拒绝承认。在这种应用中,通 常要求说话人提供个人姓名或编号,系统把说话人信号特征与计算机中预留下 的声言为某人的特征相比较,从而作出判别,是接受还是拒绝。 用户在使用说话人识别系统时,需要向系统提供一段语音材料,根据发音 材料,可分为与文本有关和与文本无关两种【l u : ( 1 ) 文本有关( t e x t d e p e n d e n t ) 与文本有关的识别系统要求用户按照规定的内容发音,并根据特定的发音 内容建立精确的模型,从而达到较好的识别效果,但系统需要用户的配合,如 果用户的发音与规定的内容不符合,则无法正确识别该用户。 ( 2 ) 文本无关( t e x t i n d e p e n d e n t ) 与文本无关的识别系统则不用规定说话人的发音内容,因而要建立精确的 模型就较为困难,识别效果较差。另外,与其他生物识别技术类似,若考虑待 识别的说话人是否在注册的说话人集合内,那么说话人辨识分为开集( o p e n - s e t ) 辨识和闭集( c l o s e - s e t ) 辨识,显而易见,闭集辨识的结果要好于开集辨识,但 开集辨识与实际情况更为一致。 无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分发 音是现场发音还是录音回放。但文本提出的说话人识别系统可以有效地防止这 种情况发生。具体实现时,可采用现场随机或其它方法来生成提示文本,如随 机的数字串,使假冒者无法事先录音。 2 3 说话人识别系统中常用的特征 说话人的语音信号包含了许多特征参数,在说话人识别系统中经常用到的 特征参数有线性预测系数或其派生参数、由语音频谱直接导出的参数、其它鲁 棒性参数和混合参数等。 ( 1 ) 线性预测系数或其派生参数 线性预测系数能够有效地表征语音的全极点模型参数。可以由它推倒出多 种参数,例如部分相关系数、声道面积比函数、线谱对系数以及l p c 倒谱系数 等。 7 武汉理t 人学硕士学位论文 ( 2 ) 由语音频谱直接导出的参数 语音的短时频谱中包含激励源和声道的特性,用来反映说话人生理上的差 别,而短时频谱随时间的变化,又反映了说话人的发音习惯,因此由语音的短 时频谱导出的参数可以有效地用于说话人识别中。常用的参数有功率谱,共振 峰及其变化轨迹等。基音容易被模仿,并且不够稳定,一般与其他参数组合后 使用。 ( 3 ) 其它鲁棒性参数 包括m e l 频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱等。 ( 4 ) 混合参数 为了提高系统的识别率,很多系统采用混合参数构成的矢量。如果组成矢 量的各参数之间相关性不大,则更有效一些,因为它们分别反映了语音信号的 不同特征。 用线性预测系数、自相关函数、声道面积比系数、l p c 倒频谱等作为说话人 的个性特征参数,通过比较,结果表明l p c 倒谱最好,其次是线性预测系数, 声道面积比系数最差【1 2 l 。 2 4 说话人识别的主要方法 随着计算机、数字信号处理和人工智能等的不断发展,人们尝试了多种说 话人识别方法使说话人识别率逐步提高。说话人模型已从单一的模板模型向矢 量量化( v q - v e c t o rq u a n t i z a t i o n ) 模型、高斯混合模型( g 删- g a u s s i a nm i x t u r e m o d e l ) 、隐马尔可夫模型( h m m - h i d d e nm a r k o vm o d e l ) 、人工神经网络( n n - n e u r a l n e t w o r k ) 模型以及它们的混合模型方向发展,对说话人个性特征的描述也越来 越精确【l3 1 。说话人识别的方法主要可以分为三类:非参数模型方法、参数模型 方法和人工神经网络方法。 ( 1 ) 非参数模型方法 非参数模型方法包括两种方法,即基于模板匹配方法和基于矢量量化方法。 基于模板匹配的方法:每个说话人所发的每一个字音建立一个语音特征序列的 模板,识别时将待测音的特征序列与每个说话人的每个字音的模板进行比较和 匹配。 基于矢量量化的方法:每个说话人的语音特征序列在特征空间中形成它特 武汉理j :大学硕士学位论文 定的聚类中心,在矢量量化中称这些聚类中心为说话人的码本,用这些聚类中 心作为说话人特征的描述模型,识别时求出待测音特征与每个说话人特征聚类 中心的距离,把最小距离作为识别出的说话入结果。 ( 2 ) 参数模型方法 参数模型方法包括基于高斯混合模型和基于隐马尔可夫模型两种方法。 基于高斯混合模型的方法:每个说话人的语音特征序列在特征空间中都形 成了各自特定的分布,可以用这一分布来描述说话人的个性特征。高斯混合模 型使用了多个高斯分布的线性组合近似于说话人的特征分布,识别时把与待测 音特征的说话人分布模型最为相似的说话人作为识别结果。 基于隐马尔可夫模型的说话人识别方法:考虑每个说话人的语音特征都是 随着时间变化而变化的,将这种特征的变化过程用状态间的转移来描述,这就 构成了说话人的隐马尔可夫模型。 ( 3 ) 基于人工神经网络( a n n ) 的说话人识别 人工神经网络模仿人脑的信息处理机制,把大量结构简单的计算单元互相 连接起来,实现高度并行和分散的信息处理,适合与人的感知有关的信息处理 问题。 2 5 说话人识别系统的性能评价 评价一个说话人识别系统的性能有多种指标,其中最为主要的指标是识别 结果的正确性,而这个指标对于说话人辨认和说话人确认系统又有所差别。对 于说话人辨认来讲,识别的结果只可能是正确或错误两种,并且正确识别的概 率与错误识别的概率之和为1 ,因此,可用正确识别的概率( 称为识别率) 或者 错误识别的概率( 称为错误率) 作为评价识别系统性能的指标。 对于说话人确认系统评价则稍微复杂一些。说话人确认有四种可能【1 4 1 。当 未知语音确实是本人语音时,状态定义为s ,当未知语音为非本人语音时,状态 定义为n 。若对上述的两种状态接受时定义为s ,若不接受而拒绝时定义为n , 则会有四种可能的组合:p ( s s ) 、p ( s n ) 、p ( n s ) 、p ( n n ) 。其中p ( s s ) 表示 正确接受的概率;p ( s n ) 表示错误接受的概率,称为错误接受率,是将冒名顶 替者接受为真正的说话人,用f a 表示( f a l s ea c c e p t a n c e ) 。p ( n s ) 表示错误 拒绝的概率,称为错误拒绝率,是将真正的说话人当成冒名顶替者加以拒绝, 9 武汉理下大学硕十学位论文 用f r 表示( f a l s er e j e c t i o n ) 。这时存在如下关系: p ( s s ) + p ( n s ) = 1 ,、 l z lj p ( s n ) + p ( n n ) = 1 因此,只采用p ( s s ) 和p ( s n ) ,就可以评价说话人确认系统的识别性能。 说话人确认系统最重要的两个性能指标是错误拒绝率和错误接受率,判决门限 和两种错误概率的关系如图2 - 2 所示。 门限的选取不能使两种错误概率都小,一个小了另一个就会变大( 如a ,b 点) 。门限的选取应根据具体的应用情况而确定。比如在非常机密场所,应该使 f a 尽量小以免非法进入者造成严重后果。在大量使用者访问公共数据库时,太 高的错误拒绝率会引起用户的不满,而错误的接受不至于引起严重的后果,这 时可以将f a 定得较高一些。在图2 2 中得c 点,两种错误概率相等,这时系统 的性能完全可由两个错误概率中的任意一个来确定,所以等错误概率也可以作 为评价说话人确认系统的指标。 错 整 答 案= 0 abc 麴j 决fj 戳 图2 - 2 说话人确认的判决门限和错误概率的关系 说话人辨认系统与说话人确认系统的不同还与用户数有关。图2 - 3 表明了 两种系统误识率与用户数的关系,可以看出说话人确认系统的差错率基本不随 用户数而变化,因为它的判别是根据与声明身份的匹配得分来决定的。说话人 辨认系统的错误识别率随着用户数的增加而增加,相当于在有限的概率空间中 区分多个点,显然点数越多越难分离。所以,在评价说话人辨识系统时,要充 l o 武汉理下大学硕十学何论文 分考虑用户数对错误识别率的影响。 i d 一5 嚣 三i 霎a 5 仅2 2,l o5 )lo ( 1 缝 1 人数 图2 - 3 说话入辩认、确认系统性能与用户数的关系 对于说话人识别系统的评价,除了识别率和错误概率这两个重要的指 标以外,还要综合考虑系统的实际应用,包括以下方面: ( 1 ) 训练样本数和训练速度 训练样本少能使新用户尽快完成登录工作,使用户便于接收。甚至在有些 场合,比如犯罪现场,可能只能采集到一句或几句罪犯的声音,用来建立罪犯 的声音模板。 ( 2 ) 识别响应速度 识别响应速度显然是越快越好。 ( 3 ) 说话方式的要求 系统尽可能适应各种说话方式,包括语速变化,声音大小及发音内容变化 等。但这并不是一件容易的事,希望能在保证系统识别性能的前提下,尽可能 减少对说话人说话方式的限制。 ( 4 ) 对环境的鲁棒性能 工程应用领域的系统应有良好的抗干扰的能力,包括噪声、信道畸变、线 路衰减及多入背景语音等。 ( 5 ) 识别人数 在某些系统中,比如语音实现对工厂职工的签名管理或电话语音确认的信 息服务系统,要求系统识别的说话人数能足够多。 武汉理工人学硕士学位论文 2 6 本章小结 本章介绍了详细介绍了说话人识别技术的基本原理、常用特征参数、分类、 主要识别方法及系统性能评价。 1 2 武汉理r 大学硕士学位论文 第3 章语音信号分析与预处理 了解语音信号产生的机理,分析语音信号的数字模型及特性,才能进行语 音信号处理即预处理和特征提取等工作。语音信号预处理在说话人识别系 统中起着非常重要的作用,关系到整个识别系统的性能。预处理主要包括反混 叠滤波、模数变换、自动增益控制、去除声门激励及口唇辐射的影响等,以及 去噪、预加重和语音端点检测【1 5 】。 3 1 语音产生的机理 人类的发声过程是通过肺部收缩,压迫气流由支气管经过声门和声道,引 起音频振荡而产生的,其中声道起于声门处而终于嘴唇,包括咽喉和口腔,鼻 道则是从小舌开始到鼻孔为止,当小舌下垂时,鼻道与声道发生祸合从而产生 语音中的鼻音。发声过程中声道各处的截面积取决于舌、唇以及小舌的位置, 声道截面积随纵向位置而变化的函数,称为声道面积函数,它决定了声道的共 振峰特性,而声道的共振峰特性决定所发声音的频谱特性,即音刨1 6 】。 人类发音过程有三种不同的激励方式,所以能产生三种不同的声音:浊音、 清音和爆破音。当气流通过声门时,声带的张力刚好使声带发生较低频率的张 驰振荡,形成准周期空气脉冲,这些空气脉冲激励声道就产生浊音。这些周期 脉冲的周期称为基音周期,其倒数称为基音频率。如果声道某处面积很小,气 流高速冲过此处时产生湍流,当气流速度和横截面积之比大于某个门限时便产 生摩擦音,即清音。如果声道某处完全闭合而建立起气压,然后突然释放而产 生的声音就是爆破音。 声道是一个谐振腔,气流激励声道发生共振产生语音信号。声道发生共振 的不同谐振频率称为共振峰频率,简称共振峰,是声道的重要声学特性。语音 信号产生模型如图3 - 1 所示。 声波是一种机械振动,必须借助介质质点的振动来传播。要描述发音系统 中空气的振动,必须借助质量守恒、动量守恒、能量守恒以及热力学、流体力 学的基本定律,建立偏微分方程,但这种方程的表述和求解是极端困难的。严 格的声学理论必须考虑以下各种影响: ( 1 ) 声道形状的时变性质: 武汉理t 人学硕十学位论文 ( 2 ) 由于声道壁的热传导和粘滞摩擦导致的损耗: ( 3 ) 声音在嘴唇处的辐射: ( 4 ) 声道壁的柔度: ( 5 ) 鼻腔的祸合: ( 6 ) 声道中的声激励。 基音频率f o a v 声道参数 i 婴一嘻翌争q 飞怪恼r 蛳音 l ! ( 引一j ( z ) :嗨船踺声l + 6 ; 一 i 蕉尘矍r 叫7 争尸 、浊音清音开关| ii a u ; 图3 - 1 语音信号产生的离散时域模型 2 语音信号的数字化和采集 由于原始的语音信号是模拟量,要想对其进行处理就必须将模拟信号转换 为数字信号,转换必须经过采样和量化两个步骤,得到时间和幅度上均为离散 的数字语音信号。根据采样定理,当采样频率大于信号的两倍带宽时,采样过 程中不会丢失信息,利用数字滤波器可从采样信号中不失真地重构原始信号的 波形。 语音信号是随时间变化的一维信号,占据的频率范围可达l o k h z 以上。c c i t ( 国际电报电话咨询委员会) 提出的数字电话g t l l 建议采样率为8 k h z ,只利用 了3 4 k h z 以内的信号分量。这样的采样率对语音清晰度是有损的,但并不影响 语句的可懂度。比如通常模拟电话带宽就只有3 到4 k h z ,这一标准己为全世界 所公认。 在将语音信号进行数字化之前,必须先进行防混叠滤波,滤除高于1 2 采 1 4 武汉理。1 :大学硕十学位论文 样率的信号成分或噪声。这种防混叠滤波通常与模数转换器做在一个集成块内。 目前语音信号数字化的质量比较好。市面上购买到的普通声卡在这方面做的很 好,声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、a d 变换、量化 处理的离散的数字信号,这就减少了很多工作量。 在进行语音信号数字处理时,所接触到是说话人的声音,首先要用话筒或 其他设备将语音信号转换成电信号,再通过a d 转换器将其转换为离散的数字 化采样信号,然后存入计算机内存中。在实际应用中,可以利用w i n d o w s 自带 的录音机录制语音文件,声卡可以完成语音波形的a 0 转换,获得w a v e 文件, 为后续的处理储备原材料。 3 3 语音信号的数字模型 完整的语音信号数字模型包括三个子模型激励模型、声道模型和辐射 模型【1 7 1 。 3 3 1 激励模型 发浊音时,由于声带不断的张开和关闭,产生间歇的脉冲波。此时的激励 信号是一个以基音周期为周期的斜三角形脉冲串,可看作加权的单位脉冲串激 励单个斜三角脉冲的结果,整个激励模型可以表示为: j1 叭力- g ( z 归( z ) _ 南。石e 南 ( 3 - 1 ) l z i l 一一z1 ,一 式中,c 为常数,t 为基音周期,e ( z ) 为单位脉冲串的z 变换形式。发清音 时,声道被阻碍形成湍流,所以激励信号相当于一个随机白噪声。通常使用均 值为0 、均方差为1 并在时间或幅度上用白色分布的序列来表示。 3 3 2 声道模型 ( 1 ) 声管模型 最简单的声道模型是声管模型是将声道视为多个不同截面积的管子串联而 成的系统。由于语音的短时平稳性,假设在短时间内,各段管子的截面积a 是 常数。设第m 段和m + 1 段的声管的截面积分别是 ,以+ 。,设 k = ( 厶+ ,一以) ( 厶+ 。+ 以) 称为“面积和差比,其取值范围为一l k r ,并且设分子与分母无公因子及分母无重根,则上式可分解为: m ) = 荟r 两南 5 ) 这就是并联型的共振峰模型。 混合型 将级联型和并联型结合起来的混合模型是一种比较完备的共振峰模型。该 模型能够根据不同性质的语音进行切换。 1 6 武汉理:亡人学硕十学位论文 3 3 3 辐射模型 声道的终端为口和唇,从声道输出的是速度波,而语音信号是声压波,声 压波与速度波之比称为辐射阻抗,它表征口和唇的辐射效应,也包括头部的绕 射效应等。口唇端辐射在高频段较为显著,而在低频段时影响较小,所以可以 用一个高通滤波器来表示辐射模型: r ( z ) = a o ( 1 一z 叫) ( 3 - 6 ) 口唇的辐射效应可以用式( 3 6 ) 的一阶后向差分来表示。语音信号产生的完 整的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示, 其传递函数为: ( z ) = 【,( z ) y ( z ) r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论