已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 说话人识别是一种生物识别技术,它是指机器通过说话人的语音自动识别出 说话人的身份。在信息接入服务安全控制、司法鉴定、人机界面智能化等方面这 项技术有着良好的应用前景。说话人识别主要经过三个阶段来实现提取特 征、建立说话人模型、判决。特征提取阶段是第一步,也是非常重要的步。不 能提取充分反映说话人个性特征的特征量,后两步的优化很难奏效。现有特征提 取方法大都是建立把语音信号当作短时平稳信号的认识基础上的,这些特征用于 说话人识别取得了较好的效果,但是在人们设法迸一步提高系统的识别率和鲁棒 性时呈现出了它的局限性。针对这种困难,本文考察了语音信号的非线性特征, 并讨论如何将它们应用于说话人识别,以改善系统的性能。围绕这个研究思路, 本文主要做了以下内容的工作: ( 1 ) 介绍了说话人识别的基本概念、基本原理、技术难点,回顾了说话人识 别的研究历史和概括了国内外的研究现状; ( 2 ) 为从根源上研究语音特性,本文对语音的发声器官和产生机理进行描述, 分析了说话人发音过程中存在的非线性现象,并通过计算3 8 个汉语音素的最大 李雅普诺夫指数从实验角度验证了语音的混沌性; t3 ) 运用信号处理知识阐述线性预测倒谱系数、m e l 倒谱系数等反映说话人 个性的常用特征量的原理及计算方法。同时,较为详细地讨论了刻画语音非线 性特性信息的特征量最大李雅普诺夫指数、二阶熵和关联维数的物理意义 及其提取算法; ( 4 ) 比较新颖地将非线性特征运用于说话人识别。为检验其效果,使用矢量 量化模型和高斯混合模型薅种分类器,结合常用特征构建了两个基准系统,并 且提供了有关基准系统性能的实验数据。 ( 5 ) 如何运用信息融合的原理融合不同特征量和不同分类器的优势来提高嘴 话人识别的性能。本文在最后部分进行了探讨和分析。 关键词:说话人识别非线性特征李雅普诺夫指数熵分形维数信息融合 a b s t r a c t s p e a k e rr e c o g n i t i o n ,o n eo fb i o m e t r i ci d e n t i f i c a t i o nt e c h n o l o g y , a i m st oi d e n t i f y t h ei do ft h es p e a k e rb yh i s h e ru t t e r a n c e i ti sa g r e a t l yp r o m i s i n gt e c h n o l o g yt ob e a p p l i e dt os e c u r i t ya c c e s so fi n f o r m a t i o ns e r v i c e ,f o r e n s i c sp u r p o s e ,i n t e l l e c t u a l i z e d 1 1 u m a n m a c h i n ei n t e r f a c e e t c s p e a k e rr e c o g n i t i o ni si m p l e m e n t e dm a i n l yt h r o u g h t h r e ep h a s e s :f e a t u r ee x t r a c t i n g ,m o d e lb u i l d i n g ,d e c i s i o n f e a t u r ee x t r a c t i n gi st h e f i r s ta n di m p o r t a n tp h a s ei nt h ew h o l er e c o g n i t i o nc o u r s e i ft h e r ea r en oe f f e c t i v e f e a t u r e s 。t h eo p t i m i z a t i o no ft h et w ol a t t e rp h a s e si sd i f f i c u l tt ob ee f f i c i e n t t h e m e t h o d so ff e a t u r ee x t r a c t i o nw i d e l yu s e da r eu s u a l l yb a s e do na na s s u m p t i o nt h a t s h o r t t i m es p e e c hs i g n a li ss t a b l e t h e s ef e a t u r e sp e r f o r mw e l li ns p e a k e rr e c o g n i t i o n ; h o w e v e r , t h e ys h o wt h e i rl i m i t a t i o no nf u r t h e ri m p r o v i n gt h ec o r r e c t i o nr a t ea n dt h e r o b u s t n e s so fs p e a k e rr e c o g n i t i o ns y s t e m i nl i g h to ft h ed i f f i c u l t y , t h en o n l i n e a r f e a t u r eo fs p e e c hh e r e i ni si n v e s t i g a t e da n di ti sd i s c u s s e dh o wt oo p t i m i z et h e p e r f o r m a n c eo ft h es p e a k e rr e c o g n i t i o ns y s t e m s o m ee f f o r ti n v o l v i n gt h i ss u b j e c ti s m a d ea sf o l l o w s , f8 ) t h eb a s i cc o n c e p to fs p e a k e rr e c o g n i t i o ni si n t r o d u c e da n dt h ep r i n c i p l eo f c l a s s i f i c a t i o ni sa n a l y z e d m e a n w h i l e ,t e c h n o l o g yc h a l l e n g e ,r e s e a r c hh i s t o r ya n dt h e s t a t eo f t h ea r ta th o m ea n da b r o a da r es u m m e d ( b ) t h ev o c a lo r g a n sa r ed e p i c t e da n dt h em e c h a n i s mo ft h ep h o n a t i o ni se x p a t i a t e d i no r d e rt o o r i g i n a l l yi n v e s t i g a t et h e e s s e n c eo fh u m a ns p e e c h t h e nn o n l i n e a r p h e n o m e n o ni sf o u n dt oe x i s ti nt h ec o u r s eo fp h o n a t i o n a n dt h ec h a o si ns p e e c hi s e x p e r i m e n t a l l ya p p r o v e db yc a l c u l a t i n gt h em a x i m u ml y a p u n o ve x p o n e n to f 3 8 m a n d a r i np h o n e m e s ( 。) s i g n a lp r o c e s s i n gk n o w l e d g ei sa p p l i e dt oe x p l a i nt h ep r i n c i p l ea n de x t r a c t i o n a l g o r i t h m o ft h et r a d i t i o n a l s p e e c hf e a t u r e ,s u c h a sl i n e a r p r e d i c t i v ec e p s t r a l c o e f f i c i e n t s ( l p c c ) m e l 厅e q u e n c yc e p s t r a lc o e 髓c i e n t s ( m f c c ) o nt h eo t h e rh a n d , e m p h a s e sa r ep u to nd i s c u s s i o na b o u tt h ep h y s i c a lm e a n i n g a n da b s t r a c t i o nm e t h o d s o ft h r e er e l a t i v e l yt y p i c a ln o n l i n e a rf e a t u r e s :l y a p u n o ve x p o n e n t ,t h es e c o n do r d e r e n t r o p ya n dc o r r e l a t i o nd i m e n s i o n f o rt h es a k eo fv e r i f y i n gt h ee f f e c t i v e n e s so f n o n l i n e a rf e a t u r eu s e di ns p e a k e rr e c o g n i t i o n ,t w ob a s e l i n es p e a k e rr e c o g n i t i o n s y s t e m sw i t ht r a d i t i o n a lf e a t u r e sa r ed e s i g n e dw i t hv e c t o rq u a n t i z a t i o nm o d e la n d g a u s s i a nm i x t u r em o d e la sc l a s s i f i e rr e s p e c t i v e l y n ee x p e r i m e n t a lr e s u l to ft h e s e b a s e l i n es y s t e m sa r eg i v e ni nt h et h e s i s ( e ) i ti sd i s c u s s e da n da n a l y z e da b o u th o wt oc o m b i n et h ea d v a n t a g eo fd i f f e r e n t l i k i n do ff e m u m sa n dc l a s s i f i e r st oi m p r o v et h ep e r f o r m a n c eo fs p e a k e rr e c o g n i t i o n s y s t e mi nt h ep r i n c i p l eo f i n f o r m a t i o nf u s i o ni nt h ee n do f t h i st h e s i s k e y w o r d s :s p e a k e rr e c o g n i t i o n ,n o n l i n c a rf e a t u r e ,l y a p u n o ve x p o n e n t ,e n t r o p y f r a c t a ld i m e n s i o n ,i n f o r m a t i o nf u s i o n 原创性声明 本人声明:所呈交的论文是本人在导师指导下进 行的研究工作。除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已发表或撰写过的研究成果。 参与同一工作的其他同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 期竺兰! :! 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论 文的规定,即:学校有权保留论文及送交论文复印 件,允许论文被查阅和借阅;学校可以公布论文的 全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:随 导师签名:耋亟筮 日期:型垒! 毽埠日 海人学坝i 学位论义 语膏非线性特征柱:说话人识别中的应用 第一章绪论 随着网络与通信技术的飞速发展和人类现实与虚拟活动空间的不断扩大,人 们越来越多地在不同场合被要求进行身份验证,以获取被授权的服务。与此同时, 现代社会对身份识别的准确性、便捷性、安全性与实用性提出要求也愈来愈高。 传统常用的身份识别方法,比如钥匙、信用卡、p i n 码或密码等方法,已经远远 不能满足这种要求。一种基于生物特征,比如声纹、笔迹、人脸、指纹、掌纹等 特征的身份识别方法逐渐兴起,并开始走向实用化。用人类最自然、最容易被用 户接受的语音进行身份鉴定的方法被称为说话人识别,这正是本文的研究对象。 1 1 说话人识别的概念和研究意义 1 1 1 说话人识别的概念 众所周知,语音信号中携带了丰富的信息。最基本的信息是说话人要表达的 语义内容,同时它还包含了反映说话人个性特征的信息,如音调高低、语速快慢、 口音、遣词造句习惯。例如,我们人对周围熟悉的人,只要闻其声,就能知其人, 就是在潜意识中利用了语音中包含的说话人个性信息。 说话人识别是使机器通过对其接收到的某一段语音进行处理,判断说话人的 身份。它的含义与语音识别有所不同:第一,对于说话人识别,语音信号在特征 空间中是按照说话入来划分的,而语音识别是按照单词或旬予划分的:第二,说 话人识别是力图挖掘出语音信号中有关说话人的个性信息,强调的是不同说话人 之间的差异性;而语音识别旨在获知语音信号中的语义内容,尽可能规避酷话人 个性因素的影响。 根据具体韵识别任务,可以将说话人识别分为说话人辨认和说话人确认两大 类。在说话人辨认中,一个未知说话人的语音特征与个已知说话人的语音特 征进行比较,进行1 :n 匹配,获得最佳匹配的说话人为识别结果;在说话人确认 中,需要将来知说话人的语音特征与其所声称的说话人的语音特征进行比较,实 行l :1 匹配,判断两者是否为同一个人。如果语音特征之间的距离小于预先设定 的阈值或似然度大于预先设定的阈值,则接受,反之,则拒绝。在说话人辨认任 务中,测试语音要与集会中的每一个说话人模型进行比较,因此集合的大小是影 口向说话人辨认系统性能的一耪重要因素。集合越大,发生混淆的可能性就越大。 而说话人确认则不同,它只看测试语句同声明的说话人的模型是否达到预设的似 l :海大学坝l 学位论文语音非线性特征在说话人识别中的廊用 然度,所以集合的大小对系统性能的影响较小吲。一般认为说话人辨认比说话人 确认更困难。因为,随着注册的说话人人数增加,错误判决的概率会上升口1 。而 对于说话人确认来说,理论上并不会因为人数的增加导致性能下降,因为比较匹 配的只是两个人待识说话人和集合内被声明的说话人。 根据待测试语音的来源范围,可以将说话人辨认进一步分为歼集( o p e n s e t ) 辨认和闭集( c l o s e d s e t ) 辨认。前者允许待辨认的说话人不在预先注册的说话人集 合中,后者则要求待辨认的说话人必须属于预先注册的说话人集合。闭集的说话 人辨认是通过输入语音与各说话人语音模型逐一匹配,依据最佳匹配准则来决 策,具有最佳匹配值的语音模型所对应的说话人就是辨认结果,而不管这个所谓 的最佳匹配值有多大。然而,在开集的说话人辨认中,必须预先设置一个阈值, 如果最佳匹配值超过这一阈值,则进行决策辨认,反之,则认为说话人为未注册 的未知说话人而加以拒绝。一般来说,开集的说话人辨认比闭集的难度更大些。 从上面叙述可知,说话人确认实际上是开集的说话人辨认的一个特例预先注 册的说话人集合中只有一人。 根据系统对测试语音的要求,又可以说话人识别分为文本有关 f t e x t 。d e p e n d e n t ) 和文本无关( t e x t i n d e p e n d e n t ) 两大类。对于前者而言,识别时输入 语音所对应的文本是预先给定的。而后者对输入语音内容没有要求,文本可以是 任意的。一般地,文本有关的说话人识别在语音匹配时不仅可以利用语音特征, 还可以利用语义信息。因此,可以引入语音识别机制用来判别说话人所说的语音 与所提示的是否一致,实现语音确认,并与说话人的确认相结合1 4 】。因此,文本 有关的说话人识别性能一般比文本无关的更好。但是文本有关的说话人会碰到这 样的仿冒情况:通过回放事先录音的方式来仿冒真实的说话人。针对这种情况, 人们又提出了文本指定( t e x t p r o m p t e d ) 的说话人识别。此类系统在不同的时候采 用不同的文本,并提示用户按新的文本输入语音。具体实现的方式可以是系统随 机地从一个设计好的文本数据库中选择一个文本作提示,或者文本数据库由一些 经过特殊筛选的单词或语句段构成,或者,更灵活的是在识别时根据一些基本单 元( 如单字) 随机组合一个单词或语句段。由于系统要求用户在提示后规定的短 时间内输入语音,仿冒者很难通过软件合成、预选录制等手段进行仿冒。 1 1 2 说话人识别的研究意义 传统的身份识别方法一般是将鉴别人的问题转化为鉴别标志个人身份的事 物。这些事物可以分成以下两个方面:( 1 ) 身份标识物品,即用户拥有什么,例 海人学硕。 ? 学位论奠 语音非线性特征在说话人识别中的应用 如身份证、信用卡、钥匙等。现在我国一些发达省份工商局推出的小硬盘般大 小的企业电子执照也属于这类方式:( 2 ) 身份标识知识,即用户知道什么,比如, 用户名、密码以及注册时填写的其他认证信息。在安全性要求比较高的场合,往 往会将两者结合起来使用。例如通过银行的自动柜员机( a t m ) 取款需要提供 a 1 m 和密码。 以上身份认证方式存在有明显的缺陷:个人拥有的物品容易丢失,被盗窃或 被伪造:个人拥有的各类密码容易被遗忘,混淆。如果标识物品或标识知识被他 人获取,系统根本无从判断真伪,这必然会造成真实用户财产损失或者隐私受到 侵犯。 而生物特征识别是通过计算机利用人体固有的生理特征或行为特征进行身 份鉴定的。生理特征与生俱来,是先天性的;行为特征则是后天的习惯养成的。 相对于身份标识物品或身份标识知识,它们有以下几个优点: ( 1 ) 基本上不存在遗忘或丢失的问题; ( 2 ) 防伪性能好,不容易被伪造或盗窃: ( 3 ) 生物特征与人不可分离,随时可用; ( 4 ) 生物特征具有唯一性。 说话人识别利用说话人语音的个性特征,是生物特征识别的一种,它很好地 避免了传统身份认证的缺陷,并有其独特的优势。 下面是说话人识别的基本应用类型和一些典型应用。 ( 1 ) 说话人身份核对 在语音邮件、电子交易、安全保卫等常常需要身份核对的场合,说话人识别 可用来使其只响应合法用户。在电话预约服务等方面,说话人识别可以让客户服 务系统自动识别出用户的身份,向客户提供更贴心,更具针对性的服务;在生物 医学工程领域,声控假肢动作,使其只响应患者的指令也可归为此类。 ( 2 ) 司法签定 从犯罪现场纪录的声音鉴别罪犯嫌疑人的身份信息,作为司法证据。在某些 情况下,嫌疑人中可能不包含真正的罪犯,这时就需要将说话人辨认和说话人确 认技术有机结合来判定。 ( 3 ) 语音检索 现在不论是个人还是机构拥有的电话录音、视频剪辑等资料激增,当人们试 图找出某些特定说话人的特定内容的语音段时,加注标签不够精确,而逐个试听 耗费精力极大。一种较好的选择是将说话人识别技术与连续语音识别技术相结 合,就可检索出录音中特定人所说的内容。 ( 4 ) 医学应用 说话人识别的主要依据之一是说话人声道生理结构的差异。一方面生理学和 r 船人学制j 学位论立 语音非线性特征在说话人识别中的应用 解剖学的进展可促进说话人识别问题的研究,另一方面也可借助说话人识别方法 反过米促进声道特性的研究。ab r a u n 5 1 使用说话人语音特征参数研究吸烟者与 非吸烟者,考察两者的声道特征的差异。说话人识别也被用于人工耳蜗,以模仿 听觉的“鸡尾酒会”效应吼 1 2 说话人识别的技术难点 到目阿为止,说话人识别技术尚未成熟。相比语音识别,说话人识别在技术 上有自身特有的困难。一个典型的例子是入在接听电话时通常不会搞错通话内 容,却常常不知或误判对方的身份。综合起来,这些技术难点主要有: ( 1 ) 说话人语音的变异。说话人的语音特征不是静态的、固定不变的,它 具有时变性,井常常与说话人的情绪、健康状况密切相关而且会随着时间的推 移和年龄的增长而变化,所以,即使尉一浇话人在小同时候读回一文本,语音会 有差异,有时甚至会有很大差异。 ( 2 ) 环境和语音处理的影响 首先是应用环境背景噪声造成不利的影响。一般来说,说话人训练阶段的语 音的录制环境易于控制,然而测试时说话人所处的环境可能千差万别,背景噪声 ( 如汽车喇叭声、城扇转动声、或公众场合其他无关说话人的声音等) 对语音的 t 扰很难预见和有效控制。第二,语音录制和电话信道造成语音失真。语音在处 理之前要通过话筒录制,有的还要经过电话信道。低质量的话筒会引起些假麸 振峰,这些假共振峰往往出现在真共振峰的和与乘积处,并且共振峰带宽增大, 频谱形状变得扁平p j 。另外,语音传输前的a d 转换、信号编码和时变的传输信 道干扰都会不同程度地造成信号质量下降。 ( 3 ) 声音掩饰与仿冒的挑战 声音掩饰【s 】指说话人故意改变声音,以便其不能与正常状态下的语音匹配良 好。此类情况在司法鉴定中颇为常见。例如,有些罪犯在实施犯罪行为时会刻意 改变发音器官的形态以达到掩饰真实身份的目的。文献 9 专门对三种特征参数 的执掩饰能力做了比较。而仿冒则是指仿冒者模仿其他人的发音,企图以假乱真。 此外,鹾话人识别的应用还受到非法用户播放录用的困扰。 以上涉及的各类因素都会使说话人的语音发生改变,这种改变会降低说话人 识别系统的性能。有时甚至是毁灭性的。如何提高系统的鲁棒性,实际上也是系 统能否实用的关键。 统能否实用的关键。 的人学倾l + 学位论文 语音非线性特征枉说讯人识别中的脚用 1 3 说话人识别的研究历史和现状 1 2 1 研究历史 一般认为,1 9 3 7 年c a l i n d e r b e r g h 先生的儿子被拐骗事件为说话人识别 研究的开端,人们开始对语音中说话人个性展开科学的测量和研究。早期的工作 主要集中在人耳听辨实验和探讨听音识别的可能性。 随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。二十世 纪六十年代研究内容主要是人工说话人识别。1 9 6 2 年b e l l 实验室的lgk e r s t a 研究目视语诺图( s p e c t r o g r a m ) 的方法人工进行说话人识别,并声称在1 2 个人 的系统上得到了极好的识别性能,并提出将语谱图称为“声纹”( v o i c e p r i n t ) , 其意义类同指纹( f i n g e r p r i n t ) 。1 9 6 6 年美国法院首次采用此方法进行法庭取证。 其后,又有一些学者对基于声纹的说话人识别进行进一步研究,但得到了不同的 结论,他们指出声纹技术是不可靠的,易于受到语音环境和说话人状态的影响, 人凭听觉进行说话人识别的准确度要高于通过声纹对说话人的识别。 由于电子技术和计算机技术的发展,从七十年代起人们开始了自动说话人识 别的研究。7 0 年代中期b s a t a l 研究了l p c 系数、声道的冲激响应、自相关 系数、声道面积函数以及倒谱系数等不同的特征参数在自动说话人识别系统中的 有效性,并指出倒谱系数是较为有效的语音特征。其后,倒谱系数及其各种变形 被广泛应用。来自b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配和概率统计方 差分析的说话人识别方法,从而引起信号处理领域许多学者的注意,引发了洗话 人识别研究的一个高潮。r o s e n b e r g 、s o o n g 、f u r u i 、p o r i t z 等人将矢量量化 ( v q ) 、隐马尔可夫模型( h i v i m ) 和人工神经网络( a n n ) 等一些用在语啻识 别中的技术成功地引入到说话人识别研究中,大大地推动了自动说话人识别技术 的发展1 1 1 】l ”。 1 2 2 国内外研究现状 近年来,个人、企业、社会其他有关机构对身份识别的需求变大。根据 e l s e v i e ra d v a n c e dt e c h n o l o g y 发布的调查显示2 0 0 4 年度生物识别产业收入将达 四千九百五十万美元,比上一年增长三分之二l l ”。与此同时,各国学者对说话人 识别倾入极大关注,每年都发表大量论文,实用化系统已经在某些领域及特定场 合得到初步应用。说话人研究已取得了重大进展,并且成为一个很热门的研究领 域。 在语音方面国内研究以语音识别屠多,在学术期刊上发表论文较多,语音识 海人学颁l 学位论文语音非线性特征枉说话人i 只别中的应用 别产品市场化程度也较高。比如,中国科大讯飞公司的语音产品已在语音平台、 嵌入式产品、电子政务中均有实际应用。相比之下,说话人识别研究丌展较晚, 进行这项研究的学者也不多。研究单位主要有北京大学信息科学中心【“】、信息工 程大学、浙江大学“6 1 、清华大学【1 8 1 和中国科学技术大学【1 9 j f 2 0 l 等单位。综合 国内的研究成果,单就说话人特征提取方法看,绝大部分的研究采用国际上普遍 使用的特征提取方法。 在建立说话人模型技术方面,目前在说话人识别技术中研究最多的方法可 归纳为下列几类: ( 1 ) 模板匹配法 在训练过程中从每个说话人发出的训练语句中提取能充分描述各说话人个 性信息的特征矢量,以此作为模板;识别时,对待识语音使用相同的处理方法获 得识别模板,并且按一定匹配规则与所有的参考模板进行比较。模板匹配常用的 方法是动态时间归整法( d t w ) 和矢量量化( v e c t o rq u a n t i z a t i o n ) 。在动态归整 过程中,同时计算两个模板的距离测度并且形成判决函数。矢量量化是用一个码 本作为一个浼话人的参考模板,识别时将待识的特征矢量序列与每个说话人的码 本比较,最为匹配的码本对应的说话人被认为是真实的说话人。 ( 2 ) 概率模型法 在训练阶段从某个说话人的一次或多次发音中提取有效的特征矢量,然后依 照矢量在特征空间中出现的频率特点或者状态转移的概率为此人建立相应的模 型,并依此得到所有说话人的模型。识别时利用待识语音得到的模型与所有说话 人的模型进行匹配。这种方法咀隐马尔可夫模型( h m m ) 和混合高斯模型( g m m ) 最为常见。h m m 2 1 】【2 铂最早在c m u 和i b m 被用于语音识别,它把发声系统状态 序列的输出组成的符号序列看成随机过程。在文本有关的说话人识别使用h m m 时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概 率矩阵。识别时计算未知语音在状态转移过程中能否能得到最大概率,根据最大 概率刑应的模型进行判决。h m m 不需要时间归整,可节约判决时的计算时问和 存储量,缺点是训练时计算量较大。而g m m 是用加权后的若干个高斯分量来表 征说话人模型,进一步介绍见第4 1 节。 ( 3 ) 人工神经网络法( a n n ) 1 2 3 1 2 4 】【2 5 1 人工神经网络是以类比于生物神经系统的处理方式,用大量简单的处理单元 并行连接而构成一种独特的信息处理系统。此类系统具有自组织和自学习的能 力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,可以被提高说话 人系统的自适应能力。其缺点是训练时间长,动态时间归整能力弱,网络规模随 、龅话人数目增加可能大到难以训练的程度。说话人识别使用的前向神经网络多为 b p 网和r b f 网络,其他的还有多层感知器m l p 、修正的神经树网络m n t n 、 海大学倾j 二学位论文 语音非线性特征在说话人识别中的应用 概率神经网络p n n 等等。 在分类器方面,目前研究的重点除了改进上述各类建模方法的性能以外,也 强调两种或多种分类器结合使用。比如神经网络与隐马尔可夫模型 2 3 1 、h m m 与 g m m 2 “、g m m 与s v m l 2 7 l 【2 8 1 和g m m 与v q 2 9 】等融合方案在文献中都有出现。 1 4 语音信号非线性处理 从本质上说,语音信号处理方法可分成两大类,其一是基于确定性线性系统 理论,其二是基于随机过程理论t 3 0 】。目前大多数分析方法都属前者,这类方法有 一个基本的假设,即当分段足够小时,非线性系统可以用线性系统来近似,从而 产生了诸如线性预测、同态卷积、正交变换等分段线性分析方法。由于这种分析 方法理论简单,计算上也易于处理,因而一直是人们研究的重点。但是随着研究 的深入人们发现传统的分段线性方法存在许多不足,表现为语音识别,语音合 成及语音编码系统的性能难以进一步提高,因而人们逐渐将注意力转向非线性信 号分析方法的研究。 已有学者将语音的非线性特征用于音素的分类和语音的切割。陈国,胡修林 等口i j 应用分形理论对汉语男女声的2 1 种声母和3 8 种韵母语音信号的分形维数进 行计算和统计分析,分析结果表明汉语语音信号具有分形标度不变性:文献 3 2 1 将语音段以一一定窗口大小和一定间隔距离向前移动,计算其分形维数,进而得到 该语音的分形维数轨迹。由于在一段语音中,无声时因为含有噪声而呈现离分形 维数值,发声时由于语音信号是具有相关性的信号而呈现低分形维数值,故发音 的起止点就可由分形维数轨迹来确定。此外,元音由于其自相关性更强和波形更 规则而呈现低分形维数,而辅音由于具有较大的波动性和类似噪声的特性而呈现 较高的分形维数值。这一点可被用以分割元音和辅音。文献 3 3 提出分析离散信 号多尺度分形特性的“多尺度分形维数”的概念及计算方法,在此基础上根据汉 语音节的特点提出一种简单而有效的基于多尺度分形维数的声韵母切分方法,其 实验表明,此方法对汉语连续语流中音节的声韵母切分f 确率达到9 5 2 。另外, m i c h a e lt j o h n s o n 等人将重构相空间的方法引入了语音增强和语音识别领域 【3 4 l 【3 5 】。 在说话人识别方面,s a b a n a la n dm n a k a g a w a l 3 6 在1 9 9 9 年利用神经网络方 法证实了t d m f d ( t i m e d e p e n d e n tf r a c t a ld i m e n s i o n ) 对说话人识别的有效性; 而p e t t y ,a a n dg a r o n e ,d a c d t 将分形维数与l p c c 相结合进行说话人辨认, 其实验结果表明比单独利用l p c c 时系统的识别率更高。j u n g p as e o 3 8 1 则运用关 联维数来辨认人耳几乎不能分辩的6 个说话人的语音取得了很好的效果。 i j 海大学硕士学位论立 语音非线性特抚在说话人识别中的廊用 1 5 说话人识别的数据库 从文献来看,说话人识别技术在建模方法和特征参数上各有差异,实验用的 数据库也有不同。目前国际上常用的语音库主要有t i m i t 语音库、y o h o 语音 库、s w i t c h b o a r d 语音库、k i n g 语音库。由于本课题没有上述较为通用的数据 库,所以在分析语音非线性部分是以选自p k u s r s c 语音数据库北风与太阳 的录音材料为实验对象。该语音数据库中的宽带语音是将语音经固定于录音人前 下方的定向麦克风传至声卡,由计算机录为1 6 比特量化、8 k h z 采样率、p c m 格 式的w a y 文件而得到的。北风与太阳为国际语音协会推荐用来标注各语种语 音的故事,它的中文版本中富含语音信息,不同录用人均以正常语速录音,用时 为5 0 秒左右。 而说话人识别实验则采用我们自己录制的语音库。它包含4 8 个说话人,2 0 个女性,2 8 个男性。每个人的录音材料包含1 4 句话,其中4 旬均为中文0 , “l ”,“1 0 ”的数字串,录音时间4 s 左右;剩下1 0 旬的内容取自报刊 主题各异,录音时间为4 s 左右;各语音文件的采样频率是8 k h z ,量化比特是1 6 位,队w k v e 格式存储。 1 6 本文的主要内容 在参考诸多学者研究成果的基础上,本课题所做的主要工作概括如下: ( 1 ) 本文对语音的发声器官和产生机理进行了描述,从根源上分析了说话人发 音过程中的非线性现象。运用非线性理论知识,通过计算3 8 个汉语音紊 的最大李雅普诺夫指数从实验角度验证了语音内含混沌性: ( 2 ) 本文集中、详细地讨论了从不同侧面刻画语音非线性特性信息的三个特征 量李雅普诺夫指数、二阶熵和相关维数的物理意义和计算方法: ( 3 )本文在特征提取方面尝试一条新路将非线性特征应用于说话入识别。 为验证其有效性,分别使用矢量量化模型和高斯混合模型两种分类器,结 合常用特征构建了两个基准系统。而且,运用信息融合原理从特征层与决 策层两个层面上探讨如何融合两类不同特征量和不同分类器的优势以提 离说话人识别的性能。 i :j 大学倾一i ! 学位论文语音非线性特征在说话人识别中的应用 第二章语音非线性本质 2 1 非线性理论概述 非线性科学是2 0 世纪6 0 年代以来,在各门以非线性为特征的分支学科的基 础上逐步发展起来的综合性学科,它的深入发展引发了对确定论与随机性,有序 与无序,偶然性与必然性,量变与质变,整体与局部等范畴和概念的重颓认识。 混沌和分形是非线性科学中两个重要的组成部分。 2 1 1 混沌与分形的概述 f = 一仃扛一y ) _ ) j b 一船+ r x y ( 2 1 ) i 鼯x y b z l o r e n z 方科n 。x y 平面l 。的投影l 0 响方挫往x 甲 f 【i | 的挫搿 5 0 图2 1 设定初始值和r 时洛伦兹方程的解的平面投影 其中三个参数盯,r ,b 为正实数。该方程右端不显含时间,是一个完全确 定的三阶常微分方程组。仔细分析,在取定仃= 1 0 ,b = 8 3 时,r 在不同的取值 范围会导致不同的解。若r 】,其 辩人学倾 哔位论文 语音非线件特征在说话人识荆中的应用 解为非周期的,看起来很混乱。 当给定初始值x = o ,y = 1 ,z = 0 ,而且r = 2 8 时,洛伦兹方程的解在空闻中 的分布如图2 1 。 该方程典型地说明了在耗散系统中,一个确定的方程能导出混沌解。现在 人们对还没有给出一个确切的定义,一般认为混沌就是指在确定性系统中出现的 一种貌似无规则,类似随机的现象。它不是简单的无序而是没有明显的周期和对 称,但却是具有丰富的内部层次的有序结构,是非线性系统中的一种新的存在形 式。具有混沌的系统大都对初值的依赖十分敏感,即所谓的“蝴蝶效应”。 在生产实践和科学研究中,人们用欧几里德几何学、解析几何、射影几何、 微分几何等工具来描述客观世界里的三维物体。这当中人们也感觉到传统几何并 不能保罗万象地描述大自然里的所有对象。因为很大一部分对象不是有序、稳定、 平衡和确定性的,而是处于无序、不稳定、非平衡和随机的状态之中,存在着无 数的非线性过程。但在复杂现象之后存在着某种规律性。分形理沦给人们提供了 新的观念和新的手段来揭示这种规律性。 分形是指由各个部分组成的形态,每一个部分以某种方式与整体相似,这 种相似性称为比例自相似性。对这种描述加以引申,分形包含以下含义: ( 1 ) 分形既可以是几何图形,也可以是由“功能”或“信息”构建的数理 模型: ( 2 ) 分形可以同时具有形态、功能、信息三方面的自相似性; ( 3 ) 自相似性可以是严格的,也可以是统计意义上的相似。实际上,自然 界的分形大多数是统计自相似的; ( 4 ) 相似性有层次结构上的差异。数学中的分形具有无限嵌套的层次结构, 丽自然晁中的分形只有有限层次的嵌套,而且要达到一定的层次结构以后爿 有分形的规律性。 2 1 2 非线性分析方法 近十年来有关随机和确定性非线性时间序列分析和建模的研究取得了显著 的进展。有关非线性确定性动力学系统中混沌的大量数学研究也促进了时间序列 的菲线性动力学分析和确定性建模。 些复杂的时间序列在二阶分析中往往被归为“随机信号”或是“白噪声”, 但通过混沌动力学分析,能够证明其实际上是确定性的。尽管这种“确定性”并 不能导出无限的可预测性,但我们可以对这些复杂时间序列建立非线性确定性模 型并进行短时预测,而这是线性模型不可能实现的。 判断一个时间序列究竟是“随机的”( 因而是完全不可预测的) ,还是“非周 i :海人学硕士学位论文 语音非线性特征在说茂人识别中的威用 期然而混沌的”( 因而是可预测的) ,目前常用的方法是通过估计非线性不变量实 现的,例如维数( 包括分形维数、信息维数、关联维数等) 、熵和李雅普诺夫 ( l y a p u n o v ) 指数等。 熵是对动力学系统演变过程中有关初始条件的信息的损失率的一种量化,系 统的可预溅时l _ 日j 正比于初始条件的对数精度和熵之比,而李雅普诺夫指数则是另 一。种描述时空演变非线性动态特性的有效特征,表示了相空间演变轨迹变化的快 慢程度。 许多研究人员发现,非线性动力学系统,尤其是混沌分析方法可应用于语音 信号的建模、编码及压缩等方面。功率谱分析等时问序列方法将不规则行为视作 宽带噪声,对系统究竟是高维抑或低维无法加以区分。然而,语音信号的熵分柝 对信号的大量非线性失真具有不变性,能更为详尽地描绘其结构,并能提供有关 系统的维数和其他非线性特征。在语音信号中。如果能在某些声音( 例如由声道 湍流引起的摩擦音) 中检测到低维确定性系统行为,将有助于对这些声音建立更 好的声源模型。混沌动力学系统收敛于一定的吸引子,而该吸引子在相空间中就 是分形集,可以用分形来建模。这就启发我们将分形引入语音信号的分析,通过 计算分形维数来定量地描述语音信号中的湍流量。 2 2 语音的非线性现象 2 2 1 发音器官和发音过程 人的发音器官主要包括三部分:月审和气管、喉、声道。胁是胸腔内一团有弹 性的海绵状物质,它的主要生理功能是使血液和空气之间进行气体交换,另一个 重要功能是将压缩空气供给发音器官。气管由一连串坏状软骨组成,连接着肺和 喉,将来自肺部的空气送到喉部。喉则是一个由软骨和肌肉组成的复杂系统,其 中包含了声带。两片声带之间的空闻叫声门。当两片声带分离时,声门处于张开 状念,这是呼吸时的正常位置:当两片声带合拢时,声门闭合,肺顶处于闭合状 念,在胸腔和腹腔内形成气压,所以声带是产生语音的重要激励源。声道是指声 门至嘴唇的所有发音器官,包括明喉、口腔和鼻腔。它可以看成一根从声门一直 延伸到嘴唇的具有非均匀截面的声管,其截面积主要取决于唇、舌、腭和小舌的 形状和位置,并且在发音过程中随时间不停变化。 语音是由空气流激励声道产生的。具体来说,空气从肺部排出形成空气流, 空气流经过声带,如果声带是绷紧的,则声带将产生张驰振动,周期性地启动和 闭合。振动状态由声带的质量和张力决定,也受气体通过时引起的伯努利效应影 响。接着,气流顺着声道进行传播,最后从嘴唇或鼻孔或同时从嘴唇和舞孔辐射 海人学 i ! j l 学位论文 语 f t b 线性特征在说计人识别中的应用 出来。 2 2 2 语音生成过程的非线性 语音信号,特别是摩擦音与爆破音之类的送气音,会在声道边界产生涡流, 并最终形成湍流。以摩擦音为例,声道在声门前部狭窄区域形成的收缩以及气流 通过声道时在收缩区域下方引起的湍流共同产生了摩擦音,湍流出现在声道壁或 阻碍空气流动的牙齿附近。此外,例如在摩擦浊音中,声道褶皱的摆动还可能在 部分摩擦期间出现。摩擦音的频谱具有高频宽带能量,通常在3 k h z 以上,而从 时域上束看,摩擦清音具有高度不规则性,而摩擦浊音则带近似周期性。元音和 摩擦音之阳j 的过渡也会影响湍流的程度和方式。在过渡期,气流模式从产生元音 时假设的层模式转变为摩擦音时的湍流模式。例如在v - c v ( v 指元音,c 指辅 音) 发音时,摩擦清音的湍流可能在达到完全收缩状态前就出现并在收缩面积增 加后仍然维持。湍流的形成还受摩擦浊音清化的影响,主要表现为声门的浊音声 源和声门前部收缩产生的湍流之间的相互作用。湍流本身已被证明是一神混沌。 实际上,不仅摩擦音的产生可以看作是一种复杂的非线性流体动力学现象, 声道的建模也无法仅用线性模型完成。通过对语音信号生成机制的观察,一个声 道的详细模型应当考虑声道形状的时变、声道共振、热传导和声道壁的粘滞摩擦 引起的损耗、声道壁的柔软程度、声道在唇部的辐射以及鼻部耦合等多种情况。 尽管其中部分因素所产生的影响可以用线性时变滤波器来表示,另一些因素产生 的影响却是非线性的,通过对声道前部气流结构仔细测量可以发现有不同的气流 模式存在,这与语音生成机制“激励源滤波器”理论所假设的“层气流”不一 致。声道褶皱的摆动和声门波的产生也包含有若干非线性,其中包括声道褶皱相 互碰撞时的强恢复力、发清音时声道收缩产生的湍流以及声源和声道在发某些语 音时出现的非线性耦含。另外,有关声道褶皱摆动的著名的“两部式”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 杭州高端住宅买卖合同定制
- 国际展览馆管家服务协议
- 建筑外墙施工合同:领先版
- 2024年度信息系统运维服务与管理合同
- 2024年建筑劳务分包价款协议
- 职业培训机构师资聘用合同模板
- 2024年度区块链游戏开发与应用合同
- 渔业养殖物资员招聘协议
- 燃气泄漏应急处理规程
- 体育场馆节能保温施工协议
- 2024至2030年中国股指期货行业市场全景评估及发展战略规划报告
- 2024-2030年中国母乳低聚糖(HMO)行业发展形势与未来前景展望报告
- 人员、设备、资金等方面具有相应的履约能力的承诺书
- 人教版数学二年级上册第4单元 表内乘法一解决问题 第2课时说课稿
- 2024年常州信息职业技术学院高职单招笔试历年职业技能测验典型例题与考点解析含答案
- DB11T 2292-2024 市政工程施工组织设计管理规程
- 2024-2030年中国乌鸡产品晒市场营销模式与投资策略规划研究研究报告
- YYT 0916.1-2014 医用液体和气体用小孔径连接件 第1部分:要求
- 骨科专科护士培训ICU患者监护要点
- 某监控中心管理制度全套
- 特种设备安全总监岗位职责
评论
0/150
提交评论