(信号与信息处理专业论文)基于sopc技术的便携式说话人确认系统研究与实现.pdf_第1页
(信号与信息处理专业论文)基于sopc技术的便携式说话人确认系统研究与实现.pdf_第2页
(信号与信息处理专业论文)基于sopc技术的便携式说话人确认系统研究与实现.pdf_第3页
(信号与信息处理专业论文)基于sopc技术的便携式说话人确认系统研究与实现.pdf_第4页
(信号与信息处理专业论文)基于sopc技术的便携式说话人确认系统研究与实现.pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

(信号与信息处理专业论文)基于sopc技术的便携式说话人确认系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 脚1 7 8 0 4 6 脚6 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 奄成 签字日期:f d 年6 月2 1 日 导师躲叮仍 飞 签字日期:z 叫。年月7 日 一 中图分类号:t n 4 0 2 u d c ;0 0 4 9 学校代码:1 0 0 0 4 密级: 公开 北京交通大学 硕士学位论文 基于s o p c 技术的便携式说话人确认系统研究与实现 r e s e a r c ha n d i m p l e m e n t a t i o no fp o r t a b l es p e a k e r v e r i f i c a t i o n s y s t e mb a s e do ns o p ct e c h n o l o g y 作者姓名: 导师姓名: 学位类别: 学科专业: 李成 丁晓明 工科 信号与信息处理 学号:0 8 1 2 0 4 0 4 职称:副教授 学位级别:硕士 研究方向:嵌入式 北京交通大学 2 0 1 0 年6 月 一_-_-_ 致谢 本论文的工作是在我的导师丁晓明副教授的悉心指导下完成的,丁晓明副 教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢 二年来丁晓明老师对我的关心和指导。 丁晓明老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向丁晓明老师表示衷心的谢意。 丁晓明副教授、朱维彬副教授、熊轲博士对于我的科研工作和论文都提出了 许多的宝贵意见,在此表示衷心的感谢。 在实验室工作及撰写论文期间,李丹丹、郭东超、沈阳、王树、陶思敏等同 学对我论文中的说话人算法分析、硬件模块设计等工作给予了热情帮助,在此向 他们表达我的感激之情。 另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。 一 摘要 说话人确认是判定说话人真实身份的技术。已经有了广泛的研究和较高的识 别率,但大部分都是基于p c 的实现,成本较高,应用范围较窄。如果在嵌入式系 统或者移动设备中加入说话人确认功能,其应用范围必然会增大,有一定的经济 效益。但嵌入式系统和移动设备工作频率相对p c 较低,如何保证在较低的工作频 率下,完成说话人确认系统的实时响应,是本文研究的关键。 本文重点研究了基于s o p c 技术的便携式说话人确认系统及其在f p g a 上的实 现。根据系统功能和资源的要求,选用a l t e r a 公司的嵌入式硬件平台,用硬件描 述语言设计了符合a v a l o n 总线接口标准的语音采集自定义组件,并建立了适合本 系统的语音数据库:分析了选用的说话人确认算法复杂度,用自定义组件和自定 义指令两种方法对相应的算法进行了硬件加速,特别是在提取声纹特征时用到快 速傅利叶变换( f f t ) 来求功率谱,因其数值较大,需要硬件实现的f f t 具有很 高的精度( 小数点后三位) ,本文用三种方式实现了f f t 硬件加速,其精度逐步提 高,最终满足了系统的需要,硬件加速效果非常明显。在选定平台上实现了完整 的说话人确认系统,系统测试结果表明,所实现的说话人确认系统是有效的,在 较低的工作频率下,认证结果和实时性基本满足要求。 关键词:说话人确认;片上可编程系统;自定义组件;快速傅利叶变换;高斯混 合模型全局背景模型 分类号:t n 4 0 2 一_ _ _ - - _ _ _ _ - _ - - _ _ _ - - _ _ _ - _ _ _ _ _ i _ _ _ l _ _ _ _ _ _ _ 一 a b s t r a c t s p e a k e rv e r i f i c a t i o ni sat e c h n o l o g yt od e t e r m i n et h et r u ei d e n t i t yo ft h es p e a k e r i t a l r e m yh a se x t e n s i v er e s e a r c ha n dh i g hr e c o g n i t i o nr a t e ,b u tm o s to fi m p l e m e n t a t i o n s a l eb a s e do np c ,a n dc o s ti st o oh i g h , r a n g eo fa p p l i c a t i o n si sr e l a t i v e l yn a r r o w i f s p e a k e rv e r i f i c a t i o nc a nb ei m p l e m e n t e do nt o d a y sp o p u l a re m b e d d e ds y s t e m so r m o b i l ed e v i c e s ,i t su s ei sb o u n dt ob ei n c r e a s e da n dt h e r ea r ec e r t a i ne c o n o m i cb e n e f i t s o w i n gt of r e q u e n c yo fe m b e d d e ds y s t e m sa n dm o b i l ed e v i c e si sm u c hl o w e rt h a np c , h o wt oe n s u r et h a ts p e a k e rv e r i f i c a t i o ns y s t e mc a nw o r ki nt h el o w - f r e q u e n c ya n dh a s r e a l - t i m er e s p o l z s ei st h ek e yt ot h i ss t u d y t h i sp a p e rf o c u s e so nt h ep o r t a b l es p e a k e rv e r i f i c a t i o ns y s t e mb a s e do ns o p c t e c h n o l o g ya n di t si m p l e m e n t a t i o n0 1 1f p g a a c c o r d i n gt ot h es y s t e mr e q u i r e m e n t so f f u n c t i o n sa n dr e s o u r c e s ,a l t e r a se m b e d d e dh a r d w a r ep l a t f o r mw a ss e l e c t e d ac u s t o m c o m p o n e n to f v o i c ec a p t u r ew h i c hi sc o n s i s t e n tw i t ha v a l o nb u si n t e r f a c es t a n d a r dw a s d e s i g n e dw i t hh a r d w a r ed e s c r i p t i o nl a n g u a g e ( h d l ) a n dav o i c ed a t a b a s ew a s e s t a b l i s h e df o rt h es y s t e m ;a n a l y z i n gt h es p e a k e rv e r i f i c a t i o na l g o r i t h m sc o m p l e x i t y , t h e nt h er e l a t e da l g o r i t h m sa r ea c c e l e r a t e do nh a r d w a r e t h r o u g hu s i n gc u s t o m c o m p o n e n t sa n dc u s t o mi n s t r u c t i o n s e s p e c i a l l yw h e ne x t r a c t e dt h ev o i c e p r i n tf e a t u r e s , f a s tf o u r i e rt r a n s f o r m ( f f t ) i su s e dt oc a l c u l a t ep o w e rs p e c t r u m ,b e c a u s eo fi t sl a r g e v a l u e ,i tr e q u i r e st h a tt h eh a r d w a r ei m p l e m e n t a t i o no ff f th a sah i 班a c c u r a c y ( u pt o t h r e ed e c i m a lp l a c e s ) t h i sp a p e ra c h i e v e df f th a r d w a r ea c c e l e r a t i o nw i t ht h r e e m e t h o d s ,a st h ep r e c i s i o ng r a d u a l l yi n c r e a s e s ,e v e n t u a l l yt h es y s t e mr e q u i r e m e n t sw e r e s a t i s f i e d ,a n dt h e r e s u l to fh a r d w a r ea c c e l e r a t i o nw a sv e r yo b v i o u s as p e a k e r i d e n t i f i c a t i o ns y s t e mw a sc o m p l e t e do nt h es e l e c t e dp l a t f o r m ,a n ds y s t e mt e s tr e s u l t s s h o wt h a tt h ed e s i g no fs p e a k e rv e r i f i c a t i o ns y s t e mi se f f e c t i v ew h e nw o r k i n ga tl o w f r e q u e n c y , a n dc e r t i f i e dr e s u l t sb a s i c a l l ym e e tt h er e a l t i m er e q u i r e m e n t s k e y w o r d s :s p e a k e rv e r i f i c a t i o n ;s o p c ;c u s t o mc o m p o n e n t ;f f t ;g m m u b m c i ,a s s n o :t n 4 0 2 目录 摘要i i i a b s t r a c t i v 1综述1 1 1生物特征识别技术研究现状1 1 1 1 生物特征识别技术1 1 1 2 说话人辨认与说话人确认2 1 2本课题的研究背景及意义3 1 3本课题的主要研究内容及创新点4 1 3 1 本课题的主要研究内容4 1 3 2 论文的主要工作和创新点4 1 4论文的组织结构5 2系统硬件平台选择及关键技术7 2 1系统平台选择7 2 2i p 核复用技术。9 2 3 系统处理器- n i o si i 处理器10 2 4系统总线协议1 1 2 5说话人确认可结合选定平台及技术的特点1 l 2 6本章小结1 2 3说话人确认系统的组成及核心算法1 3 3 1说话人确认算法选择1 3 3 2说话人确认系统的组成1 4 3 3说话人确认系统用到的核心算法1 5 3 3 1 声纹特征参数提取15 3 3 2g m m u b m 模型的建立1 6 3 4打分( 对数似然比计算) 2 2 3 5系统性能判定准则2 3 3 6运行速度瓶颈分析2 3 3 7本章小结2 4 4基于n i o si i 软核的说话人确认系统构架2 5 4 1系统硬件构架及关键模块设计2 5 4 2系统软件流程2 6 6 1系统集成6 5 6 2建立语音数据库6 6 6 3 系统性能检测一6 7 6 4系统资源统计状况7 2 6 5本章小结7 3 7总结与展望7 4 7 1论文工作总结7 4 7 2研究展望7 5 参考文献7 7 附录a 7 9 f f ti p 核的封装7 9 作者简历8 3 攻读硕士学位期间发表的论文及获得的奖励8 5 独创性声明8 7 学位论文数据集8 9 v i i i 1 综述 本章将简要介绍生物特征识别技术的研究现状,给出课题研究背景、意义, 和主要的研究内容及工作的主要创新点,最后给出了论文的组织结构。 1 1 生物特征识别技术研究现状 本节简要的介绍了生物特征识别技术,从而引出声纹识别,对声纹识别中的 说话人辨认和说话人确认概念做了对比。 1 1 1生物特征识别技术 随着信息化时代的到来,信息的安全性与保密性引起了人们普遍的重视。人 体丰富的生理特征,使得生物特征识别技术成为身份鉴别领域的一项重要手段。 如何准确地识别一个人的身份,保护信息的安全已成为信息时代必须解决的一个 关键问题。传统的身份鉴别所采用的方法主要有两种:一种是通过身份标示物品, 如钥匙、证件、卡等来确定其身份;另一种是通过身份标示知识,如用户名和密 码等来确定其身份。但两者都存在着各自难以克服的缺陷:标示物品容易丢失或 被伪造,标示知识容易遗忘或被记错。更为严重的是这些传统的身份鉴别方法往 往无法区分标识物品的真正拥有者和取得标示物品的冒充者,一旦他人获得了这 些标示物品,就可以拥有相同的权利。 生物特征识别技术所依据的不是传统的标识物品或标示知识,而是依靠人类 自身所固有的生理或行为特征进行身份鉴别的一种解决方案。人的任何生理或行 为特征只要它满足下面的条件,原则上就可以作为生物特征用于身份鉴别: ( 1 ) 普遍性:即必须每个人都具备这种特征; ( 2 ) 唯一性:即任何两个人的特征是不一样的; ( 3 ) 可测量性:即特征是可测量的; ( 4 ) 稳定性:即特征应在一段时间内不会改变。 除这些条件外,生物特征从模式识别理论的角度讲,还应该满足类内间距小、 而类间问距大的条件:从实际应用的角度讲,还要考虑性能、可接受程度、可欺 骗性等因素。 利用生物特征进行身份鉴别可分为两类:识别和认证。识别是指确定用户的 身份或可能的候选,认证是指验证的用户是否为他所声明的身份。典型的生物特 征识别和认证系统基本结构如图1 1 所示。 图1 1 生物特征识别和认证系统的基本结构 f i g 1 - 1t h eb a s i cs t r u c t u r eo fb i o m e t r i ci d e n t i f i c a t i o na n da u t h e n t i c a t i o ns y s t e m 经过近年来的研究,人们研究出以下生物特征可以作为识别人身份的特征, 主要分类为:( 1 ) 声纹识别;( 2 ) 指纹识别;( 3 ) 掌纹识别;( 4 ) 手形识别; ( 5 ) 人脸识别;( 6 ) 虹膜识别;( 7 ) 视网膜识别;( 8 ) 签名识别;( 9 ) 姿态 识别等。 本系统采用声纹作为身份鉴别的生物特征,而声纹识别有说话人辨认和说话 人确认之分,要研究声纹识别首先需要区分这两者。 1 1 2说话人辨认与说话人确认 声纹识别( v o i c e p r i n tr e c o g n i t i o n ) ,也称说话人识别( s p e a k e rr e c o g n i t i o n ) , 就是根据人的声音特征,”闻声知人”。声纹识别分为两类川: ( 1 ) 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) :用以判断某段语音是若干人中的哪 一个所说的,是“多选一 问题,主要用在刑侦破案、罪犯跟踪、国防监听 ( 2 ) 说话人确认( s p e a k e rv e r i f i c a t i o n ) :用以确认某段语音是否是指定的某个 人所说的,确认只有两种可能,或是肯定( 即接受) ,或是否定( 即拒绝) ,是 个一对一的问题。主要用在证券交易、银行交易、公安取证、个人 汽车声控锁、身份证、信用卡等。 两者的主要区别是供判决选择的数目不同,说话人辨认是在所 话人中进行选择的,因此辨认性能将与注册的人数有关,随着人数 能将有所下降;而确认与注册人数的多少的没有关系。辨认和确认 应用场合。 另外,从待识别的语音样本来分类,说话人识别可分 ( t e x t d e p e n d e n t ) 和文本无关( t e x t i n d e p e n d e n t ) 两种。文本相关的 用户按照规定的内容发音,并根据特定的发音内容建立精确的模型 2 j 匕立交适太堂亟堂僮论塞 绽述 好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则 无法正确识别该用户。而文本无关的识别系统则不规定说话人的发音内容,因而 要建立精确的模型较为困难。说话人确认系统中最关键的就是特征提取和建立说 话人模型: 1 2本课题的研究背景及意义 首先,在众多的生物认证技术中,说话人识别技术表现出很多应用上的优势1 2 l 。 1 ) 说话人识别有着天然的优点。以声音作为识别特征,因其非接触性和自然 性,用户容易接受。在说话人识别中,用户不用刻意地将手指放在传感器上,或 者把眼睛凑向摄像头,只需要简单地说一两句话即可完成识别。 2 1 说话人识别所用的采集设备成本很低。对输入设备如麦克风、电话送话器 等没有特别的要求;声音的采样与量化对芯片的要求也不高。 3 ) 其它生物特征识别技术各有其劣势。如指纹识别技术虽然已经比较成熟, 但用户的接受度不高,用户常把指纹同犯罪联系在一起,而不卫生是另外一个不 利因素。虹膜、视网膜识别技术的精确度虽然很高,但所需的设备非常昂贵,并 且据研究,这些特征中包含用户的健康状况等隐私信息,大众接受度也不高。脸 部,步法等特征,虽然比较自然,用户也容易接受,但实现难度很大,语音信号 一般没有严格的方向性,可在黑暗中传播,也可以方便地通过电话线传播;因此, 说话人识别的优势更加明显。 更重要的是,对于远程应用和移动互联环境,如通过电话、移动设备进行身 份验证,声音恐怕是唯一可用的生物特征。目前语音识别技术已成功地应用于桌 面听写和电话呼叫中心。第三个应用领域即将出现移动设备和嵌入式系统i l l 。 当今大部分的移动设备都带有录音系统,如我们随身携带的手机,电子词典,数 码产品等贵重电子物品,如果加入声纹控制的开机功能,就再也不用担心被偷了; 嵌入式系统如声控电子密码锁:实时执行军事指挥员或飞机驾驶员的口述命令( 如 实时发炮命令等) 、有经验的操作人员才能进行的高精度控制或者是声控门禁系 统,医学中如使说话人识别系统只响应患者的命令,从而实现对患者假肢的控制 盘占 号fo 目前说话人确认系统的实现主要是在p c 机上,成本较高,体积较大,且只能 用于专门的场所,如果在平时经常使用的移动设备或者嵌入式系统上加上说话人 确认功能,它的应用范围就变得很广,也就具有很大的经济效益。但这些移动设 备或者嵌入式系统采用的主频相对p c 机来说都较低,如何保证在较低工作频率下 声纹识别的实时响应,是一个很值得研究的课题。当今在f p g a ( f i e l dp r o g r a m m a b l e g a t ea r r a y ) 上实现s o p c ( s y s t e mo nap r o g r a m m a b l ec h i p ) 技术正逐步成为一种 成熟的趋势,可以实现软硬件的灵活可重构,所以本课题选取在f p g a 上实现说话 人确认系统,重点研究了其硬件加速,以满足实时性的要求。 1 3本课题的主要研究内容及创新点 1 3 1本课题的主要研究内容 本课题主要研究的是基于s o p c 技术的便携式说话人确认系统在f p g a 上的实 现。在说话人确认的研究中,关键是声纹特征提取和模型建立两部分。本文主要 分析了m e l 倒谱系数这一特征提取的方法和过程,并对基于高斯混合模型( g m m : g a u s s i a nm i x t u r em o d e l s ) 和全局背景模型( u b m :u n i v e r s a lb a c k g r o u n dm o d e l ) 的说话人确认算法进行了深入的研究。即先用c 语言实现了此系统独立于硬件平台 的算法模块,分析了算法中耗时较长且易于硬件加速的部分,针对此系统主要在 嵌入式和移动设备方面的应用场合,以及f p g a 的灵活的可重构性,选择在f p g a 平台上完成此系统的硬件实现。因认证和训练时需要同样的语音提取通道,所以 建立了适合于本系统平台的语音数据库。由于嵌入式和移动设备相对p c 主频较低, 系统运行时间较长,本文又将算法中若干耗时较长部分进行了硬件加速,以满足 实时性。相比于传统纯软件实现的说话人确认系统,本系统软件与硬件紧密结合, 协同工作,在灵活性、扩展性与性能成本间取得较好的平衡。 1 3 2 论文的主要工作和创新点 论文的主要工作是在嵌入式平台上实现说话人确认系统,工作中的主要创新 点如下: 总 处 核 度 指 费 此外,为了验证( 2 ) 工作的正确性和有效性,将封装后f f f ri p 核应用到所设计 说话人确认系统中,得到了很好的效果,使得声纹特征提取的速度提高了9 7 9 7 ; 同时,针对s d 卡存取速度受限,不适合实时声纹确认系统应用的问题,将两路通 用i o d 进行扩展j 使扩展s d 卡控制接口数据线从1 线模式提高n 4 线模式,存取速 度提高了近4 倍,达到了所设计系统的存取速度要求。 1 4 论文的组织结构 第一章概述了生物特征识别技术,主要介绍了生物特征识别技术研究现状及 课题研究的背景和意义。给出了论文的主要内容和创新点及本文的组织结构。 第二章介绍了系统硬件平台的选择及基于此平台用到的关键技术,重点介绍 了i p 核复用技术及系统处理器和总线协议,并总结出说话人确认可结合选定平台和 技术的特点。 第三章介绍了说话人确认算法的选择,说话人确认系统的组成及核心算法, 对本系统主要用到的核心算法进行了深入的分析,并分析了系统运行时间较长的 瓶颈所在,为后面的硬件加速做准备。 第四章是基于n i o si i 软核下的说话人确认系统构架及设计,给出了系统硬件构 架及软件流程,对流程中主要模块的功能及实现方法进行了简要的分析。 第五章详细介绍了语音采集自定义组件的实现,对m f c c ( m e lf r e q u e n c y c e p s t r a lc o e f f i c i e n t ) 特征提取中的关键环节f f t 的硬件实现给出了三种解决方案, 前两种方案因系统要求f f t 精度要达n d , 数点后三位而被舍弃,采用了第三种方 案,另外介绍了平台上s d 卡模块的优化和文件系统的添加,最后介绍了浮点四则 运算及对数运算自定义指令的实现。 第六章是系统集成与测试,介绍了s o p cb u i l d e r 中已提供的组件及自定义的组 件和指令的集成,至此硬件部分全部完成,然后在此平台上建立适合本系统的语 音数据库,给出了训练u b m 和g m m 时的模块参数,最后用四类实验给出了说话人 确认的结果及若干算法硬件加速后的结果。 第七章完成总结和展望,给出本系统的总结及待优化的地方,阐述下一步开 展的工作。 6 2 系统硬件平台选择及关键技术 本章将阐述系统平台是如何选择以及基于此平台会用到的关键技术,在以后 的系统的实现中都会灵活应用本章阐述的技术。最后将指出说话人确认可结合选 定平台及技术的优势所在。 2 1系统平台选择 s o p c 是一种灵活、高效的s o c 解决方案,它具有双重含义:首先它是s o c ( s y s t e mo nac h i p ) ,由单个芯片完成整个系统的主要逻辑功能;其次它是可编 程系统,具有灵活的设计方式,可裁减,可扩充,可升级,并具有软硬件在系统 中可编程的功能。从应用角度看,s o p c 与s o c 相比有自己的优点1 4 j ,因为它是基于 p l d f p g a 实现的,可以随时下载以验证其功能,灵活性高,在设计好的产品中, 如果要对芯片中电路布局改动,或者增减功能只需要重新下载,设计周期非常短。 恩 芦芦 图2 - 1 系统所选用的硬件平台 f ig 2 - 1t h ec h o s e dh a r d w a r ep l a t f o r mo fs y s t e m 近年来,随着可编程器件技术的进步,可编程逻辑阵列f p g a 的价格在不断的 降低,而逻辑容量达到了百万门级的水平,片内存储s r a m 容量越来越大,另外高 端器件集成了丰富的d s pb l o c k 、高速串行i o 等资源。所以在f p g a 上实现s o p c 技 术已成为了一种发展趋势。 因此本设计选用a l t e r a 公司的f p g a 开发平台d e 2 7 0 实现说话人确认系统,本 系统平台的选取是根据系统功能的要求和以往的实践经验,结合平台的性价比, 作出得选择。a l t e r ac y c l o n ef p g a 是目前市场上性价比最优且价格最低的f p g a i 7 i 。 在系统功能的要求下,a l t e r a 公司的d e 2 3 5 开发平台即可满足要求,其外设和 d e 2 7 0 基本相符,只是d e 2 3 5 芯片有将近3 5 0 0 0 个逻辑资源,l l d e 2 7 0 少了近一 半,最开始选用的是d e 2 3 5 平台,但是后来因系统中f f t 自定义组件精度的不断提 高,致使d e 2 3 5 平台逻辑资源不够,最终系统平台定为d e 2 7 0 。 图2 11 s i 是d e 2 7 0 多媒体开发平台,图中标出了说话人确认系统主要用到的资 源。平台主要资源及其在系统中的功能简介如下: 主芯片 数量高达6 8 4 16 个逻辑单元的a l t e r ac y c l o n e t g ) i ie p 2 c 7 0 f 8 9 6 c 6 n ,逻辑单元丰 富。含有4 个可编程锁相环( p l l :p h a s el o c k e dl o o p ) ,c y c l o n e :是状态协方差矩阵,d 是特征矢量的维数。一个 特征矢量可能属于m 个状态( 或者声音类别) 中的任意一个,对于某个特定的说话 人模型( 用五来表示) 而言,这个隶属概率是由不同的高斯密度函数的联合或者 混合来表示的。 对于一个d 维的特征矢量王,似然度方程的混合密度定义为i ”if l s l : 1 7 p ( xa ) :窆w lp 。( :) 1 3 - 4 ) ( a ) = 。( ;) ) l = i 这个密度函数是m 个高斯密度函数的p i ( ;) 线性加权和。每个p t ( :) 以d 维均值矢量 l a l 和l d x d 的协方差,为模型参数。w 是混合分量的权重,满足关系式: m w ,= 1 l - l ( 3 - 5 ) 这样就可以保证混合密度能代表一个真正的概率密度函数。因此,某个特定的说 话人模型即五就可以用g m m 均值,协方差和权重来表示,即1 1 8 i _ 一 , 旯= ( ,鸬,4 ) ,i = ( 1 ,m ) ( 3 6 ) 训练的目的就是找到一组参数兄,使似然概率p ( xi 五) 最大。一般来说,假设 各维特征分量之间不相关,因此这里的协方差矩阵是一个对角矩阵 1 5 l 。同时我们 注意到使用对角矩阵g m m ,不需要重复计算矩阵的逆运算,这样就大大提高了计算 效率。 不考虑g m m 与声音类别的联系,我们可以对g m m 有另一种解释,它是概率 密度函数的一种函数表达式。g m m 作为高斯概率密度函数的一个线性组合,只要 有足够多数目的混合分量,就可以逼近任意一种密度函数。语音特征通常有着平 滑的概率密度函数,因此有限数目的高斯密度函数( 例如8 6 4 个) 就足以对语音 特征的密度函数形成平滑逼近1 1 2 i 。通过适当地选择g m m 的均值,( 协) 方差和概率 权重,就可以完成对一个概率密度函数的建模。 一种估算g m m 模型参数的方法是最大似然估计法,即关于名使条件概率 p ( xi 兄) 取最大值。最大似然估计的一个重要属性是对于足够多的训练特征矢量, 模型估计能收敛( 随着数据的增加) 到真正的模型参数上。然而,求g m m 的表达 式并没有一个闭式解,因而需要一个种迭代的方法来求解。 这一求解方法就是e m 算法,与k 均值对比而言,e m 算法会把特征矢量依据概 率分配到某个高斯模型中去,因此也常被称为软聚类。e m 算法会在迭代中改善 g m m 模型参数估计,在每次迭代中增加模型估计a 与观测特征矢量的匹配概率。 即每次迭代时,有: p ( xi 五( + 1 ) p ( x1 名) ( 3 7 ) 其中k 为迭代的次数。 e m e m 算法就是在式( 3 7 ) 中五“1 未知时,最大化对数似然函数l o g p ( xi 五 的期望值,而观察到的特征矢量x 和当前估计( 迭代) 旯是已知的。对于所 声学类,该期望值为: e ( 1 。g 【p ( xi 力( “一) 】) :mp ( x ,f 阮t ) l 。g 【p ( x ,i2 ( i + - ) 】( 3 - 8 ) j = l 这个求和式是e m 算法中求期望的步骤。可以看到,用以上的公式对兄似+ 1 最 大化e ( i o g p ( x 阮“1 ) 】) 可以增加第k 次对数概率,即只x l 胪u ) 只x l 刃的) 。这个最 大值问题的解是通过将e ( i o g p ( x 1 2 “1 ) 】) 对未知的g m m 均值、协方差和加权参数 求导数得到的。具体算法如下: 对于一组独立同分布的特征矢量x = x ,x d ) ,给定一个特征矢量x d ,g m m 模型的第k 个混合分量的先验概率为f 1 5 1 : c t 。2 c 七i 工。,a ,= 二;专湍2 三二; ? 三踹,k = t ,2 m 3 9 d c 。= c “ 定义为概率数 d = i ( 3 - 1 0 ) 其中n 为多维高斯分布的概率密度函数,w 为每一个高斯的权重,m 为混合 度,d 为训练矢量总的个数,皖= ( p 。k ,。一1 ) 。 新的模型参数计算方法如下0 1 5 i : 诜= 石c k 磊。= 挚 伊 法监掣 以上步骤会重复进行。一般来说重复5 次左右就可使参数收敛。 e m 算法用在发音人识别系统中主要目的是得到全局背景模型i l 副。背景模型实 际上是一个典型的规模较大的g m m ,它应尽可能准确地描述所有可能说话人的全 部语音特征在整个特征空间的分布情况。因此所选择的训练语音应尽可能包括识 别过程中所能遇到的所有语音段。给定数据训练一个u b m ,可以使用很多方法得 到最后的模型。最简单的方法是通过e m 算法,集中所有的训练数据训练出u b m 。 实际中,由于男生和女生的声纹有着各自的特点,所以将男生和女生数据分别训 练u b m 模型可以得到更好的识别效果i l 5 。 自适应说话人模型 这里我们并不用每个人的所有特征文件训练个人的g m m 模型,主要是因为每 1 9 f i g 3 - 4p i c t o r i a le x a m p l eo ft w os t e p si na d a p t i n gah y p o t h e s i z e ds p e a k e rm o d e l 3 | ( a ) t h e t r a n i n gv e c t o r sa r ep r o b a b i l i s t i c a l l ym a p p e di n t ot h eu b mm i x t u r e s ( b ) t h ea d a p t e dm i x t u r e p a r a m e t e r sa r ed e r i v e du s i n gt h es t a t i s t i c so f t h en e wd a t aa n dt h eu b mm i x t u r e t h e a d a p a t i o ni sd a t ad e p e n d e n t 对自适应具体说明如下:给定一个全局背景模型和假定说话人的训练矢量, o x = 扛i ,x t ) ,我们首先确定训练矢量的联合概率,然后将这个联合概率代入背景 模型的混合分量中( 如图3 4 ) ,也就是说,对背景模型的第i 个混合,有1 3 i 1 1 2 11 1 5 1 州m - p 卜羔 q 。1 2 + 然后,我们利用p r ( i x t ) 和x t 来计算权重,均值,方差的统计值: 刀。= p r ( i 旧) j- ,= l e ,( :) :上主p r ( 1 n i 。t = 。l e 。( ;2 ) = 丢毫p r ( ,i :,) :,2 2 0 ( 3 - 1 3 ) 对每一个混合和每一个参数,一个与数据有关的适应系数用在上面方程中,即 q p ,p w ,m ,y ) ,用来调节新旧估计的平衡,定义如下: 吖2 寿 ( 3 1 6 ) 其中,厂p 是固定的对参数p 的相关因子,可看作自适应系数。 式3 1 4 描述的参数更新,通过对先验概率的限制,借助g m m 的一般的m a p 估计方程可以获取参数更新。然而对权重参数的更新并不是通过m a p 估计方程得 到。基于m a p 的方程是w = ( r ”+ ) 仃+ 胁”) p i 。此外,适应过程并不重复。 使用依赖于数据的适应系数给出了依赖于混合数的参数自适应。如果对于新 数据,某一个混合分量有低的概率数以,则户j0 ,它表明模型参数对新数据依赖 小,对老数据依赖大;对于某一个混合分量有高的概率数l t i ,则磁pj l 它表明模型 参数对新数据依赖大,对老数据依赖小1 3 l 。相关因子是在新的参数取代旧的参数之 前控制某一个混合分量中新数据大小的一种方式。这种方法对于有限的训练数据 有很好的鲁棒性。这个因子也可以依赖于模型参数,但是通过实验得知这不会提 高系统性能。由经验可知只有对均值矢量进行适应才能提供最好的性能。 使用与参数有关的适应因子( 因此使用与参数有关的适应系数口,p ) 就需要调 整对权重、均值、方差的适应速率。然而,以往的实验表明使用与参数相关的适 应系数收效很小1 1 9 l 。因此在我们的u b m g m m 系统中,我们对所有的参数使用一 个单一的自适应系数( ”= 口,”= ”= 珥( n ,+ r ) ) ,其中适应因子,= 1 6 ,大量的 实验表明系统取,= 1 6 对于对角协方差和全值协方差都有很好的性能l l s l 。唯一的一 种不适用单一的自适应系数的情况是当我们有选择地对参数进行自适应时,这时 对于非自适应的参数p ,令p = o ,v i l 3 1 。 已经公开发表的结果和n i s t ( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 评估结果都有力地表明了g m m 适应方法训练出的说话人模型比独立于背景模型 训练说话人模型的分离的系统性能优越1 1 7 l 。对于性能提高的一个可能的解释为在 似然比中自适应模型的使用不受识别语音中看不见的声音事件的影响1 3 i 。简单的 说,如果我们认为u b m 覆盖独立于说话人的,广阔的语音的声音组合空间,则自 适应是对从说话人训练语音观察到的与说话人有关的声音组合的调整。对于那些 从训练语音观察不到的声音组合的混合参量仅仅从u b m 中复制得到。这意味着在 识别过程中,从说话人训练数据中得到的看不见的声音组合对对数似然比的贡献 几乎是0 ,即对接受或者拒绝当前说话人没有任何影响。如果仅仅使用说话人训练 数据,训练出的说话人模型将对训练数据中观察不到的声音组合产生很小的似然 值,因此似然比值也很小,这样当看不见的数据存在于测试语音段中,将会产生 错误的似然比值。 3 4打分( 对数似然比计算) p ( k ,x ) 表示特征矢量石与参数为,的模型匹配的概率密度函数, p ( i x ) 表示表示特征矢量x 与参数为乃蹦的模型匹配的概率密度函数。其 中,7 r 为目标说话人模型的参数,为全局背景模型的参数。x 为一特征矢量。 定义测试比( t e s tr a t i o ) 为1 1 2 i1 1 5 1 : r ( 工) :出卫:! 型 ( 3 1 7 ) p ( 2 v j ux ) 由于计算p ( 2 | x ) 很复杂,而p ( xi 五) 可由式( 3 4 ) 方便地得到。因此对p ( 力lx ) 做贝叶斯变换。于是式( 3 1 7 ) 转换如下1 1 2 i : r ( x ) :丛盘d 型:丛生型巡墨凼巫:! ( 3 1 8 ) 其中g ( 2 ) 为先验密度。事实上,对于背景模型和说话人模型的先验密度是相 等的1 1 2 i 。因此测试比又可以简化成: m ,= 删 对于一组独立同分布的特征矢量序列x = x - ,x r ) , p ( x 五) ,则澳0 试比t 为: ( 3 - 1 9 ) 概率密度函数为 评价说话人确认系统的性能有多种指标1 1 3 i ,其中最重要的是识别结果的正确 性。表征说话人确认系统性能的两个重要参数是错误拒绝率( f r r :f a l s er e j e c t i o n r a t e ) 和错误接受率( f a r :f a l s ea c c e p t a n c er a t e ) ,前者是拒绝真正说话人而造成 的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关。两者无 法同时达到最小,需要调整阈值来满足不同应用的需求,比如在需要“易用性 的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低; 在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会 增加,从而易用性降低。前者可以概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论