




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于对话型语音的说话人在线识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 说话人识别是一种较为有效的生物认证技术,它通过对语音数据的分析判断 出何人在什么时间发出了声音。这种技术具有十分广阔的应用前景,已有的应用 系统多为简单的说话人确认系统。本文研究了对话型语音的说话人识别技术,并 实现了一个实用的说话人辨认系统。主要工作归纳如下: ( 1 ) 提出了两阶段贝叶斯信息准则b i c ( b a y e s i a ni n f o r m a t i o nc d t e r i o n ) 分 割方法,第一阶段采用较大窗长分割策略保证了在线识别方法的即时性,第二阶 段基于b i c 的分割准则保证了说话人分割的准确性。 ( 2 ) 实现了一个基于矢量量化v q ( v e c t o rq u a n t i z a t i o n ) 的说话人识别系统, 改进了传统的l b g 算法,使其更好的满足系统的在线识别特性。 ( 3 ) 提出了基于差别子空问的说话人识别方法,为每个说话人建立相应的子 空间,将测试语音的个性特征与训练库中子空间进行比较,比较得分最高的即为 识别结果。该方法有效提高了系统识别的准确率,同时降低了系统的时间开销, 适合在线识别系统采用。 ( 4 ) 实现了一个基于对话型语音的说话人在线识别系统。 关键词:对话型语音;说话人识别;矢量量化;差别子空间 黑龙江大学硕士学位论文 a b s t r a c t s p e a k e rr e c o g n i t i o nt e c h n o l o g y i sam o r ee f f e c t i v eb i o m e t r i ca u t h e n t i c a t i o n t e c h n o l o g y i ta n a l y z e st h ev o i c et od e t e r m i n ew h oa n dw h e ns p e a k s a n di th a sv e r y b r o a da p p l i c a t i o n s e x i s t i n ga p p l i c a t i o n sa r em o s t l ys i m p l es p e a k e rv e r i f i c a t i o na n d r e c o g n i t i o ns y s t e m i nt h i sp a p e r ,as p e a k e rr e c o g n i t i o nt e c h n o l o g yb a s e dc o n v e r s a t i o n a l s p e e c hi sp r o p o s e d ,a n di m p l e m e n t a t i o no ft h es p e a k e rr e c o g n i t i o ns y s t e m m a i nt a s k s a r es u m m a r i z e da sf o l l o w s : ( 1 ) at w o - s t a g eb i cs e g m e n t a t i o nm e t h o di sp r o p o s e d ,t h ef i r s tp h a s eo ft h e l a r g e rw i n d o wl e n g t hp a r t i t i o n i n gs t r a t e g i e st oe n s u r eo n - l i n er e a l - t i m ei d e n t i f i c a t i o n m e t h o d ,t h es e c o n dp h a s eo fb i c b a s e ds e g m e n t a t i o nc r i t e r i at oe n s u r et h ea c c u r a c yo f t h es p e a k e rs e g m e n t a t i o n ( 2 ) av q - b a s e ds p e a k e rr e c o g n i t i o ns y s t e mi si m p l e m e n t e d ,w h i c ha i m st o i m p r o v et h et r a d i t i o n a ll b ga l g o r i t h m ,a n dt om e e tt h es y s t e mo n - l i n ei d e n t i f i c a t i o n f e a t u r eb e t t e r ( 3 ) ad i f f e r e n c e ss u b s p a c em e t h o di ns p e a k e rr e c o g n i t i o ni ss u g g e s t e d i ta i m st o e s t a b l i s ht h ec o r r e s p o n d i n gs u b s p a c ef o re a c hs p e a k e r , a n dt os e l e c tt h eh i g h e s ts c o r eo f c o m p a r i n gt h et e s t s p e e c ht ot h et r a i n s p e e c ha st h er e s u l t t h i sm e t h o di m p r o v e st h e s y s t e mr e c o g n i t i o nr a t ea c c u r a t e l y a n di tr e d u c e st h es y s t e m s t i m ec o s t i n g ,t h es y s t e m i ss u i t a b l ef o ro n - l i n ei d e n t i f i c a t i o ns y s t e mu s e s ( 4 ) a no n - l i n es p e a k e rr e c o g n i t i o ns y s t e mb a s e dc o n v e r s a t i o n a ls p e e c hi s i m p l e m e n t e da tl a s t k e yw o r d s :c o n v e r s a t i o n a ls p e e c h ;s p e a k e rr e c o g n i t i o n ;v e c t o rq u a n t i z a t i o n ; d i f f e r e n c es u b s p a c e - 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得墨蕴迤太堂或其他教育机构的 学位或证书而使用过的材料。 学位论文作者签名:触剐 签字日期砌年彳月,2 - h 学位论文版权使用授权书 本人完全了解墨蕉堑太堂有关保留、使用学位论文的规定,同意学校保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权墨蕉江太堂可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或其他复制手段保存、汇编本学位论文。 学位论文作者签名:捌l导师签名:毒纪q 、囝 签字日期:加仂年月fy 日签字日期:协年厂月( z 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 第1 章绪论 第1 章绪论 1 1 说话人识别技术概述 说话人识别技术可定义如下:利用计算机技术对人类的语音数据进行分析, 从而确定该语音段是某位说话人所说 1 1 。说话人识别技术就是提取人类语音波形中 可以表示出说话人个性特征的语音参数,通过模式识别的方法实现说话人身份的 识别和验证1 2 】。说话人识别系统即是分析系统采集到的语音数据资料,以此判别出 是哪位说话人在何时发出了声音,或者判别出指定语音是否为指定的某位说话人 所说【引。 1 1 1 说话人识别技术的发展 自二十世纪三十年代开始,人们便开始了说话人识别技术的研究,初期工作 主要是论证根据声音进行说话人识别的可能性以及人耳听辨实验。计算机软件及 硬件的发展,使得人们对语音的研究得以深入进行。二十世纪六十年代初期,声 纹概念的提出使得利用声纹特征进行说话人识别成为可能1 4 ,5 】。说话人识别技术在 这时期分为说话人确认系统和说话人辨认系统。经过一段时期的研究,人们开始 将线性预测编码技术用于说话人识别领域【6 ,7 1 ,同时也提出了多种不同的失真测度 准则。在二十世纪七十年代,出现了效率较高的采用动态时间规整( d y n a m i ct i m e w a r p i n g ,d t w ) 的说话人识别技术【8 j 。随后,语音识别领域重要的模型之一,隐马 尔可大模型( h i d d e nm a r k o vm o d e l ,h m m ) 也加入到语音识别相关技术中1 9 ,1 0 】。矢 量量化v q 方法 1 l - 1 3 1 以及l b g 算法【1 4 】的出现使得说话人识别系统具有了比较好的 识别性能。 随着人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,a m i ) 方法【1 5 ,】1 6 1 的提出,说话人 识别技术有了新的发展。二十世纪九十年代以来,因特网的发展使得多媒体信息 呈现爆炸式增长,给传统的说话人识别技术带来了巨大的挑战。国内外许多科研 黑龙江大学硕士学位论文 机构都进行了深入的研究,国外比较著名的有麻省理工学院林肯实验室、i c s i ( i n t e r n a t i o n a l c o m p u t e rs c i e n c ei n s t i t u t e ) 、l i a ( l a b o r a t o i r ei n f o r m a t i q u e a v i g o n o n ) 等;国内的说话人识别技术研究起步较晚,但发展迅速,比较著名的研 究机构有:中科院声学所、北京大学、中国科技大学、北京理工大学、哈尔滨工 业大学等。 1 1 2 说话人识别技术的分类 根据输出结果,说话人识别技术可做如下划分1 1 7 】: ( 1 ) 说话人确认( s p e a k e rv e r i f i c a t i o n ) :确认待测语音是否属于指定的说话人, 其输出为是或否。 ( 2 ) 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) :辨认待测语音属于多位训练者中的 哪一位,输出为某位说话者。 由上面的定义不难看出,说话人确认和说话人辨认的输出明显不同,说话人确 认的输出为是或否,而说话人辨认的输出训练集中的某位说话者。已有的说话人 识别系统中,说话人确认系统的性能普遍优于说话人辨认系统,后者的识别性能 与训练集大小有关系,训练集越大系统性能越低,而说话人确认系统就不存在这 类问题。 根据识别对象,说话人识别技术可做如下划分 1 8 】: ( 1 ) 文本相关( t e x t d e p e n d e n t ) :训练及识别过程中,使用者需要按照指定 的文本进行发音。 ( 2 ) 文本无关( t e x t i n d e p e n d e n t ) - 训练及识别过程中,不规定使用者的发音 内容。 由大量实验可知,文本相关的说话人识别系统性能好于文本无关的说话人识别 系统,但由于前者对使用人员的限制较多,灵活性大为降低,因此,文本无关的 说话人识别技术的使用更为广泛【19 1 。 第1 章绪论 1 1 3 说话人识别技术的应用 ( 1 ) 网络安全领域。互联网的发展使得人们越来越依靠它,网络上用以识别 人们身份的是各种密码,传统的键盘输入密码方式已经不能满足互联网安全性的 要求。通过声纹密码进行说话人确认的方法可以有效提高安全性能,这种方法在 电子商务、网络银行等业务活动中的应用尤其重要1 2 0 1 。 ( 2 ) 公安领域。在公安领域的案件侦破中,越来越多的依靠监听录音等电子 信息化手段判断出嫌疑人的活动及言语等,针对各种场景的说话人识别技术在许 多民事、刑事案件中起到了十分重要的作用。 ( 3 ) 军事领域。现代化的战争离不开军队的现代化,美伊战争中说话人识别 技术就被美军广泛采用。此外,在高级指挥官下达军事命令等一系列活动中,说 话人识别技术都起到了关键、重大的作用【2 1 1 。 ( 4 ) 电信领域。随着电信3 g 业务的开展,出现了更多的依赖于语音附加业 务如:通过识别用户的声音实现自动业务办理;通过对主叫方声音的识别,将主 叫方身份信息发送给被叫方等一系列增值业务【2 2 】。 ( 5 ) 民用领域。说话人识别技术在民用领域的应用范围相当广泛,如电子玩 具中加入了说话人识别功能,深受小朋友们的喜爱;又如高档小区中都装备了基 于说话人识别的安全锁等门禁系统。 1 2 说话人识别技术的研究现状 说话人识别技术的迅速发展源于1 9 9 6 年,美国的国家标准专利局( n a t i o n a l i n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ,n i s t ) 提出了说话人测评( s p e a k e rr e c o g n i t i o n e v a l u a t i o n ,s r e ) 计划【2 3 2 4 ,语种测评( l r e ) 和说话人测评( s r e ) 隔年一次。 在最近一次的说话人测评s r e0 8 1 2 5 1 中,国内的科大讯飞公司语音实验室报送的 u s t c i f l y 系统获得了综合指标第一名的优异成绩i 2 6 j ,对我国语音产业的发展具有 重大战略意义。将说话人识别由安静的实验室环境逐渐过渡到真实的自然语言环 黑龙江大学硕士学位论文 i i i_i i i ii i i i i i i i i i i i i i 境、信道环境是的说话人识别技术发展方向。 麻省理工学院林肯实验室提出了一个能够有效降低系统复杂度的说话人识别 系统 2 - r 。该系统选择具有较高代表性的有限个倒谱特征,采用信道补偿技术,在 系统复杂度和识别准确率等方面具有很好的平衡性,在n i s ts r e0 6 测评中取得 了良好的性能。论文 2 8 1 融合了已有的多个说话人识别子系统,提出了s r i 说话人 识别系统,该系统在n i s ts r e0 8 测评中的电话语音识别方面取得了不错的效果, 但基于对话型语音的采访录音识别效果不是很理想。 中国科学院自动化研究所的高技术创新中心提出了一种两层次无监督的音频 分割方法【2 9 】。该方法将语音的分割过程划为分为两个层次:区域层次和边界层次, 首先通过较大窗长的移动定位到音频跳变点的疑似区域,然后在疑似区域内采用 t 2 统计值方法确定音频跳变点所在位置。该方法与传统分割方法在h u b 4 中文广 播语音数据库上比较,处理速度得到了很大的提高,召回率也有所增加。 论文【3 0 】描述一个基于n i s ts r e0 8 的说话人识别系统。系统包括特征、七个 并行分类器及融合子系统三个部分,其中两个分类器关于g m m u b m 方法,其余 五个基于s v m 方法。通过各种声学特征的综合实验,判别出每种情况下各个分类 器的差异性,根据最佳结果形成最后的融合系统。系统在n i s ts r e0 8 测评中, 通过相对少量的不同信道训练语音数据即可达到一定的识别准确率。 虽然已经提出了许多说话人分割、识别的系统 3 t - 3 4 】,但还没有更为实用的面 向对话型语音的说话人识别系统,本文针对这个问题进行了研究。 1 3 本文的工作概述 1 3 1 本文的研究目的 本文的研究可描述为:在确定的训练集范围内通过对测试语音的分析,识别 出每段语音属于训练集中的哪位说话人。即:判断出何人在何时说话,属于说话 人辨认系统。本文研究的系统具有十分广泛的应用,如实验室小型讨论会议,与 第1 章绪论 i i i i i i i i i i i i i i i i i i i i i i i i i i ii i iii - i i i i i i i i i i i i i i i i 会的发言人提前录制训练语音后进入会场,当其发言时系统便可据其声音自动判 断出是哪位注册说话人,也可以进行自动记录或者即时翻译、整理出每位说话人 的发言等高级操作。对话型语音的说话人识别需要很好的实时性以满足在线识别 的需求,这样的系统才具有更强的实用性。 1 3 2 本文的主要工作 本文的主要工作可归结为如下几方面: ( 1 ) 提出了两阶段b i c 分割方法,第一阶段采用较大窗长分割策略保证了在 线识别方法的即时性,第二阶段基于b i c 的分割准则保证了说话人分割的准确性。 ( 2 ) 实现了一个基于v o 的说话人识别系统。比较了线性预测倒谱系数l p c c ( l i n e rp r e d i t i v ec e p s t r a lc o e f f i c i e n t t ) 和m e l 频域倒谱系数m f c c ( m e lf r e q u e n c y c e p s t m lc o e f f i c i e n t ) 对说话人识别系统性能的影响,并对l b g 算法中的码本分裂 算法进行了改进,降低了l b g 算法的时间消耗,更好的满足了系统的在线识别特 性。 ( 3 ) 提出了基于差别子空间的说话人识别方法,训练阶段为每个说话人建立 相应的子空间,识别阶段将待测语音段的个性特征与训练库中子空间进行比较, 比较得分最高的即为识别结果。该方法有效提高了系统识别的准确率,同时降低 了系统的时间开销,适合在线识别系统采用。 ( 4 ) 最后,本文实现了一个基于对话型语音的说话人在线识别系统。 1 4 本文的组织结构 本文内容共分五章,具体安排如下: 第一章概述说话人识别系统,说明了本文的研究目的及主要工作内容。 第二章介绍本文实现的系统平台和系统在预处理、特征提取、模式匹配等各 步骤中所涉及的基本理论和基本方法。 第三章实现了传统的矢量量化方法,并对码本分裂算法进行了改进,较好的 黑龙江大学硕士学位论文 i 满足了系统在线识别的特性。 第四章介绍了两阶段b i c 说话人分割方法并将基于差别子空间方法引入说话 人识别领域,对每个训练人建立相应的子空间,识别时将提取的特征数据与训练 库中的各个子空间进行匹配,得分最高的即为识别结果。 第五章对文中提到的各种算法进行对比实验,分析实验结果,验证理论推导 的正确性。 第2 章对话型语音的说话人识别系统平台 i i 第2 章对话型语音的说话人识别系统平台 2 1 系统结构 根据说话人识别的技术特点,对话型语音的说话人识别系统可以定义为:根 据训练语音,判断出测试语音是哪位说话人所说的系统 3 5 , 3 6 。如图2 1 所示,即为 说话人系统的基本框架。 训练阶 黜 识别阶段 图2 - 1 说话人识别系统结构 f i g u r e2 - it h es t r u c t u r eo f s p e a k e rr e c o g n i t i o ns y s t e m 从图2 1 中可以看出说话人识别系统的两个组成阶段:训练阶段和识别阶段。 首先需要进行训练阶段的工作,通过对输入的训练语音进行预处理、特征提取及 模型训练等操作将生成的训练模型存入模板库中;而后在识别阶段,通过从待识 别的语音数据中提取的特征与训练模板库中的模型进行比较,根据算法预先设定 的似然准贝0 判断出是训练库中哪位说话人所说。 2 2 语音信号的预处理 由计算机采集到的原始信号并不能直接用于特征提取,需要对其进行处理, 使它转变为适合特征提取的数字语音信号。通常,语音信号的预处理包括:采样, 预加重,加窗,分帧及端点检测等操作。 - 7 - 黑龙江大学硕士学位论文 人耳所能听到的声音都是模拟信号,而计算机能接受的仅是数字信号,因此 需要将模拟信号变成数字信号,这种变换需要通过模拟数字转换器来实现。变换 过程如图2 2 所示,图中的正弦曲线代表模拟语音信号的波形,充满颜色的小格子 表示采样结果,采样结果与语音波形结合的紧密,则采样效果较好。 工 砷。虻:c o o i o o :) o :! 工 之j- 之盎 ,、 , 、 , , 、 ,、 ;d , 弓) 、 , l 锄 膏- j , ; f , n , - 嗜 , 、 , 一,1 j 1 t l t 、 , ;);o 驺2 5 i l 砷:。c = c 0 口i o n :赴蚱啪 图2 - 2 采样不意图 f i g u r e2 - 2t h ef i g u r eo fs a m p l i n g 图中的横坐标为采样频率;纵坐标为采样分辨率。图中的格子从左到右,逐 渐加密,先是加大横坐标的密度,然后加大纵坐标的密度。显然采样的频率越高、 采样的位数越大则音质越好。根据奈奎斯特( n y q u i s t ) 定理:“要想不产生低频失 真,则采样频率至少应是录制的最高频率的两倍”1 3 7 l 。 由于本文处理的主要是对话型语音音频数据,需要对采集到的数据进行在线 识别,根据综合情况考虑本文采用了1 6 k h z 、单声道、1 6 b i t 采样标准。 2 2 1 预加重 根据声学知识,语音信号的平均功率取决于声门激励及口鼻辐射等因素,当 频率大于8 0 0 h z 时,信号呈6 d b 倍频跌落【3 胡。因此,对语音信号采取预加重操作 能够将语音信号的原始性还原。其思想为:提升高频部分信号,使语音信号的频 第2 章对话型语音的说话人识别系统平台 率谱平滑些,方便于进行频谱及声道参数的相关操作。预加重操作可选择在模拟 数字转换后执行,通过具有6 d b 倍频程提升高频部分特征的预加重数字滤波器来 完成。 预加重滤波器的公式为:h ( z ) = l - z 一,其中的取值范围是o 9 仙9 7 。结合 实验情况,本文系统中采用的预加重系数值为o 9 6 。 2 2 2 加窗及分帧 本文的系统采用“短时分析技术”对时变语音信号进行处理。根据对语音信 号的分析可知,其特性是随时间而变化的,是一个非稳态过程,虽然语音信号具 有时变性,但声音是由人的e l 腔肌肉运动构成声道的某种形状而产生的响应,而 肌肉运动频率相对于语音频率来讲是相对缓慢得多,在一个短时间片内,其基本 特性保持相对稳定【3 9 】。所以,可将其看作是一个准稳态过程。将语音信号分成连 续的小段进行分析,其中每一段称为一帧。 为了得到相对,f 稳的短时语音信号,需要对语音信号执行加窗操作。常用的 窗函数有: 汉明窗w 俐= f - 0 4 6 c o 吖2 删_ 1 0 瓮_ 1 ( 2 - 1 ) 汉宁酬妒 0 0 5 n 川0 8 q 删肛d 1叭嚣肛1 ( 2 - 2 ) 矩形州加佬。嚣肛1 ( 2 - 3 ) 对语音信号的时域分析来说,窗函数的形状非常重要,矩形窗的谱平滑性较 好,但波形细节丢失,并且矩形窗可能产生泄露现象;而汉明窗可以有效地克服 泄露现象,其的应用范围非常广泛l 砌。 分帧操作通常有两种方式,连续分帧或者交叠分帧,交叠部分称为帧移。由 于语音是连续的信号,交叠式分帧可以保证各个语音帧之间平滑过渡,在实际应 黑龙江大学硕士学位论文 用中,多采用交叠分帧方式。 2 2 3 端点检测 语音信号的端点检测即:从采样得到的数字信号中判断出语音段和非语音段 ( 静音段) 。具体可以描述为从众多采样点中找到语音段的起始点和终止点,为语 音信号的特征提取工作锁定有价值的目标数据。好的端点检测程序可以有效减少 系统运算量,降低系统的时间开销,提高系统效率。 端点检测过程使用较多的方法有:基于a r l 限方法f 4 、基于倒谱特征方法1 4 2 、 基于信息熵方法 4 3 , 4 4 、基于能频值方法等【4 5 4 7 】。对于语音段和静音段的区分,较 为常用的是过零率和短时能量相结合的方法f 4 8 】,该方法的优点是复杂度较低,比 较适用于在线识别系统。 2 3 特征提取 说话人识别又称声纹识别,即是通过对人类发音的分析,判断出是哪位说话 人。在上述过程中,分析部分所采用的特征参数决定了系统的识别性能,因此, 选择一种能够较好的代表说话人个性特征的参数尤为重要。由于本文的系统为在 线识别系统,对说话人个性特征参数的提取及利用应具有较底的时间复杂度。综 上,好的特征参数应有以下特征【4 9 1 : ( 1 ) 一方面能够强化不同说话人的个性特征,另一反面能够弱化同一说话人 的自身差别。 ( 2 ) 能够通过较少维数的特征参数表示出说话人的个性特征,使得特征参数 的提取及利用具有较底的时间复杂度。 ( 3 ) 具有较强的抗噪性。 在已有的说话人识别系统中,应用最为广泛的识别特征为:根据声道模型所 提出的线性预测倒谱系数l p c c 5 0 5 、根据临界带所提出的m e l 频域倒谱系数 m f c c f 5 2 - s 4 等。由于这两种特征参数的提取和应用都比较方便、简单,因此本文着 第2 章对话型语音的说话人识别系统平台 重介绍这两种特征参数的原理和应用,后文的通过实验,比较了这两种参数在说 话人识别系统中的性能。 2 3 1 线性预测倒谱系数的基本原理 线性预测技术又被称为l p c ( 1 i n e rp r e d i c t i o nc o d i n g ) ,其在语音领域的重要应用 始于语音编码。 根据语音的产生原理及声道模型可以通过线性分析方法处理语音信号,线性 分析的思路可描述为【5 0 】:“通过对已有的多个语音采样点值进行线性拟合可以预测 出下一个语音的采样点值。线性预测系数的选取可以通过判断由线性预测得到的 采样值与实际语音的采样值之间的距离误差来描述,线性预测系数可以看做是线 性组合中的加权系数”。 通过上述方法求得的线性预测系数可以很好的描述人们的声道模型,可以较 好的描述语音的个性特征。因此,这种参数可以作为说话人识别系统中的特征参 数。线性预测技术的优势在于:能够比较精确地描述出语音的特征且所采用的特 征参数具有较少的维数,能够较好的描述出语音波形的频谱特性,且计算简单, 易于采用。 2 3 2 m e l 频域倒谱系数的基本原理 通过对人类心理学的探索可知,人类感知声音的过程并非线性的,而是一种 特殊的非线性系统,对于纯音和语音都是如此,研究结果显示,人们对不同频率 信号的灵敏度的响应也是大不相同的。为了描述这种特殊的非线性系统,出现了 一种新的频率单位的定义,它充分考虑了人耳听觉系统的特性【5 3 】。这种特征不同 于物理学中的频率h z ,而是以m e l 或者b a r k 度量的。 m e l 是基于人耳听觉特性的概念,它与人的听觉系统的频率刻度的划分相对 应,与物理学中的频率呈对数关系。通过许多的实际验证,m e l 可定义为:“声音 响度为4 0 d b ,频率为1 0 0 0 h z 的纯音所产生的音调是1 0 0 0 m e l ”1 5 2 1 。 黑龙江大学硕士学位论文 上述定义的m e l 频域倒谱系数m f c c 充分考虑了人耳的听觉特性,它能够将 物理学中的频谱转化为基于m e l 频率标志的非线性频谱,然后将其转换到倒谱域 中【5 4 1 。这种m e l 频域倒谱系数的应用不涉及到任何条件假设,且m f c c 系数具有 较强的说话人识别性能和语音抗噪性能,因此,这种特征参数在说话人识别中具 有十分广泛的应用。 2 4 模式识别模型 在对话型语音的说话人识别系统中,最重要的部分就是说话人识别模型的选 取和建立。随着模式识别领域的发展,针对各种不同的特征提出了多种不同的模 式识别模型,现有的方法大致可以划分成三种:模板匹配方法、概率模型方法及 辨别分类器方法。 2 4 1 矢量量化方法概述 矢量量化方法的基本思想是:将若干个标量数据构成一个矢量,在矢量空间 中进行整体的量化,达到数据压缩而未损失大量信息的目的【5 5 1 。在标量量化中, 整个量化空间被分成多个量化区间,每个量化区间有一个量化值。对于一个标量 信号,量化时落入量化区间的值就用这个量化区间的量化值代替。对于这种一维 的标量信号,此过程称作标量量化。由标量量化可以扩展到矢量量化,可以用线 性空间的观点来说明。矢量量化就是把矢量空间分成若干个小区域胞腔,为 每个小区域寻找一个代表矢量质心。矢量量化时落入胞腔的矢量就用这个质 心代替。通常,矢量的维数越大,其量化效果就越好,因为矢量量化方法能有效 的利用众多矢量中各分量间的各种相互关联。 2 4 2 子空间方法概述 子空间方法将模式分类中的每种类型最为显著的个性特征提取出来用一个模 第2 章对话型语音的说话人识别系统平台 板加以表述,特征提取和模式分类一并完成啪】。因此,每类各有自己的代表性特 征集,而类与类之间的特征集却不尽相同。 子空间的分类可以分为两个阶段,一是分类器设计阶段,二是分类阶段。“在 分类器的设计阶段,根据己知类别的样本计算分类器的参数,即求解分类器的各 个基本矢量;在分类阶段,将新的模式矢量输入到分类器并分至适当的类别。两 个阶段并不互相独立,可以利用最小平均分类误差得到一个最佳准则作为分类的 决策准则,在计算分类器的参数时需要考虑这个准则”1 5 。 利用子空间方法进行模式识别过程中,只需执行部分矢量的内积运算【5 ,因 此计算速度很快,可用于说话人在线识别系统中。 2 5 本章小结 本章介绍了基于对话型语音的说话人在线识别系统的系统架构;根据语音信 号的处理流程分别介绍了语音信号的预处理、特征提取及模式识别的基础知识。 在预处理模块中,介绍了语音信号的预加重、加窗及分帧、端点检测等必要的操 作理论;在随后的特征提取模块中,介绍了比较常用的线性预测倒谱系数和m e l 频域倒谱系数;最后,本章着重介绍了模式识别的各类模型,特别说明了本文系 统所采用的矢量量化方法和子空间方法的基本原理,为以后章节中的研究和实验 提供了理论基础。 黑龙江大学硕士学位论文 第3 章基于矢量量化的说话人识别系统 3 1 系统流程 输入语 舢 习叵 要 图3 1 基于矢量量化方法的说话人识别流程 f i g u r e3 - 1t h ep r o c e s so f s p e a k e rr e c o g n i t i o nb a s e do nv q 基于矢量量化方法的说话人识别流程如图3 1 所示,具体包括:预处理阶段、 特征提取阶段以及模式识别阶段。端点检测采用了短时能量和过零率相结合的方 法;特征提取时采用了l p c c 和m f c c 两种特征参数,并在后文的实验中给出其 比较结果;模式识别过程采用了矢量量化方法,实现经典算法的之后,针对对话 型语音的说话人识别所存在的问题进行了码本分裂算法的改进,提高了系统的识 别效率和识别准确率。 3 2 预处理阶段 3 2 1 加窗及分帧的实现 由于汉明窗可以有效地克服泄露现象,且应用范围非常广泛,本文采用汉明 窗作为加窗操作的算法,其公式如式2 1 。由于相邻帧之间各有一半是交叠的,交 叠式分帧方法可以保持两相邻帧之间的信息相关性,保证相邻帧之间的平滑过渡, 因此本文采用了交叠式的分帧方法。 系统中具体参数设置如下:帧长即窗长为0 0 3 2 秒,帧移即窗移为0 0 1 6 秒, 第3 章基于矢量量化的说话人识别系统 窗函数为汉明窗,每帧数据含有5 1 2 个采样点。 3 2 2 端点检测的实现 ( 1 ) 短时能量 短时能量是端点检测中常用的参数之一。由于语音信号属于时变信号,且其 短时能量随时间变化比较明显,可以采用短时能量分析技术对其能量变化进行分 析。对刀时刻的语音信号 x ( 刀) ) ,其短时能量的定义可描述如下: 2 e 刀= i x ( m ) c o ( n 一,川 ( 3 1 ) l = - - - 0 0 式中的缈( 刀) 为汉明窗,其公式如式( 2 1 ) 所示。令h ( n ) = 国2 ( 刀) ,则有: e 刀= 曼x 2 俐h ( n 一圳= x 2 例嘞例( 3 - 2 ) 式中的h ( n ) 为用来实现分帧操作的窗函数,它是低通滤波器的单位冲激响应函数。 由式( 3 2 ) 可以看出,经过加窗的带权短时能量等于将语音信号的平方通过一个线 性滤波器的输出,这个滤波器的单位冲激响应为h ( n ) 。 由式( 3 一1 ) f l q l ( 3 - 2 ) n - 矢i i ,窗函数国( 胆) 和冲激相应函数办( 玎) 是确定短时能量e 。的 关键因素【5 8 】。根据本文的实验情况,需要对语音信号执行低通滤波操作,但需要 的低通滤波至少要使得语音的短时能量e 的变化能够反映语音信号的幅度变化。 因此,需要选取适合于对语音信号进行短时分析的窗长。 ( 2 ) 短时平均过零率 短时平均过零率z 肘可做如下定义:一帧语音信号通过零值的次数。短时平均 过零率乙和短时能量e 同样具有计算简单,方便的特点,也是应用最为广泛的 语音信号的时域特征之一。短时平均过零率z 。的计算过程可归纳如下:如果计算 的是模拟语音信号波形,可统计其一帧语音信号的时域波形通过时间轴的次数。 1 5 黑龙江大学硕士学位论文 如果计算的是离散型的数字语音波形,可统计其一帧语音信号的时域波形的每个 采样点值的正负符号变化次数5 9 1 。短时平均过零率乙可用来描述语音信号的频谱 特性等特征。 求取短时平均过零率z h 的详细步骤可描述如下:用一个滑动的汉明窗 c o ( n - 研) 从语音信号 x ( ”) ) 中选取位于以时刻的语音帧,接着统计出该语音帧中的 采样点值的正负符号变化的次数,然后除以窗长,所得结果即是短时平均过零率。 其公式可做如下描述: 乙= 去i s g n i x ( m ) - s g n i s ( m - 1 ) k o ( n - m ) m = 1 玎+ n 一1( 3 3 ) = 寺i s g n #
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教A版 (2019)必修 第一册5.5 三角恒等变换获奖教案
- 一年级信息技术上册 千姿百态的热带鱼教学设计 清华版
- 初中政治 (道德与法治)人教部编版九年级上册共圆中国梦教案
- 九年级历史上册 第二单元 古代欧洲文明第5课 罗马城邦和罗马帝国教学设计 新人教版
- 化学九年级人教版酸碱盐专题的教学设计
- 工厂管理培训
- 2024华润怡宝校园招聘发布笔试参考题库附带答案详解
- 七年级生物上册 1.1.2 调查周边环境的生物教学设计 (新版)新人教版
- 分娩期贫血的护理查房
- 电线绞铜技术培训
- 边缘计算与5G融合技术研究-全面剖析
- 浙江省台州市2025届高三第二次教学质量评估化学试题及答案(台州二模)
- 磁分离技术在天然气管道黑粉处理中应用的研究与效果分析
- 选煤厂安全管理制度汇编
- 住房公积金个人账户合并申请表(文书模板)
- 部编版八年级历史(下)全册教案
- 叉车驾驶员培训手册-共89页PPT课件
- 面试无机化学研究前沿ppt课件
- 【项目申报书】神经环路的形成、功能与可塑性
- 金属矿床地下开采——矿床开拓方法设计(完整版)
- 《工厂安全用电常识》
评论
0/150
提交评论