(通信与信息系统专业论文)用人工神经网络实现的与文本无关的说话人识别.pdf_第1页
(通信与信息系统专业论文)用人工神经网络实现的与文本无关的说话人识别.pdf_第2页
(通信与信息系统专业论文)用人工神经网络实现的与文本无关的说话人识别.pdf_第3页
(通信与信息系统专业论文)用人工神经网络实现的与文本无关的说话人识别.pdf_第4页
(通信与信息系统专业论文)用人工神经网络实现的与文本无关的说话人识别.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要 摘要 说话人识别是根据人的声音来识别人的身份的种生物认证技术,广泛应用于 人机接口、保安、军事、司法等方面。本文详细介绍了语音信号预处理、端点检测 和特征提取的方法,建立了用b p 神经网络作为分类器的说话人识别系统。在此基 础之上,将小波神经网络的模型引入到识别系统中。实际测试试验表明,基于小波 神经网络的识别系统与基于b p 神经网络的识别系统相比,网络训练速度加快,识 别率也有所提高,是说话人识别的一种有效可行的新方法。 关键词:说话人识别,b p 网络,小波神经网络,l p c c ,m f c c a b s t r a c t s p e a k e rr e c o g n i t i o ni sab i o m e t r i c st h a tt h ei d e n t i f i e ro fap e r s o nc a nb er e c o g n i z e dv i a h i sv o i c e i ti s a p p l i e dt om a n - m a c h i n ei n t e r f a c e ,e n s u r ep u b l i cs e c u r i t y , m i l i t a r ya f f a i r s , j u d i c a t u r e ,a n ds oo n s p e e c hs i g n a lp r e - p r o c e s s i o n ,p o i n td e t e c t i o n ,f e a t u r ee x t r a c t i o nw e r e d i s c u s s e d s p e a k e rr e c o g n i t i o ns y s t e mb a s e do nb p n e u r a ln e t w o r kw 篮s e t u p a n d t h e n 、t h e m o d e lo fw a v e l e tn e u r a ln e t w o r kw a sp r e s e n t e d t h e s p e a k e rr e c o g n i t i o ns y s t e mu s i n g w a v e l e tn e u r a ln e t w o r ka st h ec l a s s i f i e ri sc o n s t r u c t e di nt h i sp a p e r t h ee x p e r i m e n tr e s u l t s s h o wt h a tt h ep r o p o s e dm e t h o d sh a v ef a s t e rt r a i n i n gs p e e da n dh i g h e l - r e c o g n i t i o nr a t et h a n t h es y s t e mb a s e do nb pn e u r a ln e t w o r k t h es y s t e mb a s e do nw a v e l e tn e u r a ln e t w o r ki s u s e f u la n de f f e c t i v ei ns p e a k e r r e c o g n i t i o n b a iy i n g ( c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m ) d i r e c t e db yp r o f e s s o rz h a o z h e n d o n g k e y w o r d s :s p e a k e rr e c o g n i t i o n ,b a c k p r o p a g a t i o nn e t w o r k ,w a v e l e tn e u r o nn e t w o r k , l p c c ,m f c c 声明 本人郑重声明:此处所提交的硕士学位论文用人工神经网络实现的与文本无关的 说话人识别,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工 作和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论 文中作了明确的说明并表示了谢意。 学位论文作者签名:么盘盏 日 期:迦蓝:厶五 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅:学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:盔盔 日期:洫厶6 导师签名: 日 期:墟! 华北电力大学硕士学位论文 1 1 身份认证 第一章引言 在实际生活中,有许多场合需要身份认证。身份认证就是鉴定一个人的真实身 份或者确定一个人所宣称的身份与他的真实身份是否相符。随着信息技术的不断发 展,越来越多的个人、消费者、公司和政府机关都承认现有的基于智能卡、身份号 和密码的身份识别系统是远远不够的,于是生物特征识别技术就为此提供了一个解 决方案。以人类生物特征( 指纹、语音、脸像、眼虹膜、d n a 等) 进行身份验证的 生物识别技术【l l ,在今后数年内将成为i t 产业最为重要的技术革命。 1 2 说话人识别 语音是人类交流信息的最基本手段,语音信号中包含了丰富的信息。随着科学 技术的飞速发展,语音处理技术在最近2 0 多年中取得了重大进展,用现代手段研 究语音处理技术,使人们能更加有效的产生、传输、存储、和获取语音信息,这对 实际生产和社会发展都具有十分重要的意义。说话人识别( s p e a k e rr e c o g n i t i o n ) 是语 音信号处理的一个重要分支,由于其较强的实用性,有关说话人识别理论的研究得 到了众多学者的关注i 2 j 。 说话人识别技术使得通过说话人的语音来识别人的身份成为可能,它可以用来 控制各种服务项目的身份认证,有很多重要的应用场合: 说话人核对:语音邮件、电子交易、安全保卫等常需要身份核对,说话人识别 可用于电话预约服务、计算机人机界面、银行证券系统的身份验证等,使其只响应 合法使用者。 司法鉴定:根据犯罪时所记录的声音确定罪犯。 语音检索:将说话人识别技术与连续语音识别技术相结合,就可检索出录音中 特定人所说的内容。 医学应用:一方面生理学和解剖学的进展可促进说话人识别问题的研究,另一 方面也可借助说话人识别方法进行声道特性的研究。 电子商务领域:在声音上进行身份认证,可以保证网络管理机构有效监督网络 交易的参与者。 在通信领域,实现语音指令控制的系统中,自动区分不同人的指令也是系统自 动化的表现之一。 华北电力大学硕士学位论文 另外,会议记录或电话录音中,对不同人说话内容的自动记录也是说话人识别 的应用范围。 随着计算机技术的发展,从七十年代起开始了自动说话人识别的研究。7 0 年代中期, l p c 系数、声道的冲激响应、自相关系数、声道面积函数以及倒谱系数等不同的特征参 数在自动说话人识别系统中的有效性得到证实,基音和共振峰是表征说话人固有特性的 参数。线性预测倒谱系数( l i n e a rp r e d i c t i v ec e p s t r a lc o e f f i c i e n t ) ,m e l 频率倒 谱系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t ) ,感知线性预测系数( p e r c e p t u a l l i n e a rp r e d i c t i r ec o e f f i c i e n t ) 等特征形式在近年的研究中较常用。 识别方法上,6 0 年代提出了动态规划( d p ) 和线性预测分析( l p ) 技术,到7 0 年 代末8 0 年代初,l p 技术和动态规正技术( d t w ) 基本成熟。,后来矢量量化( v q ) “1 , 隐马尔可夫模型( h m m ) 。3 理论相继被提出和应用,不断推动说话人识别技术的完善和 发展。近年来人工神经网络得到广泛的研究和应用。多层网络的b p 算法使有导师学习 的多层感知器( m l p ) 网络走向实用化后,又派生出若干类型的前馈网络,如径向基函 数( r b f ) 网络”,函数链网络( f l n ) 等,还有一些完全不同于误差反向传播算法( b p ) 的神经网络算法,如递推最小二乘算法。投影算法,对向传播算法等。 语音技术的高速发展使得说话人识别技术不断发展。欧洲电信联盟在电信与金融结 合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o n i n b a n k i n g a n d t e l e c o m m u n i c a t i o n ) 计划,并于同年又启动了p i c a s s o ( p i o n e e r i n g c a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c e o p e r a t i o n ) 计划,在电信网上完成了 说话人识别。同时,m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实现电子交 易的自助化。 我国自执行8 6 3 计划以来,语音识别和说话人识别技术不断发展,研究水平已经基 本上与国外同步。中国科学院自动化所模识科技公司成功推出了p a t t e ks v 声纹识别产 品,是目前国内推出的同类产品中最优秀的产品之一,具有良好的性能。 1 3 人工神经网络 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) 是由大量高度互连的简单处理单元构 成的高度并行的非线性信息处理系统,具有通过学习获取知识弗解决问题的能力, 且知识分布存储在各层的连接权值中。它起源于神经生物学,融合了数学、物理、 生物、心理学、计算机科学以及电子工程等诸多学科的知识为一体,反映了人脑功 能的若干基本特性,对传统的计算机结构和人工智能方法是一个重要的补充。它由 三个要素决定:神经元、神经元之间的连接方式、训练规则。神经元之间的不同连 接方式构成了不同类型的神经网络,如前馈网络、反馈网络。应用最多的是前馈型 网络。 华北电力大学硕士学位论文 最早被提出来的神经网络模型是m p 模型,它的出现标志神经网络研究的开 始。1 9 5 8 年,f r a n kr o s e n b l a t t g 构造了一个被称为“感知器( p e r c e p t r o n ) 7 】”的神经 网络用于模拟一个生物视觉模型,并把神经网络的研究推向高潮。1 9 8 2 年,h o p f i e l d 提出了一类递归神经网络的学习规则,开始了神经网络用于联想记忆和优化计算的 新途径,就是著名的h o p f i e l d 网络【8 j 。1 9 8 5 年,以r u m e l h a r t 和m c c l e l l a n d 为首的 研究小组提出了著名的多层神经网络学习算法一一误差反向传播算法( b p 算法) 【9 1 。 这一算法虽然简单,但至今仍是多层神经网络最有效的学习算法之一,它的提出具 有重大的意义。法国著名信息科学研究机构i r i s a 的z h a n g 和b e n v e n i s t e 于1 9 9 2 年提出小波神经网络的概念,把小波分析和神经网络相结合“”。直到今天,神经网 络仍是一个研究的热点。 神经网络是能获取、存储和利用经验知识的物理细胞系统。神经网络的如下特 性在其广泛应用中起着重要的作用。 自适应性:强有力的学习算法和自组织规则使它能够在不断变化的环境中对每 一个要求进行自适应。 非线性处理:具体执行非线性任务和去除噪音的能力,使它能够很好的用于分 类和预测问题。 并行处理:大量广泛互连的处理单元组成的结构,提供了并行处理和并行分布 信息存储的能力。 人工神经网络的理论应用已经渗透到各个领域,并在智能控制、模式识别、计算机 视觉、自适应滤波和信号处理、非线性优化、自动目标识别、生物医学工程方面取得了 显著成效。 1 4 论文内容安排 本论文按照内容共分为六章: 第一章是引言,主要介绍本论文研究工作的应用背景和研究现状,论文的章节 安排以及主要工作内容。 第二章介绍说话人识别的研究现状、难点等,并分析和讨论说话人识别过程中 语音信号的获得、预处理、端点检测、特征提取等几个必要环节,提出一种双门限 的去除静音段和噪声段的端点检测预处理算法,和提取语音特征( 线性预测倒谱系 数和m e i 频率倒谱系数) 的方法。 第三章是人工神经网络概述,首先从神经处理单元的输入输出映射出发,分析 神经网络的基本原理、结构和学习训练方法,然后介绍b p 算法及其改进方法,和 神经网络初始权值的最优化设置。并构造了基于b p 网络的说话人识别系统。 第四章阐述小波分析理论和小波神经网络的结构和算法原理,分析了小波神经 3 华北电力大学硕士学位论文 网络的特点,及其作为模式分类器应用于说话人识别的优点。并构造了基于小波神 经网络的说话人识别系统,与b p 网络的识别系统相比,进行了训练速度和识别率 的性能比较。 第五章介绍了系统具体的实现和试验结果的分析。 第六章是研究工作的总结和展望。 4 华北电力大学硕士学位论文 2 ,1 说话人识别简介 2 1 1 说话人识别系统 第二章说话人识别 说话人识别,又称为声纹识别,是利用说话人的语音特征对说话人的身份进行 辨认或确认。语音识别则是识别出所说的语音内容。在识别过程上,与语音识别一 样,说话人识别也是在提取原始语音信号中某些特征参数的基础上,建立相应的模 板或模型,然后按照一定的判决规则进行识别。但是与语音识别的非特定人的发展 要求正好相反,说话人识别侧重于寻找能够凸现说话人独有特征的稳定参数及其相 似度的计算方法。说话人识别系统过程如图2 一l 所示。 图2 1说话人识别系统图 况话人识别一般分为说话人确认( s p e a k e r v e r i f i e a t i o n ) 年d 说话人辨认【1 1 】( s p e a k e r i d e n t i f i c a t i o n ) 。说话人辨认用来确定待识别的语音是哪位注册过的说话人说的, 而说话人确认用来确定待识别的语音是不是说话人所宣称的那个人说的。说话人确 认回答的是说话人是不是所声言人的问题,它的回答只有两种,“是”表示接受,“否” 表示拒绝。而说话人辨认回答的是说话人是谁的问题。本文中研究的系统属于说话 人辨认一类。 根据识别方式,说话人识别分为与文本有关和与文本无关两种方式。前者要求在识 别时,说话人提供与训练语音文本相同的关键词串或者语句,而后者则没有这样的要求, 说话人说话内容是任意的。与文本有关方式通常基于模板匹配技术,将待识别语音样本 与说话人参考模板在时间上对齐,然后从头至尾累积计算样本和模板的相似度。因为直 e 华北电力大学硕十学位论文 接利用了与每个音素或音节相联系的个体特征,所以通常系统识别性能要比文本无关 的方式好的多。但是,在相同的身份识别任务上,从身份待确定人的使用方面而言, 文本无关的系统又比与文本有关的系统方便的多。本文中讨论的是与文本无关的说 话人识别。 一个完整的说话人识别系统包括两部分,首先从语音信号中提取出所需的特 征,属于特征提取部分;然后把提取的特征输入到分类器并做出最终判决,属于识 别部分。 所谓特征提取,即对原始的语音信号运用一定的数字信号处理技术得到一个矢 量序列,用这个矢量序列去代表原始的语音信号所携带的信息。特征提取是尽可能 的保留那些对识别有重要意义的信息,同时最大限度的摒弃那些无用的、或者对识 别起干扰作用的信息,以便集中区别不同类的语音信息,使其代表说话人身份。特 征参数提取的好坏直接影响说话人识别系统的识别率。 在识别阶段,利用提取出的特征参数,并用这些参数与训练阶段建立的模板或 模型相比较,然后根据一定的模式分类算法得到判决结果。对于说话人辨认系统, 要把所提取的特征参量应用于系统中的每个人的模板或模型,并把与它距离最近的 模型所对应的说话人作为判决结果。 2 1 2 说话人识别的难点 在技术难点上,说话人识别比语音识别更困难。一个简单的例子是人们在接听 电话时一般不会搞错通话内容,却常常不如或误判对方的身份。这主要由说话人特 征提取问题所引起,其原因大致可归结为以下几个方面: 尚未找到简单可靠的说话人语音特征参数。语音信号中既包含了讲话内容的语 义信息,又包含了说话人发音特征的个性信息,是语音特征和说话人特征的混合体。 到目前为止,还没有很好的方法将说话人的个体特征从语音特征中分离出来,也没 有找到简单的声学参数能够可靠地识别说话人。 语音信号的变异性。即使对同一说话入和同一文本,语音信号也有很大的变异 性。说话人的语音特征不是静态的、固定不变的,它具有时变特性,并常常与说话 人所处的环境、情绪、健康状况有密切关系,也会随着时间的推移和年龄的变化而 变化。另外传输语音的通信信道的时变效应问题也是语音信号产生变异的主要方 面。语音信号的变异性从本质上使说话人特征空间发生移动,说话人模式产生变异, 从而增加识别过程中的不确定性。 识别性能在噪声环境下很难保持鲁棒性。提高说话人识别系统的鲁棒性是说话 人识别技术走向实用的关键问题,因而噪声环境下的识别是目前该领域的研究热点 6 华北电力大学硕士学位论文 之一。噪声鲁棒性的基本矛盾是:当系统的训练环境与应用环境情况相差较大时, 说话人识别性能显著下降。其中鲁棒性特征参数的提取是关键问题。这方面的鲁棒 性参数的改进算法有:对特征参数进行加权或滤波,自相关的特征参数,将各种参 数结合起来使用,对各维参数进行分析去除无用的部分等等【1 2 】,但是它们在低信噪比 时识别性能并没有本质的提高。 此外,说话入识别的应用还受到伪装发音、播放录音等问题的困扰。 2 2 端点检测 语音信号是准平稳的时变信号,鄙只有在一个短时段中才是平稳的,时间长度 一般为2 0 毫秒( m s ) 左右,所以绝大部分的说话人识别系统都是建立在短时谱分 析的基础上,把定长度的语音分为许多帧来分析,每帧长度为2 0 m s 左右。 本文中,对语音信号预加重为采用日( z ) = 1 0 9 5 z 1 滤波,再进行端点检测,然 后分帧,帧长为2 3 2 m s ( 2 5 6 个点) ,帧移1 1 6 m s ( 1 2 8 个点) ,加2 3 2 m s 的汉明窗 以克服g i b b s 现象【bj ,最后逐帧计算语音特征参数。 语音数据在处理之前,首先要通过个高通滤波器1 一o 9 5 z ,通常称为预加重 滤波器。它的目的在于滤除低频干扰,尤其是5 0 h z 或6 0 h z 的工频干扰,把对于说 话人识别更有用的高频部分频谱进行提升。 整个语音信号包括静音段、过渡段和语音段。在说话人识别系统中,正确确定 语音段端点不仅可以减少计算量,而且可以提高说话人识别的正确率。语音端点检 测算法的一般步骤如下: ( 1 1 语音信号分成相邻有重叠的语音段,称为语音帧; ( 2 ) 采用一种判决准则,例如门限判决或模式分类,来检测语音帧和非语音帧; f 3 ) 对上述结果进行后处理,得到语音段的全部区间。 人的语音分清音和浊音两种,浊音为声带振动发出,如“a ”“o ”等元音,对应 语音信号有幅度高、周期性明显等特点;而清音则不会有声带的振动,只是靠空气 在口腔中的摩擦、冲击或爆破丽发声,其短时能量一般比较小,如声母“s c ”等 的幅度很低,往往被基于能量的算法漏过去。但是静音段的波形变化相对比较缓慢, 而在清音段,由于口腔空气摩擦的效果,所造成的波形在幅度上的变化比较剧烈, 通常可以用一帧信号中波形穿越零电平的次数来描述这种变化的剧烈程度,称为过 零率。 设s ( n ) ( 其中n = 0 1 ,n - - 1 ) 表示一帧语音信号。那么这帧语音信号的短时能量 为: 华北电力大学硕士学位论文 n l e = j 2 ( ) ( 2 1 ) 一0 短时过零率为: ,r n 一1 1 z = s g n 吣) 卜s g n s ( 1 - - 1 ) 朴 ( 2 2 ) l n s l j 本文采用一种双门限法进行端点检测【1 4 】。 在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。一个 是比较低的门限,其数值比较小,对信号的变化比较敏感,很容易被超过;另一个 是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超过。 低门限被超过未必就是语音的开始,有可能是时问很短的噪声引起的,高门限被超 过则可以确信是由于语音信号引起的。 整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程序 中使用一个变量来表示当前所处的状态。在静音段,如果能量或过零率超过了低门 限,就应该开始标记开始点,进入过渡段。在过渡段中,由于参数的数值比较小, 不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下, 就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任何个超过了高 门限,就可以确信进入语音段了。 一些突发性的噪声也可以引起短时能量或者过零率的数值很高,但是往往不能 维持足够长的时间,这些都可以通过设定最短时间门限来判别。当前状态处于语音 段时,如果两个参数的数值降低到低门限以下,而且总的记时长度小于最短时间门 限,则认为是段噪音,继续扫描以后的语音数据。否则把当前状态就当作结束点, 得到所需的语音段。 2 3 线性预测倒谱系数的提取 人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模 型。全极点线性预测模型( l p c ) 可以对声管模型进行很好的描述,这里信号的激 励是由肺部气流的冲击引起的,声带可以有周期振动也可以不振动,分别对应浊音 和清音,而每段声管则对应一个l p c 模型的极点1 1 5 。一般情况下,极点的个数在 1 2 一1 6 个之涮,就可以足够清晰的描述语音信号的特征了。以声管模型为基础的 l p c 模型如图2 2 所示。 华北电力大学硕士学位论文 基音周期 2 3 1 基本理论 图2 2 语言信号的声管模型 对于一个l p c 系统,采样点的输出s ( n ) 可以用前面p 个样本的线性组合来表示: j 印) _ a l s ( n 一1 ) + a 2 j 0 2 ) + + 口芦0 - p ) ( 2 3 ) 其中口- ,口:,口,为常数。如果一个随机过程用一个p 阶的全极点系统受白噪声 “( n ) 激励产生的输出来模拟。则输入和输出的关系可以表示为差分方程: 为 删= 静s 。埘+

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论