版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于语音信号处理第一页,共35页幻灯片10.1概述自动说话人识别(AutomaticSpeakerRecognition简称ASR),又称为话者识别或声纹识别,是一种自动识别说话人的过程。说话人识别和语音识别的区别在于,它不注重包含在语音信号内的文字符号以及语意内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说别说话人的目的。按其最终完成的任务可以分为两类:*自动说话人确认(AutomaticSpeakerVerification,简称ASV):确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,只做“是”和“不是”的判决。*自动说话人辨认(AutomaticSpeakerIdentification,简称ASI):必须辨认出待识别的语音是来自待考察人中的哪一个,有时还要对这个人以外的语音做出拒绝的判决。
第二页,共35页幻灯片10.2说话人识别方法和系统结构说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。图10-1是说话人识别系统的结构框图,它由预处理、特征提取、模式匹配和判决等几大部分组成。第三页,共35页幻灯片10.2.1预处理包括对输入计算机的语音数据进行端点检测、预加重、加窗、分针等。10.2.2说话人识别特征的选取
在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。
在理想情况下,选取的特征应当满足下述准则:能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。易于从语音信号中提取不易被模仿尽量不随时间和空间变化第四页,共35页幻灯片如果把说话人识别中常用的参数加以简要归类,可划分为以下几类:线性预测参数及其派生参数语音频谱直接导出的参数混合参数其他鲁棒性参数上表是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作的比较实验结果所用特征误识率/(%)倒谱差值倒谱基音差值基音倒谱与差值倒谱倒谱、差值倒谱与基音、差值基音9.4311.8174.4285.887.932.89第五页,共35页幻灯片10.2.3特征参量评估方法
F比:在给定一种识别方法后,识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言,可以用F来表征它在说话人识别中的有效性。F越大表示越有效,即不同说话人的特征量的均值分布的离散程度分布得越散越好;而同一个人的越集中越好。第六页,共35页幻灯片10.2.3特征参量评估方法
D比:把F比的概念推广到多维,用以衡量多维特征矢量在说话人识别系统中的有效性。F比没有考虑到特征矢量中各维参数之间的相关性。定义两个协方差矩阵,即说话人间的协方差矩阵B和说话人内协方差矩阵W,
定义对多维特征矢量的可分性测度——散度,即D比为:
第七页,共35页幻灯片10.2.4模式匹配方法概率统计方法通过对稳态特征(基音、声门增益、低阶反射系数等)的统计分析,利用均值、方差等统计量和概率密度函数进行分类判决。优点:不用对特征参量在时域上进行规整,适合与文本无关的说话人识别。动态时间规整方法(DTW)将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板之间的相似程度。常用的分法:基于最近邻原则的动态时间规整。矢量量化方法(VQ)将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。优点:速度快,识别精度不低。第八页,共35页幻灯片10.2.4模式匹配方法隐马尔科夫模型方法(HMM)为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出矩阵;识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。优点:无需时间规整,精度高;缺点:训练耗时较大。人工神经网络方法(ANN)人工神经网络在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。缺点:训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练的程度。第九页,共35页幻灯片10.2.5说话人识别中判别方法和阈值的选择加快系统响应的判别分法:多门限判决、预分类技术。说话人确认系统的阈值选择:确认错误由误拒率(FalseRejection,FR)和误受率(FalseAcceptance,FA)表示。判决门限一般由FR和FA的相等点附件来确定。第十页,共35页幻灯片10.2.6说话人识别系统的评价
一个说话人识别系统的好坏是由许多因素决定的。其中主要有正确识别率(或出错率)、训练时间的长短、识别时间、对参考参量存储量的要求、使用者适用的方便程度等,实用中还有价格因素。图10.3表示了说话人辨别与说话人确认系统性能与用户数的关系。第十一页,共35页幻灯片10.3应用DTW的说话人确认系统一个应用DTW说话人识别系统如图10-4所示。它采用的识别特征是BPFG(附听觉特征处理),匹配时采用DTW技术。第十二页,共35页幻灯片10.4应用VQ的说话人识别系统目前自动说话人识别的方法主要是基于参数模型的HMM的方法和基于非参数模型的VQ的方法。应用VQ的说话人识别系统如图10-5所示。第十三页,共35页幻灯片应用VQ的说话人识别过程的步骤如下:训练过程从训练语音提取特征矢量,得到特征矢量集;通过LBG算法生成码本;重复训练修正优化码本;存储码本识别过程从测试语音提取特征矢量序列由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:
式中是第i个码本中第l个码本矢量,而是待测矢量和码矢量之间的距离选择平均量化误差最小的码本所对应的说话人作为系统识别结果。第十四页,共35页幻灯片10.5应用HMM的说话人识别系统10.5.1基于HMM的与文本有关的说话人识别基于HMM的与文本有关的说话人识别系统的结构如图10-6所示。第十五页,共35页幻灯片10.5.2基于HMM的与文本无关的说话人识别10.5.3基于HMM的指定文本型说话人识别指定文本型说话人识别系统的基本构造如图10-7所示。文本内容不确定,一般采用各态历经HMM建立说话人模型。第十六页,共35页幻灯片10.5.4说话人识别HMM的学习方法10.5.5鲁棒的HMM说话人识别技术利用少量的登录说话人学习数据的学习方法;利用非特定人语音HMM和登录说话人学习数据的学习方法。对于由信号传输信道、滤波器等引起的识别率下降,通过倒谱均值正规化法可以得到改善;由声道特征、发音方式的时间变动等引起的识别率下降,可以通过似然度正规化法加以改善。第十七页,共35页幻灯片10.6应用GMM的说话人识别系统混合高斯分布模型是只有一个状态的模型,在这个状态里具有多个高斯分布函数10.6.1GMM模型的基本概念
高斯混合模型(GMM)可以看做一种状态数为1的连续分布隐马尔科夫模型CDHMM。一个M阶混合高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到,所示如下:第十八页,共35页幻灯片其中是一个D维随即向量,是子分布,,是混合权重。每个子分布是D维的联合高斯概率分布,可表示为:
其中是均值向量,是协方差矩阵,混合权重值满足以下条件:
完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为:
对于给定的时间序列,利用GMM模型求得的对数似然度可定义如下:第十九页,共35页幻灯片10.6.2GMM模型的参数估计GMM模型的训练就是给定一组训练数据,依据某种准则确定模型参数。最常用的参数估计方法是最大似然估计(ML)估计。对于一组长度为T的训练矢量序列
,GMM的似然度可以表示为:
由于上式是参数的非线性函数,很难直接求出上式的最大值。因此,常常采用EM算法估计参数。EM算法的计算是从参数的一个初值开始,采用EM算法估计出一个新的参数,使得新的模型参数下的似然度
新的模型参数再作为当前参数进行训练,这样迭代运算直到模型收敛。每一次迭代运算,下面的重估公式保证了模型似然度的单调递增。第二十页,共35页幻灯片混合权值的重估公式:均值的重估公式:方差的重估公式:其中,分量i的后验概率为:第二十一页,共35页幻灯片10.6.3训练数据不充分的问题由于训练数据的不充分,GMM模型的协方差矩阵的一些分量可能会很小,这些很小的值对模型参数的似然度函数影响很大,严重影响系统的性能。为了避免小的值对系统性能的影响,一种方法是在EM算法的迭代计算中,对协方差的值设置一个门限值,在训练过程中领协方差的值不小于这个设定的门限值,否则用这个门限值代替。第二十二页,共35页幻灯片10.6.4GMM模型的识别问题
给定一个语音样本,说话人辨认的目的是要确定这个语音属于N个说话人中的哪一个。基于GMM的说话人辨认系统结构框图如图10-8所示。第二十三页,共35页幻灯片
根据Bayes理论,最大后验概率可表示为:
在这里:
其对数形式为:因为的先验概率未知,我们假定该语音信号出自封闭集里的每一个人的可能性相等,也就是说:
第二十四页,共35页幻灯片对于一个确定的观察值矢量X,P(X)是一个确定的常数值,对所有说话人都相等。因此,求取后验概率的最大值可以通过求取获得,这样,辨认该语音属于语音库中的哪一种说话人可以表示为:
其中即为识别出的说话人。第二十五页,共35页幻灯片10.7说话人识别尚需探索的问题及应用基础性的课题关于语音中语意内容和说话人的分离,系统全面地进行研究的人还是很少的。究竟什么特征参数对说话人识别最有效?如何有效的利用非声道特征?说话人特征的变化和样本选择问题。用听觉和视觉的说话人识别研究是用计算机进行说话人识别的基础。第二十六页,共35页幻灯片实用性的问题说话人识别系统设计的合理化及优化问题。如何处理长时和短时说话人的语音波动?如何区别有意模仿的声音?说话人识别系统的性能评价问题。可靠性和经济性。目前说话人识别的主要研究主要集中在如下几个方面:语音特征参数的提取和混合HMM模型与其他模型混合,改善说话人识别系统的性能。第二十七页,共35页幻灯片说话人识别技术的应用电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟踪,为用户提供防盗门开启功能等。通信领域,说话人识别技术可以应用于诸如电话银行、电话购物、数据库访问、信息服务、安全控制、计算机远程登陆等领域。呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。
第二十八页,共35页幻灯片10.8语种辨别的原理和应用
语种辨别(LanguageIdentification,LID)与语音识别和说话人识别有所不同,它是通过分析处理一个语言片段以判别其所属语言的语种,本质上也是语音识别的一方面。10.8.1语种辨别的基本原理和基本方法
世界上的不同语种间有多种区别,比如音素集合、音位序列、音节结构、韵律特征、词汇分类、语法及语意网络等,所以在自动语种辨识中有多种可利用的特征。就一个语种辨识系统的结构而言,则和语音识别及说话人识别有相似之处,其基本框架结构如图10-9所示。
第二十九页,共35页幻灯片第三十页,共35页幻灯片
从信源的建模来看,语音信号是一种典型的连续信源。所以语音信号可以用几种模型来建模:无记忆模型有记忆模型离散模型连续模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 暨南大学《社会学基础》2021-2022学年第一学期期末试卷
- 济宁学院《综合商务英语I》2021-2022学年第一学期期末试卷
- 吉首大学张家界学院《微机原理与接口技术》2021-2022学年第一学期期末试卷
- 艾滋病手术病人术中护理
- 肛瘘手术病号讲述
- 教育培训营销工作计划
- 一次性付清购买2024年度股票合同范本3篇
- 校园创意绿色环保活动
- 2024年度城市停车诱导系统集成合同2篇
- 肿瘤靶向药物及治疗
- 米兰大教堂完整版本
- 牛津译林版英语八年级上册Unit6Reading课件
- 《我爱宁波》四年级教材说明
- 职工运动会羽毛球赛秩序册
- JGJ114-2014 钢筋焊接网混凝土结构技术规程
- 协会整改报告(通用篇)
- 绘本剧童话剧《猜猜我有多爱你》完整剧本
- 110kV升压站构支架组立施工方案
- 物业管理服务方案及服务保障措施
- 施工总平面布置图范文
- 家长会课件:三年级上册期中数学家长会课件
评论
0/150
提交评论