版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于语音信号处理10.1概述自动说话人识别(AutomaticSpeakerRecognition简称ASR),又称为话者识别或声纹识别,是一种自动识别说话人的过程。说话人识别和语音识别的区别在于,它不注重包含在语音信号内的文字符号以及语意内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说别说话人的目的。按其最终完成的任务可以分为两类:*自动说话人确认(AutomaticSpeakerVerification,简称ASV):确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,只做“是”和“不是”的判决。*自动说话人辨认(AutomaticSpeakerIdentification,简称ASI):必须辨认出待识别的语音是来自待考察人中的哪一个,有时还要对这个人以外的语音做出拒绝的判决。
第2页,共35页,星期六,2024年,5月10.2说话人识别方法和系统结构说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。图10-1是说话人识别系统的结构框图,它由预处理、特征提取、模式匹配和判决等几大部分组成。第3页,共35页,星期六,2024年,5月10.2.1预处理包括对输入计算机的语音数据进行端点检测、预加重、加窗、分针等。10.2.2说话人识别特征的选取
在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。
在理想情况下,选取的特征应当满足下述准则:能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。易于从语音信号中提取不易被模仿尽量不随时间和空间变化第4页,共35页,星期六,2024年,5月如果把说话人识别中常用的参数加以简要归类,可划分为以下几类:线性预测参数及其派生参数语音频谱直接导出的参数混合参数其他鲁棒性参数上表是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作的比较实验结果所用特征误识率/(%)倒谱差值倒谱基音差值基音倒谱与差值倒谱倒谱、差值倒谱与基音、差值基音9.4311.8174.4285.887.932.89第5页,共35页,星期六,2024年,5月10.2.3特征参量评估方法
F比:在给定一种识别方法后,识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言,可以用F来表征它在说话人识别中的有效性。F越大表示越有效,即不同说话人的特征量的均值分布的离散程度分布得越散越好;而同一个人的越集中越好。第6页,共35页,星期六,2024年,5月10.2.3特征参量评估方法
D比:把F比的概念推广到多维,用以衡量多维特征矢量在说话人识别系统中的有效性。F比没有考虑到特征矢量中各维参数之间的相关性。定义两个协方差矩阵,即说话人间的协方差矩阵B和说话人内协方差矩阵W,
定义对多维特征矢量的可分性测度——散度,即D比为:
第7页,共35页,星期六,2024年,5月10.2.4模式匹配方法概率统计方法通过对稳态特征(基音、声门增益、低阶反射系数等)的统计分析,利用均值、方差等统计量和概率密度函数进行分类判决。优点:不用对特征参量在时域上进行规整,适合与文本无关的说话人识别。动态时间规整方法(DTW)将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板之间的相似程度。常用的分法:基于最近邻原则的动态时间规整。矢量量化方法(VQ)将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。优点:速度快,识别精度不低。第8页,共35页,星期六,2024年,5月10.2.4模式匹配方法隐马尔科夫模型方法(HMM)为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出矩阵;识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。优点:无需时间规整,精度高;缺点:训练耗时较大。人工神经网络方法(ANN)人工神经网络在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。缺点:训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练的程度。第9页,共35页,星期六,2024年,5月10.2.5说话人识别中判别方法和阈值的选择加快系统响应的判别分法:多门限判决、预分类技术。说话人确认系统的阈值选择:确认错误由误拒率(FalseRejection,FR)和误受率(FalseAcceptance,FA)表示。判决门限一般由FR和FA的相等点附件来确定。第10页,共35页,星期六,2024年,5月10.2.6说话人识别系统的评价
一个说话人识别系统的好坏是由许多因素决定的。其中主要有正确识别率(或出错率)、训练时间的长短、识别时间、对参考参量存储量的要求、使用者适用的方便程度等,实用中还有价格因素。图10.3表示了说话人辨别与说话人确认系统性能与用户数的关系。第11页,共35页,星期六,2024年,5月10.3应用DTW的说话人确认系统一个应用DTW说话人识别系统如图10-4所示。它采用的识别特征是BPFG(附听觉特征处理),匹配时采用DTW技术。第12页,共35页,星期六,2024年,5月10.4应用VQ的说话人识别系统目前自动说话人识别的方法主要是基于参数模型的HMM的方法和基于非参数模型的VQ的方法。应用VQ的说话人识别系统如图10-5所示。第13页,共35页,星期六,2024年,5月应用VQ的说话人识别过程的步骤如下:训练过程从训练语音提取特征矢量,得到特征矢量集;通过LBG算法生成码本;重复训练修正优化码本;存储码本识别过程从测试语音提取特征矢量序列由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:
式中是第i个码本中第l个码本矢量,而是待测矢量和码矢量之间的距离选择平均量化误差最小的码本所对应的说话人作为系统识别结果。第14页,共35页,星期六,2024年,5月10.5应用HMM的说话人识别系统10.5.1基于HMM的与文本有关的说话人识别基于HMM的与文本有关的说话人识别系统的结构如图10-6所示。第15页,共35页,星期六,2024年,5月10.5.2基于HMM的与文本无关的说话人识别10.5.3基于HMM的指定文本型说话人识别指定文本型说话人识别系统的基本构造如图10-7所示。文本内容不确定,一般采用各态历经HMM建立说话人模型。第16页,共35页,星期六,2024年,5月10.5.4说话人识别HMM的学习方法10.5.5鲁棒的HMM说话人识别技术利用少量的登录说话人学习数据的学习方法;利用非特定人语音HMM和登录说话人学习数据的学习方法。对于由信号传输信道、滤波器等引起的识别率下降,通过倒谱均值正规化法可以得到改善;由声道特征、发音方式的时间变动等引起的识别率下降,可以通过似然度正规化法加以改善。第17页,共35页,星期六,2024年,5月10.6应用GMM的说话人识别系统混合高斯分布模型是只有一个状态的模型,在这个状态里具有多个高斯分布函数10.6.1GMM模型的基本概念
高斯混合模型(GMM)可以看做一种状态数为1的连续分布隐马尔科夫模型CDHMM。一个M阶混合高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到,所示如下:第18页,共35页,星期六,2024年,5月其中是一个D维随即向量,是子分布,,是混合权重。每个子分布是D维的联合高斯概率分布,可表示为:
其中是均值向量,是协方差矩阵,混合权重值满足以下条件:
完整的混合高斯模型由参数均值向量、协方差矩阵和混合权重组成,表示为:
对于给定的时间序列,利用GMM模型求得的对数似然度可定义如下:第19页,共35页,星期六,2024年,5月10.6.2GMM模型的参数估计GMM模型的训练就是给定一组训练数据,依据某种准则确定模型参数。最常用的参数估计方法是最大似然估计(ML)估计。对于一组长度为T的训练矢量序列
,GMM的似然度可以表示为:
由于上式是参数的非线性函数,很难直接求出上式的最大值。因此,常常采用EM算法估计参数。EM算法的计算是从参数的一个初值开始,采用EM算法估计出一个新的参数,使得新的模型参数下的似然度
新的模型参数再作为当前参数进行训练,这样迭代运算直到模型收敛。每一次迭代运算,下面的重估公式保证了模型似然度的单调递增。第20页,共35页,星期六,2024年,5月混合权值的重估公式:均值的重估公式:方差的重估公式:其中,分量i的后验概率为:第21页,共35页,星期六,2024年,5月10.6.3训练数据不充分的问题由于训练数据的不充分,GMM模型的协方差矩阵的一些分量可能会很小,这些很小的值对模型参数的似然度函数影响很大,严重影响系统的性能。为了避免小的值对系统性能的影响,一种方法是在EM算法的迭代计算中,对协方差的值设置一个门限值,在训练过程中领协方差的值不小于这个设定的门限值,否则用这个门限值代替。第22页,共35页,星期六,2024年,5月10.6.4GMM模型的识别问题
给定一个语音样本,说话人辨认的目的是要确定这个语音属于N个说话人中的哪一个。基于GMM的说话人辨认系统结构框图如图10-8所示。第23页,共35页,星期六,2024年,5月
根据Bayes理论,最大后验概率可表示为:
在这里:
其对数形式为:因为的先验概率未知,我们假定该语音信号出自封闭集里的每一个人的可能性相等,也就是说:
第24页,共35页,星期六,2024年,5月对于一个确定的观察值矢量X,P(X)是一个确定的常数值,对所有说话人都相等。因此,求取后验概率的最大值可以通过求取获得,这样,辨认该语音属于语音库中的哪一种说话人可以表示为:
其中即为识别出的说话人。第25页,共35页,星期六,2024年,5月10.7说话人识别尚需探索的问题及应用基础性的课题关于语音中语意内容和说话人的分离,系统全面地进行研究的人还是很少的。究竟什么特征参数对说话人识别最有效?如何有效的利用非声道特征?说话人特征的变化和样本选择问题。用听觉和视觉的说话人识别研究是用计算机进行说话人识别的基础。第26页,共35页,星期六,2024年,5月实用性的问题说话人识别系统设计的合理化及优化问题。如何处理长时和短时说话人的语音波动?如何区别有意模仿的声音?说话人识别系统的性能评价问题。可靠性和经济性。目前说话人识别的主要研究主要集中在如下几个方面:语音特征参数的提取和混合HMM模型与其他模型混合,改善说话人识别系统的性能。第27页,共35页,星期六,2024年,5月说话人识别技术的应用电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟踪,为用户提供防盗门开启功能等。通信领域,说话人识别技术可以应用于诸如电话银行、电话购物、数据库访问、信息服务、安全控制、计算机远程登陆等领域。呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。
第28页,共35页,星期六,2024年,5月10.8语种辨别的原理和应用
语种辨别(LanguageIdentification,LID)与语音识别和说话人识别有所不同,它是通过分析处理一个语言片段以判别其所属语言的语种,本质上也是语音识别的一方面。10.8.1语种辨别的基本原理和基本方法
世界
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年土地承包经营权流转土地经营权流转项目评估合同范本3篇
- 2024年度企业实习生综合能力培养劳动合同2篇
- 2024年度民间借款合同示范文本(含借款人信用评估)3篇
- 2024年林权分享采伐协议
- 洛阳师范学院《急危重症护理学(含灾害护理学)》2023-2024学年第一学期期末试卷
- 科技园区秩序维护合同模板
- 2025产品授权销售总代理合同书
- 古建筑修复工程分包合同施工合同
- 商务大厦彩钢瓦屋面改造合同
- 市区环境监测数据统计分析方法
- (完整版)外研版高中英语必修三单词表(带音标)
- MOOC 国际商务-暨南大学 中国大学慕课答案
- 特征值与特征向量
- 作家协会2024年下半年工作计划3篇
- 2024征信考试题库(含答案)
- 个人理财(西安欧亚学院)智慧树知到期末考试答案2024年
- pc(装配式)结构施工监理实施细则
- 医院内审制度
- 押运人员安全培训课件
- 给小学生科普人工智能
- 2024年南京信息职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
评论
0/150
提交评论