




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1.什么是说话人识别(SR)? 说话人识别(Speaker Recognition, SR)技术是以话音对说话人进行区分,从而进行身份鉴别与认证的技术。 在国外,说话人识别技术获得了广泛的研究,同时也有少量成熟产品问世。AT而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。 声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。,2. SR的历史 60年代,计算机的应用推动了语音识别的发展。 70年代,语音识别领域取得了突破 80年代,语音识别研究进一步走
2、向深入 进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实 用。,我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。,3.语音识别技术 语音识别系统的分类方式及依据 根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统 根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。,不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似
3、,一个典型语音识别系统的实现过程如图1所示。,特征提取,模式匹配,模型库,识别结果,语音输入,图1 语音识别的实现,语音 分析,身份 声明,模型 产生,模型 存储,特征 提取,距离 测量,识别 判决,表征说话人特点的基本特征 这些特征应该具有如下特点: (1)能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。 (2)易于从语音信号中提取。 (3)不易被模仿。,特征提取,声纹识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统
4、主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类: 谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。 基音轮廓、共振峰频率带宽及其轨迹 这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。,特征提取,线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。 反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预
5、测等。 此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。,说话人识别的几种方法 1.模板匹配法 模板匹配法的要点是:在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量,这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。 它们可以从单词,数字串或句子中提取。在测试阶段,从说话人发出的语音信号中按同样的处理方法提取测试模板,并且与其相应的参考模板相比较。,2. 概率统计方法 语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、
6、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别 利用子词单元构成的隐含马尔柯夫模型,构成了一个说话人确认系统,每个子词单元用一个从左至右的HMM描写,每个模型包含2到3个状态。,3 动态时间规整方法 说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整DTW。,4 矢量量化方法 矢量量化最早是基于聚类分析的数据压缩编码技术。Helms首次将其用于声纹识别,把每个人的特定文本编成
7、码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的声纹识别研究。这种方法的识别精度较高,且判断速度快。,5 隐马尔可夫模型方法 隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在CMU和IBM被用于语音识别。 它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。 在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。 识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。 HMM不需要时间规整,可
8、节约判决时的计算时间和存储量,在目前被广泛应用。缺点是训练时计算量较大。,提取特征矢量,初试分段,构造种子模型,读入一次发音的特征矢量,计数器初使化,Viterbi算法重分段,“语法”约束,模型参数,根据新的语音分段边界,重估计各HMM状态的输出分布均值和方差,求方差的特征值,特征矢及每次转移的概率,收敛,结束,最后一次发音,人工神经网络方法 人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。 其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目增加时可
9、能大到难以训练的程度。 把以上分类方法与不同特征进行有机组合可显著提高声纹识别的性能,如NTT实验室的T. Matsui和S. Furui使用倒谱、差分倒谱、基音和差分基音,采用VQ与HMM混和的方法得到99.3%的说话人确认率。,对于说话人确认系统,表征其性能的最重要的两个参量是错误拒绝率和错误接受率。 前者是拒绝真实的说话人而造成的错误,后者是接受假冒者而造成的错误,二者与阈值的设定相关。 说话人确认系统的错误率与用户数目无关,而说话人辨认系统的性能与用户数目有关,并随着用户数目的增加,系统的性能会不断下降。,总的说来,一个成功的说话人识别系统应该做到以下几点: 能够有效地区分不同的说话人
10、,但又能在同一说话人语音发生变化时保持相对的稳定,如感冒等情况。 不易被他人模仿或能够较好地解决被他人模仿问题。 在声学环境变化时能够保持一定的稳定性,即抗噪声性能要好,声纹识别应用前景,与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性: 用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍。 利用语音进行身份识别可能是最自然和最经济的方法之一。声音输入设备造价低廉,甚至无费用(电话),而其他生物识别技术的输入设备往往造价昂贵。 在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物等,与其他生物识
11、别技术相比,声纹识别更为擅长,得天独厚。 由于与其他生物识别技术相比,声纹识别具有更为简便、准确、经济及可扩展性良好等众多优势,可广泛应用于安全验证、控制等各方面,特别是基于电信网络的身份识别,通过SR技术,可以利用人本身的生物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗门开启功能等等。 在互联网应用及通信领域,SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音E-mail、安全控制、计算机远程登录等领域。 在呼叫中心应用上,SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴心的服务。,SR的未来 SR技术发展至今,尽管已经取得了不错的进展,要寻找更加优良的研究方法仍然有相当艰巨的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲基化与免疫调节-全面剖析
- 接口自动化测试实践-全面剖析
- 碳捕集与利用技术-第3篇-全面剖析
- 人工智能辅助学习资源生成-全面剖析
- 知识产权保护法律框架-全面剖析
- 大数据驱动精准营销-全面剖析
- 2025-2030腔内激光治疗行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2025-2030硅胶产业市场发展分析及发展趋势与投资战略研究报告
- 2025-2030疫苗产业政府战略管理与区域发展战略研究报告
- 消费者行为与需求变化-全面剖析
- 学习课件铸牢中华民族共同体意识PPT
- 湖南省对口招生考试医卫专业十年真题(2010-2019年)
- DB32∕T 3916-2020 建筑地基基础检测规程
- 华能国际电力股份有限公司本质安全体系管理手册
- 中青剧院管理手册
- 《对话大千世界-绘画创意与实践》 第1课时 定格青春-向艺术家学创作
- CET46大学英语四六级单词EXCEL版
- 文化人类学完整版
- 2022年南通市特殊教育岗位教师招聘考试笔试试题及答案解析
- GB/T 13888-2009在开磁路中测量磁性材料矫顽力的方法
- 《刘姥姥人物形象分析》课件-部编版语文九年级上册
评论
0/150
提交评论