已阅读5页,还剩82页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科毕业设计(论文)毕业设计(论文)语音信号提取与识别技术学 生 姓 名: 学 号:学 院 、 系 : 信息与通信工程学院通信工程系专 业 : 通信工程设计 (论文 )题目 : 语音信号提取与识别技术指 导 教 师 : 20 年 3 月 8 日本科毕业设计(论文)毕 业 设 计(论 文)任 务 书1毕业设计(论文)课题的任务和要求:1. 了解声音信号的特征参数,及现阶段研究处理方法。以现阶段信号处理领域比较活跃的语音信号为具体研究对象,进行相关知识的了解与学习。2. 学会在语音信号处理中使用 MATLAB 软件工具。3. 针对基本的个别个体的特定声音进行与信识别研究。4. 根据研究情况利用 MATLAB 语言进行相关算法的实现。2毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等):1. 查阅相关资料,利用已学的相关知识进行消化和理解。2. 了解现阶段的语音处理情况,分析研究相关的产品。3. 研究学习基本的识别处理方法。4. 学习相关信号处理软件。 。5. 对软件的学习达到能对基本的算法进行软件的处理。6. 完成毕业设计论文。本科毕业设计(论文)毕 业 设 计(论 文)任 务 书3对毕业设计(论文)课题成果的要求包括毕业设计(论文) 、图纸、实物样品等):1、毕业论文一份;2、英文文献 1 份,相应的中文译文 1 份。4毕业设计(论文)课题工作进度计划:起 迄 日 期 工 作 内 容20 年2 月 15 日 3 月 31 日4 月 1 日 5 月 31 日6 月 1 日 6 月 20 日6 月 20 日 6 月 21 日系统学习,查阅资料,作开题报告;英文资料翻译;撰写毕业论文;论文答辩。本科毕业设计(论文)学生所在系审查意见:系主任: 年 月 日本科毕业设计(论文)语音信号的提取与识别技术摘 要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文通过分析语音特征参数的特点和说话人识别的基本方法,提出了以美尔倒谱差分和线性预测差分为特征,通过动态时间归整算法来识别的文本相关说话人辨认系统。关键词: 语音识别, 说话人识别 , 线性预测倒谱,美尔倒谱系数,动态时间归整本科毕业设计(论文)The pick-up of speech signal and speech recognitionAbstractSpeech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. Speaker recognition is a kind of special way of Voice-identifications. The paper is going to introduce speaker recognition. Speaker recognition is the process of automatically recognizing who is speaking on the basis of individual information include in speech signals. It has well application prospects in many fields. By analyzing speech characteristic parameters and the basis methods of speaker recognition, we choose MFCC and LPCCs difference to be the speech characteristic parameters. Using DTW to recognize text-dependent speech, we have developed a speaker identification system in this paper.Key words: Voice-Identification, Speaker-identification LPCC,MFCC, Dynamic Time Warping本科毕业设计(论文)目录1 引言 .12 语音识别技术的基础 .22.1 语音识别发展简史 .22.2 语音识别技术的应用 .33 说话人识别技术的国内外研究现状 .53.1 国内外发展水平 .53.2 主要应用领域 .53.3 技术难点 .64 说话人识别技术基础 .84.1 说话人识别的基本原理 .84.2 说话人识别系统中常用的特征 .94.3 说话人识别的分类 .104.4 说话人识别的主要方法 .114.5 说话人识别系统的性能评价 .135 语音信号分析与预处理 .165.1 语音产生机理 .165.2 语音信号的数字化和采集 .175.3 语音信号的数字模型 .185.3.1 激励模型 .185.3.2 声道模型 .185.3.3 辐射模型 .205.4 语音信号的预加重处理 .205.5 语音信号的短时参数特征 .215.5.1 短 时频谱 .225.5.2 短时自相关函数 .225.5.3 短时能量和短时平均幅度 .225.5.4 短时过零分析 .235.5.5 倒谱 .24本科毕业设计(论文)5.5.6 线性预测编码(LPC)参数 .245.5.7 短时基音周期估计 .255.6 语音信号端点检测 .275.6.1 双门限端点检测算法 .285.6.2 LPC 美尔倒谱特征端点检测方法 .286 说话人特征提取 .326.1 线性预测系数 LPC.326.1.1 线性预测的基本原理 .336.2.2 线性预测系数的求取 .3562 线性预测倒谱系数 LPCC.366.2.1 同态处理基本原理 .366.2.2 线性预测倒谱 .376.2.3 线性预测差分倒谱 .386.3 美尔倒谱系数 MFCC.396.3.1 MFCC 系数的提取 .396.3.2 美尔差分倒谱参数 .406.4 特征参数的实际提取 .416.4.1 LPCC 参数计算流程 .416.4.2 MFCC 的计算 .437说话人识别系统实现 .467.1 文本相关说话人辨认系统的实现 .467.2 线性预测倒谱参数的提取实现 .477.3 美尔倒谱系数及其差分的提取实现 .487.4MFCC 参数文本相关系统实现 .518 结论 .54致 谢 .55参 考 文 献 .56本科毕业设计(论文)1 引言语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要的地位.在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。 随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的重要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个方面:即语音编码,语音合成、说话人识别和语音识别等。语音压缩编码是压缩语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能;语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。说话人识别的应用有一些特殊的优势:比如使用者的接受程度高:获取语音的识别成本低廉,使用简单;适合远程身份确认;配合一些其他措施,如语义识别等,可以进一步提高准确率等。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展,己经越来越深入地影响并改变着我们每个人的生活和工作方式,这同时也对语音信号处理的研究工作提出了更高的要求,它在各方面的进展也今人嘱目。本文主要研究了说话人识别中所使用的基于短时频谱分析的传统特征基音周期、共振峰、LPC 倒谱特征、美尔倒谱特征等,通过对语音信号的分析和预处理,进行特征提取,根据线性预测倒谱参数及美尔倒谱系数,最后利用动态时间归整法实现说话人的识别。本科毕业设计(论文)2 语音识别技术的基础2.1 语音识别发展简史50 年代至 60 年代初是语音识别的初始研究阶段,主要探索声音和语音学的基本概念和原理。1952 年 Bell 实验室的 Davis Buddulph, Balashe 等人研制出世界上第一个语音识别系统,该系统采用第一和第二共振峰作为特征参数,能够识别孤立发音的英文数字,识别率高达 97%。该系统的出现标志着语音识别开始的里程碑。1960 年瑞典科学家 Fant 提出了语音产生理论和声源滤波器模型,指出语音信号由激励分量和声道分量作用产生,为语音信号处理奠定了基础。60 年代中期后,随着计算机技术和数字信号处理的兴起,新的有效的数字算法及信号处理技术层出不穷,也出现了语音识别方面能够影响至今的几种有效的技术措施。1963 年 Bogert 等提出了倒谱算法。1965 年 Cooly 和 Tukey 提出了快速傅立叶变换。1968 年 Oppenheim 把谱应用到语音信号处理,提出了同态声码器 1。RCA 实验室的 Martin 的一些研究工作在对语音起始和终止可靠检测的基础上解决了语音事件中因时间量度不一致引起的一系列问题。苏联科学家 Vintsyuk 提出了一种用动态规划方法,使一组语音发音在时间上进行对齐,其中包含了动态时间规整的思想和进行连续语音识别的一些基本算法。这些技术对后来语音识别研究产生了深远的影响,为计算机深入应用于语音识别的研究提供了可能性。与 50 年代相比,60 年代人们在语音识别的研究上大大前进了一大步,不过由于模型及算法的原因,使得语音识别的研究仍处于实验室研究阶段。70 年代在语音识别领域取得了许多具有里程碑意义的研究:苏联的Velichko 和 Zagoruyko 将模式识别思想引入到语音识别领域中来。日本的Stakoe 和 Chiba 提出动态时间规整 Dynamic Time Warping 的匹配算法大大提高识别率导致了七十年代语音识别研究的高潮。美国的 Itakura2 将线性预测编码技术 LPC 扩展到语音识别领域,较好的解决了基于语音特征提取问题,这种算法在语音识别应用方面取得基本令人满意的效果。中后期 J.K.Baker 等人将隐马尔可夫模型 Hidden Markov Model 技术引入语音识别领域,这是语音识别上的重大突破,由于隐马尔可夫模型合理有效地描述语音信号的统计特性,本科毕业设计(论文)从而成为 80 年代至今应用非常广泛的语音识别方法;另外矢量量化(Vector Quantization)3 技术被应用到说话人识别上来,使说话人识别的性能得到了大幅度的提高。这两大技术推动语音识别的迅速发展。80 年代连续语音识别的研究开始取得重要成果。技术上从模板匹配方法转向统计建模方法特别是隐马尔可夫模型得到广泛的引用。人工神经网络方法研究的再度兴起为语音识别注入了新的活力,神经网络方法本身具有自学习自组织联想记忆和抗干扰等特性,它已逐渐成为一种新的语音识别的方法。90 年代,小波分析与支持向量机技术也开始尝试用于语音识别方面的研究。由于多媒体时代的到来,语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及 IBM、Apple、AT&T 等著名公司都为语音识别系统的实用化开发研究投以巨资。我国也将语音识别系统的研制纳入了“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率或系统响应率可达 90%以上。2.2 语音识别技术的应用语音识别技术的解决不仅将使计算机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说,语音识别都大有用武之地。语音识别听写机在一些领域的应用被美国新闻界评为 1997 年计算机发展的十大事件之一;比尔盖茨认为下一代的操作系统和应用程序的用户界面将是语音识别,微软最新操作系统 Windows XP 就内嵌了语音识别模块,用户可以不用键盘而是直接用活筒控制计算机;计算机行业巨头 GoddenMoore 说:“语音技术将改变计算机的设计,它将使现在尚未使用计算机的人中的 85%用上计算机”:IBM 总裁 Lou Gerstner 指出, “有朝一日,将有数十亿的人运用自然语言 (利用语音识别和语音合成)在 Internet 上浏览、查询”,ABI ( Allied Business Intelligence)认为,在未来的网络化世界中,语音识别技术将扮演越来越重要的角色,新的语音识别技术可以让用户更为轻松地收发电子邮件,获取股市行情,了解天气、交通和道路情况,不久的将来,它将提供更为全面的更有价值的应用本科毕业设计(论文)服务 4。语音识别技术的渗透性很强,它已经悄悄进入我们的生活,并将无处不在的改变我们的生活方式。现在大多数的手机提供了“语音拨号功能” ,使用“语音拨号” ,只需一次性地输入(读入) 人名和电话号码,在使用时便可以直接对着电话“说出”要通话人的姓名,经语音识别后,查出该姓名所对应的号码,然后自动地进行“拨号” 。语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查询系统。如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点名称,系统便自动显示出图文并茂的最佳路线、乘车方案、费用及其它相关信息。如果游客还需要进一步了解更为详尽的资料,则可以同系统进行交互式的对话,系统将对用户的问题一一给予答复。另一个有代表性的应用就是在医疗查询中,医疗改革推行后,大多数的医院都配备了电脑查询系统,供患者查询药品价格及医护人员简介,对于键盘输入非常陌生的大部分患者来说,语音输入提供了最方便快捷的查询方式。语音识别还可以应用在工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。语音识别技术在帮助伤残人的各种设备中也将发挥其难以替代的作用。对于一些肢体伤残者或盲人,若全部用声音控制,则给伤残者或盲人提供极大的生活便利。一些办公设备加上语音功能后,即使是伤残者也可以足不出户地在家里工作。 此外嵌入式语音识别软件具有语音识别、声控、用字母语音输入的语音键盘等功能,可应用于手提电话、掌上电脑、电子记事本、声控设备、及便于残疾人的自助设备等,应用前景非常广阔 5。本科毕业设计(论文)3 说话人识别技术的国内外研究现状3.1 国内外发展水平 如今说话人识别技术已逐渐投入实际应用,AT&T 应用说话人识别技术研究出了智慧卡(smart card),己应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于 1998 年完成了 CAVE (Caller Verification in Banking and Telecommunication)计划,并于同年又启动了 PICASSO(Pioneering Call Authentication for Secure Service Operation)计划,在电信网上完成了说话人识别。同时 Motorola 和 Visa 等公司成立了 V-commerce 联盟,希望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要组成部分。国内研究说话人识别较早的机构有北京大学、清华大学、中科院声学所、中科院自动化所等,并先后得到了国家自然科学基金重大和重点项目、攀登计划等基金的支持,通过多年的研究也取得了丰硕的研究成果 34.3.2 主要应用领域说话人识别研究中,除了研究用视觉判断声音频谱的线索外,在由听觉判断是谁的声音时,研究了利用声音的各种特征问题。近几年来,由于计算机技术的飞速发展,说话人识别方法的研究得到了迅速的发展。说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算机的重要组成部分,有着广泛的实际应用领域 5,其主要应用领域包括如下几个方面:(1)说话人核对包括电话预约业务中的声音确认转账、汇款、余额通知、股票行情咨询,以及未来可能出现的 Internet 信息服务中的声音身份确认; 用特定人的声音实现机密场所的出入人员检查:用工厂职工的口令实现职工签名管理等。(2)搜索罪犯判断犯罪现场记录的声音是多个嫌疑犯中的哪一个人的声音,有时可能嫌疑犯中不包含有真正的罪犯,此时常常需要将说话人辨认与确认结合起来。(3)医学应用如使说话人识别系统响应患者的命令,从而实现对机器假肢的控制等。(4)军事领域的应用本科毕业设计(论文)作为说话人辨认系统用于战场的侦听,以辨认对方指挥人员,或是实时执行军事指挥员或飞机驾驶的口述命令、只有有经验的操作人员才能进行高精度控制等。3.3 技术难点说话人识别技术发展到今天虽然已经有几十年的历史,也取得了许多优秀的成果,但是仍然存在着大量难点,直到今天为止还未达到令人满意的程度,尽管有些识别器已经投放市场,并用于商业军事、工业控制等领域,但基本上还停留在实验阶段。尤其是如何在高噪声环境下提高识别率,减少误认率等方面有待进一步发展。当然在语音处理的两领域,语音识别和说话人识别中,相对于语音识别来说,说话人识别更加困难 6。一个很简单的例子是在接听电话时一般不会搞错通话内容,却经常不知或误判对方的身份,这主要是由说话人特征提取问题所引起,归结为如下几个方面的原因: (1)尚未找到简单可靠的说话人语音特征参数语音信号中既包含了讲话内容的语义信息,又包含了说话人发声特征的个性信息,是语音特征和说话人特征的混合体,到目前为止,还没有很好的方法将说话人的个体特征从语音特征中分离出来,也没有找到简单的声学参数能够可靠地识别说话人.(2)语音信号的变异性即使对同一说话人和同一文本,语音信号也有很大的变异性。说话人的语音特征不是静态的、固定不变的。它具有时变特性,并常常与说话人所处的环境、情绪、健康状况有密切关系,会随着时间的推移和年龄的变化而变化。另外传输语音的通信信道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性从本质上使说话人特征空间发生移动,说话人模式产生变异,从而增加识别过程中的不确定性。(3)在理论上存在将有限特征空间进行无穷划分的问题在汉语语音识别中,全体音节的集合较小,其数目仅几百个,而全体汉语说话人却有近 14 亿。对于由同一语音信号组成的特征空间,语音识别要将其划分为 M 个子空间,M 为音节个数,而说话人识别要将其划分为 N 个子空间,N 为说话人个数,由于 N 可能远大于 M,使得识别说话人要比识别所说内容复本科毕业设计(论文)杂。在理论上存在将有限特征空间进行无穷划分的问题。此外,说话人识别的应用还受到伪装发音等问题的困扰。尽管说话人识别有一定的难度,但语音中所包括的个性信息一般有两种,一种是由声道长度、声带等先天性器官的个人差异产生的,另一种是由方言、语调等后天性说话习惯产生的,而先天性发音器官的个人差异是难于模仿的。在目前没有将说话人的个性特征从语音特征中分离出来的好办法时,采用固定文本内容得出说话人个性特征的方法,和不固定文本内容从语音信号的统计信息中得出说话人个性特征的方法 7.本科毕业设计(论文)4 说话人识别技术基础4.1 说话人识别的基本原理说话人识别系统的一般由预处理、特征提取、建立模型、模式匹配、判决等部分组成,其系统组成框图如图示:图 4.1 说话人识别系统组成框图预处理,包括归一化、去掉无声段和噪声等;特征提取,包括采样、量化、预加重、加窗等;建立和应用说话人识别系统,分为两个阶段,即训练阶段和识别阶段。在训练阶段,需要系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集。而在识别阶段,由待识别人发出的语音中提出的参量与在训练过程中的模板或参考参量集进行比较,并根据一定的模式分类算法得到判决结果。对于说话人辨认来说,所提取的参量要与训练过程中每个人的参考参量加以比较,并把与它距离最近的那个参考参量所对应的使用者辨认为说话人。对于说话人确认而言,则是将输入语音导出的参量与其声言为某人的参考参量相比较,如果二者的距离小于规定的阀值,则给予确认,否则给予拒绝 8。总的来说,要实现说话人识别,应解决如下基本问题:(1) 语音信号的预处理和特征提取特征提取就是提取能够有效表征说话人特征的参数。实际上现在采用的特征都是从语音信号模型中得到的,这些特征既包含了说话人的语音特征,又包含说话人的个性特征,互相交织在一起,以复杂的形式存在于语音参数中,目前还没有建立起准确分离和提取这两种特征的技术。(2) 说话人模型的建立和模型参数的训练模型的建立包括模型结构的表示或参数估计算法。模型训练要求系统能够本科毕业设计(论文)识别说话人,需要首先用说话人的语音对系统进行训练,并且在识别系统建立和识别系统扩展时,都需要对模板进行训练。由于说话人的声音常随时期和年龄而变化,常常需要在说话人辨认或说话人证实结果是正确时,由测试音对已识别正确的说话人的模型进行自适应调整和修正,从而构成自适应说话人识别系统。(3) 模式匹配模式匹配的目的也就是进行识别,随着技术的发展,说话人识别的方法不断出现,包括矢量量化,模板匹配法,隐马尔可夫模型,高斯混合马尔可夫模型,人工神经网络方法等。(4) 判决策略根据匹配结果判决说话人是否是所声称的说话人,即说话人确认,或说话人到底是谁,即说话人辨认。(5) 自适应部分考虑人的状况不断变化,为提高系统适应说话人特征的长时间变动情况,有些系统设有这一部分,从而能够根据说话人识别的结果得到正确识别的说话人的模型参数进行实时修正 8。4.2 说话人识别系统中常用的特征说话人的语音信号中包含了许多特征参数,在说话人识别系统中经常用到的特征参数有线性预测系数或其派生参数、由语音频谱直接导出的参数、其它鲁棒性参数、混合参数。(1) 线性预测系数或其派生参数线性预测系数是能够有效地表征语音的全极点模型参数。由它推演出的多种参数,例如部分相关系数、声道面积比函数、线谱对系数以及 LPC 倒谱系数等,都是可以应用的。(2) 由语音频谱直接导出的参数语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差别,而短时谱随时间的变化,又反映了说话人的发音习惯,因此由语音短时谱导出的参数可以有效地用于说话人识别中。已经使用过的参数有功率谱,共振峰及其变化轨迹等。基音容易被模仿,且不够稳定,一般与其他参数组合本科毕业设计(论文)后使用。(3) 其它鲁棒性参数包括 Mel 频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱等。(4) 混合参数为了提高系统的识别率,许多系统采用了混合参数构成的矢量。如果组成矢量的各参数之间相关性不大,则会更有效一些,因为它们分别反映了语音信号的特征。线性预测系数、自相关函数、声道面积比系数、倒频谱等作为说话人的个性特征参数的比较结果表明倒谱最好,其次是 LPC 系数,声道面积比系数最差。而对 LPC 倒谱系数各维的区分能力要比前面各维的好,当然并非单调的。一般用后 8 维特征矢量进行识别的正确识别率较高 910。4.3 说话人识别的分类根据说话人识别是通过对说话人语音信号的分析和提取,确定说话人是否在所登记的说话人的集合中,以及说话的人是谁的过程,可以将说话人识别分为说话人辨认和说话人确认 11。(1) 说话人辨认 (Speaker Identification)说话人辩认是把待测的说话人的语音判定为属于多个参考说话人之中的某一个,是多选一的问题。在这种应用中,通常不要求使用人提供个人姓名或个人编号,系统把说话人的信号特征与计算机中预留下的众多人员的特征相比较,从而确定是谁的说话。(2) 说话人确认 (Speaker Verification )说话人确认是根据待测说话人的语音,确定是否与所声称的参考说话人相符,这种确认只有两种情况,即得到确认或拒绝承认。在这种应用中,通常要求使用人提供个人姓名或编号,系统验证说话人与声言人是否为同一人。这时系统把说话人信号特征与计算机中预留下的声言为某人的特征相比较从而作出判别,是接受还是拒绝。用户在使用说话人识别系统时,需要向系统提供一段语音,根据发音材料, 可分为与文本有关和与文本无关两种。(1) 文本有关 (text-dependent)本科毕业设计(论文)与文本有关 12的识别系统要求用户按照规定的内容发音,并根据特定的发音内容建立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。(2) 文本无关 (text-independent )与文本无关 13的识别系统则不规定说话人的发音内容,因而要建立精确的模型较为困难,识别效果较差。另外,与其他生物识别技术类似,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨识分为开集(open-set)辨识和闭集(close-set)辨识,显而易见,闭集辨识的结果要好于开集辨识,但开集辨识与实际情况更为一致。无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分一个发音是现场发音还是录音回放。但文本提示的说话人识别系统可以有效地防止这种情况发生。具体实现时,可采用随机或其它方法来生成提示文本,如随机的数字串,以使假冒者无法事先录音。4.4 说话人识别的主要方法随着计算机和数字信号处理、人工智能等不断地发展,人们尝试了多种说话人识别方法,使说话人识别率逐步提高。说话人模型己从单一的模板模型向矢量量化(VQ -Vector Quantization) )模型 14、高斯混合模型(GMM -Gaussian Mixture Model )15、隐马尔可夫模型 (HMM-Hidden Markov Model)1617.人工神经网络(NN-Neural Network)模型以及它们的混合模型多方向发展,对说话人个性特征的描述也越来越精细和完善,并且从无噪声环境下的识别向复杂背景噪声下的识别方向发展,同时各种高速信号处理芯片、专用语音信号处理芯片的出现,也推动了语音信号处理和说话人识别技术的发展,使说话人识别技术不断地走向应用。说话人识别的主要方法可以分为三类:非参数模型方法、参数模型方法和人工神经网络方法。说话人识别方法关系如图 4.2 所示。 (1) 非参数模型方法非参数模型方法包括两种方法,即基于模板匹配方法和基于矢量量化方法。基于模板的说话人识别方法是为每个说话人所发的每一个字音建立这个语音特征序列的模板。识别时等测音特征序列与每个说话人的每个字音的模板进行本科毕业设计(论文)比较和匹配。由于即使是同一个说话人发的同一个字音的不同次发音,在各瞬间的速度都有一定的差别,即测试音特征序列的长度与模板长度不一致时,采用将待测音特征序列弹性缩放,使得待测音特征序列的长度能够与模板长度对齐,而弹性缩放的准则是使得弹性缩放后的待测音特征序列与模板的匹配距离最小,把这个距离作为测试音与模板的匹配距离。图 4.2 说话人识别方法关系图基于矢量量化的说话人识别方法是由于每个说话人的语音特征序列在特征空间中都形成了它特定的特征聚类中心,在矢量量化中称这些聚类中心为说话人的码本,所以用这些聚类中心作为说话人个性特征的描述模型,识别时求出待测音特征与每个说话人特征聚类中心的距离,以最小距离作为识别出说话人的准则。(2) 基于人工神经网络 (ANN)的说话人识别人工神经网络模仿人脑的信息处理机制,把大量结构非常简单的计算单元互相连接起来,实现高度并行和分散的信息处理,适合说话人识别这类与人的感知有关的信息处理问题,它可以通过从示例中学习,实现网络的自我组织和调整。人工神经网络是近年来发展起来的新兴领域,人工神经网络具有优良的自组织、自适应、自学习能力。从语音中说话人个性特征与说话人的对应关系讲,说话人识别是一个非常复杂的非线性分类问题,而人工神经网络,尤其是多层感知器结构的人工神经网络有着传统分类方法所不能比拟的分类能力。用人工神经网络进行说话人识别有三种基本结构:为说话人集合中的每一说话人建立一个人工神经网络,以将这一说话人与其他说话人区分开;用一个人工神经网络实现对说话人的分类;为每一对说话人建立一个神经网络,以将每一对说话人区分本科毕业设计(论文)开 1617。(3) 参数模型方法参数模型方法包括基于高斯混合模型和隐马尔可夫模型两种方法。基于高斯混合模型的说话人识别方法是鉴于每个说话人的语音特征序列在特征空间中都形成了特定的分布,可以用这一分布来描述说话人的个性。高斯混合模型使用多个高斯分布的线性组合近似说话人的特征分布,识别时将最能够产生待测音特征的说话人分布模型对应的说话人作为识别结果。基于隐马尔可夫模型的说话人识别方法是考虑每个说话人的语音特征都是随着时间的变化而变化的,如果将这种特征的变化过程用状态间的转移来描述,这构成了说话人的隐马尔可夫模型。4.5 说话人识别系统的性能评价评价说话人识别系统的性能有多种指标,其中最重要的指标是识别结果的正确性。而这个指标对说话人辨认和确认系统又有所差别。对说话人辨认系统而言,常用的是正确识别的概率,通常称作识别率,或错误识别的概率,通常称作错误率或误识率。对说话人确认系统,不仅要考虑正确接收的概率(TA)或错误接收的概率(FA),同时还要考虑正确拒认率(TR) 或错误接收率 FR)。并且这两种指标是相互矛盾的。通过改变判决门限可以调整 FA 和 FR 的相对大小。图 4.3 给出了说话人确认的判决门限和错误概率的关系。图 4.3 说话人确认的判决门限和错误概率的关系本科毕业设计(论文)门限的选取不是使两种错误概率都小,而是使一个小了另一个就会变大如(a,b 点)。门限的选取就视具体的应用情况确定。比如在控制非常机密的场合,应使 FA 尽可能低,以避免非法进入者造成严重损失。面对大量使用者访问的公共数据库等情况,在缺少辅助的确认手段弥补的情况下,太高的拒识率会引起用户的不满,而错误的接收不至于造成严重的损失,此时便可把 FA 定得较高一些。而在图 4.3 中的 c 点,两种错误概率相等,这时的性能完全可由两个错误概率中的任一个来确定,所以等错误概率也可以作为评价确认系统的指标。说话人辨认系统与说话人确认系统的不同也与用户数有关。图 4.4 表明了两种系统误识率与用户数的关系,即说话人确认系统,其差错率基本不随用户数而变化,因为它的判别是以与声明身份的匹配得分来决定的。说话人辨认系统的误识率随着用户数的增加而增加,相当于在有限的概率空间中区分多个点,显然点数越多越难分离。所以,在评价说话人辨识系统时,要充分考虑说话人数目对错误率的影响。本科毕业设计(论文)图 4.4 说话人辩认、确认系统性能与用户数的关系对于说话人的识别系统的评价,除了识别率和错误概率这两个最重要的指标以外,还要综合考虑系统的实际应用要求,包括以下方面:(1) 训练样本数和训练速度训练样本少能使新用户尽快完成登录工作,使用户乐于接收。甚至在有些场合,比如犯罪现场,也许只能采集到一句或几句罪犯的声音,用来建立罪犯的声音模板。(2) 识别响应速度识别响应速度显然应是响应速度越快越好。(3) 说话方式要求系统尽可能适应使用者的各种说话方式,包括语速变化,声音大小变化及发音内容变化等。但这并不是一件容易的事,目前希望在保证系统识别性能的前提下,尽可能减少对说话人方式的限制。(4) 对环境的鲁棒性能工程应用领域的系统应有良好的适应环境干扰的能力,包括噪声、信道畸变、线路衰减及多人背景语音等。(5) 识别人数在有些系统中,比如语音实现对工厂职工的签名管理或电话语音确认的信息服务系统,要求系统识别的说话人数较多 18。本科毕业设计(论文)5 语音信号分析与预处理5.1 语音产生机理人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡而产生的,其中声道起始于声门处而终止于嘴唇,包括咽喉、口腔,鼻道则是从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生祸合而产生语音中的鼻音。发音过程中声道各处的截面积取决于舌、唇、领以及小舌的位置。声道截面积随纵向位置而变的函数,称为声道面积函数,声道的共振峰特性主要决定于声道截面积函数,声道的共振峰特性决定所发声音的频谱特性,即音色。人类发音过程有三类不同的激励方式,因而能产生三类不同的声音:浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音。这些周期脉冲的周期称作基音周期,其倒数称为基音频率。如果声道某处面积很小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个门限时便产生摩擦音,即清音。如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。本科毕业设计(论文)图 5.1 语音信号产生模型声道是一个谐振腔,气流激励声道发生共振产生语音信号。声道发生共振的不同的谐振频率称为共振峰频率,简称共振峰,是声道的重要声学特性。每一共振峰对应声道的系统函数的一对极点。语音信号产生模型如图 5.1 所示。由于发音方式和声道形状的不同,人类可以发出无穷多种的、听觉系统可以将它们相互区分的声音。但是,语音是人类交流信息的手段,必须采用一套基本语音单位,即音素使大家都可以发出、又都可以辨别,才能交流信息。但这样的音素是不太多的,一般一种语言只有几十个。音素相当于通信系统中的编码符号集,是由有限个符号组成的集合。用来进行分组串行编码便形成丰富多彩的语言。一个语句是由一串音素构成的,但是一串音素不等于一个语句,语句中还含有反映语意、语感的韵律信息。韵律特征包括各音素的相对强度、相对时长、相对音高、音高之间的停顿以及音素之间相互影响而产生音素的变异等。因此,人类用于交流信息的语音系统比目前能人工制造的通信系统要复杂得多 23。声波是一种机械振动,必须借助介质质点的振动而传播。要描述发音系统中空气的振动,必须借助质量守恒、动量守恒及能量守恒以及热力学、流体力学的基本定律,建立一组偏微分方程,但是这种方程的表述和求解是极端困难的。严格的声学理论必须考虑以下各种影响:(1)声道形状的时变性质;(2)由于声道壁的热传导和粘滞摩擦导致的损耗;(3)声音在嘴唇处的辐射:(4)声道壁的柔度;本科毕业设计(论文)(5)鼻腔的耦合;(6)声道中的声激励。5.2 语音信号的数字化和采集由于原始的语音信号是模拟量,要想对其进行处理就必须将原始模拟语音信号转换为数字信号,转换必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。语音信号是随时间而变的一维信号,所占据的频率范围可达 10kHz 以上,但是对语音清晰度和可懂度有明显影响的成分,最高频率约为 5.7kHz。 CCITT(国际电报电话咨询委员会)提出的数字电话 0711 建议,采样率为 8kHz,只利用了 3.4kHz 以内的信号分量。这样的采样率对语音清晰度是有损害的,但受损失的只有少数辅音,而语音信号本身冗余是比较大的,少数辅音清晰度下降并不明显影响语句的可懂度,类似人们打电话时所体验到的那样。通常模拟电话带宽就只有 3 到 4kHz,这一标准己为全世界所公认。其它应用的带宽和采样率可以取得高一些 19。在将语音信号进行数字化前,必须先进行防混叠滤波,滤除高于 1/2 采样率的信号成分或噪声。这种防混叠滤波通常与模数转换器做在一个集成块内。因此,目前语音信号的数字化的质量比较好。不需要在模拟语音信号预处理方面下功夫了,市面上购买到的普通声卡在这方面做的很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D 变换、量化处理的离散的数字信号。这就相应的减少了工作量,把更多的时间和精力花在后面的处理部分。在进行语音信号数字处理时,所接触到是说话人的声音。为了识别说话人的声音,首先要用话筒或其他设备将语音转换成电信号,再通过 A/D 变换器将其转换为离散的数字化采样信号,从而存入计算机的内存中。在实际工作中,可以利用 windows 自带的录音机录制语音文件,声卡可以完成语音波形的 A/D转换,获得 WAVE 文件,为后续的处理储备原材料。调节录音机保存界面的“更改”选项,可以存储各种格式的 WAVE 文件。本科毕业设计(论文)5.3 语音信号的数字模型完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型 20。5.3.1 激励模型发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。此时的激励信号是一个以基音周期为周期的斜三角脉冲串,可看作加权的单位脉冲串激励单个斜三角脉冲的结果,整个激励模型表示为:(5-1)211)()()( zez
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024丁方物业管理与维护合同
- 雇佣合同案例宝库
- 住宿管理承包合同范本
- 2024建设工程设计合同(专业建设工程设计合同)新版
- 旧物品买卖合同格式
- 化妆品店转让合同样本
- 2024年采购管理程序
- 建材加盟合同范本大全
- 全面合伙合同模板集合
- 就业协议书填写指南与示例
- 2024-2025学年浙教版八年级上册科学期中模拟卷
- (正式版)HGT 6313-2024 化工园区智慧化评价导则
- 智能制造工程生涯发展报告
- 站场明敷接地扁钢安装技术要求
- 《个人防护用品PPE》ppt课件
- 国际贸易SimTrade外贸实习报告
- 导师带徒实施办法6、30
- 《Fishing with Grandpa》RAZ分级阅读绘本pdf资源
- 水稳施工方案(完整版)
- 跨海大桥施工方案
- MATLAB语言课程论文 基于MATLAB的电磁场数值图像分析
评论
0/150
提交评论