基于DTW模型的语音识别

上传人：s*** IP属地：天津上传时间：2022-10-18 格式：DOCX 页数：24 大小：69.71KB 积分：25 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于DTW模型的语音识别西南林学院本科毕业（设计）论文（二OO四届）题目基于DTW模型的语音识别分院系部：计算机及信息科学系专业：计算机科学及技术姓名：导师姓名：导师职称：二OO四年六月一日0/230/23基于DTW模型的语音识别基于DTW模型的语音识别彭丹（西南林学院计算机及信息科学系，云南昆明650224）摘要：语音识别（SpeechRecognition）是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。在课题中，通过采用DTW（Dynamictimewarping,动态时间伸缩）算法，对实现孤立词的识别进行了初步探讨和研究，实现了在MATLAB软件环境下孤立词语的语音识别，并针对DTW的主要特点及不足做出了总结。DTW算法基于动态规划（DP）的思想，解决了孤立词发音长短不一的模板匹配问题。文中还针对动态规划的不足提出了改进。关键词：语音识别DTWMATLAB动态规划基于DTW模型的语音识别Voice-IdentificationBasedonDTWModelDanPeng(Dept.ofComputerandInformationScience,SouthwestForestryCollege,Kunming,Yunan,650224,China)Abstract：Voice-identificationisakindoftechnologythatisusingcomputertotransferthevoicesignaltoanassociatedtextorcommandbyidentificationandunderstand.Inthispaper,DTWarithmeticisadaptedtostudyandresearchtheimplementtheidentificationofsingle-word,andSpeechrecognitionforsingle-wordisrealizedbyusingMATLAB.Intheend,thispapergetsaconclusiononthefeatureandtheshortageofDTW.DTWarithmeticbasedonthemethodofDPhassolvedtheproblemthatthevoicehasdifferenttimeduringthetemplatematching.ThispaperalsoputforwardsomeadvisesaboutDP.Keywords:Voice-IdentificationDTWMATLABDP基于DTW模型的语音识别目录TOC\o"1-5"\h\z\o"CurrentDocument"引言 1\o"CurrentDocument"1开发背景及可行性分析 1\o"CurrentDocument"开发背景 1\o"CurrentDocument"可行性分析 2\o"CurrentDocument"2语音识别基础 2\o"CurrentDocument"语音识别概述 2\o"CurrentDocument"语音识别系统分类 3\o"CurrentDocument"语音识别技术介绍 3语音识别单元的选取 3特征参数提取技术 4模式匹配及模型训练技术 4\o"CurrentDocument"语音识别系统的基本构成 53MATLAB简介 6\o"CurrentDocument"4算法阐述 7DTW算法原理 7DTW算法实现 9算法简介 9程序运行流程 9\o"CurrentDocument"运行结果 10\o"CurrentDocument"算法改进 11\o"CurrentDocument"5总结 12\o"CurrentDocument"语音识别难点 12语音识别系统的开发过程中的难点 12语音识别系统的实际应用中的难点 13语音识别所面临的实际情况 13\o"CurrentDocument"课题总结 14课题心得及长远发展 14\o"CurrentDocument"参考文献 15\o"CurrentDocument"致谢 16\o"CurrentDocument"附录源程序代码 17基于DTW模型的语音识别引言语言是人类特有的功能，声音是人类最常用的工具。通过语音传递信息是人类最重要、最有效、最常用和最方便的信息交换形式［12。语言信号是人类进行思想疏通和情感交流的最主要途径。让计算机能听懂人类的语言，是自计算机诞生以来人类梦寐以求的想法。在本课题中，将针对DTW算法，讨论如何实现对个别个体的特定声音进行语音识别的问题。1开发背景及可行性分析1.1开发背景本项目来源于云南省重点项目西双板纳自然保护区系统建设。在该项目中综合应用传感器技术，数字仿真技术，数据编码及数据压缩技术，DSP技术，无线传输技术等，研究自然保护区视频信号、声音信号以及其他监测信号的采集、传送、处理方案，设备选型方案，二次开发技术，为自然保护区信息系统建设。研究内容：1）自然保护区图像及声音等监测信息自动采集技术及专用设备研究。恶劣的自然环境下，其有低成本，高可靠性，免维护太阳能供电，间歇工作条件，窄带宽，单一功能的信息采集设备的研制。2）自然保护区监测信息无线传输技术及方法研究。最佳频点选择，组网方式，图上作业，机站选点，天线类型，实验设备选型等。3）自然保护区监测信息数据格式及DSP芯片开发技术研究。及华为等开发商合作进行专用设备的设计及开发等。4）重点保护动物自动跟踪技术研究。监测设备之间的配合，待机及激活状态的自动切换等。5）太阳能电围栏智能化改造现有太阳能电围栏设备，由于技术太简单，野象很容易适应并能找到对策，本项目拟在进一步研究野象生活习性的基础，引入其他技术，如：声、光、影像伪装/231/23基于DTW模型的语音识别技术和智能技术，改进现有简单、被动的野象防护技术，并对太阳能产品性能作进一步研究。该课题的目标是基于研究内容的第一点实现野生大象的语音识别。1.2可行性分析语音识别有两种特殊形式：说话人识别和语种辨别，它们和语音识别一样，都是通过提取语音信号的特征和建立相应的模型进行分类判断的［12］。说话人识别力求找出包含在语音信号中说话人的个性因素，强调不同人之间的特征差异；而语种辨别则要从一个语音片段中判别它是哪一个语种，所以就要尽可能的找出不同语种的差别特征。在课题中，我们要实现的是大象声音的识别，即实现在所听到的声音中判别哪个声音发自于大象，或判别听到的一个声音是否发自于大象。这实际上就是语音的模糊识别，但为了实现方便，只实现了对个别个体的特定语音识别。个别个体是指因为算法的不完善以及研究对象的相对独立，只能识别某只特定的大象，而对于象群的模糊识别，还未能达到要求。特定声音是指因为语音数据库的不完善，只能正确的识别大象在特定情绪下的语音。这部分内容在总结部分将会重点提出。2语音识别基础语音识别概述语音识别：语音识别(SpeechRecognition)重要是指让机器听懂人说的话，即在各种情况下，准确的识别语音的内容，从而根据其信息，执行人的各种意图或执行特定的任务［12］。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人及机器进行自然语言通信。2/232/23基于DTW模型的语音识别语音识别系统分类语音识别系统按照不同的角度，不同的应用范围，不同的性能要求会有不同的系统设计和实现，有以下几种类型：1）孤立词，连接词，连续语音识别系统以及语音理解和会话系统。2）大词汇，中词汇和小词汇量语音识别系统。3）特定人和非特定人语音识别系统。在我们的课题中由于要实现的是对大象声音的识别，所以可以将其归结为第3类，即特定人和非特定人的语音识别系统。语音识别技术介绍语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。语音识别单元的选取选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定［4］。单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的［4］。音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区3/233/23基于DTW模型的语音识别分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究［4］。特征参数提取技术语音信号中含有丰富的信息，如何从中提取出对语音识别有用的信息是语音识别的关键。特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息（对特定人语音识别来讲，则相反）。从信息论角度讲，这是信息压缩的过程。线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点［4］。Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果［4］。实验证明，采用这种技术，语音识别系统的性能有一定提高。模式匹配及模型训练技术模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式及模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术（DTW）、隐马尔可夫模型（HMM）、概率语法分析法和人工神经元网络（ANN）。DTW（DynamicTimeWarping动态时间伸缩算法）是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。DTW是用满足一定条件的时间归正函数描述待识别模式和参考模板的时间对应关系，求解两模板匹配是累计距离最小所对应的归正函数，从而保证了模板间存在的最大的声学相似性。DTW算法在词汇表较小以及各个词条不容易混淆的情况下具有一定的优越性，但在由于其只是简单的模板匹配，在处理要求更高的语音识别就显得力不从心了。因为对于连续4/234/23基于DTW模型的语音识别语音识别系统来讲，如果选择词，词组，短语甚至整个句子作为识别单位，为每个词条建立一个模板，那么随着系统用词量的增加，模板的数量将达到天文数字，而这在实际应用中是不可能被允许出现的情况。HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的（不可观测的）具有有限状态的Markor链，另一个是及Markor链的每一状态相关联的观察矢量的随机过程（可观测的）。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型（采用离散概率密度函数，简称DHMM）和连续隐马尔可夫模型（采用连续概率密度函数，简称CHMM）以及半连续隐马尔可夫模型（SCHMM，集DHMM和CHMM特点）。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。语法分析法：一方面由于不同的人说同一些语音时，相应的语谱极其变化有种种差异，但总有一些共同的特点足以使他们区分于其他语音，也即语音学家提出的“区别性特征”。而另一方面，人类的语言要受词法，语法，语义等约束，人在识别语音的过程中充分应用了这些约束以及对话环境的有关信息。于是，将语音识别专家提出的“区别性特征”及来自构词，句法，语义等语用约束相互结合，就可以构成一个“由底向上”或“自顶向下”的交互作用的知识系统，不同层次的知识可以用若干规则来描述。人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不具有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。语音识别系统的基本构成语音识别的典型方案如图1所示。输入的模拟语音信号首先要经过预处理，包5/235/23基于DTW模型的语音识别括预滤波，采样和量化，加窗，端点检测，预加重等。语音信号经预处理后，接下来重要的一环就是特征参数提取。对特征参数的要求是：1）提取的特征参数能有效的代表语音特征，具有很好的区分性。2）各阶参数之间有良好的独立性。3）特征参数要计算方便，具有高效的计算方法，以保证语音识别的实时实现。识别结果识别结果图1语音识别流程图将特征参数进行一定的处理后，为每个词条得到一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音参数，生成测试模板，及参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。同时还可以在很多先验知识的帮助下，提高识别的准确率。3Matlab简介MATLAB是矩阵实验室（MatrixLaboratory）之意。除具备卓越的数值计算能力外，它还提供了专业水平的符号计算，文字处理，可视化建模仿真和实时控制等功能。Matlab是一种解释性执行语言，具有强大的计算、仿真、绘图等功能，而且使用简单，扩充方便，同时因为有丰富的函数库（工具箱）所以计算的功能实现也很简单。Matlab和其他高级语言也具有良好的接口，可以方便的实现及其他语言的混合编程［3］。其主要特点在于：语言简洁紧凑，使用方便灵活，库函数丰富；运算符丰富；MATLAB既具有结构化的控制语句（如for循环，while循环，break语句和if语句），又有面向对象编程的特性；程序限制不严格，程序设计自由度大；程序的可移植性好；MATLAB的6/236/23基于DTW模型的语音识别图形功能强大；MATLAB的缺点是，它和其他高级程序相比，程序的执行速度较慢；拥有功能强大的工具箱；源程序的开放性［3］。4算法阐述4.1DTW算法原理假设测试和参考模板分别用T和R表示，为了比较它们之间的相似度，可以计算它们之间的距离D［T,R］，距离越小则相似度越高。为了计算这一失真距离，应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号，d［Tnn)Rm)］表示这两帧特征矢量之间的距离。距离函数处决于实际采用的距离度量，在DTW算法中通常采用欧氏距离。若N=M则可以直接计算，否则要考虑将Tn)和RmJ对齐。对齐主要采用的是动态规划(DP)的方法。将测试模板的各个帧号n=1N在一个二维直角坐标系中的横轴上标出，把参考模板的各帧号m=1M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点(n,m)表示测试模式中某一帧及训练模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网格中若干格点的路径，路径通过的格点即为测试和参考模板中进行距离计算的帧号。路径不是随意选择的，首先任何一种语音的发音快慢都有可能变化，但是其各部分的先后次序不可能改变，因此所选的路径必定是从左下角出发，在右上角结束，如图2为了描述这条路径，假设路径通过的所有格点依次为( q,mJ,・・・,(ni,m),_,(nM,mJ其中(q,mJ=(1,1),(nM,mN)=(N,M)。路径可以用函数m=。(n)描述，其中n=i,i=12..・,N,。(1)=1,。(N)=乂。为了使路径不至于过分倾斜，可以约束斜率在0.52的范围内，如果路径已通过了格点(nijmiJ，那么下一个通过的格点(ni,mi)只可能是下列三种情况之一：7/237/23

基于DTW模型的语音识别(n,m)=(n+1,ni+2)(n,m.)=(n+1,n(n,m.)=(n+1,n)M876543211 2 3 4 5 6 7 8 9 10N图2DTW算法搜索路径用n表示上述三个约束条件。求最佳路径的问题可以归结为满足约束条件n时,求最佳路径函数m=巾(n),使得沿路径的积累距离达到最小值，即:ii£d[n,m]=min£D[n,m]n-=1 ①(•)n-=1t- t,mi=①(n)曰 mi=①(n)印搜索该路径的方法如下：搜索从(4,mJ点出发，可以展开若干条满足n的路径，假设可计算每条路径达到(nN,mJ点时的总的积累距离，具有最小积累距离者即为最佳路径。易于证明，限定范围内的任一格点(n,mJ只可能有一条搜索路径通过。对于，其可达到该格点的前一个格点只可能是(nm,)、(nmi)和(nmiJ那么(n,mi)一定选择这3个距离中的最小者所对应的格点作为其前续格点，若用(nijmiJ代表此格点，并将通过该格点之路延伸而通过，这时此路径的积累距离为:D[(ni,m)]=d[T(n),R(m)]+D[(n,mi)]其中的n-1=n-1,mi-1由下式决定：D[(n,m)]=min{D[(ni,m)],D[(n,mi-1)],D[(n,m-2)]}这样可以从出发搜索，在搜索，对每一个都存储相应的前一格点及相应的帧匹8/238/23基于DTW模型的语音识别配距离。搜索到时，只保留一条最佳路径。如果有必要的话，通过逐点向前寻找就可以求得整条路径［2］。这套DP算法便是DTW算法。DTW算法可以直接按上面的描述来实现，即分配两个N*M的矩阵，分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧及参考模板的第j帧间的距离。。(N,M)即为最佳匹配路径所对应的匹配距离［2］。DTW算法实现算法简介首先申请两个n*m的矩阵D和d，分别为累计距离和帧匹配距离。这里n和m为测试模板及参考模板的帧数。然后通过一个循环计算两个模板的帧匹配距离矩阵d。接下来进行动态规划，为每个格点(i,j)都计算其三个可能的前续格点的累积距离D1，D2和D3。考虑到边界问题，有些前续格点可能不存在，因此要加用一些判断条件。最后利用最小值函数min，找到三个前续格点的累积距离的最小值作为累积距离，及当前帧的匹配距离d(i,j)相加，作为当前格点的累积距离。该计算过程一直达到格点(n,m)，并将D(n,m)输出，作为模板匹配的结果［2］。DTW算法的主体函数dtw.m代码详见附件。程序运行流程程序运行后，首先读入wav文件，用mfcc函数获得其MFCC参数，用vad函数对其进行端点检测，并保存语音部分的 MFCC参数到参考模板的结构数组ref(i).mfcc中或测试模板的结构数组test(i).mfcc中［2］。在模板匹配阶段，计算所有测试模板和参考模板之间的距离，保存到矩阵dist中，将最后的匹配分数用min函数找到最小值对应的模板［2］。DTW算法的测试程序testdtw.m代码详见附件。9/239/23基于DTW模型的语音识别运行结果程序的输出结果如下：>>正在计算参考模板的参数…正在计算测试模板的参数…正在进行模板匹配…正在计算匹配结果…测试模板1的识别结果为：1测试模板2的识别结果为：2测试模板3的识别结果为：3测试模板4的识别结果为：4测试模板5的识别结果为：5测试模板6的识别结果为：6测试模板7的识别结果为：7测试模板8的识别结果为：8测试模板9的识别结果为：9测试模板10的识别结果为：10>>从输出结果看，识别得到了正确的结果。为了进一步验证识别的正确性，接下来看一下匹配距离矩阵dist的数据：>>distdist=1.0e+004*0.57411.85753.71642.75673.27322.49462.12081.85653.45301.77831.61830.62015.47114.00244.51693.84223.0251.4395.56603.40903.58795.27630.41471.44352.49243.15202.53713.50351.00292.96922.26573.62501.05110.54872.12232.25731.84052.56381.03032.07882.40523.91302.14181.80480.42342.96292.62612.56002.11392.25892.28963.24253.09962.78533.05290.50022.22293.23172.78731.971910/2310/23基于DTW模型的语音识别2.16923.83113.19972.61732.93062.44120.62072.96752.64891.55911.94282.24704.03262.69343.13623.66823.49820.75674.30602.67863.20844.73741.03191.47392.29922.91042.25093.84640.49462.59452.22314.43862.91132.57312.79942.28831.37793.65572.24120.3803距离矩阵的对角线上是正确匹配模板的对应分数，可见对角线上的10个数值都是在本行中最小的，由此验证了识别结果的正确性。以下是程序运行结果及匹配矩阵dist的抓图3：C5ftGwthtIrtKliry至皿出「L4S*4MWtHw・1，]a二ehbm叫同及立*|刈MlFil*s FileTjt* 〕川交画ZL号狎 Fl14 E3-4囤号w FL14 ZJ-4固印WFL1*阅4r狎 Fl14 El-h，畜早FL14 ZJ-4，立5西 14VFL14 ej—b43 fli« zj-H-阅久.3 ,辞FL14 十十，加my 14V Fl14 EJ—btljlLViV IM' FL14 ZJ-d-gjll.TEY Flla ZJ-+GIsltly 14'FlI. EJ-+Fl13 EJ-1阑■”y Flla ZJ-+OiO«Vir 14'FlI. EJj十岛仙口 I-IlIi. 口9-十岛 I-IlIi. 口9-十ISuEriuiLd I-IlIi. EJ-fjl^lnilbiu&kiii.ri I-IlIi. EE-®岛nE"』 i-£l1i. ng--h|])£iijhiw.r I-IlIi. +十[jj h N-£l1i. EB-fi国yE. i-£l1i. ng--h<>:》正任计曾学孝枳柳的堂通.正在diM网既前物正在住行播板匹配.正在L十期的t*.消或硬柜1的旧利暗是州；L渭忒硬柜E由旧过骷果内?£3Q圾m即口利鳍果才二三如以怛q即双骷基冉7如慢忸5肺不骷垦冉：S勒僦慢怛E的者副骷臬冉：&炯慢怛7的受不骷儿冉：T酗整忸日师中骷臬为二8钟(试鹿蟆日的正冷酷果为二mio的识翔微果力：io»心克UG=LOeWH+口541L.85T53力也E/T5M3”32£制记 185K-3晦刘L.77&33.6183 0K0] 5打11 4M24 七51i9 3.54S 3口吃6 1..4993 5方旭03.40W35579 SST&3 d：i4HT L也：S ②的型1 也H加上5/1 1蜜西 1.U侬 2/KK鼻疣吊 9.ISW 1.05L1 DSS1 :]芭期 2.2ST3 L8例5 工毡新 1.BM 20T的2 亶0加雪白 h却3 白嘘加工*比 2.62*1 2回度। 2 二药的2蛤% 3.2425 33海 2.TSE2 3 (E苗 LL 加尔 22* %£3仃虫TB乃i L.OTiQ2l&X! 3S3：il 1旧制 2.SI.T3 2弱工 2. U：i2 062EIT 2WIE [白谣 L守始1口0a 2.24TU ，口9 2&J34 3 13M % 66酸土工烟 fl715tT ，3网 2.67663 473H LD3LQ 1HTM 2 2Hs 2 QID4 22SCQ 3&4B4 D4Q4E 窑机蛉「表…匚图3程序运行结果4.4算法改进因为DTW算法是一套对测试模板和参考模板进行动态规划的算法，所以对算法的改进主要集中在模板的动态规划上面。由文中的图2可以得知，测试模板和参考模板语音帧长的最大差距为2倍关系。这是因为在动态规划中，在参考格点的位置确定的情况下，下一格点的确定要计算参考格点的三个前续格点的可能性，这样如果参考格点的下一格点每次都取到最远11/2311/23基于DTW模型的语音识别的路径即可推导出测试模板和参考模板语音帧长的最大差距为2倍关系。但在实际进行的语音识别测试中，待测模板和参考模板语音帧长的最大差距不能到达理论的最大值。这样,对动态规划进行如下改进,即在端点检测中,对测试模板和参考模板的长度进行动态的统一。方案如下：首先按常规检测出参考模板和测试模板的帧长。再对两模板进行二次端点检测,通过修改端点检测时的帧长和帧移，使两模板的帧长相等。这样在动态匹配的时候，转而去计算参考模板和测试模板每一帧的斜率比值的累积值，这样累积值最小的即是需要寻找的模板。但是由于语音信号曲线是由语音的各项参数来决定的，所以并不是一条规则的可以用简单方程式来表示的曲线，故斜率比值的计算并不容易实现。这也是改进算法实现的难点所在。5总结语音识别难点语音识别系统的开发过程中的难点计算机语音识别是一个模式识别匹配的过程。在这个过程中，计算机首先要根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板［5］。而计算机在识别过程中要根据语音识别的整体模型，将计算机中存放的语音模板及输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的及输入的语音匹配的模板。然后，据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果及特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。一个语音识别系统性能好坏的关键首先是它所采用的语音模型能否真实地反映话音的物理变化规律，所用的语言模型能否表达自然语言所包含的丰富语言学知识。然而无论是语音信号还是人类的自然语言都是随机、多变和不稳定的，很难把握。这就是目前语音识别过程中的最大难点［5］。其次，模板训练的好坏也直接关系到语音识别系统识别率的高低。为了得到一个好的模板，往往需要有大量的原始语音数据来训练语音模型。因此，在开始进行12/2312/23基于DTW模型的语音识别语音识别研究之前，首先要建立起一个庞大的语音数据库和语料数据库。一个好的语音数据库包括足够数量、具有不同性别、年龄、口音说话人的声音，并且必须要有代表性，能均衡地反映实际使用情况［5］。有了语音数据库及语音特征，就可以建立语音模型，并用语音数据库中的语音来训练这个语音模型。训练过程是指选择系统的某种最佳状态（如对语音库中的所有语音有最好的识别率），不断地调整系统模型（或模板）的参数，使系统模型的性能不断向这种最佳状态逼近的过程。这是一个复杂的过程，要求计算机有强大的计算能力，并有很强的理论指导，才能保证得到良好的训练结果。语音识别系统的实际应用中的难点语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降；另外一个问题是对用户的错误输入不能正确响应，使用不方便［9］。高噪声环境下语音识别进展困难，因为此时人的发音变化很大，如声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法［9］。语音识别所面临的实际情况语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的⑹。首先，对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚；其次，把这方面的现有成果用于语音识别，还有一个艰难的过程［6］。语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词（句）检测技术（即从连续语音中去除诸如“啊”、“唉”等语音，获得真正待识别的语音部分）等等技术细节要解决［6］。13/2313/23基于DTW模型的语音识别课题总结课题最终在编程上实现了个别个体的特定语音的识别，基本上达到了预定的目标。基于DTW模型的语音识别简单的说就是将待识别的语音信号及数据库中的模板进行相似度对比，将相似度最高者作为识别结果输出。因此在实际程序实现中，功能强大的数据库将是程序是否成功的关键。在程序中，由于受数据库的局限，并没有实现对语音的模糊识别，但个别个体的特定语音识别也具有广泛的用途。例如，在对象群的追踪中，就可以采取个别个体的特定语音识别的方法，重点就是要最大限度的搜集象群中头象的声音特征数据，以后一旦发现头象的踪迹，即可认为是发现了象群的踪迹。这样，既免除了搜集大量其它大象声音特征数据的麻烦，节省了大量的时间，又免除了因为数据库文件数量过多而引起的管理困难。因为数据库的庞大，虽然可以保证识别的准确性，但是也可能因为识别时间过长，而失去意义，如，程序的识别结果还未给出，象群早已走出了控制范围。课题心得及长远发展一个完善的语音识别系统是由一个优秀的算法以及一个语音特征数据完备的数据库构成的，所以说，语音识别系统的完善过程可以认为就是语音识别算法的完善过程和语音数据库的完善过程之和。算法的完善有助于提高模板搜寻和匹配的效率和可靠性，相当于赋予程序一个善于思考且运转迅速的大脑，而数据库的完善有助于提高语音识别的精度和准确性，因为在强大的数据库的支持下，程序能最大限度的识别准确的结果。在算法和数据库逐步完善的过程，模糊识别也将迎刃而解。模糊识别的意义在于能够使程序区分不同的群体做出相应的反映，而不像特定识别只能针对指定的群体。14/2314/23基于DTW模型的语音识别参考文献[1]赵力.语音信号处理.北京：机械工业出版社，2003⑵何强，何英.MATLAB扩展编程.北京：清华大学出版社，2002[3]周金萍.MATLAB6.5北京：科学出版社，2003[4]胡航.语音信号处理.哈尔滨：哈尔滨工业大学出版社，2000[5]易克初等.语音信号处理

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于DTW模型的语音识别

文档简介

温馨提示

最新文档

评论

基于DTW模型的语音识别

文档简介

温馨提示

最新文档

评论

相关文档