版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要河南科技大学本科毕业设计(论文) PAGEIPAGEPAGEV基于语音识别的智能小车摘要随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。本设计是语音识别在控制领域的一个很好实现,它将原本需要手工操作的工作用语音来方便地完成。语音识别按说话人的讲话方式可分为孤立词(IsolatedWord)识别、连接词(ConnectedWord)识别和连续语音(ContinuousSpeech)识别。从识别对象的类型来看,语音识别可以分为特定人(SpeakerDependent)语音识别和非特定人(SpeakerIndependent)语音识别。本设计采用的识别类型是特定人孤立词语音识别。本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音输入、端点监测、特征参数提取、匹配、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,根据不同的指令控制小车完成不同的动作。该设计对语音识别的现有算法进行了验证和实现,并对端点检测和匹配算法进行了些许改进。本设计达到了预期目标,实现了所期望的功能效果。关键词:MATLAB,语音识别,端点检测,LPC,单片机,电机控制
SMARTCARGASEDSPEECHRECOGNITIONABSTRACTWiththedevelopmentofcomputertechnology,patternrecognition,signalprocessingtechnologyandacoustictechnologyetc,thespeechrecognitionsystemthatcanmeetthevariousneedsofpeopleismorepossibletoachieve.Thepastthreedecades,thevoicerecognitioninthefieldofcomputer,informationprocessing,communicationsandelectronicsystems,automaticcontrolhasincreasinglywiderangeofapplications.Speechrecognitionbythespeaker'sspeechcanbedividedintoisolatedword(IsolatedWord)identification,conjunctions(ConnectedWord)andcontinuousspeechrecognition(ContinuousSpeech)identification.Identifyingthetypeofobjectfromthepointofview,thevoicerecognitioncanbedividedintoaspecificperson(SpeakerDependent)speechrecognitionandnon-specific(SpeakerIndependent)speechrecognition.Thisdesignusestheidentificationtypeisaspecificpersonisolatedwordspeechrecognition.Thisdesignisofagoodimplementationofspeechrecognitioninthecontrolfield,itdoestheworkthatwouldotherwiserequiremanualoperationbythevoiceofpeopleeasily.Thissystemincludestwomajoraspects:thehostsystemandtheslavesystem.ThehostsystemusetheMATLABonthecomputerwhichhaspowerfulmathematicalcomputingabilitytodotheworkofvoiceinput,endpointmonitoring,featureextraction,matching,identificationandserialcontrol,thenitsenddifferentcommandsthroughthePCserialporttoslavesystemaccordingdifferentrecognisedvoice.Theslavesystemisacarcontrolledbyasingle-chipmicro-controller.Itcontrolsthecardodifferentactionsaccordingdifferentinstructionsreceived.ThedesignischeckingandrealizationoftheexistingspeechrecognitionalgorithmandItheendpointdetectionandmatchingalgorithmswereslightimproved.Thisdesignachievedtheexpectedgoalsandachievedthedesiredfunctionaleffect.KEYWORDS:MATLAB,SpeechRecognition,ExtremePointsTest,LPC,ChipMicrocomputer,MotorDrive目录目录TOC\o"1-3"\h\u14831前言 122452第1章系统总体设计方案介绍 328556第2章上位机设计 47744§2.1语音识别简介 44704§2.1.1语音识别发展 419579§2.1.2语音识别的分类 421799§2.2声音录入 526334§2.3声音的预处理 631864§2.3.1欲加重处理 612698§2.3.2分帧处理 628114§2.4端点检测 611776§2.4.1过零率 614310§2.4.2音量 721§2.4.3过零率和音量积谱 826195§2.4.4用过零率和音量积谱来检测端点 926087§2.5特征参数提取 1017461§2.5.1特征参数概述 1014836§2.5.2用MATLAB实现LPC系数的计算 147372§2.6语音识别中的模式匹配 144112§2.6.1DTW算法原理 1412177§2.6.2程序实现 1616148§2.7MATLAB上的GUI设计 1830887第3章下位机设计 2015626§3.1小车总体设计 2024634§3.1.1小车总体框图 206801§3.1.2小车结构设计 2024840§3.2小车硬件设计 2018846§3.2.1单片机电路设计 2010819§3.2.2驱动电路设计 239628§3.2.3稳压电路设计 243283§3.3小车软件设计 2418009§3.3.1主程序流程图 247033§3.3.2部分主程序 2526993§3.3.3底层驱动程序 2724618结论 2916397参考文献 3025197致谢 3119113附录 32前言PAGEPAGE29前言随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。当今,语音识别产品在人机交互应用中已经占到越来越大的比例。语音识别按说话人的讲话方式可分为孤立词(IsolatedWord)识别、连接词(ConnectedWord)识别和连续语音(ContinuousSpeech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。从识别对象的类型来看,语音识别可以分为特定人(SpeakerDependent)语音识别和非特定人(SpeakerIndependent)语音识别。特定人是指只针对一个用户的语音识别,非特定人则可用于不同的用户。实际上,非特定人语音识别的初始识别率往往都比较低,一般都要求用户花一定的时间对系统进行训练,将系统的参数进行一定的自适应调整,才能使识别率达到满意的程度。本设计采用的识别类型是特定人孤立词语音识别。本设计是语音识别在控制领域的一个很好实现,它将原本需要手工操作的工作用语音来方便地完成。本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音输入、端点监测、特征参数提取、匹配、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,很据不同的指令控制小车完成不同的动作。该设计对语音识别的现有算法进行了验证和实现,并对端点检测和匹配算法进行了些许改进。为了更方便的进行上位机的操作,本设计用MATLAB的GUI设计了一个图形界面。上面设置了串口选择框、录音开始按钮、语音识别结果框等。下位机采用STC2C5A60S2单片机作为控制中心,采用L298专用驱动芯片搭建双桥,进行点击的正反转调速等控制。本设计达到了预期目标,实现了所期望的功能效果。系统总体设计方案介绍本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音的输入、端点监测、特征参数提取、匹配、识别、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,很据不同的指令控制小车完成不同的动作。PC机和小车之间通过串口无线传输模块进行数据传输。总体框图如图1-1所示:PC机(语音识别)PC机(语音识别)无线发射语音输入无线发射语音输入电机电机单片机控制中心驱动电路单片机控制中心驱动电路无线接收无线接收图1-1系统总体框图上位机设计上位负责语音的识别,并根据识别到的不同结果向下位机(小车)发送不同的指令。上位机的设计基于MATLAB平台,利用MATLAB强大的数学计算能力,进行语音的输入、预处理、端点监测、特征参数提取、匹配、识别、串口控制等工作。语音识别简介语音识别发展随着时代的发展,人们越来越注重生活的品质。便捷时尚成为当代人们的追求目标。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。当今,语音识别产品在人机交互应用中已经占到越来越大的比例。语音识别的分类语音识别按说话人的讲话方式可分为孤立词(IsolatedWord)识别、连接词(ConnectedWord)识别和连续语音(ContinuousSpeech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现简单的家用电器的控制,而复杂的连接词语音识别系统可以用于电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。显然,连续非特定人语音识别的难度要大得多,因为不仅有说话人口音的问题,还有协同发音、断字断句、搜索等问题,除了考虑语音的声学模型外还要涉及到语言模型,如构词法、文法等。从识别对象的类型来看,语音识别可以分为特定人(SpeakerDependent)语音识别和非特定人(SpeakerIndependent)语音识别。特定人是指只针对一个用户的语音识别,非特定人则可用于不同的用户。实际上,非特定人语音识别的初始识别率往往都比较低,一般都要求用户花一定的时间对系统进行训练,将系统的参数进行一定的自适应调整,才能使识别率达到满意的程度。非特定人大词表连续语音识别是近几年研究的重点,也是研究的难点。目前的连续语音识别大多是基于HMM(隐马尔可夫模型)框架,并将声学、语言学的知识统一引入来改善这个框架,其硬件平台通常是功能强大的工作站或PC机。声音录入本设计利用PC上的话筒口进行声音录入。通过MATLAB的wavrecord函数进行声音录入。wavrecord是MATLAB的专有声音录入函数,他有一下三种调用方式:(1)y=wavrecord(n,Fs)(2)y=wavrecord(n,Fs,ch)(3)y=wavrecord(n,Fs,'dtype')其中n代表声音录入的总采样数。Fs代表声音的采样率。ch代表声音录入采用的通道数,当ch为1时为单声道,当ch为2时为立体声。’dtype’代表采样数据的存储类型,MATLAB提供四种存储类型如下:(1)'double'(defaultvalue),16bits/sample(2)'single',16bits/sample(3)'int16',16bits/sample(4)'uint8',8bits/sample本设计单次采样总数为50000点,采样率为22000HZ。即:y=wavrecord(50000,22000);声音的预处理欲加重处理预加重的目的在于滤除低频干扰,尤其是50Hz或60Hz的工频干扰,将对于语音识别更为有用的高频部分的频谱进一步提升。在计算短时能量之前应用该滤波器,还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。分帧处理在计算各个系数之前要先将语音信号作分帧处理。语音信号是瞬时变化的,但在10~20ms内是相对稳定的.我设定的采样频率为11025所以我们对预处理后的语音信号S1(n)以1024点为一帧进行处理,帧移为512个采样点。端点检测所谓端点检测,就是在实时输入的声音信号中,区分背景噪声和环境噪声,准确地判断出声音信号的开始点和结束点。在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。研究表明,即使是在安静的环境下,语音识别系统一半以上的错误可能主要来基于MTLAB编写的语音端点检测程序。除此之外,在语音合成、编码等系统中,高效的端点检测也直接影响甚至决定着系统的主要性能。因此,端点检测的效率、质量在语音处理系统中显得至关重要。过零率过零率(ZeroCrossingRate)是在每个音框中,音讯通过零点的次数。一般而言,噪声的过零率大于气音的过零率,而气音的过零率又大于有声音的过零率。一半情况下,噪声的波形和声音波形相比幅度非常小,为了排除噪声对过零率产生的影响,我将声音的原始谱向上平移,使得噪声的过零点影响大大减小。如下,图2-1展示了没有平移前的过零谱图,图2-2展示了平移后的过零谱图。可以看出,平移后,话音可以很容易从噪音中区分开来。图2-1平移前的过零谱图2-2平移后的过零谱音量能量或者音量代表声音的大小,可由声音讯号的震幅来类比,又称为能量(Energy)或强度(Intensity)等。话音的能量远比噪声的能量要大,故可用能量来区分是静音还是由话音。这里将每帧的幅度绝对值之和作为每一帧的总能量大小。音量谱如图2-3所示:图2-3音量谱过零率和音量积谱通常利用短时能量来检测浊音,用过零率来检测清音,两者配合实现可靠的端点检测。端点检测算法常用的是由语音能量和过零率组合的有双门限法,以及短时能量和过零率的乘积构成的能频值法。图2-4展示了过零谱、音量谱和过零率和能量成绩构成的谱线。图2-4过零音量积谱用过零率和音量积谱来检测端点端点检测算法常用的是由语音能量和过零率组合的有双门限法,以及短时能量和过零率的乘积构成的能频值法。这里采用的是第二种方法,通过能量和过零率的乘积构成的能频值来判断语音的端点。这里我对端点进行了两级判断。首先根据过零率和音量积设定一个较高的门限TH,若谱大于TH,则可确定2个端点A、B,并可认为这2个端点之间是语音信号,这样相当于完成初判。再根据背景噪声的过零率和音量积设定一个比TH稍低的门限TL,如果信号的能量大于TL,则所对应的端点C、D之间仍是语音信号,至此完成了第二级判断。判断结果如图2-5所示:图2-5端点检测出的语音波形特征参数提取特征参数概述对于特征参数,有多种参数可供选取。常见的有三种:(1)线形预测系数特征矢量(LPC)(2)LPC倒谱特征矢量(LPCC)(3)Mel倒谱系数(MFCC)1.线性预测系数(LPC)这里我采用最简单的一种线形预测系数特征矢量(LPC)。
线性预测(LinearPrediction)分析是最有效的语音分析技术之一,在语音编码、语音合成、语音识别和说话人识别等语音信号处理领域中得到了广泛的应用。基本思想是:一个语音信号的抽样值可以用过去的若干个抽样值的线性组合来逼近。语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。由于发音器官不可能毫无规律地快速变化,因此语音信号是准稳定的(quasisteady)。全极点线性预测模型(LPC)可以对声管模型进行很好的描述,这里信号的激励源是由肺部气流的冲击引起的,声带可以有周期振动也可以不振动,分别对应浊音(Vowel)和清音(Consonant),而每段声管则对应一个LPC模型的极点。一般情况下,极点的个数在12~16之间,就可以足够清晰地描述语音信号的特征了。LPC是语音分析的重要手段,它能很好地进行谱估计,即可作为语音特征的参数。因此仅用12个LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信号的冗余度并有效地减少了计算量和存储量,使之成为语音识别和语音压缩的基础。………………2.1上式表示p个方程构成的方程组,未知数为p个。求解该方程组,就可以得到系统的线性预测系数。由基于自相关的递推求解公式求解,也就是所谓的Durbin算法得:………………2.2………………2.3……………………2.4……………2.5………2.6公式中,上标表示第次迭代,每次迭代只计算和更新直到时,结束迭代。在MATLAB中利用lpc函数计算LPC系数,其语法为:a=lpc(x,n);这里x为一帧语音信号,n为计算LPC参数的阶数。通常x为240点或256点的数据,n取10~12,对语音识别来说就已经足够。2.线性预测倒谱系数(LPCC)在语音识别系统中,很少直接使用LPC系数,而是由LPC系数推导出另一种参数:线性预测倒谱系数(LPCC)。倒谱实际上是一种同态信号处理方法,标准的倒谱系数计算流程需要进行FFT变换,对数操作和相位校正等步骤,运算比较复杂。在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。LPC倒谱系数是描述说话人声道特性的,广泛应用于声纹识别。在实际计算中,当序列x(n)为最小相位的情况下,可以利用序列x(n)及其倒谱系数c(n)的递推关系来简化计算。序列x(n)及其复倒谱系数c(n)的递推公式如下:…………………2.7LPCC参数是一种非常重要的参数,它不是由原始信号x(n)得到,而是由LPC系数得到的。由2.6式可得LPC到LPCC的直接递推关系。…………………2.8…………2.9………………2.103.Mel尺度倒谱系数(MFCC)LPC模型是基于发音模型建立的,LPCC系数也是一种基于合成的参数。这种参数没有充分利用人耳的听觉特性。实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。近年来,一种能够比较充分利用人耳这种特殊的感知特性的参数得到了广泛的应用,这就是Mel尺度倒谱参数(Mel-scaledCepstrumCoefficient),或称Mel频率倒谱系数,简称为MFCC。大量的研究表明,MFCC参数能够比LPCC参数更好地提高系统的识别性能。从目前使用的情况来看,在大词汇量语音识别应用中已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性。由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过快速傅立叶变换(FFT),求出每帧的频谱参数。再将每帧的频谱参数通过一组N个(N一般为20~30个)三角形带通滤波器所组成的Mel频率滤波器,将每个频带的输出取对数,求出每一个输出的对数能量(logenergy)Ek,k=1,2,...N。再将此N个参数进行余弦变换(cosinetransform)求出L阶的Mel-scalecepstrum参数。MFCC参数的计算是以“bark”为其频率基准的,它和线性频率的转换关系是:…………………2.11MFCC参数也是按帧计算的。首先要通过FFT得到该帧信号的功率谱,转换为Mel频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器:…………2.12MFCC参数的计算通常采用如下的流程:首先确定每一帧语音采样序列的点数。对每帧序列进行预加重处理后再经过离散FFT变换,取模的平方得到离散功率谱。(2)计算通过M个后所得的功率值,即计算和在 各离散频率点上乘积之和,得到M个参数,。(3)计算的自然对数,得到,。(4)对计算其离散余弦变换,得到,。(5)舍去代表直流成分的,取作为MFCC参数。用MATLAB实现LPC系数的计算本系统使用的特征参数是线性预测系数(LPC)。在MATLAB中利用lpc函数计算LPC系数,其语法为:a=lpc(x,n);这里x为一帧语音信号,n为计算LPC参数的阶数。通常x为240点或256点的数据,n取10~12,对语音识别来说就已经足够。语音识别中的模式匹配DTW算法原理目前,语音识别的匹配主要应用HMM和DTW两种算法。DTW算法由于没有一个有效地用统计方法进行训练的框架,也不容易将低层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型。而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大,又由于DTW算法本身既简单又有效,但HMM算法要复杂得多。它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。鉴于此,DTW更适合本系统的要求。在孤立词语音识别中,最为简单有效的方法是采用DTW(DynamicTimeWarping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。用于孤立词识别,DTW算法与HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。已存入模板库的各个词条称为参考模板,一个参考模板可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,可表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量(如MFCC,LPC系数)、相同的帧长、相同的窗函数和相同的帧移。假设测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离
D[T,R],距离越小则相似度越高。为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量,在DTW算法中通常采用欧氏距离。若N=M则可以直接计算,否则要考虑将T(n)和R(m)对齐。对齐可以采用线性扩张的方法,如果N<M可以将T线性映射为一个M帧的序列,再计算它与{R(1),R(2),……,R(M)}之间的距离。但是这样的计算没有考虑到语音中各个段在不同情况下的持续时间会产生或长或短的变化,因此识别效果不可能最佳。因此更多的是采用动态规划(DP)的方法。如果把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。为了描述这条路径,假设路径通过的所有格点依次为(n,m),……,(n,m),……,(n,m),其中(n,m)=(1,1),(n,m)=(N,M)。路径可以用函数m=Ø(n)描述,其中n=i,i=1,2,……,N,Ø(1)=1,Ø(N)=M。为了使路径不至于过倾斜,可以约束斜率在0.5~2的范围内,如果路径已经通过了格点(n,m),那么下一个通过的格点(n,m)只可能是下列三种情况之一:(n,m)=(n+1,m+2)(n,m)=(n+1,m+1)(n,m)=(n+1,m)用r表示上述三个约束条件。求最佳路径的问题可以归结为满足约束条件r时,求最佳路径函数m=Ø(n),使得沿路径的积累距离达到最小值,即:搜索该路径的方法如下:搜索从(n,m)点出发,可以展开若干条满足ŋ的路径,假设可计算每条路径达到(n,m)点时的总的积累距离,具有最小累积距离者即为最佳路径。易于证明,限定范围的任一格点(n,m)只可能有一条搜索路径通过。对于(ni,mi),其可达到该格点的前一个格点只可能是(n,m)、(n,m-1)和(n,m-2),那么(n,m)一定选择这3个距离之路径延伸而通过(n,m),这时此路径的积累距离为:D[(n,m)]=d[T(n),R(m)]+D[(n,m)]其中的n=n-1,m-1由下式决定:D[(n,m)]=min{D[(n,m)],D[(n,m-1)],D[(n,m-2)]}这样可以从(n,m)=(1,1)出发搜索(n,m),再搜索(n,m),……,对每一个(n,m)都存储相应的前一格点(n,m)及相应的帧匹配距离d[n,m]。搜索到(n,m)时,只保留一条最佳路径。如果有必要的话,通过逐点向前寻找就可以求得整条路径。这套DP算法便是DTW算法。程序实现DTW算法可以直接按上面的描述来实现,即分配两个N×M的矩阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。D(N,M)即为最佳匹配路径所对应的匹配距离。程序中,首先申请两个n×m的距阵D和d,分别为累积距离和帧匹配距离。这里n和m为测试模板与参考模板的帧数。然后通过一个循环计算两个模板的帧匹配距离距阵d。接下来进行动态规划,为每个格点(i,j)都计算其三个可能的前续格点的累积距离D1、D2和D3。考虑到边界问题,有些前续格点可能不存在,因此要加入一些判断条件。最后利用最小值函数min,找到三个前续格点的累积距离的最小值作为累积距离,与当前帧的匹配距离d(i,j)相加,作为当前格点的累积距离。该计算过程一直达到格点(n,m),并将D(n,m)输出,作为模板匹配的结果。程序如下:function[dist]=fDTW(t,r)n=size(t,1);m=size(r,1);if(abs(n-m)<6)%帧匹配距离矩阵d=zeros(n,m);fori=1:nforj=1:md(i,j)=sum((t(i,:)-r(j,:)).^2);endend%累积距离矩阵D=ones(n,m)*realmax;D(1,1)=d(1,1);%动态规划fori=2:nforj=1:mD1=D(i-1,j);ifj>1D2=D(i-1,j-1);elseD2=realmax;endifj>2D3=D(i-1,j-2);elseD3=realmax;endD(i,j)=d(i,j)+min([D1,D2,D3]);endenddist=D(n,m);elsedist=realmax;EndMATLAB上的GUI设计MATLA作为功能强大的科学计算软件,同样也提供了图形用户界面设计的功能。在MATLAB中,基本的图形用户界面对象包括三类:用户界面控件对象,下拉式菜单对象和快捷菜单对象。根据这些图形对象,可以设计出界面友好。操作方便的图形用户界面。本系统的整个上位机使用MATLAB做的,为了更方便的进行操作,我用MATLAB的GUI设计了一个图形界面。上面设置了串口选择框、录音开始按钮、语音识别结果框等。实际界下面如图2-6所示:图2-6MATLAB-GUI界面下位机设计小车总体设计小车总体框图系统总体框图如下所示。整个系统以单片机作为控制中心,单片机前要接受上位机传来的控制指令,后要根据收到的指令控制小车完成不同的功能。小车共有两个电机,有L298构成的H桥来驱动。稳压电路采用线性稳压芯片7805来完成。系统框图如图1-1所示:单片机控制核心单片机控制核心串口接收L298电机驱动电路串口接收L298电机驱动电路电机电机图3-1系统总体框图小车结构设计本小车底盘采用三轮结构,两个动力轮分别由两个直流电机单独驱动。第三个轮是转向轮,可以三百六十度转向。核心板采用通用板搭建,采用专用芯片插槽,方便单片机的拆卸。驱动电路和稳压电路焊在同一通用板上,两个板子用铜柱固定为上下两层,节省空间。整个小车实物图见附录一。小车硬件设计单片机电路设计本系统单片机采用的是宏晶公司的STC12C5A60S2,它采用增强型8051内核。指令代码完全兼容传统8051单片机,但速度比传统8051单片机快8-12倍。单片机控制电路主要有复位电路、晶体振荡电路两部分。其总体电路图如图3-2所示:图3-2单片机电路图1.复位电路复位电路是单片机控制电路中很重要的电路之一。STC12C5A60S2单片机为高电平复位,及即要使得复位管脚RST保持一定时间的高电平。其复位电路分两种情况。当单片机时钟频率小于12MHZ时,采用第一种复位电路。将RST管脚接1K电阻R1到地,其电路如图3-3所示。图3-3第一复位电路当单片机时钟频率大于12MHZ时,采用第二复位电路,其电路如图3-4所示。图3-4第二复位电路本电路单片机时钟采用的是12MHZ,故复位电路采用第二种。以上复位电路只能保证单片机能够上电复位,为了更好的进行调试,本电路对上面的电路进行了更改,使得单片机电路能够手动复位。改进后的复位电路如下图3-5所示。当按键按下时,由于电阻R1的作用,RST管脚保持为高电平。单片机复位。图3-5改进后的实际复位电路2.晶振电路STC12C5A60S2单片机内部含有R/C时钟振荡电路,单片机可以选择使用内部自有的R/C时钟振荡电路,也可以使用外接的高精度晶体/时钟。用户在下载用户程序时,可选择是使用内部R/C振荡器还是外部晶体时钟。常温下内部时钟频率为5V单片机:11~17MHZ,3.3V单片机:8~12MHZ。单片机内部时钟电路受温漂等影响较大,当对精度要求不高时可以使用内部时钟。本电路需要串口数据收发,控制对时钟要求较高,故采用的时钟源是外接的高精度晶体/时钟。其电路如图3-6所示。图3-6晶体振荡电路驱动电路设计驱动电路的选择及稳定性对小车性能来说是至关重要的。这里我采用L298专用驱动芯片来驱动两个直流电机。L298驱动芯片内置两个H桥电路,可以两个电机实现正转和翻转。最大输出电流可以达到两安,这对小车上的直流电机足够用。L298的外围电路也是非常重要的,图3-7为L298的外围电路。途中8个单向导通二极管起着非常重要的作用,它可以防止电机磁场作用产生很大的反向电压时对L298内部电路的破坏作用。图3-7L298外围电路稳压电路设计小车的整个硬件电路共需要两个电压,电源电压为8伏,直接供给直流电机。而单片机控制电路需要五伏的电压,故需要设计一个稳压电路来输出稳定的5伏电压供给单片机控制电路。本系统采用线性稳压芯片7805把8伏的电源电压稳成5伏输出。其电路图如图3-8所示:LM7805LM7805VinVout=5V图3-85V稳压电路小车软件设计主程序流程图系统初始化系统初始化前进停止后退串口数据1图3-9主函数流程图小车单片机采用STC12C5260S2,此单片机属于8051内核,采用KEIL开发环境来编程。下位机程序主要功能就是时刻准备接受上位机传来的串口数据,然后,根据不同的数据控制小车电机是小车完成不同的动作。主函数流程图如图3-9所示:部分主程序部分程序如下:#include<reg52.h> #include"hard.h"unsignedcharRxBuf[32]={0}; //接收缓冲区/******************************************************************名称:Com_Init()*功能:串口初始化,晶振11.0592,波特率9600,使能了串口中断*输入:无*输出:无*****************************************************************/voidCom_Init(void){TMOD=0x20;PCON=0x00;SCON=0x50; TH1=0xFd;//设置波特率9600TL1=0xFd;TR1=1; //启动定时器1 ES=1; //开串口中断 EA=1; //开总中断 }/*****************************************************************名称:Com_Isr()*功能:串口中断子函数*输入:无*输出:无**************************************************************/voidCom_Isr(void)interrupt4{ staticunsignedchari=0;//定义为静态变量,当重新进入这个子函数时i的值不会发生改变 EA=0; if(RI==1)//当硬件接收到一个数据时,RI会置位 { if(i==0) { RxBuf[0]=SBUF-48;//这里减去48是因为从电脑中发送过来的数据是ASCII码。 } RI=0; } i++; i=i%2; EA=1;}/*************************主函数******************/voidmain(){ Com_Init(); while(1) { switch(RxBuf[0]) { case1: go_ahead(); break; case2: stop(); break; case3: go_afterward(); break; default: ; } }}底层驱动程序底层驱动程主要分两块儿:电机控制程序和串口控制程序。串口控制主要是进行寄存器设置,设置串口时钟得喝波特率。串口数据的接收程序有查询法和中断法。查询法主要是通过不断查询串口数据接收标志位,当标志位置位时,说明串口数据接收缓冲区已满,于是就可以把数据从接收缓冲区中读出,其流程图如图3-10。中断的方法是,打开单片机硬件串口中断,串口数据接收缓冲区已满时,单片机就会触发串口中断,通知CPU读取串口接收的数据。中断的方法可以减少CPU占用率,故这里我采用了中断的方法。RI==1RI==1YNRI=0;读取串口数据开始图3-10串口程序,查询法电机控制主要是通过控制L298电机驱动芯片来控制电机。L298有六个输入脚(IN1,IN2,ENA;IN3,IN4,EAB)和四个输出脚(OUT1,OUT2;OUT3,OUT4)。它的六个输入口分别连接单片机的P0^0~P0^5,四个输出口连接两个电机。通过控制六个输入口电平来控制电机正反转或者停止。其主要的控制方法见表3-1:表3-1电机控制IN1IN2ENAOUT1OUT2电机101高低正转011低高翻转××0高阻高阻停转IN3IN4EABOUT3OUT4电机101高低正转011低高翻转××0高阻高阻停转结论本次设计对语音识别的现有算法进行了实现和验证,并对端点检测和匹配方法进行了稍微改进。小车的硬件设计性能良好,软件运行正常,能达到预定要求。本设计达到了预期目标。本设计语音识别的准确度还有很大的提高空间,语音识别的程序效率还有待进一步提高。本设计语音识别的特征参数提取采用的是易于获取的LPC(线性预测系数),而大多数识别案例是采用LPCC(线性预测倒谱系数),这方面还有待去试验。还有一种特征参数是Mel尺度倒谱系数(MFCC)人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系,Mel尺度倒谱系数(MFCC)能够比较充分利用人耳这种特殊的感知特性。这方面的试验还有待进行。串口无线传输具有很简单的接口,软件控制简单,但它的传输距离有限,故无线传输方案还需要进一步改进。河南科技大学本科毕业设计论文PAGEPAGE37参考文献[1]谭浩强.C程序设计.北京:清华大学出版社,1995[2]郭天祥.51单片机C语言教程.北京:电子工业出版社,2009[3]张毅刚,彭喜元等.新编MCS-51单片机应用设计.哈尔滨:哈尔滨工业大学出版社,2003[4]刘瑞新.单片机原理及应用教程.机械工业出版社,2003[5]何立民.单片机应用技术选编(1).北京航空航天大学出版社,1992[6]胡汉才.单片机原理及系统设计.清华大学出版社,2002[7]刘卫国.MATLAB程序设计与应用.北京:高等教育出版社,2001[8]张震宇.基于MATLAB的语音端点检测试验研究.浙江科技学院学,2007第19卷
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024广西玉林市容县冬季赴高校公开招聘教师19人补充笔试备考试题及答案解析
- 电影发行合同范本完整版3篇
- 2024年度医药研发合作合同3篇
- 2024年度大蒜购销:农产品供需协议书
- 二零二四年度玻璃幕墙工程保险合同
- 常见劳动合同范本(04版)
- 二零二四年物联网平台建设与技术合作合同3篇
- 仓库物业转让合同范本2024年度特供
- 拆迁烂尾楼施工合同范本3篇
- 二零二四年度常州仓储物流服务合同范本
- 2022年广西普通高中学业水平合格性考试英语学科参考试题
- 四年级人自然社会第10课 苏东坡与西子湖 优秀教学课件
- 医疗文书规范管理制度
- 2018年上半年全市中小学部分学科德育优质课评选结果
- 【阅读训练】Unit 8 Read a story 阅读理解活动(五上)
- 低压开关柜预防性试验报告
- 学科分析:中等职业教育“康养休闲旅游服务”专业学科分析
- 光栅的衍射实验报告光栅的衍射实验报告八篇
- 【小学数学】人教版二年级上册数学《认识时间》知识点汇总+练习题
- 2023年江苏苏州工业园区管委会招聘笔试参考题库附带答案详解
- 中医基础理论(五版教材)
评论
0/150
提交评论