基于dsp的汉语数码语音识别系统_第1页
基于dsp的汉语数码语音识别系统_第2页
基于dsp的汉语数码语音识别系统_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于dsp的汉语数码语音识别系统

1汉语数码语音识别技术mds人们发出的声音实际上是具有一定能量的机器的振动波。通过某种装置把人的语音声波转换成电信号,再将这种电信号送入计算机,经过计算机软件的一系列处理,就可以成为能使机器“听懂”的一串串指令,从而让机器来完成人交给它们的各种任务。这就是语音识别技术的基本原理。汉语数码语音识别(MandarinDigitSpeechRecognition,MDSR)是识别“0”到“9”等10个非特定人汉语数码语音,在电话语音拨号、工业监控、家电遥控和移动通信等领域有着极大的应用价值。DSP即数字信号处理器,是一种适合于进行实时数字信号处理运算的微处理器,其主要应用是实时快速地实现各种数字信号处理,以数字形式对信号进行采集、变换、滤波、估值、增强、压缩、识别等处理,以得到满足不同应用需要的信号形式。2语音识别的实现过程语音识别系统通常由语音输入、语音分析、识别处理和识别输出四个部分组成。其中,语音输入部分包括前置放大器、控制放大器和模数转换器等器件,它将语音信号变换成数字电信号;语音分析部分则通过滤波器、芯片等将数字电信号进行频率分析或动态分析,并提取出其特征,将语音信息转化为文字信息;识别处理部分通过计算机软件与硬件将文字信息按语法、逻辑及上下文关系生成可表达准确意思的句子;识别输出部分通过不同的器件将识别结果用各种方式输出,以便执行各种任务,如语音、文字或指令等。语音识别的步骤分为两步:一是根据识别系统类型选择能满足要求的一种识别方法,采用语音分析技术提取出语音特征参数,称为“学习”或“训练”;二是“识别”过程,如图1所示。前处理技术可以提高语音高频部分的抗干扰能力,通常情况可以采用预加重技术或自动增益控制(AGC)来实现。经过前处理后的语音信号要对其进行语音特征参数分析,选择何种特征参数与采用何种识别方法有关。有关实验证明在汉语数码语音识别中MFCC参数的性能明显优于LPCC参数,因此本文采用MFCC参数作为语音特征参数。虚线部分的功能是完成模式匹配,即根据一定准则使未知模式与模型库中某一模型获得最佳匹配。3ti表现HMM(隐马尔可夫模型)算法自20世纪80年代被引入语音识别以来,得到了广泛的应用,目前已成为大多数识别系统的基本框架,其特点是能够有效地提取时序特征。一个HMM模型可由初始概率分布π、状态转移概率矩阵A及输出概率矩阵B决定。在HMM算法中,可以用式(1)所示的前向—后向算法递推计算输出概率。定义前向变量αt(i)和后向变量βt(i):at(i)=P(o1o2Lot,qt=si|λ)βt(i)=P(ot+1ot+2LOT|qt=si‚λ)a1(i)=πibi(o1)1≤i≤Nαt+1(j)=[∑t=1Nαt(i)⋅aij]*bj(ot+1)1≤t≤T‚1≤j≤NP(O|λ)=∑i=1NαT(i)βT(i)=1βt(i)=∑j=1Naijbj(ot+1)βt+1(j)t=T−1,T−2‚⋯‚1‚1≤i≤N⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪(1)at(i)=Ρ(o1o2Lot,qt=si|λ)βt(i)=Ρ(ot+1ot+2LΟΤ|qt=si‚λ)a1(i)=πibi(o1)1≤i≤Ναt+1(j)=[∑t=1Ναt(i)⋅aij]*bj(ot+1)1≤t≤Τ‚1≤j≤ΝΡ(Ο|λ)=∑i=1ΝαΤ(i)βΤ(i)=1βt(i)=∑j=1Νaijbj(ot+1)βt+1(j)t=Τ-1,Τ-2‚⋯‚1‚1≤i≤Ν}(1)其中N为HMM状态数,T为语音帧数,O=(O1O2…OT)为给定的一个观察序列,P(O|λ)为在给定型λ条件下产生观察序列O的概率。4系统的基本工作流程整个硬件系统包括三个部分:一是TMS320C5XDSP处理系统,包括TMS320C50、程序存储器、数据存储器、模数转换电路等;二是FLASHROM及其与TMS320C50接口部分;三是MCU部分,如图2所示。各模块功能如下:(1)TMS320C50采用哈佛总线结构,通过两个独立的数据总线和程序总线,最大限度地提高运算速度。其主要功能是接收MCU发送来的命令,并根据其命令完成语音训练及语音识别。(2)A/D转换器是用来完成语音信号的模/数转换。本文选用Motorola公司的PCM编解码器MC14LC5480,此芯片集语音A/D、D/A及抗混叠滤波于一体,性能价格比较高。(3)EPROM是用来存放DSP程序和初始化所需的数据;RAM用于程序执行和数据的暂存。(4)FLASH存储器用于存放训练样本库。(5)MCU主要是接受键盘命令,向DSP发送控制命令,接收DSP的反馈信息,并将某些信息显示在LED或LCD上,本文选用ATMEL公司的AT89C51单片机。系统基本工作流程是:当TMS320C50接收到复位命令后复位,复位后若接收到MCU的执行命令,它便开始处理A/D转换器送来的数据;这时MCU仍可处理自身的事物而不影响DSP的工作。当需要MCU处理数据时,DSP将数据送到公共RAM中,然后向MCU机发中断信号,表明DSP已完成任务;当MCU机接收到此信号后便向DSP的HOLD引脚发信号,使其放弃共享RAM的控制权。一旦DSP接收到HOLD信号,表明已将总线控制权交出,总线隔离器已打开,此时MCU可对公共RAM进行读写操作,并对数据进行相应处理。5自组织神经网络识别模型前述HMM用到各个模型中的累积概率最大的状态,但并没有充分利用其它状态的累积概率,同时还忽略了各个模式之间相似特征,从而影响了HMM识别语音的性能。针对这一问题可以考虑将自组织神经网络(SONN)改进后用于HMM语音识别中,并利用自组织神经网络能够确定样本空间概率聚类中心的自组织能力对语音进行识别,原理框图如图3所示。具体过程是:将HMM中所有状态累积概率x={x1,x2,L,xL}={a1TΤ1(1),La1TΤ1(N),L,akTΤk(1),L,akTΤk(N),L,aKTΤΚ(1),LaKTΤΚ(N)}作为自组织神经网络分类器的输入特征,其中K为所要识别的语音基元个数,本文中K=10,HMM模型中的状态数N=5。SONN模型由输入层、隐层和输出层构成。输入层包括L个神经元,与HMM中各个语音基元的状态累积概率相对应;隐层为动态自组织层,包含P个神经元,P在网络训练中动态变化。输出层包含K个神经元,每个神经元分别对应一个要识别的语音基元,本文中取K=10。6dsp实验结果分析本文使用了一个包含5人从“0”到“9”的各5遍发音的语音库,库中语音采样率为11kHz,量化精度为16bit线性量化,帧长为256点,录音背景为普通环境。实验中特征参数采用MFCC参数,语音识别算法分别采用连续HMM、从左到右、无跳变和HMM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论