基于SPCE061A的语音识别系统的设计_第1页
基于SPCE061A的语音识别系统的设计_第2页
基于SPCE061A的语音识别系统的设计_第3页
基于SPCE061A的语音识别系统的设计_第4页
基于SPCE061A的语音识别系统的设计_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于SPCE061A的语音识别系统的设计2012-01-07 14:11:43 来源:互联网关键字:SPCE061A语音识别系统1引言语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。语音识别是一门交叉学科, 正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们能够甩掉键盘, 通过语音命令进行操作。 近年来语音学研究的深入和 数字信号处理软硬件技术的发展,语音技术的应用己经逐步具备走出实验室,服务于社会的能力。尤其在中小字表孤立词语音识别技术已基本成熟,逐渐开始应用于家电产品、智能玩具等对识别率要求不是极其严格的领域。2硬件系统的总体方案介

2、绍本系统采用凌阳 SPCE061A作为主控芯片,并根据功能需求设计嵌入式 语音识别系统 的硬 件。由于这是一款包含 DSP功能并集成了户 A/D ,D/A等一系列功能的语音处理专用 SOC, 模块电路、外扩存储 FLASH、LED显示电路、通信模块、功放和喇叭输出模块等。图1语音识别系统的硬件组成2.1 电源电路SPCE061A采用低电压供电方式,这可以大大降低芯片的功率损耗。其中, SPCE061A的电 源分两种,即内核电源 (VDD)和I/O 口电源(VDDH)。I/O 口电源采用5V电压,而内核电源 则为3.3V或者更低。降低芯片内核电压的目的主要还是降低芯片的功耗,同时也可以降低 芯片

3、的工作温度,延长芯片使用寿命。 尽管这种语音芯片的工作电压范围很大,但是为了使芯片内核运行更加稳定,同时又保证I/O 口及外部扩展部件的工作电压要求,系统采取:AC220V电源通过AC10V进行整流,利用以7805稳压集成块为核心的电路,产生+5V电源,作为语音识别与播放模块共同使用的电源。5V电源经过TR1972-33得到DC3.3v为CPU核心供电。图2电源电路2.2 存储模块部分电路设计因为SPCE061A的FLASH只有32Kwords ,要存放大量的语音资源,就需要外扩存储器。系统使用的是一种用 SIO扩展串行存储器的方法。本方案采用凌阳公司的SPR4096芯片进行设计。SPR409

4、6是一个高性能的 4M-bit(512K X8-bit)总线FLASH ,分为256个扇区(sector) 每个扇区为2K-byte。SPR4096还内置了一个 4Kx8-bit的SRAM。在进行FLASH的编程/ 擦除的时候,可以并发执行SRAM的读/写。SPR4096内置了一个总线存储器接口和一个串行接口,它允许单片机通过 8-bit并行模式或者1-bit的串行模式访问FLASH SRAM存储区。 本例使用串行模式,其接口的工作频率为 5MHz°SPR4096有两个电源输入端 VDDI和VDDQ。 VDDI为内部FLASH和控制逻辑供电;VDDQ专门为I/O供电。SPR4096最

5、大读电流为 2mA, 最大编程/擦除电流为6mA。2.3 音频输出电路模块放音利用的是SPCE061A内部集成的DAC,它是电流输出,为了能够驱动扬声器 SPEAKER 放音需要相应的驱动电路。图中的SPY0030单运放是凌阳公司的产品。与常用的单运放LM3 86比,SPY0030的优势在如 LM3 86的工作电压需要在 4v以上,而SPY0030只需要2.4v 可工作,LM386的输出功率在100mw以下,而SPY0030约为700mw ,可以提供足够的驱 动能力。音频输出电路如图3所示。图3音频输出电路2.4 MIC输入模块SPCE061A的A/D转换器有8个通道,其中有1个通道是 MIC

6、-NI输入,它专门用于对语音 信号进行采样。语音信号经过MCI转换成电信号,然后输入至SPCE061A内部前置放大器。 由于人们说话时,麦克风距离嘴边的距离不同,语音信号的能量将会有很大的差异,此时, 如果芯片的的输入信号太大或是太小都将影响识别的精度。而SPCE061A内部就带有自动增益控制电路AGC能随时跟踪、监视前置放大器输出的音频信号电平,当输入信号增大时 AGC电路自动减小放大器的增益;当输入信号减小时,AGC电路自动增大放大器的增益,从而以补偿太小或是太大的信号,以便使进入户 A/D的信号保持在最佳电平,又可使削波 减至最小。2.5 通信接口电路单片机中的数据通过串口经MAX232

7、电平转换成RS-232电平向上位传输。由于 SPCE061A的串行口都为TTL电平,它与 RS-232C电平互不相容,所以在二者接口处,必须进行电平 转换。禾1J用MAX232芯片外接5V电源,外接电容,可产生正负10V的电源形成232C的收 发器。本系统中设有通信电路是为将大量语音数据处理都需要上传给PC,由PC完成。比如,噪声能量和过零率的计算,数字滤波器设计,模型库的训练等。3软件设计部分总体来说,本系统包含语音识别模块的软件设计和语音回放模块的软件设计。3.1 语音识别部分设计语音识别程序是软件编程的主体工作识别模块的程序流程图4所示。本系统采用了常用的能量过零率双门限法进行语音端点检

8、测,采用了计算量较小的线性预测倒谱系数作为语音信号3特征矢量,另外,基于非特定人的嵌入式系统要求,为了达到减少计算量和存储量的目的,在特征参数提取完成之后,利用矢量量化方法进行数据压缩。语音识别模型采用(DHMM)离散隐马尔可夫模型,利用 Baum-welth重估算法、前向后向算法、 viterbi算法来完成语音 模板的训练和语音识别的任务。图4语音识别模块流程图初始化子程序的作用是将微处理器中与语音识别相关的资源进行参数设置,使其实现为相应的功能,例如自动 A/D变换等;端点检测用来避免不必要的计算量,同时设定语音识别解码的起点和终点,防止无效搜索;预处理用来提高语音识别性能,增强稳健性的重

9、要环节。预处理包括对原始语音信号的滤波、预加重、加窗、分帧等环节。同时还可能包含语音增强、噪声抵消、端点检测等等。预加重主要是为了提升高频部分, 以弥补声音在唇部辐射时产生的高频部分的损失,可以使信号的频谱平坦,减少信号的动态范围;特征提取就是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,提取出对语音识别有用的重要信息;矢量量化(VQ)是一种重要的信号压缩方法,它可以减少语音信号处理中所需要的大量的存储空间,并可以减少识别匹配的计算量;语音信号本身是一个可观察的序列 :它是由大脑中的(不可观察的卜根据言语需要和语法知识 (状态选择)所发出的音素(词、句)的参数流,所以用离散隐马尔可

10、夫模型(DHMM)来模拟语音信号。3.2 语音播放的模块设计为了有一个友好的人机交互的功能, 该系统还必须语音回放。 语音数据的保存形式是以台湾 凌阳公司开发的几种语音压缩编码算法来实现的。同时,凌阳公司还提供了相应的语音压缩与解压算法的API接口,可以方便开发人员进行编程开发工作。先用凌阳Compress Tool事先把所需要的语音信号录制好,用凌阳压缩工具进行压缩,这样就可以得到所要播报的语音了。语音播放程序调用凌阳提供的音频编码算法库中的API函数,采用凌阳压缩算法中的 SACM_S480进行自动放音,其语音自动播放程序流程图如下图 5所示。语音播放是在中断服务程序中执行,本系统使用了F

11、IQ_TMA中断源。语音播放通常会出现两种情况:一是系统能正确识别语音,此时的识别后处理是通过语音播报出正确的 结果;二是系统不能正确识别语音, 则播报出不能识别的原因。 语音回放流程图如图 5所示。3 ACM_S40O放音初始化SACM S543 Initial Aut"S ACM等就朝薪P成语音序号加言3彩囹榜那RamkUpDkDm获取借音数据并解码等待中断播放SACM_S54B_ServiceLoopO图5语音回放流程图4总结本文的创新点是设计的提出的嵌入式非特定人语音识别系统所选用的SPCE061A微处理CPU最高时钟可达到49MHz ,因此在处理复杂的数字信号方面它可以和DSP相媲美,但其价格却要比专用的 DSP芯片廉价,并且它具有较强的中断处理能力,系统支持10个中断向量及10余个中断源,适合实时语音处理,并具有双通道10位DAC方式的音频输出功能,配置带自动增益控制功能(AGC)的麦克风输入方式, 为语音处理带来了极大便利;其次,采用了离散隐马尔可夫模型来模拟语音信号,并且随着DHMM在语音模板的训练阶段计算复杂度的增加,识别阶段的计算负担相应的大大减少,对于特定人、小词汇量的语音控制系统己能满足要求。此项目投入市场后,半年内产生50余万的经济效益。参考文献1薛均义,张延斌,虞鹤松等.凌阳16 位单片机原理及应用M. 北京航空航天大学出版社200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论