一种基于机器视觉的种族识别系统算法分析_第1页
一种基于机器视觉的种族识别系统算法分析_第2页
一种基于机器视觉的种族识别系统算法分析_第3页
一种基于机器视觉的种族识别系统算法分析_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种基于机器视觉的种族识别系统算法分析

电信网络下的语言识别系统需要时间需求。现在,基于实验室环境的通用系统平台不足,因此很难满足体积和大规模处理的需求。1gsv的测试基于GSV-SVM的语种识别系统a)前段特征提取。它包括语音信号预处理和特征参数提取两个阶段b)后端分类识别。它包括模型训练和待测语音分类判决两个阶段。训练阶段需训练用于产生GMM模型的通用背景模型(universalbackgroundmodel,UBM)测试时,按上述相同方法得到测试语音段的GSV,然后将其输入到已训练好的SVM中进行分类判决。SVM的核函数采用度量GMM距离的Kullback-Leibler核函数(K-L核)其中:根据上述描述可知,2单片再生过程设计由于语种模型训练可由训练语料离线进行,因此本文提出的多路实时语种识别系统是针对测试阶段的实际应用场景提出的。此系统的总体架构如图3所示。其中,DSP选用TI公司提供的TMS320C6455如图3所示,本系统设计可分为前端DSP处理部分和后端FPGA设计部分。其中,系统前端特征提取部分采用浮点DSP实现,输出的是45维语音特征参数,而后端部分采用FPGA定点设计实现。各个模块之间相互关系如下:在系统初始化阶段,UBM、SVM、转换矩阵及锚超矩阵等相关模型参数在训练阶段得到,均由计算机离线完成,并首先存储于计算机上。在测试时,由于这些参数需要的模板数目较大,难以在FPGA片上进行存储,因此将其选择存储于片外的DDR2上。这样就需要对DDR2的接口时序和访问机制进行研究和设计。基于此,本文引入一种基于MicroBlaze接口核MPMC(multi-portmemorycontroller)在对一段语音进行测试时,其测试流程如下:a)从电信网中获取该语料,将该段语料送入到前端特征提取模块进行浮点DSP运算,得到该语料的声学特征参数,并将得到的声学特征参数由EMIF接口送入FPGA的外部通信单元;b)外部通信单元则根据总线复用情况,将这些特征送入GSV生成模块以计算GSV;c)将其经由总线管理单元和DDR2接口存储于DDR2的制定位置中;d)特征转换、空间投影模块和SVM分类模块从DDR2中读取该路测试语音的GSV和存储好模型参数,分别进行SCV的计算和SVM的分类判决;e)将SVM输出结果由外部通信单元反馈给DSP并输出。根据FPGA设计特点,系统在设计中采用各模块间及模块内部均为流水线设计的结构,采用这种架构能最大限度地提高其并行处理的能力。由于每个语音帧帧长为25ms,帧偏移为10ms,因此,为了达到模块间的流水处理,GSV生成模块必须在10ms内计算完一帧,以完成下一帧数据的运算。之后的模块是针对一定时长语音得到的GSV进行处理,因此,GSV生成后面的模块实时性则取决于语音段的时长。在电信网络转接系统中,需要在尽量短的时间内进行语种类别的判断,而本文的语料库是针对时长为10s和30s的语音段进行测试,故GSV之后的模块设计实时性要求为最低10s内处理完一路语音。3多实时语言识别系统的模拟结果分析3.1实验设施3.1.1语音时长的选取语料库为实验室采集的电话信道下的通话语音,采样频率为8KHz,并经过16bit量化处理。语料库包含汉语普通话、英语和日语共三个语种,共有1500段时长10s左右的语音段、3000段时长30s左右的语音段和1500段时长3min左右的语音段。其中10s语音段中,每个语种各有500段,男、女各250段;30s语音段中,每个语种各有1000段,男、女各500段;3min时长语音段中,每个语种各有500段,男、女各250段。本文的时长指实际话音内容所占用的时长。上述语音段均按照不同的说话人进行采集,各个语音段为单向通话语音,即每段语音仅含一个说话人的通话内容。语料库可分为训练集和测试集两个部分。其中用于训练UBM的语料选择为30s时长的语音段,挑选方式为:首先从每个语种中挑选400段(男、女各200段),共1200段,用于训练GMM-UBM模型;然后从30s中剩余的语音段中,按语种各自挑选400段(男、女各200段),共1200段,用于训练SVM的语种模型参数。测试阶段的语料包括两种时长:一种是30s时长,即除去用于训练UBM和SVM后所剩余的语音段,即每个语种为200段(男、女各100段),共600段语料;另一种是上述的1500段10s时长的语料。3.1.2fpga模块的编写按照系统算法的实现流程,在Xilinx公司的ISEDesignSuite11.2平台下,使用VerilogHDL语言进行FPGA模块的编写,并结合DSP工具对结果进行验证。如前所述,DSP选用TI公司的TMS320C6455,FPGA为Xilinx公司Virtex5系列的XC5VLX110T(speed-1)。开发所用的计算机配置为IntelCore(TM)s,CPU主频为1.86GHz,内存为0.99GB。3.2模块模块运算时延约实时性是FPGA设计与实现的重要性能指标之一,是设计能否满足需求的标志。若能够满足应用需求,可将其直接应用于实际系统中;否则需要对设计进行优化,提高其实时性。例如增大系统设计为全并行处理,模块间为全流水处理。但增大实时性的代价是会增加FPGA的资源占用率。空间变换模块算法既要进行大量的乘累加运算,还需由DDR2控制器从DDR2内存中读取数据,是后端部分模块中耗时最大的部分,是实时性瓶颈。由于DDR2内存的最低工作频率为125MHz,因此,本次设计时采用此最低频率。表1给出了后端部分三个子模块的运算处理时间。由表1可见,当FPGA工作频率为125MHz时,从开始读取第一个GSV数据到输出后验概率矢量,三个子单元计算时间之和约为69.332ms。考虑到各子单元之间的数据及控制信号交互等因素,可以认为,从读取第一个GSV数据到最后输出后验概率得分矢量的时延约为70ms。结合第三部分给出的后端模块的实时要求针对10s的语音段,由于各个模块之间为流水线结构,故后端部分所有模块中的最大时延代表了系统的处理能力,其中空间转换模块时延最大,为69.332ms,则FPGA实现的后端分类部分能够实时处理的话音路数为3.3ise综合工具的测试结果在FPGA实现中,资源占用率也是一个很重要的评价指标,主要用于评估系统的有效性和可扩展性。由于本文的语种设计是基于三种语言之上,随着识别语种数的增加,势必会增加资源占用率,为后续发展考虑,需要对FPGA设计的资源占用情况进行评估。在ISE综合工具下对FPGA进行综合的结果如表2所示。其中SliceRegisters为寄存器资源,SliceLUTs为查找表资源,BlockRAM为块RAM存储资源,DSP48E是Virtex5FPGA中的DSP块,用于实现快速乘累加运算。由表2可见,FPGA设计中占用的片上存储资源和逻辑资源比例较小,这为下一步处理更多路的语种识别系统开发打下了基础。分析可知,Slice和块RAM资源占用非常少,这是因为需要存储的模板数据均存储于片外DDR2中,对于FPGA内部存储资源占用较少;而DSP48E资源占用偏多,分析原因是默认情况下,ISE设计会采用DSP48E来实现乘累加运算,可考虑进一步的优化为将乘法器改为LUT实现。综上所述,资源整体占用较为合理,这也验证了本文中设计的可扩展性。3.4多路实时系统对比前两小节测试了语种识别系统的实时性能和资源占用情况,本节针对基于DSP+FPGA实现平台下系统的识别性能进行验证。本节中对比了通用机上VC++6.0平台基线系统与该平台下多路实时系统的识别性能。这两个系统的验证平台采用同样的训练和测试集语音,实验设置一致,都是进行语种确认实验。表3给出了此两个不同平台下的系统EER。实验结果表明,本文的基于DSP+FPGA平台的系统EER与VC++6.0平台的系统EER基本一致,这验证了多路实时语种识别系统的正确性。4实验结果及分析本文首先提出了一种基于DSP+FPGA的多路实时语种识别系统总体架构,并对空间变换子模块进行了优化和实现;然后针对算法中需要频繁访问大容量模板的问题,设计了一种基于嵌入式下的内存访问管理模块;最后从实时性能、资源性能及识别性能三个方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论