语音识别芯片综述

上传人：1*** IP属地：广东上传时间：2023-12-14 格式：DOCX 页数：3 大小：38.73KB 积分：25 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语音识别芯片综述

作为一项高度语音的高科技语言识别技术，语音识别在各个领域得到了广泛应用和应用。许多外国制造商正在生产一种基于不同用途的识别算法和外围硬件的声音识别芯片。一些中国研究机构也正在开发中。用户可以直接使用集成的芯片来构建自己的声音识别系统，从而节省成本，提高可靠性。目前国内语音识别应用的方案中,常见的芯片有以下几种:SensoryRSC-x是美国Sensory公司生产的集语音综合与识别于一体的系列语音芯片,主要有RSC-164、RSC-264/200、RSC-364/300;KinstarEK5221是台湾KingStar公司生产的一款语音识别芯片;GrossFieldHL7003是台湾GrossField公司生产的一款语音识别芯片,三者都具有语音识别功能,比较而言,SensoryRSC-x系列语音芯片功能较为全面,KinstarEK5221与GrossFieldHL7003功能相当,属同一层面。对比其各自性能如下:1语音识别芯片1)SensoryRSC-x系列语音识别芯片不仅具有语音识别功能,还具有语音综合功能,RSC-x能识别最终用户的语音命令,并能为最终用户提供友好的提示音界面,或进行交互式对话;KinstarEK5221与GrossFieldHL7003只具备语音识别功能,无语音综合功能。2)SensoryRSC-x系列语音识别芯片支持SD(SpeakerDependent)、SI(SpeakerIndependent)、SV(SpeakerVerification)3种基本语音识别模式,同时还支持由此3种基本模式所演变而来的DRT、CLSD、CLSI、WordSpot等多种语音识别模式;KinstarEK5221与GrossFieldHL7003只支持SD一种语音识别模式。3)SensoryRSC-x系列语音识别芯片在SD模式下识别精度达99%;KinstarEK5221与GrossFieldHL7003在85%-95%左右。4)SensoryRSC-x系列语音识别芯片具有RP(RecordandPlay)、Music合成,以及发DTMF拨号音等功能;KinstarEK5221与GrossFieldHL7003不具备上述功能。5)SensoryRSC-x可片外扩展SRAM、FLASH或SerialE2PROM作为数据存储器;KinstarEK5221能片外扩展SRAM;GrossFieldHL7003只有片上SRAM,不能片外扩展。2k病毒以及kistorekmintit设计SensoryRSC-x、KinstarEK5221与GrossFieldHL7003由于性能的不同而使各自应用上有所差别。1)SensoryRSC-x系列语音识别芯片功能较为全面,所以应用范围较广,可用于家用电器、通讯产品、门禁系统、玩具及各种消费类电子产品;KinstarEK5221与GrossFieldHL7003则多用于玩具类产品。2)在设计开发上,SensoryRSC-x系列语音识别芯片需要用户编程,前期开发的工作量较大;KinstarEK5221与GrossFieldHL7003无需用户编程,开发较为简单。另外,KinstarEK5221可用于独立模式或受控模式,GrossFieldHL7003只能用于受控模式。SensoryRSC-x系列语音识别芯片应用方式更为灵活,可根据不同应用选用不同的语音识别方式或将多种语音识别方式综合应用,可加之以丰富的提示音,并可选用不同款式和大小的片外存储器,设置适合不同产品要求的语音识别门限等等;相对而言,KinstarEK5221与GrossFieldHL7003的应用方式较为单一。KinstarEK5221在独立模式下,只能用片内SRAM,最多可存储10个1秒时间长度的语音命令。在受控模式下,可用片内SRAM,亦可用片外SRAM,若用片外SRAM时,可存储多达90个1s时间长度的语音命令;GrossFieldHL7003只能用片内SRAM,最多可存储12个1.5s时间长度的语音命令。3)SensoryRSC-x、KinstarEK5221与GrossFieldHL70033者都内置了麦克风前置放大及模数转换电路,所需外围元器件都较少。SensoryRSC-x系列语音识别芯片用于SI语音识别模式时,无需外接数据存储器,而在用于SD或SV语音识别模式时,通常需外接SerialE2PROM或FLASH(RSC-200/264片内SRAM只能存储一个2.5s时间长的语音命令,RSC-300/364片内SRAM能最多存储6个2.5s时间长的语音命令)。另外,SensoryRSC-x系列语音识别芯片需用户编程,小批量生产需外接一个ROM来存储程序(大批量生产则可以将程序掩膜进片上MASKROM中),而SensoryRSC-X系列语音芯片本身价格略高,故总的应用成本较高。KinstarEK5221工作于独立模式时,只需一些外接电容、电阻,是较低成本的应用方式;工作于受控模式时,需外接Micro-Controller,语音命令多于10n需片外SRAM,故需加一颗防掉电电池保持数据;GrossFieldHL7003只能工作于受控模式下,需外接Micro-Controller,同样需加一颗防掉电电池保持数据。可见,SensoryRSC-x系列语音识别芯片性能优异、应用范围广泛但应用成本相对较高、KinstarEK5221与GrossFieldHL7003属于大众型芯片,功能较为单一但相对应用成本较低,在玩具等领域应用较广,用户可根据不同的需要选用不同的芯片构造自己的语音识别系统。下面介绍运用1999年底台湾微晶公司设计开发的一款语音识别芯片Vp-2的设计应用情况。这款芯片在国内较为少见,其功能大体与KinstarEK5221相当,但只工作于外接Micro-Controller的模式下。我们用Inter的CMOS8051作为CPU,外接液晶显示器,设计了一款语音计算器,其线路框图所示。如图1所示,片外的数据存储器E2PROM在8051上扩展,8位的液晶体显示器以串行通讯方式与8051相连,主CPU上的P1口线P1.0-P1.6作为数据线直接与Vp-2连接,进行控制命令与识别结果的数据交换。由于Vp-2芯片本身不具备语音合成的综合语音功能,只能在片外搭接语音提示电路,但成本会大大增加,因此,直接用Vp-2片上的识别结果指示LED并结合主CPU收到的识别结果反馈信息,利用LED1与LED2对识别的结果进行指示。Vp-2可通过upload与download方式,以每次最大20个时间长度为1.5s的经过训练的字句为限,对其识别内存进行上载和下载的操作。在本例设计中,主程序控制芯片对使用者0-9共9个数字以及加上、减去、乘以、除以、点、等于等等的读音语句

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音识别芯片综述

文档简介

温馨提示

最新文档

评论

语音识别芯片综述

文档简介

温馨提示

最新文档

评论

相关文档