第九章 嵌入式语音识别系统.ppt_第1页
第九章 嵌入式语音识别系统.ppt_第2页
第九章 嵌入式语音识别系统.ppt_第3页
第九章 嵌入式语音识别系统.ppt_第4页
第九章 嵌入式语音识别系统.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、11:40,1,嵌入式语音识别系统,洪青阳博士 厦门大学人工智能研究所 2009,11:40,2,主要内容,嵌入式系统 语音压缩编码 语音识别模块 典型应用语音玩具 典型应用语音家电,11:40,3,嵌入式系统,嵌入式就是将一个东西,嵌入到另一个中间,这包含两层意思: 一个是硬件的嵌入式:将一个硬件嵌入到另一个中间,使得原本没有智能的产品变得智能; 一个是软件的嵌入式:将一个软件嵌入带另外一个软件里面,一般这个软件是一个应用软件,而对象是操作系统。 因此,很多东西都会被称为嵌入式,而不仅仅是ARM等32位平台,还包括DSP,FPGA,51,甚至4位机都是可以的。,11:40,4,嵌入式平台,S

2、unplus(16bit):凌阳SPCE061A ARM(32bit) DSP(TI、AD),11:40,5,用单片机处理语音,具有语音功能的电子产品 专用语音芯片 音质好 语音播放长度、段数等都受到限制 价格较高 利用单片机实现语音功能 音质由AD、DA精度、压缩算法等决定 语音录放长度由存储空间决定 价格有优势,11:40,6,用单片机处理语音,单片机实现语音功能的条件 硬件要求 AD输入用于录音、语音识别等 DA输出用于放音 定时器/计数器用于控制采样频率 软件要求 语音编解码算法支持,11:40,7,SPCE061A用于语音处理,SPCE061A单片机的性能适合数字语音处理 10位AD

3、C和10位DAC 内置MIC放大器和自动增益功能 2个16位定时/计数器 CPU时钟最高达49MHz,16位乘法器和内积运算,有能力执行复杂压缩算法,11:40,8,SPCE061A实现语音识别,硬件条件 专用MIC接口,用于实现语音录制 16位定时器/计数器用于控制采样频率 最高49MHz时钟频率,内置硬件乘法器和内积运算,保证识别算法的运行 软件条件 提供语音识别函数库,只需几条语句即可实现语音识别功能,11:40,9,语音压缩编码,波形编码 直接将波形信号转变为数字代码,尽量真实地还原波形 声音质量好 压缩比低,码率通常在20Kb/s以上 适用于高保真音乐及语音场合,11:40,10,语

4、音压缩编码,参数编码 提取语音信号的特征参数进行编码,尽量保持语音信号的可懂性,而还原后的波形可能与原波形差别很大。 压缩比很高,码率可达2.4kb/s以下。 语音质量较差,自然度低 对环境噪声敏感,11:40,11,语音压缩编码,混合编码 将参数编码和波形编码技术结合起来,克服了两种编码的缺点。 压缩比高,码率为416Kb/s 音质介于参数编码和波形编码之间,11:40,12,凌阳语音压缩算法,对于波形编码、参数编码和混合编码,凌阳都开发了相应的压缩算法。 属于波形编码的有A2000、A1600等 属于参数编码的有S240、S200等 属于混合编码的有S480、S530等,11:40,13,

5、语音识别模块,电路板模块,硬件设计 电路图 PCB布版,TS-M001,TS-M002,TS-M005,11:40,14,技术参数,工作电压(CPU) VDD 为 2.4V 5.5VDC; CPU 时钟:0.32MHz49.152MHz; 内置 32K 闪存ROM,可扩展2M, 4M, 或8M byte FLASH; 低功耗休眠时耗电仅为 2A3.6V; 音频压缩率: 歌曲:16Kbit/s、20Kbit/s、24Kbit/s 答句:4.8Kbit/s、7.2Kbit/s 答句:2.4K b/s,11:40,15,预处理,语音信号数字化。 特征提取,抽取反应语音本质的特征参数,形成特征矢量序列

6、。 语音模型库,从一个或多个讲话者多次重复讲话中提取的语音参数模板。 模式匹配,把输入语音的特征参数与语音模型库进行比较分析,得到识别结果,基本原理,11:40,16,根据对说话人的依赖程度,分为: 特定人语音识别(SD) 只能辨认特定使用者的语音,训练-使用 非特定人语音识别(SI) 可辨认任何人的语音,无须训练 根据对说话方式的要求,分为: 孤立词识别 每次识别的单词之间要有停顿 连续语音识别 使用者以正常语速说话,即可识别其中的单词,分类,11:40,17,特定人语音识别程序流程,11:40,18,特定人语音识别程序示例,11:40,19,非特定人语音识别影响因素,影响因素 口音 性别年

7、龄 环境噪音 解决办法 采集各地语音样本 200人以上,适当偏向目标用户群 尽量在安静环境下使用,11:40,20,性能指标,问话-非特定人员; 对口音要求不敏感,说普通话的或者略带口音而不影响理解的普通话用户,系统能正常识别; 用户以自然距离(15cm到1m左右)对准话筒进行语音输入对话; 系统具有一定的抗噪功能,在一般环境噪声下能进行正常语音识别。 在一定环境下,系统识别率达97%以上。,11:40,21,典型应用语音玩具,语音对话娃娃 语音控制机器人 声控车、飞机,11:40,22,语音玩具现状和发展动态,国外典型产品: 语音识别: SONY AIBO采用RSC300 Tiger Sup

8、er Poo-chi I-Cybie 语音合成: Harsbo Furby采用SC-691 Leapfrog LeapPad,11:40,23,语音玩具现状和发展动态,国内典型产品: 语音识别: 海尔 PCBOYRSC300 伊莱克斯 HomoRSC300 晶鑫玩具 白雪公主 语音合成: 明日 学而乐采用SC-691,11:40,24,语音玩具现状和发展动态,现状归纳 语音识别玩具:国内应用远落后于国外 价格问题实际是性价比问题 厂商因商业模式(出口加工)而来的重视程度问题 技术开发供给能力问题 语音合成玩具:与国外差距不大 国人对于儿童教育的重视,11:40,25,语音玩具现状和发展动态,趋

9、势分析 语音识别玩具: 向高端发展,追求新功能、高性能。如Sony Aibo。其模式不可复制 注重成本、简化功能、侧重市场实效、逐步应用新技术。这是主要发展方向。举例:Super Poo-chi,白雪公主 语音合成玩具:与国外差距不大 低成本、效果一般的产品很长一段时间将是国内主流 欧美则对语音品质要求很高 对于儿童教育产品,长远来说,音质好,价格适中的产品是发展方向。,11:40,26,语音识别应用原则 选择合适的应用对象和应用场合 合适的产品:毛绒类、卡通类、机器人/宠物类、教育类 合适的场合:室内、安静的场合 不合适的产品:高速玩具车 不适合的场合:马路、大街、嘈杂的场所 平衡原则: 大

10、的方面:功能与成本、开发费与生产成本 技术方面:识别率与误识别、误动作与方便性、距离与抗噪,玩具中语音技术应用要点、问题及对策,11:40,27,语音识别应用要点 精心设计: 造型与结构 脚本:语音命令集、流程、提示与应答 开发过程: 语音命令采样范围的选择 录音品质 具体问题具体对待,根据产品特点,找出最优参数组合,玩具中语音技术应用要点、问题及对策,11:40,28,语音识别应用中问题与对策(1) 关于成本: 与其它智能化技术如图象识别、精密结构设计比,语音识别的成本(含售后成本)最低 降成本方法1:简化功能、强调实效。与复杂而无用的功能比,熟悉的背景故事、生动的造型、有趣的声音的吸引力更

11、大。举例:CP-dog、白雪公主 降成本方法2:选择All-in-one的SOC,玩具中语音技术应用要点、问题及对策,11:40,29,语音识别应用中问题与对策(2) 特定人与非特定人: 非特定人(SI)优点:无须训练,易用,更适合儿童玩具 非特定人(SI)缺点:受语种、方言限制,模板采样费用高 特定人(SD)优点:不受受语种、方言限制;无须模板采样;可以用户自定义名字和命令 特定人(SD)缺点:要训练,不易用。一般需要外加存储器存放模板,生产成本略高 对策1:不同应用不同选择 对策2:采用SI/SD双模式,SI不工作时,用SD 对策3:采用伪SI技术,玩具中语音技术应用要点、问题及对策,11

12、:40,30,语音识别应用中问题与对策(3) 识别率与误识别 严格程度加高,误识别降低,但识别率(接受率)也降低。反之亦然。 对策1:不同产品不同对待。对于玩具,识别率更重要,偶有误识别可以接受; 对策2:增加门槛级数,可有效降低误识别引起的误动作 环境噪音 限于成本及玩具使用方法,现有抗噪技术效果有限 对策:选择恰当的应用对象和使用场合 措施1:选择合适的咪头抑制噪音 措施2:好的结构设计和电路板设计 措施3:一般噪音环境下,识别率优先(即使误识别增加),玩具中语音技术应用要点、问题及对策,11:40,31,语音识别应用中问题与对策(4) 识别距离 识别距离一般8米以内 距离越远,抗噪越差,

13、误识别越多 措施1:长距离应用,语音识别应考虑加在遥控器上 措施2:不带遥控器的运动玩具,应加上自动停止的功能,以免越出有效范围 响应时间 一条语音命令在1秒左右,语音识别响应延迟在100ms-1s,都比心手反应慢很多 对策:语音识别应避免应用于高速玩具车等类似产品 措施:将一个大语音命令集分成多级多个小命令集可加快响应速度,玩具中语音技术应用要点、问题及对策,11:40,32,语音合成应用要点 语音质量与芯片成本之间找一个最优平衡 识别质量与存储容量之间找一个最优平衡 录音环节是重点: 录音环境、录音设备 播音员的音色特点 采样率与采样精度 声音预处理可以改善效果或生成特效,玩具中语音技术应

14、用要点、问题及对策,11:40,33,典型应用语音家电,语音控制模块 语音识别台灯 语音识别插座,11:40,34,语音控制模块,语音控制模块可以直接接受自然语音控制,并完成相应的动作。其中语音识别部分采用了最先进的语音识别技术,响应速度快,识别率高,对噪声不敏感。该控制模块还加入了可信度评估和拒识技术,对于命令以外的语音或者干扰声音可以拒识。,11:40,35,技术关键与难题,基于微小芯片,实现用户不需训练的非特定人语音识别系统。 有效避免常见的强电干扰。 有效排除不正确的干扰音和语音命令。 避免使用过程中的误触发现象。 PCB板及外围器件必须合理设计,把成本降到最低。,11:40,36,解

15、决方案,非特定人语音识别系统需采集足够的语音数据(每个词或句子采集200人以上样本),训练成稳定可靠的语音模型。 语音控制程序不读取外围电路I/O的数据,直接通过设置相关变量,进行状态(开、关)的监测,并执行相应操作。 为避免误触发,采用基于触发名称的二级控制机制。 为了降低成本,可采用裸片+邦定技术,大大降低了语音识别芯片及整个模块的成本。,11:40,37,特定人模式,具有进行语音命令录入功能。 用户若想使用自己的语音命令控制开关,在使用前必须录音。理论上一次录音,终身有效。 录入的语音命令能够被控制电器进行关联。 能够删除语音命令。 能够追加录音,一路开关可以由多个人用语音命令进行控制。

16、 录音时同一个语音命令要喊两次,第二次是对第一次的确认。 断电后语音命令与设置具有记忆功能,设置结果不会丢失。,11:40,38,性能指标,灵敏度:8米有效范围。可轻松用语音命令控制,执行开、关等操作,来开启或关闭电器,用户使用起来非常方便。 可靠性:24小时无误触发。对于语音家电,如果随便声音就能触发,或类似语音偶然触发,都会使用户不能接受,担心自己不在家时,台灯或其他家电自行打开,浪费电,甚至造成安全问题。,11:40,39,主要技术参数,额定输入电压: 110-250V 额定输入电流: 2A 额定输出电压: 110-250V 额定输出电流: 2A 使用范围: 8 m 方向性: 任意,11:40,40,语音识别台灯,具有以下功能: 可以接受语音输入的命令:比如“台灯”(触发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论