语音模式识别与声控智能家居设想_第1页
语音模式识别与声控智能家居设想_第2页
语音模式识别与声控智能家居设想_第3页
语音模式识别与声控智能家居设想_第4页
语音模式识别与声控智能家居设想_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音模式识别与声控智能家居设想模式识别(PatternRecognition)是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,也有较高的识别率。语音识别本质上是一种模式识别,因此,识别算法的好坏对识别效果影响巨大。在半个多世纪的发展中,各种算法层出不穷,如滤波器模型法、线性预测技术(LP)、动态时间规整算法(DTW)、隐马尔科夫模型(HMM)、矢量量化技术(VQ)、人工神经网络(ANN)和支持向量机(SVM)等。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别的原理1•声学特征提取声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。2•模型建立语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学模型主要包括HMM声学建模和上下文相关建模。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。3■语音搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。方法包括Viterbi、N-best搜索和多遍搜索、前向后向搜索算法。4•系统实现语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用

音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。语音识别的过程语音识别主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、模式匹配和后处理几个功能模块,其中后处理为可选部分,如图3所示。特征提取迴仿生模式识别(模式特征提取迴仿生模式识别(模式匹配)参考模式库 k(特征建模)识别后处理丰》图3基于仿生模式识别的语音识别原理框图一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别都需要首先对输入的语音进行预处理,并进行特征提取。下具体说明各个模块的功能。预处理:对输入的原始语音信号进行处理,滤除背景噪声等,进行语音信号的断点检测[5],并进行语音分帧以及预加重等处理工作。特征提取:负责计算语音的声学参数,并进行特征的计算,提取关键特征参数。为了减小计算量,本文采用一种新的特征提取方法,在传统的能量、过零率、倒谱等特征的基础上,提取每个字能量、过零率和倒谱的最大值的位置在字中所占的比例作为改进的特征量。识别阶段:将输入语音的特征量和参考模式库中的模式进行比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。训练阶段:输入若干次训练语音,用上述提取得到一组特征参数,建立训练语音的参考模式库。后处理:对上述得到的候选识别结果继续处理,通过更多知识的约束,得到最终的结果。自适应与鲁棒性语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法和模型调整的方法分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。声控智能家居控制——口令触发模式:设置合理确认流程声控智能家居控制,是在现有的智能家居控制系统中,增加了语音用户界面VUI。目

前已有的智能家居控制系统,主要有两种方式:无线遥控和有线操作(电力载波或者中央布

线)。都会有一个中央控制器或者中央遥控器来操作家里的各种家电。通过在中央控制器或

者遥控器中集成引入LD3320芯片,可以很方便的为智能家居系统增加语音用户界面VUI。对于中央遥控器,如果是使用电池供电,那么就应该采用和声控电视遥控器采用一样的按键触发模式。考虑到用户的需求,在不接触控制器的状态下,通过语音来远程操作家里的各种家电。因此,口令触发模式就是最适合的模式。同时,一定需要设置确认的流程,务必要避免误触发/误识别的情况发生。以下以三个二级确认的流程来举例说明,开发者可以在此基础上进行修改,或者拓展成三级确认的流程。也可以在产品中支持多种流程,由终端用户根据自己使用的习惯来选择。1)设置前置口令,第二级说“操作+设备”设置口令为“阿拉丁”或者“大管家”(口令可以选择发音响亮,琅琅上口的词语)。中央控制器处于一直上电的状态,所以识别芯片一直处于循环识别状态,只有在识别出是口令后,才进入下一阶段的识别流程。并且充分利用LD3320芯片的特性,在添加口令的同时另外增加垃圾词语直至达到LD3320芯片的最大容量,这样可以很大程度地避免其他声音带来的误识别。(在成功识别出口令后,可以选择播放很轻微的''嘀”的一声,或者闪一下小的LED灯,来作为提示)在识别出口令后,在接下来的8秒钟时间内,等待接收用户的命令,比如“全部关闭”,'‘打开厨房灯”,'‘打开空调”等等。如果在限定的时间内,没有正确识别和接收到用户的命令,则取消本次识别流程。重新回到等待口令的状态。

识別否否3)第一级循环识别''操作+设备”,第二级说“确定”这一种是“后确认”的流程:在第一级循环识别时,识别内容是操作的名称,比如“打开床头灯”,“全部关闭”等等,识别出后,只有在接下来的5秒钟时间内说出"确定”这个关键口令,才进行正式操作,否则就取消本次识别流程,重新进入循环识别状态。根振识别结果执厅操作设置命令字识別否否3)第一级循环识别''操作+设备”,第二级说“确定”这一种是“后确认”的流程:在第一级循环识别时,识别内容是操作的名称,比如“打开床头灯”,“全部关闭”等等,识别出后,只有在接下来的5秒钟时间内说出"确定”这个关键口令,才进行正式操作,否则就取消本次识别流程,重新进入循环识别状态。根振识别结果执厅操作设置命令字[台灯/电视/全部光闭/空调f・.・】设置口令【打开或看羌闭】终靖用户可更改淀萝添抑垃圾词谡吸收特诛東减歩滾触发可选年插垃d(疇厂戚矗凶LED作为提示循环识别8秒钟仍木有肓效识别结果否只別设宜循环识别命令【打开台灯/关闭空碉/打开床头灯/全部关闭/……]一定要添刼趟圾词语喙收错谋来减少课触发否只別设宜循环识别命令【打开台灯/关闭空碉/打开床头灯/全部关闭/……]一定要添刼趟圾词语喙收错谋来减少课触发讴拾播液1识魁出的操作命令】根据识別结果执行擬作诠置命令字【确定/确认F…】呵进徉:播瞼嘀八弋F闪隹D作舟提卒循环识別8秒钟仍未有有效识別结•果说明:每次加载识别列表时,如果命令字不到LD3320的最大容量,都可以添加垃圾词语吸收可能的噪音可以对同一识别词语设置多个不同的习惯发音,方便用户使用。五、结语虽说智能家居系统中也早已有厂家将语音控制引入其中,并宣传这将是未来主流方向,但是鉴于目前存在着种种因素的影响,如对自然语言的识别和理解、语音信息量大、语音的模糊性、单个字母或词、字的语音特性受上下文的影响、环境噪声和干扰对语音识别有严重影响,致使识别率低等问题。这些都致使语音系统并未能真正进入智能家居系统,而所谓的引领智能家居声控潮流,还为时尚早!唯有技术不断升级及产品的更新方能真正让声控技术进入智

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论