下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种基于废料模型的关键词确认方法 一种基于废料模型的关键词确认方法是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,一种基于废料模型的关键词确认方法是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,一种基于废料模型的关键词确认方法的论文版权归原作者所有,因网络整理,有些文章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。摘要:关键词确认是语音识别中一个重要的研究方向。对于关键词确认系统来讲,废料模型的结构和类型对整个系统的性能有很大的影响。文中提出了一种基于音节格的废料模型。实验表
2、明,与传统的基于音素类的废料模型相比,关键词确认率有了很大的提高。关键词:关键词确认;隐马尔可夫模型;废料模型;音素类;音节格关键词确认(keywordspotting,kws)是语音识别中一个重要的研究方向,也是近几年来在很多行业颇受重视的一个研究领域。一般来说,在说话人的正常话语中除了包含一些关键性词汇外还可能包括一些非话语的咳嗽声、呼吸声、关门声、音乐声和背景噪声等。在说话人的连续语音中确认出关键性的词汇,这就是关键词确认技术1。相对于大词汇量的识别系统,关键词确认系统既精确,计算量又小,而且对于实际的语音数据有较大的弹性,因此在监听、通信、语音输入等方面都有着很好应用前景2。关键词确认
3、重点之一是代表非关键词语音的模型,不论识别系统的方法怎样,大部分是采用废料模型。当采用一般的模型作为废料模型时,识别器倾向于把它们误识为关键词,从而降低了确认率。另一方面,对每个词都构建废料模型又是非常不现实的,而且使识别器的结构更复杂化,降低了系统的灵活性。两者之间的平衡点就是使用不同类型和数量的废料模型,这样即使想要保证相当高的确认率,计算时间也是可以接受的。本文就这点提出了基于音节格的废料模型。实验结果显示,与传统的基于音素类的废料模型相比,系统的性能有了很大的提高。1废料模型的由来关键词确认是在非受限语音信号中,确认出词表中所包含的“关键词”,拒绝词表外的“非关键词”,对语音内容加以理
4、解,这里的关键词词汇表可以根据系统所应用的领域来确定。设已知一个观察值序列o1,o2,ot判断其中是否存在一个关键词m,其hmm模型所包含的状态为q1,qn,kws即为把用一条含有的路径来描述所得的匹配问题,这里定义如下方法计算在语音中存在关键词的评分(m|o),即式中,b*为关键词在语音中的最佳起始点;e*为最佳结束点;o*为与之相对应的关键词m的最佳状态序列,即在判断是否存在关键词m时,首先在语音中找到与该关键词最匹配的语音段,然后用该关键词在该语音段上经长度归正后的后验概率值作为评分来判断关键词的存在与否。b*、e*和q*可按下式求得若起始点b*和结束点e*已知,可用viterbi算法求
5、出最佳状态链q*=qb,qe。因此若穷举所有可能的起始点b和结束点e,并根据上述式子必然可求出s(m|o),根据s(m|o)的值来判断是否存在关键词m。当然,用穷举的方法来求取起始点b和结束点e计算量非常大,在实际使用中是根本无法实现的。因此往往采用在一次搜索过程的同时确定b*、e*和q*,即在观察序列o上通过引入废料状态qg定义关键词的扩充模型。它所包含的状态为qg,qb,qe,qg,用废料状态qg表示非关键词语音。使用扩充模型在整个观察序列上用viterbi算法进行搜索,可以得到对应的最佳状态序列:根据这一状态序列可以同时确定b*、e*和q*。这里的废料状态就是由建立废料模型得到的。可见废
6、料模型的建立对于区分关键词和非关键词语音是不可缺少的。2基于音节格的废料模型把常见的非关键词按照其相应的汉语音节首字母的顺序排列,并通过训练分别对其建模,就形成了一个音节格。在音节格中每一格内存放一个非关键词语音对应的音节。一般来说,在说话人的连续语音中除了一些关键性的词汇外还包括许多词表外词,例如:“请问,王艳在吗?”,那么对于一个基于人名的关键词确认系统来讲,“王艳”是关键词,“请、问、在、吗”这四个字都属于词表外词,即非关键词语音,而对于这四个字对应的音节在音节格中的存放顺序为ma,qing,wen,zai。汉语由21个声母和38个韵母组成约400个左右的无调音节,而针对关键词确认系统所
7、应用领域的不同,在说话者的自然输入语音中所常见的非关键词是有限的,也是可以预测的,所以可以对这些常见的词表外词建立相应的废料模型。本文所涉及的基于人名的关键词确认系统是应用在查询控制方面的,常见的非关键词语音有ni,hao,wo,xiang,zhao,qing,wen,zai,ma等等,对这些非关键词音节建立废料模型,然后把与其相对应的音节按顺序存放在音节格中。3实验和讨论3.1实验平台本文所采用的语音数据库是自行采集的,该数据库是专门录制的,包含20个不同人名的数据库,参与训练的共有20人,其中男性12人,女性8人,年龄分布在14岁到35岁之间,选取15人分别说20个不同的人名,来训练20个
8、关键词的hmm模型,另外5人针对每个关键词录制一句包含关键词的句子作为测试数据。数据库录制的是采样率为11025hz,16位量化和单声道的语音信号。确认系统的识别基元使用无跨越从左向右的连续hmm模型,每个hmm有4个输出状态,每个状态有128个高斯分量。对于关键词模型采用以关键词为识别基元。形成的语法网络图由关键词模型、27个音节模型和一个背景噪音模型构成,其结构如图1所示。图中的keyword1keywordn代表n(n值为20)个关键词模型,garbage1garbagel代表m(m值为27)个废料模型。对输入的语音信号根据短时能量和短时平均过零率进行音节切分,然后提取mel频率倒谱系数
9、(mfcc)作为特征矢量,为了使特征矢量更好地表征语音信号之间前后相关特性,选用12维mfcc和12维一阶差分mfcc构成特征矢量。在进行关键词确认时,对输入语音按废料模型、关键词模型的顺序进行匹配,计算匹配得分。在进行匹配时先与废料模型匹配,并计算每个匹配的得分,直到得分低于某个阈值,说明当前的语音是非废料语音,此时就应与每个关键词模型逐个进行匹配,并结合基于特征矢量信息的声学置信度得到第帧特征在每个状态的置信度,从而对非关键词语音进行有效拒识,得出最终的确认结果。3.2测试结果以数据库中后五个人录制的数据作为测试数据,对于基于音素类的垃圾模型有7个(见表1),包括代表声母的一个模型hcon
10、和代表韵母的6个模型(ha,ho,he,hi,hu和hv)。表1:基于音素类的垃圾模型本文中基于音节格的废料模型有27个,可以比较一下对于不同类型和数量的废料模型在不同的虚报率下系统的确认率和确认时间如表2所示。表中的pd代表确认率,far代表虚报率(平均每个关键词在一小时内被虚报的次数),ap.time代表平均确认每个输入语音所需时间。表2:不同类型废料模型系统的确认率从表中可以看到,就时间来看只差了3.01秒,这是正常的,毕竟音素类只有7个废料模型,而音节格有27个废料模型,这个时间差也是可以接受的;最重要的是确认率,基于音节格的废料模型在虚报率数量为6时确认率为0.84,而基于音素类的废
11、料模型在虚报率数量为10时确认率为0.68,综合来看,基于音节格的废料模型是比较好的选择。4结论本文针对关键词确认系统中废料模型的结构和类型进行了研究,在训练过程中对常用的非关键词语音建立基于音节格的hmm,在确认过程中联合似然得分和置信度得分,与传统的基于音素类的废料模型相比,对于不同的虚报率关键词的确认率有了很大的提高。从实验结果中也可以看到,虽然确认率相对来讲有了提高,但是只达到了0.84,所以对于废料模型的结构还有待更深入细致的研究。参考文献1韩纪庆,张磊,郑铁然。语音信号处理。北京:清华大学出版社,20062李治柱,吴亚栋。基于hmm的关键词识别系统。计算机工程,2004;30(7)
12、,130132其他参考文献baker, sheridan. the practical stylist. 6th ed. new york: harper & row, 1985.flesch, rudolf. the art of plain talk. new york: harper & brothers, 1946.gowers, ernest. the complete plain words. london: penguin books, 1987.snell-hornby, mary. translation studies: an integrated approach. am
13、sterdam: john benjamins, 1987.hu, zhuanglin. 胡壮麟, 语言学教程 m. 北京: 北京大学出版社, 2006.jespersen, otto. the philosophy of grammar. london: routledge, 1951.leech, geoffrey, and jan svartvik. a communicative grammar of english. london: longman, 1974.li, qingxue, and peng jianwu. 李庆学、彭建武, 英汉翻译理论与技巧 m. 北京: 北京航空航天
14、大学出版社, 2009.lian, shuneng. 连淑能, 英汉对比研究 m. 北京: 高等教育出版社, 1993.ma, huijuan, and miao ju. 马会娟、苗菊, 当代西方翻译理论选读 m. 北京: 外语教学与研究出版社, 2009.newmark, peter. approaches to translation. london: pergmon p, 1981.quirk, randolph, et al. a grammar of contemporary english. london: longman, 1973.wang, li. 王力, 中国语法理论 m. 济南: 山东教育出版社, 1984.xu, jianping. 许建平, 英汉互译实践与技巧 m. 北京: 清华大学出版社,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湿地修复工程监测与数据分析2025版合同2篇
- 二零二五版物流仓储设施建设与运营合同2篇
- 二零二五年度节能工厂租赁合同编制要则3篇
- 二零二五版旅游度假区基础设施建设项目包工合同范本2篇
- 二零二五年度飞机销售合同附带飞行员培训及考核协议3篇
- 二零二五年度公寓装修及设施配套合同3篇
- 二零二五版出口货物安全检验合同规定与流程3篇
- 二零二五年度汽车租赁合同解除与终止范本汇编3篇
- 二零二五版汽车维修担保书之担保函与担保合同3篇
- 二零二五版别墅窗帘设计、安装及智能家居集成合同3篇
- 第三十六届全国电力行业风力发电运行检修职业技能竞赛基础理论题库附有答案
- 2024年纪检监察综合业务知识题库含答案(研优卷)
- 科室医疗质量与安全管理小组工作制度
- 中华民族共同体概论课件第五讲大一统与中华民族共同体初步形成(秦汉时期)
- 初二生地会考试卷及答案-文档
- 私营企业廉洁培训课件
- 施工单位值班人员安全交底和要求
- 中国保险用户需求趋势洞察报告
- 数字化转型指南 星展银行如何成为“全球最佳银行”
- 中餐烹饪技法大全
- 灵芝孢子油减毒作用课件
评论
0/150
提交评论