版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2002年2月文章编号:100026788(2002)0220113205系统工程理论与实践第2期特定人手机常用汉语语音识别系统的设计与实现盛元军1,柳克俊2(1.哈尔滨工程大学经济管理学院,黑龙江哈尔滨150001;2.海军装备论证研究中心,北京100073)摘要:采用自底向上的方式设计并实现了一个特定人1000句手机常用语语音识别系统研究和比较了多种语音要素对语音识别系统性能的作用和影响用实例演示了汉语半音节语音识别系统的设计思路和实现方法关键词:语音识别;半音节;特定人中图分类号:TP391文献标识码:ATheDesignandRealizationofaSpeaker2dependen
2、tChineseSpeechRecognitionSystemofCommonly2UsedSentencesonMobileTelephones12SHENGYuan2jun,LIUKe2jun(1.SchoolofEconomics&Management,HarbinEngineeringUniversity,Harbin150001,China;2.ChinaNavalResearchCenter,Beijing100073,China)Abstract:Inthispaper,aspeaker2dependentChinesespeechrecognitionsystemtha
3、tisabletoidentify1000commonusedsentencesonmobiletelephoneswasdesignedandrealizedusingthestrategyofbottom2to2top.TheeffectandinfluenceofmultiplespeechelementsonChinesespeechrecognitionsystemareresearchedandcompared.ThedesignideologyandrealizationmethodtodevelopaChinesehalf2syllablespeech.recognitions
4、ystemarealsodemonstratedbyaseriesofexperimentsKeywords:speechrecognition;halfsyllable;speakerdependent1引言随着计算机自动语音识别技术的飞速发展,语音识别已从研究进入到实用阶段在中文信息系统的建设中引入语音识别技术,有助于改善中文人机界面,提高系统的可操作性,便于系统的推广和使用本文从一个基本的语音识别模型着手,分析和比较了不同的语音单元、语音单元驻留时间、声调等语音要素对系统性能的作用和影响,逐步对系统改进和完善,最终实现了一个手机1000句常用汉语的语音识别系统以实例揭示了一个基于半音节单
5、元的汉语语音识别系统的开发过程和实现方法2语单单元的选择及基准系统不同的语音识别系统因其任务的不同,可以选择不同的语音单元对于词表较小的系统而言,可以为每一个词建立一个模型这样的系统简单实用,而且由于不同模型之间的距离较大,区分容易,识别率很高在词表较大的情况下,为所有词都建立模型是不现实的由于汉语音节的独特性,不考虑声调,只有405个不同音节一些系统采用上述405个音节作为基本语音单元,再加上后续声调识别的方案该方案收稿日期:2000205208© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reser
6、ved.114系统工程理论与实践2002年2月的优点是音节的界限相对比较清晰,容易分割;音节之间的协同发音现象不是很突出,音节在不同上下文中的发音变化不大其缺点是模型数量偏多,难以使每个模型都得到充分的训练;自适应性较差,不容易对模型参数进行调整使之适应新的说话人;对存储空间和运算速度的要求较高本文采用半音节作为语音单元首先建立一个基准语音识别系统,包括60个建模单元,即21个声母和39个韵母每个语音单元用转移弧输出型隐马尔可夫模型(HMM)建模,见图1图中圆圈代表隐含的状态,状态集合记为S实箭头线表示转移弧,转移弧从状态Si到状态Sj的转移概率记为aij,与此同时该转移弧产生标号为K的输出的
7、概率记为bij(K)虚箭头线为空转移弧,有转移概率不产生输出空自转移弧T0用于描述音节前可能的无声段零声母音节通过空转移弧T1跳过声母段当一个音节处理完毕,由空转移弧T2转到起始状态,等待或处理下一个音节图1基准系统模型以半音节作为语音建模单元,必然涉及声韵母的分割在模型训练时,采用分段2K平均法确定分界点我们在实验中发现,用不同声母音长的经验数值作为训练的初值效果较好语音信号经12kHz频率采样,16bit量化,高频预加重后分帧.帧长20ms,帧移10ms加哈明窗提取每帧信号的加权LPC倒谱系数和该系数的差分作为该帧的特征矢量LPC阶数为12,倒谱阶数为14特征矢量采用双码本分别对倒谱和差分
8、倒谱系数进行矢量量化(VQ),码本容量为256个码字本文所用的训练和测试集是特定男声的10遍全音节发音每遍含1185个不同音节其中8遍作用训练集,2遍用作测试集基准系统模型经训练后,正识率为71.83%3对基准系统的改进3.1声母音长转移概率HMM是语音识别中广泛采用的一种双重随机模型隐含的各状态对应语音的稳定段,各状态之间通过转移概率相联系这种方法较好地建模并处理了语音信号整体非稳性和局部平稳性之间的关系但是由于模型本身的两个假设与语音的实际情况有一些出入,使得模型在语音应用上存在一定的局限性其中一个假设是模型在t+1时刻处于某一特定状态的概率仅与模型在t时刻的状态有关这样模型在状态Si驻留
9、K次的概率就是aKii,即驻留次数越少概率越大,而实际情况并非如此在HMM中增加各状态驻留时间分布的参数可以解决这一问题其代价是大幅度增加计算量汉语音节长度的变化主要体现在韵母上相同声母长度变化不大,不同声母的长度有显著区别本文认为,与韵母和音节相比,声母的音长信息在语音识别中是更有价值的并且多数声母的音长较短,平均到HMM中每个状态上的持续语音帧数更少因而在基于半音节识别单元的HMM框架模型中,考虑声母音长总持续时间的概率分布,在声韵母之间加入了声母音长的转移概率是适宜的于是我们对基准模型做了修改,见图2声韵母之间的空转移弧T3具有转移概率PCV.PCV与声母段长度有关log(PCV)=-(
10、 1-n N)K3C(1)式中n为此声母段的长度,N为该声母的平均长度K和C是两个经验常数,用于调节PCV的大小量级,使PCV足以匹敌和影响模型的Baum2Welch训练算法和Viterbi识别算法中的概率在我们的实验中K=2,C=20加入声母音长转移概率后,正识率提高到75.17%3.2声调轨迹判决© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.第2期特定人手机常用汉语语音识别系统的设计与实现115图2声母音长转移概率模型四声调是汉语独有的语音现象,声调主要体现在音节的韵母部分提取韵母
11、部分每一帧语音的基音周期或基音频率可以形成一条音高变化的轨迹依据这一轨迹可以判断出其属于哪一个调型但是声调的调型曲线并不是绝对的从统计的角度看,声调调型所占据的不是一条线,而是一条带状的声学空间在实验中我们也发现,比较基音轨迹上几个确定点或者用二次曲线拟合的方法效果都不理想我们认为,调型的判决重要的是把握住音高变化的趋势取基音周期的差分Xi=Pi+1-Pi.Pi和Pi+1分别是i点和i+1点的基音周期用5个码字表示差分值Xi见表1表1差分值X码字i0011-1223-24图3声调模型定义如图3的3状态HMM对基音轨迹的差分码字序列Xi建模我们同样比较了1状态,2状态,4状态和5状态模型结果发现
12、,3状态模型性能比1状态和2状态有明显改善,与4状态相近,略好于5状态将基音轨迹的差分码字序列平均分为3段每一段对应一个状态用训练集训练声调模型,统计各状态分别输出5个码字的概率实验结果显示,声调正识率为93.52%考虑到声调在音节的尾部有降尾现象,我们把基音周期序列从后边切去3帧声调正识率可以提高近1个百分点为更好地反映基音周期的变化趋势,我们在Xi的基础上增加了一个基音周期的差分序列Yi=Pi+1-Pi-1.用表2将Yi编码表2差分值Yi码字0,1,-102,31-2,-3243-44这样基音轨迹可以表示为一个二维的码字序列Xi,Yi同样用图3的声调模型训练,声调正识率提高到96.95%3
13、.3有调韵母一般认为,倒谱系数反映的是语音信号去除声门激励后的声道响应,其中不含有基音频率信息我们在3.1的基础上,把语音单元中的39个无调韵母改为有调韵母结果正识率为63.35%,另外有13.22%© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.116系统工程理论与实践2002年2月的音节声韵母均正确识别,只是声调判断错误从实验中可以得出两点结论:一是82.73%的声韵母均正确的音节声调也正确,因此倒谱系数也可在一定程度上表征声调信息这就说明了人在耳语时,声带不发生振动,听话人也可以听
14、懂的原因二是去除声调影响仅就声韵母而论,正识率为77.57%可见由于对韵母进行了更细的分类,韵母正识率有所提高用有调韵母单元替代无调韵母单元是出于以下几点考虑1)既然倒谱系数中包含了一定程度的声调信息,不同声调韵母的倒谱系数应该是有区别的选用有调韵母作为建模单元有助于对韵母进行更精细的分类2)3.2节验证了用HMM建模声调的可行性,使得我们有可能将声调模型纳入到整个语音识别系统的HMM统一框架中,而不必单独处理声调这一点对连续语音识别是有利的3)图3的HMM声调模型平均分割状态序列,显得过于主观将声调模型融合到有调韵母模型中,不需要显式分割状态序列,有助于提高声调识别率对比图2和图3可以看到,
15、韵母模型和声调模型都有3个稳定状态在有调韵母的训练和识别时,只需在倒谱和差分倒谱系数的基础上增加基音轨迹的二维的码字序列Xi,Yi作为特征矢量,就可以把声调模型融合到韵母模型中采用有调韵母后,正识率提高到75.98%3.4协同发音以半音节作为语音建模单元,必须解决声韵母之间的协同发音问题由于韵母在音节中占绝对优势,韵母段相对比较稳定,协同发音对韵母的影响要小一些声母段一般来说较短,能量较弱,容易发生变化从前面的实验我们也发现,误识的音节主要是由于声母判断的错误,尤其是音长较短的声母,如b,p,d等因此我们主要考虑声母的协同发音问题在汉语拼音方案中,元音有6个基本音位,即a,o,e,i,u,v.
16、这6个基本音位在不同的上下文环境中的发音会发生变化,形成不同的音素每一个声母依据其后接韵母第一个音素的不同,建立不同的模型由此产生的声母模型总数在100个以上由于训练数据的限制,为保证模型得到充分的训练,我们依据韵母四呼对一些相近的并且不存在对立的模型进行了合并我们选取的模型总数为60个经过这样的改进,系统的正识率为84.03%3.5零声母及特殊音节汉语除了声母加韵母类型的音节外,还有不到10%的零声母音节及zi、ci、si、ri、zhi、chi、shi等几个特殊音节zi、ci、si、ri、zhi、chi、shi等几个特殊音节需要单独建模对于零声母音节而言简单地采用前述的韵母模型来识别效果不理
17、想因此我们对零声母音节也单独建模由于训练数据中零声母音节的数量远少于对应的韵母数量,零声母音节的训练是不够充分的我们利用训练较充分的韵母模型对零声母模型进行平滑bnij(K)=0.653bnij(K)+0.353bmij(K)(2)其中bmij(K)是第m个韵母的转移弧ij产生标号K的概率;bnij(K)是与第m个韵母相对应的第n个零声母的转移弧ij产生标号K的概率3.6语言模型以上只是对单个音节的识别在实际的应用中,往往需要建立针对特定语言环境的语言模型常用的语言模型有二元文法和三元文法二元文法句子中某一字Wi出现的概率只取决于其前一字Wi-1,即P(Wi W1,Wi-1)=P(Wi Wi-
18、1).三元文法句子中某一字Wi出现的概率只取决于其前两个字Wi-1和Wi-2,即P(Wi W1,Wi-1)=P(Wi Wi-1,Wi-2).可靠的语言模型需要大量的语料进行统计针对手机常用语这一特定应用,我们建立了单字语言网络模型,举例如图4:应用这一语言模型导航,词表搜索范围大大减小声学模型识别的识别结果可以反过来纠正语言模型导航的错误在搜索策略上我们采用N2best方法由于应用了单字语言网络模型1000句手机常用语的识别率为95.48%© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
19、第2期特定人手机常用汉语语音识别系统的设计与实现117图4单字语言网络模型4结束语以上所述只是我们自己在开发汉语语音识别系统中的一些实践经验和体会模式识别是一门实践性很强的学科语言信号是一种非常复杂多变的信号,人耳听觉并感知语音的机制还没有被完全揭示出来语音识别涉及的学科领域非常广泛只有不断汲取新的知识,综合其他学科的优秀成果并不断实践才有可能取得比较满意的效果参考文献:1林焘,王理嘉1语音学教程M.北京:北京大学出版社,1992.2Chin2.AutomaticSpeechandSpeakerRecongniton-Ad2HiLee,FrankKSong,KuldipKPaliwalvancedTopicC.KluweAcademicPublishers,1996.3Kai2FuLee.AutomaticSpeechRecognition-KluwerAcademicPublishers,19894杨行峻,迟惠生,等.语音数字信号处理M.北京:电子工业出版社,1995.5黄泽镇,杨行峻.普通话弧立字四声的一种模式识别方法J.声学学报.1990,15(1):36-43
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025外来员工劳动合同「版」
- Unit 2 单元课后培优练(原卷版)
- 山东发电机及发电机组制造市场前景及投资研究报告
- 热处理加工项目可行性研究报告
- 2025年果冻糖果项目可行性研究报告
- 2025年汽车注塑配件项目可行性研究报告
- 中国中等专业教育行业影响因素分析
- 安防门禁市场现状研究分析
- 中国光纤市场供需现状及投资战略研究报告
- 婴儿用品项目可行性研究报告-20241226-065538
- 共用线路三方协议合同范例
- 战略规划的关键要点
- 社会工作服务质量保障措施
- 雅礼中学2024-2025学年初三创新人才选拔数学试题及答案
- 冬季高空作业施工方案
- 山西云时代技术有限公司招聘笔试题目
- 2024-2025学年人教版九年级数学上学期复习:圆的综合解答题 压轴题型专项训练(30道题)
- 高中学生交通安全课件
- 课程思政专题培训
- 食品买卖合同范本
- 心脏病专病中心申报
评论
0/150
提交评论