




已阅读5页,还剩73页未读, 继续免费阅读
(信号与信息处理专业论文)语音识别系统的声学建模研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音识别系统的声学建模研究 摘要 声学建模是语音识别领域中的关键问题之一。本文对汉语连续语 音识别中的声学建模技术和参数共享策略进行了深入的研究。主要针 对以下两个方面:一、研究了基于决策树状态共享的上下文相关声学 建模方法,其中针对声学建模的声学单元选择和决策树问题集设计进 行了深入研究和优化;二、针对声学模型训练过程中的实际问题,如 训练数据稀疏,模型选择和发音变体等问题对声学建模过程进行了优 化。具体包括以下几个方面: 1 对h t k 平台进行了研究和分析,在深入了解h t k 平台的基础上 展开声学模型训练和性能评估实验。其中,对上下文相关( c o n t e x t d 印e n d 既t ,c d ) 声学建模中基于决策树状态共享策略进行了深入 研究。分析了两种不同的决策树构造方法,讨论了问题集的设计 和决策树节点的分裂策略,并展开了一系列优化决策树状态共享 的上下文相关声韵母( c di n i t i a l f i n a l ,c d i f ) 的基线声学模型的 实验。 a ) 为了保证声韵母之间的相互搭配关系,在原来的基本声韵母集 合上,增加了零声母部分,形成扩展声韵母( e x t e n d e d i n i t i a 垤i n a l ,f ) 集合。实验证明f 模型比i f 模型具有较 高的识别率。 b ) 根据语音学知识优化了决策树问题集的设计,并调整了决策树 分类门限,在单混合度下,获得了4 的音正确率提升。 2 针对训练语料中一些声韵母三音子有调样本数和无调样本数的不 平均现象,本文首次提出m 通过无调声韵母三音子模型为有调声 韵母三音子模型做初始化的方法优化声学模型。该方法在相同条 件的训练和测试集下提高了识别性能,特别是在有调三音子稀疏 现象明显的测试集中效果提高显著。此外,本文研究了声学模型 的复杂度调整策略,通过自适应混合分量增长策略,在高斯数日 少于混合分量数为6 时,识别正确率与混合分量数为8 时相当,并且 在一定程度上减少了高斯总数。 3 研究并实现了半连续分段概率声学模型。该模型在经典h m m 模 型及其模型混合高斯连续概率模型( m i x e dg a u s s i a nc o n t i n u o u s p r o b a b i i 毋m o d e l ) 基础上,结合矢量量化技术和连续概率密度描 述的特点,以混合共享的方式来描述各状态的概率分布。在中等 词汇量的非特定人连续语音库测试集中,与原来的m g c p m 模型 相比,混合分量共享声学模型在保证识别率基本不下降的情况下, 一定程度降低了模型规模和计算复杂度。此外,本文在基线系统 模型基础上,对存在的发音变体进行定位和信息收集,通过有效 进行训练语料中出现的发音变体的建模,旨在有效地增强现有模 型对各种发音变体的鲁棒性。 关键字:语音识别声学建模三音子决策树 i i r e s e a r c ho f a c o u s t i cm o d e l 玳g f o rs p e e c hr e c o g n i t i o ns y s t e m a b s t r a c t a c o u s 垃cm o d d i n gi so n eo ft l l ek e yp r o b l e m si nt l l et i e l do fs p e c c hr e c o 嘶t i o m h l l i sp a p e r t h et e c h i l i q u 嚣o fa c o u s t i cn 川d i n ga n dp a 托m e t e rt y i n gs n e g ya r e t l l o r o u p 蛆ys m d i e d t w om a i na s p e c t sa r ef 0 _ c i l s e do n :t l l eb a s i cc o n t e x td e p c n d a l t o l l s t i cm o d e i i i l gm e m o da r ei i l v 铭t i g a t o d 锄d 坞v i s e d ,i l lt 黜so f b 勰i ca c o l l s 缸cu 1 1 i t s e i e c t i o n 锄dq u e s t i o ns e tr e f i n e m t :m o r v e r s o m eo ft l l ec u t t i n ge d g e 舯0 b l e m s i na c o 璐吐cm o d e l m gf i e 挝,锄c h 鹬s p a r s e 饥d n i i l gd a 饥o p 丘m a lm o d e ls e l 硎o n 勰 w e l la sp r o n u n c i a t i o nv a r i a l j o n sa r ea l s od i 瓢1 i 豁c di nt l l i sp a l ) e r ,w t l i c ha f ei l l u s t 均t e d i n dc t _ a i l 硒f o l l o w s : 1 n e h m mt o o l i ( i t ( h 1 k ) p l a 响m i s 咖d i c da n d 孔a l y z 。d b 鹊e do n h l k 姐 e 1 强删v em c t t 刚i si i i l p l 锄e n 同f b ra c 0 删cm o d e l 佩n i i i g 锄dp e r f b 瑚锄c e “a l u a t i o i lt h ed e d s i o nt r ( d nb 勰e ds t _ a t et y i n gs 仃a t e g yi nt l l ec o m e x t d 印c i l d e n t ( c d ) a c o u s t i cm o d d i n gi sd e e p l ys t i l d i e d t w od i 侬棚l td td 部i 弘 m e t l l o d sa r e 觚a l y z e d ;t 1 呤d e s i 霉皿o fq u 鹤t i o ns c t 锄d 吐l ed ti l o d es p l i t t i n g s h a t e g ya 聆d i s c u s s e d e x p e r i m t sb a o nt l 璩c dh l i t i a l f i n a l ( 巧) m o d e lw i m d e c i s i o nt 代宅b 勰e ds t a t et y i n gi s 训e do m a ) t om a i n t a j nt l i ec o 衄o c t i o nb 前w e i n i t i a l 觚df i n a l ,n 蝣e x t 翎d 邝( x m ) s c t i sp r o p o s o db ya d d i i l gt h ez 既dh l i 缸a l st om ep r i o rs t 趾d 棚di fs e t e x p e f i m 踟协s h o wt l l a tm ex i fm o d e lo l 加,耐b n n s 也ei fm o d e l b ) n eq u 岱d s e td 船i 目i sr 萌n e db 鹤。d0 n 血el i n 鲥s t i ck n o w l o d g ca n dt l l e s t o p p i i l g 翻t 鲥o no fd e c i s i 订i sa l s oi n v e s t i g a t e d 趾dr w i s c d b o t l lo f l o h a v ea c h j e v e d4 o f p h o n ea c c i 瞄i i l c f e a i nt o t a l 2 ho r d e rt oi n 】嘶i n i z el h ef e c o 鲫t i o ne f f o r s l l s o db yi i l c 哪【em o d d 鹤d m a t i o 地自d mt h o t o i l e dm p h o n 鹤w i t h1 i i i l i t 司缸l l i n gs 锄p l 嚣,w e p m p o s e dt 0i n i 吐a i i z et o n e d 埘p h o n e su s i n gt h e i ro w nt 0 i l e l e s st r i p h o n em o d d p a 馏m e t e r s b e s i d 鹤,w o r l 【so d i l c 日m j l l gi i l i x n l f eo 咖p o n 咖洳协廿o na r ea l s 0 e x p l o r e dt oo b 恤i l lb e t t 盯p e r f b 姗a n c c 嚣w e l l 鹤r e d u c cm o d e is c a l c 3 t h es c s p mi si l n d l 锄饥t c d 锄de v a l u a t c d ni sb a s e d l l l e 劬d i t i o n a lh i d d 吼 m a r k o vm o d d ( h m m ) 锄dt l l em o d i f i c dh m mn 锄e l ym i x e dg a 嘴s i 觚 c o n l :i l l u o l l sp r o b 曲i l 崎m o d c l ( m g c p m ) ,也ev c c t o r q i l a i l t i z a t i 伽( v q ) t e c l l i l i q u e 柚dt l l ef e a t i 】r _ eo fc o n t i n u o 潞p r o b a b i l i t yd c l l s i t yd i s 埘b u t i o na r e i n t e 酬c d ,柚dt h em e i l l o do f t i o dm i x t i l i sa d o p t e dt od 髓c r i b et h ep r o b a b i l i t y d i s 砸b u t i o f c hs t a t e c o m p a r e dw i m 圮m g c p m ,s c s p mc a i lr c d u c ct h e m o d ds c a l ea 1 1 do 咖p u t a 廿o n a lo 蚴p l e x i t ys i g n i f i 啪t l yw i t l ll i t t l ed e 鲫a t i o ni n l r e c o g t l i t i o na c c u r a c y m o r c 0 v e f r e a r c hi np r o n u n c i a t i o nv a r i a t i o ni sc o n d u c t e d , w i t l lt h em a i ni d e at l l a tt h ep r o n 眦c i a t i o nv a r i a t i o i l sa r eh i d d e i li nt h er c c o g n i t i o n e m ) r sa i 】di tc o u l db ef o u n do u ta 1 1 dm o d e l e d o i 】fw o r ki n v o l v e sl o c a t i n gt h e p r o n u n c i a t i o nv a r i a t i o n sa n di n f o 肌a t i o nc o l l e c t i o n o i l rp r i m a r ye x p e r i m e n t a l r 嚣u l t ss h o wi ti se 侬斌i v ef o ra l i l l 鹤ec o n t i 加o u ss p e e c hr e c o 印i t i o n k e yw o r d ss p e e c hr e c o 印i t i o n ,a c o u s t i cm o d e l i n 岛砸p h o n e ,d e c i s i o n 慨 l v 独创性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:酗i 鉴 日期:垫1 1 :! :! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书 本学位论文不愿霉! 译范围,适用本授权书 本人签名:型生日期:兰! ! :! :! 导师签名: 北京邮电大学硕士学位论文语音识别系统的声学建模研究 第一章绪论 随着计算机科学技术日新月异的发展,人类正迈向一个全新的信息时代。而 自然语言作为人类最重要最自然的交流工具,是人类获得信息的最重要的来源之 一。使用自然语言与计算机之间进行交流是人类长久以来的梦想。语音识别技术 作为实现这一梦想的关键技术,正引起越来越多的人的关注和研究。 1 1 语音识别的重要意义 语言是人类进行交流的最为直接、最为自然的方式,而语音则和文字一样, 是语言的重要载体。近几十年来计算机技术的飞速发展,使得人类社会发生了有 史以来最空前的变化,计算机也早已成为我们日常工作和生活中必不可少的组成 部分。 但是,人与计算机之间的交互水平却严重地滞后于计算机其他技术的发展, 远远不能满足人类的需求。因此,如何提高人机交互的友好程度,是一个有着重 要意义的研究课题。 语音处理技术的重点是要解决计算机的“昕”和“说”的能力,即:如何使 计算机理解人类给出的语音信息,以及如何让计算机产生人类满意的语音信息。 这包括了语音合成、语音识别、关键词检出、说话人识别与确认、口语对话系统 等方面的研究内容。 自动语音识别( a s r ,a m d m a t i cs p c hr e c o 鲥t i o n ) 技术的目的,正是要让 计算机能够“听懂”人的说话。它是发展人机语音通信和新一代智能计算机的主 要组成部分,也是目前业界普遍认为很有前途的一项技术。随着计算机处理能力 和存储能力的不断增强,一些非常复杂的语音识别算法能够得以实现,语音识别 器的性能也得以不断提高,这就为更加自然方便的人机交互水平以及更加广阔的 语音技术应用前景提供了可能。 1 2 语音识别的历史发展 对于机器识别语音的研究,可以追溯到上世纪5 0 年代。1 9 5 2 年美国的d a “s 等人研究成功了世界上第一个识别十个英文数字发音的实验系统。我国在5 0 年 代后期,也曾经研制出一套“自动语音识别器”,用来识别汉语的十个元音。1 9 6 0 年,d 鼯等人研究成功了第一个计算机语音识别系统,从此开始了计算机语音 识别的正式阶段。进入7 0 年代之后,语音识别,尤其是小词汇量、特定人、孤 立词的识别方面,取得了许多实质性的进展,例如线性预测编码( l p c ) 技术、 北京邮电大学硕士学位论文 语音识别系统的声学建模研究 动态时间规整( d t w ) 算法【l l 、矢量量化( v q ) 技术等,都已经在语音识别领 域得到了广泛地应用。 自从八十年代中期以来,新技术的不断出现使语音识别有了实质性的进展。 特别是隐马尔可夫模型( h i d d e r im a r k o vm o d e l ,h m m ) 的研究和广泛应用,推 动了语音识别的迅速发展,陆续出现了许多基于h m m 模型的语音识别系统, 其中美国c m u 的s p h i l l ) 【系统被认为是8 0 年代末9 0 年代初的典型代表。在 9 0 年代i b m 公司推出的商业系统v i a v o i c e 也具有很高的水准。 当前,语音识别领域的研究正方兴未艾。在这方面的新算法、新思想和新的 应用系统不断涌现。同时,语音识别领域也正处在一个非常关键的时期,世界各 国的研究人员正在向语音识别的最高层次应用非特定人、大词汇量、连续语 音的听写机系统的研究和实用化系统进行冲刺。可以乐观地说,人们所期望的语 音识别技术实用化的梦想很快就会变成现实。 1 3 语音识别的关键问题 结果 图卜1 语音识别的基本组成 语音识别系统的研究主要集中在如图1 1 【刀几个方面,下面分小节分别阐述。 1 3 1 声学特征分析 特征提取与选择是语音识别的一个重要环节。特征提取解决了时域语音信号 的数字表示问题,而特征选择则通过选取有效的特征为模式划分提供数据。特征 提取与选择的好坏直接影响到识别器的性能。常用的声学特征有时域特征、频域 特征和倒谱特征。时域特征如短时平均能量、短时平均过零率、共振峰、基音周 期等;频域特征有傅里叶频谱等;倒谱特征有基于线性预测编码( l p c ) 的倒谱即 l p c c ,有基于m d 频率弯折的倒谱即m f c c 。w i l p o n 【2 l 等把加权的倒谱和差分 倒谱串接起来形成一个大的矢量作为声学特征矢量,取得了好的效果。此外,也 有人使用两维的“时频谱”表示语音信号的特础3 1 ,它考虑了语音信号的时变 特征,是频谱的一种高阶时间派生参数。在目前的语音识别系统中,采用倒谱特 2 北京邮电大学硕士学位论文 语音识别系统的声学建模研究 征来建模最为普遍。 1 3 2 声学模型 随着h m m 模型的广泛研究与应用,使得语音识别领域中的声学建模技术有 了实质性的进展。h m m 能描述不同层次的语音单元,由v i t e r b i 解码算法1 4 j 可 以得到与语音序列对应的最佳状态序列,便于解决连续语音识别的问题。另外, 人工神经网络( a n i f i c i a ln 肌r a ln 竹o r ka n n ) 领域的研究也给语音识别带来了 新的活力。由于人工神经元网络具有刻划各种复杂分类边界的能力,十分适用于 语音识别领域。神经网络还可以与h m m 综合应用于声学建模:由神经网络完 成静态的模式划分问题,用h m m 完成时间对准问趔5 】【6 】,使神经网络更容易地 应用于连续语音识别系统。 到目前为止,语音识别系统中声学模型的主流仍然是h m m 模型及其改进模 型。此外,根据模型之间的相关性,声学模型还可以分为上下文无关模型和上下 文相关模型。上下文无关模型简单,识别率相对较低。而上下文相关模型考虑了 连续语音中的发音相关性,因而具有较高的识别率。语音识别系统中的声学建模 问题将是本文研究的重点。 1 3 3 语言模型 概括来讲,语言模型可以分为两类,基于统计的语言模型( s t 撕s 蛀c a ll 锄g l l a g e m o d d ) 基于知识的语言模型( k n o w l o d g e - b 勰e dl a n g i l a g em o d c l ) 在当前的技 术条件下,基于统计的语言模型在实际应用中处于主流地位。它通过对大量实际 语料的统计来获得词与词之间的连接信息,从而评价一个词串是否为语言中合理 的语句。这在一定程度上回避了基于规则的语言模型的规则集难以严格和完备, 以及语义规则难于形式化等困难。因此,现阶段实用语言模型中的规则模型主要 用来作为统计模型的补充,对统计模型的结果进行校验和改进。n - g r 锄统计模 型是最初引入而且应用最广泛的一种语言模型, 该模型最初由j e h n c k 等人提出i 肌。但是n - g r 锄模型面临的最大困难是训练语 料过于稀疏。针对这一困难,n a d 勰给出了图灵估计变形的概率估计方法【川,k l 乜 给出了一种基于图灵估计的退化频度估计算法【旧】等,力求在一定程度上解决训 练数据稀疏( 即零概率平滑) 的问题。 北京邮电大学硕l :学位论文语爵识剐系统的声学建模研究 1 3 4 搜索算法 连续语音识别中的搜索,就是寻找一模型序列来描述输入语音信号,从而得 到语音信号的解码序列。搜索的依据是语音信号在声学模型的打分以及加入语占 模型的概率。针对h m m 模型,基本的搜索策略为v i t e r b i 解码算法和帧同步算法 j 。其基本思路是以帧为单位,任一时刻对每一条路径,都假定当前帧可能是 该路径的后续,即每一时刻都在当前所有路径后发展所有可能的路径,以进行一 个完备的搜索。但是当这种搜索策略使用到大词表的连续语音识别系统中时,搜 索路径会随着时间的增长而急剧膨胀,因此必须使用一定的剪枝策略。 1 3 5 自适应与鲁棒性问题 由于存在不同的说话人、说话方式、环境噪声、传输信道等因素,语音识别 系统在实验条件下具有很好的性能,但是应用到实际生活中性能却急剧下降f 1 2 】。 提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用 环境下性能稳定。解决的办法可以分为两类:基于语音特征的方法和基于模型调 整的方法。前者的目标是寻找更好的、高鲁棒性的特征参数,或是在现有的特征 参数基础上,加入一些特定的处理方法,如滤波,去噪,语音增强等。后者的目 标是利用少量的自适应语料来修正或变换原有的说话人无关模型,使其成为说话 人自适应模型。 1 4 语音识别技术的应用领域及前景 语音识别技术的应用从大的方面来分可分为三个方面:桌面应用、网络电话 系统应用和w 曲应用。桌面应用是指集成于桌面的应用软件,例如市场上现已 出现的一些用于p c 机的语音输入、语音识别的软件。网络电话系统应用是指把 语音技术与远程信息查询、处理、生成等相结合的软件。w 曲应用是把语音技术 与w 曲应用结合起来的软件,例如可运用语音技术开发语音浏览器、网上交谈 室等。语音识别技术与各个领域结合为开发商提供了自由发展广阔的天地,高速 增长的市场又为开发商带来了无数商机和优势。在这里,仅列举一些典型的应用 领域以供参考。 语音听写机【1 3 1 :可以用口述代替键盘,实现文字输入并且打印输出,这是人 们长久以来的一个迫切愿望。这对于办公自动化将带来革命性的变化( 用机器 秘书代替人类秘书) 。由于汉语计算机输入的特殊性,汉语语音听写机的重要 性尤其突出。一方面,它使人机接口更加友好和自然;但更重要的是,它可 以促进计算机应用在中国的普及。 4 北京邮电丈学硕士学位论文 语音识别系统的声学建模研究 在通信工程中的应用:世界各大通信公司如美国a t & t 公司,日本n r i t 公 司都一直长期致力于语音识别的研究,因为它在通信的各个领域都有着广泛 的应用。例如手机语音拨号、股市查询、信用卡认证等问题。在通信方面, 一项更加雄心勃勃的计划是实现两种语言之间的直接交流,即通过“语音识 别一机器翻译语音合成”技术将一种语言直接转换成为另外一种语言。目 前有一些欧美及日本的研究组织正在开发这个领域的产品。 数据库检索:政府部门、银行、金融机构、军事指挥所和工业管理部门无不 需要对庞大的数据库进行频繁的检索和查询,其中很多是通过电话来进行 的。通过自然语言直接检索数据库可以免除大量操作人员的重复劳动,既经 济又快速。 语音命令控制:在很多场合下,由于手脚已被占用进行其它动作或照明不足 无法进行操作时,必须用语音发出指令,例如驾驶员在高速行驶的汽车中拨 打电话。另一方面,随着第三代移动通信技术的发展,个人智能终端体积越 来越小,通过按键进行控制越来越不方便,语音命令控制是十分理想、便利 的人机接口方式。 此外语音识别显然还会给失明者带来很大的方便。近几十年来语音识别的研 究开发工作逐渐开展,并取得初步成果。尤其最近一二十年,各国都进行了大量 研究,并且美国、日本、欧洲居领先地位。汉语语音识别研究工作一直紧跟国际 水平,从2 0 世纪7 0 年代后开展研究,取得了不少成果并逐步形成了“汉语语音 识别”学科,并把大词汇量语音识别的研究列入国家“8 6 3 ”计划。 语音技术是目前世界上最热门和最具有发展前景的技术之一。从某种意义上 说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。最近几年来,语 音识别技术得到了突飞猛进的发展,在某些领域已经进入了实用化的阶段,特别 在c m 领域、在呼叫中心中得到了应用。语音识别技术要迎来更广阔的应用和 长远的发展,就必须要很好的解决下面的关键问题。 语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采 集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另 外一个问题是对用户的错误输入不能正确响应,使用不方便。 高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音交高, 语速变慢,音调及共振峰变化等等,这就是所谓l o m b a r d 效应,必须寻找新 的信号分析处理方法。 语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、 建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词 汇量连续语音识别中是非常重要的。 5 北京邮电大学硕士学位论文语占识别系统的声学建模研究 我们对人类的听觉理解,知识积累和学习机制以及大脑神经系统的控制机理 等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有 一个艰难的过程。 语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需 要解决,识别速度、拒识问题以及关键词( 句) 检测技术( 即从连续语音中 去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分) 等等技术细节要 解决。为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练, 基于最大互信息准则( m m i ) 和最小区别信息准则( m d i ) 的区别训练和“矫 正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工 神经元网络所有这些努力都取得了一定成绩。 不过,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理 学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。 1 5 课题的主要研究方向 1 5 1 声学模型中识别基元的选择和参数共享策略 语音识别基元的选择在语音识别尤其是连续语音识别中是重要的环节。识别 基元的选择应该基于如下两个原则】: ( 1 ) 具有灵活的可组合性能,即它能够代表语音中的比较独立的一些个性,可 以组成其他的语音单位; ( 2 ) 具有稳定性,即它应该使得语音中的共性能够得到相当的体现,从而保证 识别基元对不同环境的适应能力( 即鲁棒性) 。 为了提高系统的识别率,我们进行上下文相关的声韵母( c o r l t e x td e p d e n t h l i t i a l f i n a l 。c d i f ) 建模。实际上,在实际的语音识别系统当中,除了追求高的 识别率外,还需要考虑系统的速度和存储的开销。一个好的语音识别系统应该是 识别正确率高,速度快,所需要的模型的存储空间小。参数共享的策略目的是在 不降低系统的识别率的前提下,提高系统速度,降低存储空间的大小。 在上下文相关的建模过程中,由于存在大量的基元,训练数据相对稀疏,存 在训练不充分的问题,有些基元甚至在训练数据中不出现。另外模型过于庞大, 计算复杂度太高也是一个问题。解决的办法是使用基于决策树的状态共享策略。 其中决策树策略提供了一种自顶向下的数据驱动和专家知识相结合的一种有效 的分类方法,除了能方便控制模型规模之外,还具有合成那些在训练数据中不存 在的基元的能力【j 。 参数共享声学模型中的参数共享策略有多种多样,最有效而且最普遍的有两 6 北京邮电大学硕士学位论文 语音识别系统的声学建模研究 种方式:高斯混合共享和模型状态共享。前者的主要方式是使用半连续h m m ( s e r n i c 蚰t i i i u o 璐h m m s c h m m ) 替代连续h m m ( c o n t j 岫u o 吣 h m m c h m m ) ,后者主要方式与上下文相关建模技术相结合,通过构造决策树 来实现模型的状态共享。s c h m m 也可以称作共享混合h m m ( t i c dm i x t i l r e h m m ,删h m m ) ,首先使用混合高斯概率密度函数( p r o b a b i l 时d e i l s 时f u n d i o i l d d f ) 来描述整个特征空间的分布,然后再对每个识别基元的每个状态,训练出 它的权重,即可得到半连续的混合高斯模型。s c h m m 实现了不同状态间的高 斯混合共享,减少了模型存储空间,并且能提高识别的速度。 1 5 2 声学模型中的其他优化策略 针对训练语料中一些声韵母三音子有调样本数和无调样本数的不平均现象, 本文提出m 1 通过有调声韵母三音子初始化的方法优化声学模型。由于在实验中 采用无调三音子的模型参数代替全局参数,使模型估计更加准确。该方法在相同 条件的训练和测试集下提高了识别性能,特别是在有调三音子稀疏现象明显的测 试集中效果提高显著。 为了能够更加合理的调整声学模型的复杂度,本文在基线模型基础上,加入 控制语音决策树的每个叶子节点的高斯混合分量数目与训练样本数据量成正比 的方法。此外,为了有效进行训练语料中出现的发音变体的建模。本文在基线模 型基础上,对存在的发音变体进行定位和信息收集,旨在有效地增强现有模型对 发音变体的鲁棒性。 1 6 论文结构和内容 第一章为绪论。首先引出课题背景,回顾语音识别技术的发展历史和现状, 介绍语音识别技术的应用领域和前景,最后概述了本课题的主要内容和研究成 果。 第二章为隐马尔可夫模型( h m m ) 及其在语音识别中的应用。包括h m m 的 基本概念与原理、h m m 模型的三个基本问题及关键算法,以及h m m 在语音 识别系统中的应用等。 第三章主要介绍连续语音识别系统的主要框架和实现方法。包括语音声学分 析( 预处理,特征提取等) ,声学h m m 模型的建立和识别过程。重点介绍声学 h m m 模型的基本建模方法以及模型参数的训练重估方法。 第四章论述上下文相关的声韵母h m m 建模几个方面的问题,包括基本声学 单元的选取,基于语音学知识的问题集设计,决策树分裂过程及停止门限, 决 策树节点内样本的相似性评价,并给出相应的优化建议和实验结果比对。 7 北京邮电大学硕士学位论文 语爵识别系统的声学建模研究 第五章在第四章的基础上,从准确建模有调声韵母三音子,合理的调整声学 模型的复杂度,灵活有效地进行模型混合分量共享,发音变体定位和收集四个方 面对声学模型进行了进一步的优化,并给出了不同测试集下比对的实验结果。 第六章为总结与展望。 8 北京邮电大学硕士学位论文 语音识别系统的声学建模研究 第二章隐马尔可夫模型( h m m ) 及其在语音识别中的应用 隐马尔可夫模型( h i d d 锄m a r k o vm o d e l ,简称h m m ) ,是一种典型的统计信 号处理方法。其基本理论是在1 9 7 0 年前后由b a 哪等人建立起来的i l ”,随后由 c m u 的b a l ( e r 和i b m 的j e l i n e k 等人将其应用到语音识别中。在8 0 年代中期, 由于b d l 实验室r a b i n d ”1 等人对h m m 的深入浅出的介绍,才逐渐使h m m 为 世界各国从事语音处理的研究人员所了解和熟悉,进而成为公认的一个研究热 点。目前,许多成功的语音识别系统都是基于h m m 。 2 1h m m 基本概念与原理 隐马尔可夫模型( h m 旧之所以能够成功,是因为它是一个双重随机模型, 很好地描述了语音信号整体上的非平稳性和局部的平稳性。隐马尔可夫模型的状 态和模型的输出不是一一对应,状态不为外界所见,即状态是隐含的,而输出序 列是外界可以看到的。h m m 是双重的随机过程:首先是基本随机过程,是m a r k o v 链,有转移矩阵a 描述;进一步,在某个状态下的输出是随机取值,是输出与状 态联系( 按概率) 的过程。 2 1 1h m m 定义 离散时域有限状态自动机是一个简单的马尔可夫模型,在任何一个离散的时 刻,自动机只能处于有限多个状态中的一个,而且以某种概率由当前状态想任意 状态跳转。 假如自动机允许出现的有限状态有种,状态用l 一表示在时刻f 自动 机所处的状态用吼来表示,吼只能取个状态中的一个。每个状态下可能的输 出值的为d = 0 l ,口2 ,嘞 ,其中m 为可能的输出值的个数 自动机初始化时可能位于个状态中的任何一个,其初始状态分布为 万f = p ( g l = f ) ,f = l ( 2 1 ) 系统在当前状态可以以某种概率向任意的状态跳转。假如系统f 时刻在f 状 态下,则下一时刻( f + 1 时刻) 转移到,状态的可能性,用概率来表示。所有的 概率( f ,= l ,2 ,) 形成一个矩阵,称之为状态转移概率矩阵,用彳来表示, 有 口f = p ( 吼= ,i g h = f ) ,f = 1 ,歹= l ,f = l r ( 2 2 ) 显然4 = 嘞 ,吻= l ,v f 成立。 9 北京邮电大学硕t 学位论文语音识别系统的声学建模研究 另外,在任意时刻f 所处的状态吼是隐藏在系统内部的,不为外界所见的, 外界只能得到系统在该状态下的一个观测值口,而观测值d ,是由状态吼决定的, 其概率表示为: 屯( d ,) = p ( q l 吼= ,) ,j = l ,f = 1 丁 ( 2 - 3 ) 可见,这是一个双重的随机过程,其中之一是m o r k o v 过程,它描述状态的 转移,另一个随机过程描述状态和观测值之阳j 的统计对应关系,对外界来说,不 能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,因此称之 为”隐”马尔可夫过程。我们用符号a = ( 4 ,b ,石) 来描述一个具有个状态的 h m m ,其中彳= 和口) ,。表示状态转移概率矩阵,曰= 6 ,( o ,) 表示观测值概率 矩阵,即输出概率矩阵,万= 伽。 为初始状态分布。 图2 1 给出一个h m m 的示意图 1 “。图2 ,l 中,上半部分给出一个具有6 个 状态的m o r k o v 过程,每个圆表示一个状态,大圆即状态2 5 表示中间状态,小 圆即状态1 和状态6 分别表示入口状态和出口状态,从圆到圆的有向弧表示状态 间的转移概率口。,出口状态没有状态转移概率。图2 1 下半部分描述状态和观测 值之间的统计对应关系,在每个中间状态,由所处状态和观测矢量确定其输出概 率6 ,( q ) ,入口和出口状态与中间状态不同,是一种虚状态,它不仅没有输出概 率,而且也不占有实际的时刻,即对于时刻t ,如果处于入口状态,则在时间上 对应于f 一血时刻,如果处于出口状态,则对应于f + f ,出表示一段表示非常 短的时延。 a 2 2 a 3 3 a 4 4 a 5 s 冀黜:“口口口口口口 o l0 20 30 40 50 6 图2 一l隐马尔可夫模型 为了便于理解,我们给出h m m 对语音信号产生的描述。语音是由人的发音 器官产生的,在说话的时候,声门处气流冲击声带产生振动,然后通过声道的调 制变成声音。声道的变化决定了语音信号的非平稳随机特性。声道的下一时刻的 状态可以看成仅与当前状况有关,与以前的历史无关,因此可以看作是一个一阶 1 0 北京邮电大学硕士学位论文语音识别系统的声学建模研究 马尔可夫过程。对于外界来说,只能观测到语音信号的状态输出而无法直接观测 到马尔可夫过程的内部状态序列及其转移过犁切,也就是说我们看不到声道的 变化,只能听到语音这一观测值,而语音是由声道所处状态决定的。 2 1 2h m m 的结构和类型 1 状态转移拓扑结构 隐马尔可夫模型主要有两种大的结构,一种是全连结的,另一种是从左向右 的,从左向右的模型根据其结构特点又可以进一步细分。 全连结h m m 模型如图2 2 ( a ) 所示,该模型允许从一个状态向所有的状态转 移,即所有的状态都是经历的,因此又称为各态历经的h m m 模型。全连结h m m 对应的状态转移矩阵爿的每个元素都可能为非零,起始和终止状态也是可以任选 的。图2 2 ( b ) 给出有两条并行支路的并行从左向右模型,而且不同支路之间也允 许跳转。图2 2 ( c ) 是无跨越的从左向右模型,该模型中限定最左的状态l 为起始 状态,每个状态只能向紧邻的右侧状态或本状态转移,因此其对应的状态转移矩 阵爿中主对角元素以及+ 可以为非o ,其他都为o 。图2 2 ( d ) 所示的是有跨 越的从左向右模型,其特点是每个状态可以向右侧编号隔位转移,即其中, + ,q 。允许非o 。 a 全连结模型 8 8 8 昌 c 无跨越从左向右模型 b 并行从左向右模型 匙蚴 d 有跨越从左向右模型 图2 2状态转移的拓扑结构 不同结构的h m m 模型,各有自己的应用领域。例如全连接的 i m m 可以用 于说话人识别;无跨越从左向右模型符合人的语音特点,因此可以用来进行语音 识别:而有跨越从左向右模型,其中允许隔位跳转意味着语音中某些发音再说话 中可能被吸收或删除的实际情况;而并行从左向右模型则包含了发同一个语音单 位可能出现的音变现象;诸如此类。 在实际应用中,为了便于准确描述模式的状态变化以及构筑更为复杂的模 北京邮电大学硕上学位论文语爵识别系统的声学建模研究 型,常常采用一些拓扑结构的混合。如图2 一l 所示的拓扑结构,由于引入非发射 的入口状态和出口状态,中间状态的转移是左至右有跳转的,而入口状态只能转 出,出口状态只能到达,这种结构在将一些h m m 连结成一个h m m 序列时将很 方便,此时只需将相邻前一个h m m 的出口状态和后一个h m m 的入口状态相连 结即可。 2 状态输出型h m m 和转移弧输出型h m m 根据观察矢量o ,产生的方式,町以把h m m 模型分成状态产生输出( 图2 3 a ) 的h m m 以及转移弧产生的输出( 图2 3 b ) 的h m m 。 状态输出的h m m 模型根据每个时刻r 所到达的状态f 来决定产生观察矢量 d f 的概率只( d f ) ,如图2 - 3 a 所示。而转移弧输出型h m m ,由当前转移弧两端的 状态来决定生观察矢量的概率,即只( q ) ,如图2 3 b 所示。 日。( q ) e :( o f ) b ,( q ) 气( q ) & 昌,8 笛 ( d f ) ( 0 f ) 只( q ) 只( 口f ) a 状态输出型m d m & 剃 墨:( q ) 另,( d f ) 巳( q ) b 转移弧输出型h m m 图2 3状态输出型h 删和转移弧输出型嗍 转移弧输出型h m m 系统用来进行语音特性的描述要优于状态输出型,因为 在转移弧输出型h m m 中,由一个状态转回自身的转移弧和语音中的平稳段对 应,而由一个状态到另一个状态的转移弧则和语音中两平稳段之间的过渡段相对 应。而且,当系统的状态数相同,均为时,转移弧输出型h m m 有2 一1 个输 出概率函数,而状态输出型h m m 只有个输出概率函数。因此,转移弧输出 型h m m 对语音特性的描述也更为精确。 3 ,离散h m m 、连续h m m 和半连续h m m 根据输出概率6 ( o ,) 的不同,h m m 可以分为d h m m ( 离散h m m ) 、c h m m ( 连 续h m m ) 和s c h m m ( 半连续h m m ) 【”j 。 ( 1 ) d h m m 观测矢量q 具有离散概率分布,它只能取有限多个离散分布的矢量中的某一 个。用标号j j 表示这些离散矢量,七= l 膨,膨为矢量总数,即码本的容量。 如果观测矢量q 具有连续概率分布,则在训练和识别时,都需要采用v q ( 矢量量 化) 技术将d 离散化,其优点在于存储量和计算量都比较小,所需的训练语音也 较少;但其矢量量化的过程会造成性能的损失,这是它最大的缺点。 设吒( f ) 表示t 时刻的观测值d ,对应的标号为k ,则输出概率6 ,n ) 可写作6 。 北京邮电大学硕士学位论文 语音识别系统的声学建模研究 吆= p ( o ) i g ,= ,) , _ ,= l ,| = l 膨 二= 1 , ,= l ( 2 - 4 ) ( 2 _ 5 ) d h m m 中模型参数的重估可以采用b a 珊一w e l c h 算法,重估公式如下: 互= 在t = 1 时刻,处于状态f 的期望次数( 出现频率) ( 2 6 ) 仉:堕宣翌型叁垦! 丛鉴查! 壁整型鲨查! 堕塑望盗墼( 2 - 7 ) ” 所有观测矢量中处于状态i 的期望次数 所有观测矢量中处于状态,且观测值为吒的期望次数 丹= 一 i 一o ” 所有观测矢量中处于状态,的期望次数 ( 2 ) c h m m d h m m 需要对观测值进行矢量量化( v q ) ,v q 会带来一定的误差,而且v q 码本的生成与h m m 的训练是分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医学基础知识学习方式探索试题及答案
- 药物配伍禁忌知识试题及答案
- 激光工程师知识回顾与巩固技巧试题及答案
- 药剂创新应用示例试题及答案
- 药物吸收影响因素考点试题及答案
- 南康中学测试题及答案
- 激光技术职业发展试题及答案
- 网络规划设计师考试职业发展机会探讨试题及答案
- 光电工程师证书考试案例分析试题及答案
- 系统架构设计师薄弱环节的突破试题及答案
- 离职体检免责协议书
- 光电工程师需掌握的常用计算试题及答案
- 3D打印在康复辅具中的应用-全面剖析
- 县级安全生产大讲堂课件
- 北京市门头沟区2025届高三一模考试生物试题(原卷版+解析版)
- 安徽省合肥市2024-2025学年高三下学期第二次教学质量检测生物学试卷(含答案)
- 2025年中国诗词大会知识竞赛模拟题库及答案(215题)
- 物业部团队建设与管理
- 焊接知识培训课件模板
- 棱柱棱锥棱台的表面积与体积课件-高一下学期数学人教A版
- 广东省深圳市宝安区2023-2024学年七年级下学期数学期中试卷(含答案)
评论
0/150
提交评论