(模式识别与智能系统专业论文)基于智能手机平台的语音识别后文本处理的应用.pdf_第1页
(模式识别与智能系统专业论文)基于智能手机平台的语音识别后文本处理的应用.pdf_第2页
(模式识别与智能系统专业论文)基于智能手机平台的语音识别后文本处理的应用.pdf_第3页
(模式识别与智能系统专业论文)基于智能手机平台的语音识别后文本处理的应用.pdf_第4页
(模式识别与智能系统专业论文)基于智能手机平台的语音识别后文本处理的应用.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(模式识别与智能系统专业论文)基于智能手机平台的语音识别后文本处理的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕上学位论文 基于智能手机平台的语音识别后文本处理的应用 基于智能手机平台的语音识别 后文本处理的应用 摘要 “全信息自然语言理解方法论”与已有的其他方法不同,其主要 特色是试图实现语法信息、语义信息、语用信息的综合利用,从而有 效增强对自然语言的理解能力。 本课题主要针对“奥运多语言综合信息服务”项目的典型示范系 统“c i t y g u i d e ”,研究语音识别后语句检错纠错方法。“c 时g 1 l i d e ” 是在智能手机平台上实现的一个信息服务终端,支持语音输入输出, 可为旅游者提供住宿、交通、旅游等方面的多语言信息服务。本文的 主要研究工作和成果有: 1 ,在智能移动终端的语音识别引擎之后引入基于全信息的自然 语言理解模块。初步实验结果表明,依据“c i t ) r g u i d e ”语料,在原有 算法( 包括语法、语义算法) 基础上增加了语用算法和一些辅助算法, 使语音识别的正确率约从5 2 提高到7 0 。 2 ,目前该演示系统已完成在智能手机上的实验性设计、实现与 测试,并尝试引入智能移动平台的语音引擎,实现语音识别及识别后 利用全信息自然语言理解方法来进行纠错。目前系统主要支持单句语 音输入,所支持语种为中文英文两种语言。 3 ,基于以上文本纠错处理方法,又进行了应用领域的扩展 智能家电领域的短信命令文本处理系统。目前,智能家电领域命令处 理层的智能化、人性化还处于起步阶段,我们提出将基于全信息的自 然语言理解方法引入到短信控制智能家电的命令处理过程中,可方便 人机之间的对话。 本文在算法上来说还是比较初步的,在很多方面还需要进行大量 深入的工作。但总体来说,采用“全信息自然语言处理和理解”的方 法来提高语音识别正确率是极为有效的途径,因而是一个十分重要的 研究方向。 关键词全信息理论自然语言理解语音识别后处理智能家电 北京邮电大学硕士学位论文 基于智能手机平台的语音识别后文本处理的应用 t h ea p p l i c a t i o ns t u d yo ft e x tc o r r e c t i o n f o ra s rr e s u i jo nt h ep l a t f o r mo f i n t e l l i g e n tm o b i l ep h o n e a b s t r a c t c o m p r e h e n s i v e i n f o 加a t i o n ( c i ) b a s e dn a m r a l l a n g u a g e u n d e r s t a n d i n g ( n l u ) p r o p o s e db yp r o f z h o n gy i x i ni sd i f r e r e n tf r o m o t h e rm e o r i e si nt i l a ti t 印p l i e st i l ec o n c e p to fc i ,访c l u d i n gs y n t a c t i c , s e m a n t i ca l l dp r a g m a t i ci n f o r m a t i o ni n t on l ur e s e a r c h , a c c o r d i n g t ot 1 1 en a t i o n a l8 6 3 p r o j e c to fo l y m p i c s o r i e n t e d m u l t i l i n g u “i n t e l l i g e mi n f o n l l a t i o ns e r v i c es y s t e m ,t h i st h e s i ss t u d i e s m a i n l yo nt e x tc o r r e c t i o nf o ra s r ( a u t o m a t i cs p e e c hr e c o g n i t i o n ) r e s u l t i nad e m os y s t e mc a l l e dc i t y g u i d e c i t y g u i d ei sa ni 1 1 f o 册a t i o ns e r v i c e t e n i l i n a lr e a l i z e do nm ep l a t f o 眦o fi n t e i l 追e mm o b i l ep h o n e ( i m p ) , w h i c h s u p p o n sv o i c ei n p u t a i l d o u t p u t c i t y g u i d e c o u l d p m v i d e m u l t i i i n g u a li n f b n n a t i o ns e n ,i c e t 0v i s i t o r sa b o u th o t e l ,t r a n s p o n a t i o n , t r a v e l i n g ,e t c m 萄o rw o r k si n c l u d e : 1 ,an e wm o d u l eo f c ib a s e dn l ui sa d d e da r e rt h ea s rm o d u l e i ni m p o r i g i n a lt e s t st 谢v es h o w nt l l a tt h i sm o d u l ec o u l di m p r o v et 1 1 e p r e c i s i o no fa s r r e s u l tt os o m ee x t e n t a st oc i t y g u i d ec o r p u st e s t i i l g , a r e rp r a g m a t i c sa 1 1 d o t l l e ri n f o m l a t i o ni sa d d e d ,m ep r e c i s i o no fa s r c o u l db ei m p r o v e d 行o m5 2 t o7 0 2 , ad e m os y s t e mf o rm i sm o d u l ei s i m p l e m e n t e di 1 1i m 旺a 1 1 d o r i g i n a lt e s t i n g i sf i n i s h e d m o r ee 娲r ti sm a d et 0 i m p o r ta 1 1a s r p r o g r a mi ni m p t oc o 如e c tt h ea s ra n dc o r r e c t i o nd i r e ( m y c u r r e n t l y 也e s y s t e ms u p p o r t so n es e n t e n c ev o i c ei n p u tat i m e c h i n e s ea n de n g l i s h l a n g u a g e s a r eb o t ha c c e p t a b l e 3 , a na p p l i c a t i o ne x p a n s i o ni sa l s os t u d i e dm t h en e wd o m a i no f i m e l l i g e mh o u s e h o l da 印l i a n c e s ( i h a ) r e s e a r c ha b o u tp e r s o n a l i z a t i o n i ni h ai s j u s t b e g i 皿i n 昏疑a p p l i e dc ib a s e dn l ui n t ot h ea p p l i c a t i o n o fs m s ( s h o r tm e s s a g es e r v i c e ) c o n t r o lf o r 印p l i a l l c e st om a l ( es u r et t l a t t h ed e m a l l dt e x ti sb o t he a s i l ya c c e p t a b i ef o rh u m a na n dm a c h i n e s k e yw o r d st h et h e o r yo f c i ,n l u ,t e x tc o r r e c t i o nf o ra s ri m p l l i 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 茸岛 日期:丝亟。三:兰 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 鲜粕 日期:丝垄2 。圣:兰 剔程辄鼍卜醐:上严 北京邮电人学硕上学位论文基于智能手机平台的语音识别后文本处理的应用 1 1 选题背景 第一章前言 本论文研究课题是基于两个国家8 6 3 课题选定的: 国家8 6 3 项目“奥运多语言综合信息服务”的子课题之一:基于自然语言理 解的语音识别后文本处理研究( 子课题编号:2 0 0 4 a a l l 7 0 1 0 1 4 ) ; 国家8 6 3 项目“奥运多语言综合信息服务关键技术及核心平台”的子课题之 一:基于自然语言理解的语音识别后处理及离线浏览系统的研究( 子课题编 号:2 0 0 5 a a l l 7 0 l o 0 6 ) 这两个课题的主要目的在于研究基于全信息方法论的自然语言理解在语音 识别后文本信息处理方面的进一步应用,并结合智能手机移动终端实现演示系 统。本论文的研究工作是以此为背景进行的。 本文研究还得到国家自然科学基金项目信息知识智能转换的原理与算 法( 6 0 5 7 5 0 3 4 ) 的资助,它为本文提供了理论基础。 1 2 语音识别后处理现状与发展趋势【” 语音识别技术是2 0 0 0 年至2 0 1 0 年间信息技术领域十大重要的科技发展技术 之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识 别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音 技术的应用已经成为一个具有竞争性的新兴高技术产业。 让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话 一样,它和不同的说话人、不同的说话速度、不同的说话内容、以及不同的环境 条件有关。计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前 主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统 可大致分为三部分: ( 1 ) 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征 序列。 ( 2 ) 声学模型与模式匹配( 识别算法) :声学模型通常是由学习语音特征的 算法产生。在识别时将输入的语音特征同声学模型( 模式) 进行匹配与比较,得 到最佳的识别结果。 ( 3 ) 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络 北京邮电大学硕士学位论文基于智能手机平台的语音识别后文本处理的应用 或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。 语音识别系统的原理框图如图1 1 所示: 图卜1 语音识别系统的原理框图“ 果 语音识别领域的发展 1 9 9 9 年以前,包括国家“8 6 3 ”计划在内的许多大型计划,都支持大词汇量、 非特定人、连续语音识别技术研究,重点集中在听写机的研究上,评测体系也是 基于听写的。上述研究为语音识别技术的应用奠定了坚实的基础。从1 9 9 9 年下 半年起,语音识别的研究重点发生了转移:从实验室环境转移到现实环境;从 p c 平台向电话语音、嵌入式系统转移并向语音识别芯片研究开发转移;从连续 语音听写机向特定应用的命令识别、关键词检测转移等。 但是,我们所用的语言是活的语言,是发展的语言。语言本身的分析和解释 理论还很不完善,而且还不断有新的词汇,新的用法出现。因此,自然语言处理 是一项非常困难的技术,尚有待于人们长期而艰苦的努力。应用于语音识别领域 的自然语言处理技术可以分为两个方向:一是针对大词汇量,甚至无限词汇量的 连续语音识别系统,由于词汇量很大、语言现象非常复杂,目前的进展比较缓慢; 二是针对特定领域中的特定应用,由于词汇量和语法规则都是有限的,我们可以 对它们进行明确的描述,从而在识别中利用这些信息提高识别性能口l 。 正因为如此,近些年在语音识别后处理领域,国内外不断涌现出新的解决方 法来改善现有语音识别系统。主要有如下解决方法: 1 n b e s t 算法 语音特征信息综合是提高语音识别系统性能的一条有效途径。提出了一种语 音特征信息综合快速算法。该方法可以较大地减少语音特征信息综合的运算量, 提高特征信息综合语音识别系统的运行速度。 n b e s t 算法如图卜2 ,设被综合特征有m 种,识别词汇量为l ,并且不妨 设特征l 的识别性能为最好。n b e s t 算法过程如下: ( 1 ) 对训练数据进行学习训练,获得每种特征的先验知识( 一般为参考模式 库) 。 2 北京邮电大学硕士学位论文 基于智能手机平台的语音识别后文本处理的应用 ( 2 ) 对测试语音数据提取m 种特征而x 2 ,工盯。 ( 3 ) 用特征l 的先验知识计算测试语音与每个词汇的相似值。 ( 4 ) 求出相似值中最大的n 个,注记对应的n 个词汇。 ( 5 ) 利用剩下特征的先验知识,计算测试语音与这n 个词汇的相似值。 ( 6 ) 综合测试语音与这n 个词汇用每种特征考查的相似值,求出识别结果。 n 值大小取值主要与下列因素有关: ( a ) 最好特征1 的识别性能。 ( b ) l 值的大小。 一般要求n 值大小应使n b e s t 算法步骤( 4 ) 中求得的n 个词汇几乎1 0 0 含有输入词汇。 图卜2 语音识别算法中采用n - b e s t 算法框图 2 语音识别音字转换中的快速容错算法 主要研究了汉语连续语音识别音字转换中的容错算法,以纠正声学识别的替 代、插入、删除错误,提出了两种快速算法,一是针对单独出现错误的快速容错 算法;二是针对关键词的快速容错算法。这种算法有效的限制了容错算法的搜索 空间,提高了效率。 3 带拼音纠错的汉语音字转换技术叫 提出了一种基于统计和规则的混合算法来实现汉语音字转换。就是说利用汉 语的语法规则,在统计语言模型中采用了两种基于词和词性的混合语言模型。这 种技术所研究的语音识别任务是无限词汇量、语法不受限制的汉语连续语音识 北京邮电人学硕士学位论文基于智能手机平台的语音识别后文本处理的应用 别,主要分两步:第一步是底层语音识别;第二步是音字转换,音字转换的关键 是同音字,这里提出的解决方法就是把基于统计的方法与基于规则的方法结合起 来,构造出基于词和词性的混合语言模型。音字转换分三步:1 ) 利用统计语言 模型对输入拼音串进行初次转换,得到初次转换词串;2 ) 将初次词串纠错,得 到正确的候选拼音:3 ) 对得到的候选拼音再一次用统计模型转换,得到最终词 串。过程见图卜3 : 图卜3 带拼音纠错的汉语音字转换技术框图 4 噪音环境下语音识别理解系统的研究”1 根据人对语言的认知过程提出的含噪音语音识别理解的模型,采用两级模块 扩展联想记忆神经网络,第一级网络将待识别语音类分组,第二级分支扩展联想 网络实现各自组内的区分。语音理解提取语音识别的候选词,采用统计推理和句 法规则相结合的多层分析查错的结构,由统计推断库预测下一词,句法规则库将 有效的减少声学层的识别错误和候选词,通过信息反馈来比较、纠正错误,一道 后续的语音处理,以实现句子的识别。 5 语音理解中的容错技术的研究”1 针对大词汇量非特定人汉语连续语音识别和理解系统中的错误采用容错技 术,首先,声学识别器产生n 个最优( n - b e s t ) 音节候选及其相应的声学层概 念;再由n 个最优音节候选构成一个音节网格( s y l l a b l el a t t i c e ) 。一个容错 语言分析器被用来搜索该音节网格并发现最优的汉字串,它能够考虑到n 个最 优候选外的可能音节错误来容许一些音节错误。这样声学层的一些错误得以被纠 正。 6 华南理工大学的音一字转换技术。1 引用信息编码学中有关最大似然译码算法的理论,结合到语音识别后处理的 音一字转换技术中来,设计出能够在个人计算机上实现识别的方案。为后处理系 北京邮电大学硕士学位论文 基于智能于机平台的语音识别后文本处理的应用 统构造了知识库,包括词语库和规则库。知识库是后处理系统进行音一字转换的 基础。其中,词语库主要用于对拼音串的分词阶段,而规则库主要用于对音一字 转换的所有词法、句法和语义分析阶段,排除不合理的同音词语和句子,给出最 佳结果。 综上所述,目前对语音识别后处理的研究正呈现出多样化,语言学知识在研 究过程中越来越受到重视,主要是采用了语法、语义信息和一些其他策略,如限 制可接受的词等。应该更加深入地应用语言学知识,应用自然语言理解方面的各 种现有及正在兴起的方法来改善语音识别系统的性能。 本文中我们将采用全信息理论的方法,即主要从语法、语义和语用三个方面 出发,设计开发相应的适用于语音识别后处理的算法。并在智能手机平台下加以 实现。 1 3 智能家电领域现状及发展趋势“们 就目前智能家电的蓬勃发展来说,绝大多数现有工作都是在硬件方面来解决 的,我查阅了大量智能家电的发展状况,并没有发现针对命令进行语言学纠错的 方案,按照现在智能家电的发展状况来推断,大量的智能家电即将涌现,对于命 令处理的系统还停留在目前只靠人死记硬背是远远不够的,所以运用智能的语言 学方面的方法来解决这一问题是很有实际意义的,让人们从大量的命令中解脱出 来,把控制家电看作是与人对话一样轻松,将大大方便我们的生活。我们在这一 方面进行探索,主要是利用我们前面讲述的基于全信息的自然语言理解的核心部 分,并作一定必要的修整来完成。 1 4 自然语言理解的全信息方法论 贯穿论文工作始终的理论依据是自然语言理解的全信息方法论【l l 】。简介如 下: 各种自然语言是人类在实践过程中所创造的不同符号系统,它们的功能都是 用来表达客观世界的信息( 包括知识) 和主观世界的思想( 后者也是一类信息) 。 因此,研究自然语言理解问题的主要关注点至少应当包括两个方面:一是回答“给 定的符号系列所表达的信息是什么”( 说的是什么? ) ,二是回答“怎样用符号系 列来表达给定的信息”( 怎么说? ) 。可以看出,符号系统所产生的具体符号系列 是它所表达的信息的外壳,信息则是符号系列的内涵。因此,运用信息理论( 包 括知识理论) 来研究自然语言的理解问题是顺理成章的选择。目前学术界公认的 北京邮电人学硕:t :学位论文 基于智能于机平台的语音识别后文本处理的应用 信息理论是c i a u d ee s h 咖o n 在1 9 4 8 年创立的“通信的数学理论( a m a t l e m a t i c a j 1 1 1 e o r vo f c o m m u n j c a t i o n ) ”,是后人把“通信的数学理论”改名成为信息论的。 熟悉s h 锄o n 信息论的人都知道,由于通信工程的统计性质和形式化特点,“通 信的数学理论”实质上是“统计通信理论”,它所关注的是在噪声背景下统计通 信信号波形的复制,只研究统计信息的形式,而略去了信息的内容和价值。因此, 利用s h a n n o n 信息论的方法来研究自然语言,原则上只能研究自然语言形式方 面的问题。 信息科学理论认为,信息分为本体论信息和认识论信息两个基本层次。本体 论信息是纯客观的信息,它是事物运动状态以及运动状态变化方式的自我表述, 与认识主体的存在与否无关;认识论信息则是主体所感知或表述的事物运动状态 及其变化方式,与认识主体的情形密切相关。自然语言所表达的信息都是( 各种) 认识主体所表述的信息,因此属于认识论信息的范畴。从认识论的观点看,由 于正常的认识主体通常都具有观察力、理解力、目的性三个基本特性,因此,作 为主体所感知或所表述的“事物运动状态及其变化方式”,也必然包括: ( 1 ) “事物运动状态及其变化方式的形式方面”,称为事物的语法信息; ( 2 ) “事物运动状态及其变化方式的含义方面”,称为事物的语义信息; ( 3 ) “事物运动状态及其变化方式对于认识主体的目的而言的效用方面”,称为 事物的语用信息。 而语法信息、语义信息和语用信息的整体,则称为“全信息”。图l 4 给出了 全信息概念的形象解释j 。 语法信息 形式 图卜4 全信息概念 图中,事物运动状态及状态变化方式的形式( 图的中央部分) 是事物的语法信息; 一旦这种抽象的“状态及其变化方式”的形式与它的“客体事物”联系起来,就 会具有具体的含义( 图的中央和左部) ,这就是语义信息;而“状态及其变化方 式”的形式以及它的含义一旦与特定的“认识主体”联系起来,就会表现出对主 体目的的效用( 全图) ,这就是语用信息。 6 北京邮电大学硕士学位论文基于智能手机平台的语音识别后文本处理的应用 由此可见,语法信息是一个抽象的信息层次;语义信息是语法信息与其相应 客体互相关联的结果:语用信息则是语法信息、语义信息与认识主体相互关联的 结果,因而是最具体的层次。语法信息和语义信息只与事物客体的情况有关,语 用信息则还与主体的情形有关。可以看出,全信息概念是一个有机的体系。利用 全信息理论来研究自然语言理解的基本思想可以概述如下。对于自然语言的理解 一般要通过对这种语言的基本单位语句的理解来实现;必要的时候,还要对 段落和篇章进行分析和理解;对一个语句而言,它的理解过程有三个阶段: 首先通过对语句语法信息的分析判断它的语句结构是否合法; 通过语义信息的分析判断语句的涵义; 通过对语用信息的分析判断语句的效用价值。 这样,通过语句的语法、语义和语用的分析,大体上就“理解”了这个语句。 自然语言在机器系统中通常表现为一个“符号序列”。因此,对于一种自然语言 的理解,就是对于表示这种自然语言的符号序列的理解。当然,机器对于人类自 然语言的理解不可能与人类理解自然语言一模一样。机器只能在一定程度上“理 解”自然语言,这种理解的标志,需要根据具体情况设定,但基本的要求是要完 成上述语法、语义和语用的分析。 需要特别强调的是,为了使机器能够理解自然语言,首先需要建立一个高质 量的“全信息知识库”。它是自然语言理解系统的“头脑”和核心。全信息知识 库的内容包括:词法知识( 词形、词类、词性、词义、词的搭配结构,不同词义 的频度,不同搭配的频度等等) ,短语知识,句法知识,逻辑知识,常识等。对 于专门用途的自然语言理解系统,全信息知识库还必须有充分的领域知识和工作 目标知识等等。【1 2 】 图1 5 给出了全信息自然语言理解系统的一个框架模型,其中示出了全信息 自然理解的基本过程。 图卜5 全信息自然理解的基本过程“” 图中表明,在全信息知识库的支持下,语法分析的任务是要回答:所分析的 语句在语法结构的意义上是否为一个合法语句。如果回答为“是”,就送给下一 7 北京邮电大学硕士学位论文基于智能手机平台的语音识别后文本处理的戍用 级进行分析;否则就略去( 在图上略去不能进入下一级) 。同样在全信息知识库 支持下,语义分析的任务是要回答:所分析的语句有什么涵义。如果回答为“有”, 就继续下一步分析;否则就被略去。最后,也是在全信息知识库支持下,语用分 析的任务是要回答:所分析的语句对于主体设定的目标而言是否有效用,从而做 出相应的决策。当然,正如图1 5 所示,为了便于机器理解自然语言,通常需要 进行必要的“预处理”。对于汉语这种自然语言来说,预处理可以包括分词、断 句,词性标注、专名识别、词法分析等各种步骤。由于自然语言理解的目的和用 途不同,因此在理解的基础上通常必须经过适当的“后处理”来适应具体的用途。 可以看出,基于全信息的自然语言理解方法在整体框架上( 宏观上) 是“理 解型”的:然而,在全信息的分析和全信息知识库的建构方面( 微观上) 却可以 是“统计型”的。也就是说,无论是语法分析还是语义和语用的分析都可以建筑 在统计匹配的基础上。因此,它是宏观的“理解型”与微观的“统计型”两种方 法的有机统一。应当说明,图1 5 所示的全信息自然语言理解框架模型在原理 上是一个通用模型,适用于各种自然语言理解的场合。但是,在具体实现的时候, 它又是一种专用模型,因为不同领域的自然语言理解系统要求给定不同的目标信 息和领域知识。因此,全信息自然语言理解方法论的特色是:“原理”是通用的 统一的,“实现”是具体的个别的。这样,就可以在统一的原理框架下,演绎出 各种各样的专用系统。 1 5 基于自然语言理解的语音识别后文本处理研究 两个8 6 3 课题都在研究基于全信息理论的自然语言理解在语音识别后处理 中的应用,并将研究成果运用于智能手机平台和智能家电命令纠错系统领域。 课题的目标是采用自然语言处理的方法对语音识别后的文本进行处理,提高 输出结果的正确率,包含的语种是汉语和英语,并最终能在智能手机中得到较好 的应用。 国内外关于自然语言的处理与理解方法的研究,长期专注于“语法”层次的 研究;2 0 世纪末期以来,进到了“语义”的层次。然而,自然语言是语法、语 义、语用三者的“有机统一体”,整体不等于部分之和,因此,目前“语法加语 义”的研究不可能满意地解决自然语言理解的问题。出路是要充分利用“语法、 语义、语用三位一体”的全信息。本论文的研究并不是针对全信息自然语言理解 的方法论问题,而是以该方法论为指导,对语音识别后得到的文本进行处理,发 现和纠正原来结果中的各种错误,使输出结果更加准确,更加方便用户使用。本 课题是结合实际应用研究项目“奥运多语言智能信息服务系统关键技术及其示范 北京邮电大学硕t 学位论文基于智能手机平台的语音识别后文本处理的应用 系统研究”中的移动终端演示系统c i 毋g u i d e 展开的。 语音作为一种理想的人机通信方式具有自然、方便、快速的特点,让机器能 够理解人的语音一直是人们追求的理想。传统语音识别的方法无论是基于统计的 模型还是基于规则的模型,主要是针对音节信号进行处理和识别,对识别的内容 并不进行j 下确性分析。如用户输入“c a l lad o c t o r ”,结果显示却可能出现“c a l la s a l t ”,由于d o c 衙和s a l t 在发音上有一定的相似性,采用语音识别的方法很难做 出正确的判断,但是如果换一种处理思路,采用自然语言理解的方法分析结果的 内容,则很容易判断出“c a j la 础”不符合人们的用法,是一个错误的结果。这 个例子显示了人们对人机对话系统认识的一个误区。人们常常认为,系统的关键 技术是语音识别、语音合成、机器翻译、内容管理,但通过例子不难看出,问题 的难度最终不在语音表层结构的识别一合成,而在它的核心一自然语言理解。要 使系统真正成为用户满意的。产品”。非过“自然语言理解”这一关不可。 自然语言,是人类用来“表达信息”的工具。因此,理解自然语言的实质是 要通过分析自然语言来获得自然语言所表达的信息。而自然语言所表达的信息具 有一定的层次体系:自然语言的形式结构所表达的是“语法信息”;这种形式结 构所包含的具体内容所表达的是“语义信息”;这种形式结构及其包含的具体内 容一起所体现的( 对于特定目的而言的) 价值是它的“语用信息”;而语法信息、 语义信息和语用信息三者的有机整体,则是自然语言所表达的“全信息”。于是, 如果能够获得自然语言的“全信息”,就可以理解它的内容和价值,就可以判断 它是否符合日常用法。 因此,本课题要研究的主要问题是:采用全信息自然语言理解的方法论对人 机对话系统语音识别结果进行处理,发现并纠正其中的错误,从而提高识别的正 确率和可读性,并在智能手机上实现演示系统。具体包括以下几点: 1 在p c 机上完成其系统框架,并实现其基本功能,主要包括: 1 ) 建立基于全信息的语音识别文本常识知识库。 2 ) 语音识别输出结果语法、语义和语用错误的识别。 3 ) 语音识别输出结果错误的纠正。 2 把研究成果应用于项目“奥运多语言智能信息服务系统关键技术及其示范 系统研究”的终端部分,并与智能手机平台的语音引擎实现较好连接,最终提高 终端语音识别结果的正确性。 基于全信息自然语言理解的语音识别后文本处理是一项前沿研究课题,国内 外还没有见到同类的研究,在研究和实现上都有重要的意义。 关键技术分析 9 北京邮电大学硕士学位论文 基于智能手机平台的语音识别后文本处理的应用 1 全信息知识库的建立我们实验室在该领域已经进行了一些有益的探索, 取得了一定的成绩,例如:基于全信息的自动文摘、基于全信息的邮件过滤等等, 在国内外处于领先地位。我们分别提炼面向语音识别文本的语法、语义和语用信 息和知识,建立全信息知识库。与文献中查到的为数不多的同类系统相比,他们 主要利用了语音、语法信息的统计信息,而我们引入了语法、语义、语用信息, 这是我们完成的一个重要的创新性工作。 2 文本错误的识别发现错误是处理的第一步,只有识别出错误才能进行纠 正。我们利用全信息知识库中的内容,分别从语法、语义和语用三个层次分析文 本内容,对语音识别后的每一文本语句进行多方面的可信度评估,通过可信度的 数值判断一句话是否有错以及可能出错的词汇“点”,从而为进一步纠错提供知 识准备。语法分析判断语音识别后文本是否符合词汇、句法等语法规则,语义分 析判断文本的逻辑真实度和概念搭配合理性,语用分析通过建立文本中的上下文 语境,从而发现语音识别文本中不符合整体语用环境的错误。这种综合语法、语 义、语用信息的语音识别后文本错误识别方法也是我们的一个重要特色和创新 点。 3 文本错误的纠正根据文本错误识别出可能错误的和可能正确的结果和 数据,分析错误的类型、研究错误的语法、语义和语用特点,结合“c i t y g u i d c ” 应用语料,综合给出可能的修正方案,并把系统认为最优的修j 下结果提交给用户。 4 移动终端应用本模块可应用在“奥运多语言智能信息服务系统关键技术 及其示范系统研究”中“c 时g u i d e ”演示系统的服务器和移动终端部分,通过 短信的方式进行连接,对用户语音输入识别的结果进行错误分析和纠正,提高输 出文本的正确性、人机交互的可接受性和系统的灵巧性。 5 系统可移植性本模块的算法和程序设计都考虑了系统可移植性的问题, 这也是所有基于理解的自然语言处理应用系统的共同缺点所在。我们开发了面向 全信息知识库的自学习训练功能,在一定程度上保证了在未来未知的应用环境 下,本模块可以在短时间内以较少的人机工作量适应新环境的要求。 1 6 本文的工作重点 在上述课题背景下,本文的工作重点是在以下两个方面: 1 将基于全信息理论的自然语言理解方法应用到智能手机平台语音识别系 统的纠错过程中,改善现有语音识别系统的识别准确率; 2 对算法的应用领域进行扩展,将其应用于智能家电领域,对手机短信输 l o 北京邮电大学硕士学位论文 基于智能手机平台的语音识别后文本处理的应用 入文本进行分析处理,以完善现有智能家电系统,使其更具人性化的特点。 1 7 论文组成结构 下面的框图清晰地说明了本论文的组成结构: 圄圄同匿 图卜6 本文基本框架 可见,本文从基于自然语言理解的语音识别后处理研究出发,围绕其进行两 个方面的主要工作:一是实现智能手机平台环境下的应用,包括系统分析、系统 设计、系统实现的工作;二是对核心算法进行应用领域扩展,在智能家电领域中 探讨短信命令文本的处理,最后总结与展望基于自然语言理解的语音识别后处理 研究在探索方面所取得的成果与待解决的问题。 习 北京邮电大学硕士学位论文基于智能手机平台的语音识别后文本处理的应用 第二章手机语音识别后文本处理系统 2 1 现有基于p c 平台的语音识别后文本处理系统概述 基于p c 平台的语音识别后处理系统的主要特点是采用了自然语言处理与语 音识别综合模型来提高语音识别结果的准确性。 前已述及,如果能够获得自然语占的“全信息”,就可以理解它的内容和价 值,就可以判断它是否符合日常用法i z j 。 国内外关于自然语言的处理与理解方法的研究,长期专注于“语法”层次的 研究;2 0 世纪末期以来,进到了“语义”的层次。然而,自然语言是语法、语 义、语用三者的“有机统一体”,整体不等于部分之和,因此,缺少了语用信息, 目前“语法加语义”的研究不可能满意地解决自然语言理解的问题。出路就是要 充分利用“语法、语义、语用三位一体”的全信息。 语用信息的分析与语法、语义信息不同,它与特定目的密不可分。而事实上, 人们在应用语言的时候,总是伴随着特定目的,因此全信息方法论是完全切合人 类自然语言的。语音识别在使用时也都是有一定的应用目的。我们可以类比人类 的自然语言交流,如果参与交流的人没有目的相关的共同知识基础,他们的交流 只能是“对牛弹琴”,不会带来有意义的效果。正是因为现在的机器缺乏人类的 知识,人与机器的语音交流就是这样的状况。语音识别研究者们经过了多年的努 力,终于可以让机器具有了较好的接受人类声音的知识,但是声音与自然语言之 间还有很大距离,没有足够的自然语言知识,声音最终还是不能转化成为正确的 语言,成为影响机器与人类顺利沟通的障碍。为此我们在图2 1 中提出了一个自 然语言处理与语音识别综合模型。 1 2 图2 1 自然语言处理与语音识别综合模型示意图 北京邮电大学硕士学位论文基于智能手机平台的语音识别后文本处理的应用 人类的声音首先输入到语音识别引擎,进行以音频特征分析为主的处理,进 一步根据应用目的不同,分别经过不同的自然语言处理模块,这主要是基于深入 全面的自然语占知识来进行的,有可能纠正语音识别中由于噪音干扰所造成的错 误,而这些错误单纯基于音节特征是不可能纠正的。 本文按照这一模型,针对“奥运多语言综合信息服务”项目的典型示范系统 “c i t y g u i d e ”移动终端研究实现了一个全信息自然语言处理的容错模块。 “c i 锣g u i d e ”是在智能手机平台上实现的一个信息服务终端,支持语音输入输 出,可为奥运期间来北京的参观旅游者提供住宿、交通、旅游等方面的信息服务。 目前该演示系统主要支持单句语音输入,如“今天晚上还有房间吗? ”、“请问最 近的车站在哪? ”。但是测试过程中的语音输入识别效果很差,达不到实用化的 要求。 简言之,我们设计的全信息容错算法先找错,再纠错。根据全信息自然语言 理解理论,我们可以从概念上分成三部分加以考察,即语法信息、语义信息和语 用信息,其中语用信息必须要以语法和语义信息为基础来描述。这样容错算法的 处理模型如图2 2 所示: i 语音识别结果文本 工 分词 0 语法分析 0 语义分析 0 语用分析 综合纠错 士 结果输出 图2 2 全信息容错算法处理模型 我们把考察的单元定位为词语。语音识别结果文本首先进行分词,接着依次 经过语法、语义和语用分析,评估每个词语的可信程度,找到可能出错的词汇点, 然后经综合纠错后输出容错结果。 北京邮也人学硕上学位论文基于智能手机平台的语音识别后文本处理的应用 2 1 1 语法分析 语法分析主要考察词语语法方面的可信度。语法信息中的词性信息是研究者 们使用最多的一种,但是考虑到词性标注不仅费时费力,而且语音识别结果不同 于一般正确文本,错误文本本身就不符合常规词性规律,尤其是兼类词更难处理, 词性标注正确率很难保证,所以暂不使用词性信息。目前主要考虑了位置信息和 语音识别稳定度。 位置信息方面,我们考虑一些常识性的知识,如在信息服务的口语对话系统 中,位于句首的常有“请”、“能”、“我要”等祈使性词语,句未常有“吗”、“哪”、 “哪里”等疑问性词语。对于这些词语,在识别结果中一旦发现,其正确率非常 高,没有必要再为其作复杂的分析评估,同时还可以为该语句中其他词语的找错 纠错提供辅助性的信息。 语音识别稳定度方面,我们主要是考察语音识别引擎输出结果的统计特性, 通过比较正确的语句和大量的错误训练语句,我们可以集中发现其中比较稳定和 容易出错的部分,如发现一些出错较为频繁的词语或者词语串,举例: 正确语句: 请绘我一个带淋浴的双入阃 错误语句举例: 请绘我一个大o l 的双人间 请给我一个大匿米的双人间 情给我一个大领域的双人间 清绘我一个大领域的双人间 请给我一个在离异的双人间 请给我一个大的双人闯 请给我一乃零一吨双人间 清绘我一个大米的双人间 情绘我一个在沭浴镌双人间 行地位的这里的双人间 行绘我一个大领域的双音节 易见,其中“给我一个”、“的”、“双人间”的语音识别正确率较高,而“带 淋浴”、“请”的识别j 下确率较低,这说明从声音特征角度来看,“双人间”作为 输入时比较稳定,也就是语音识别稳定度高。分析其主要原因是某些词语的发音 组合对于语音识别系统很容易确定,而另一些则容易造成错误,特别是对于汉语, 来自不同地域的人在某些音节发声的时候容易出现不规范的现象。对于这种现象 1 4 北京邮电大学硕士学位论文基于智能手机平台的语音识别后文本处理的应用 进行统计,可以得到不同词语的语音识别稳定度,用 0 ,1 】区间内的数值来表示, 定义如下: 语音识别稳定度= 主篙篆燃 公式【2 1 ) 如果语句中出现了语音识别稳定度很高的词语,那么我们有充足的信心相信 他们是正确的词语,由此可以以他们为正确的出发点去为其他可信度较低的词语 找错和纠错。 2 1 2 语义分析 语义分析主要考察当前词语揭示所在语句含义的能力。通常一句话包括一个 或多个词汇,其中有些词汇是帮助构造语句的,属于功能性词语,如祈使词语、 代词、数量词、助词等;还有些词汇属于传达意义性词语,用来揭示语句的特定 含义。这两种词语相互补充、共同组成语句整体。 因此,我们将语句中的词汇分为核心词和普通词两类。核心词是某一类语句 中出现的、能够揭示其含义的关键词。普通词则是在各个类别中都可能出现,不 太影响类别含义的词语。我们也可以用 0 ,1 】区间内的数值来表示这种语义度量 值。其数值的获得可以通过规则与统计相结合的方法自动获得,统计方法原理类 似于信息检索中常用的t f i d f 算法,即考虑文本中的词频和词语的倒排文档频 率。规则方法如建立停用词表( 或称为禁用词表,即词语频率和文档频率都很高 的功能词语,如助词、介词、连词、感叹词等等) 、语法分析等。目前项目这部 分内容所需要的大规模语料库条件暂不具备,就采用简单的人工构建方法完成。 我们根据“c i t y g u i d c ”演示系统功能把语句含义分成了9 类:饭馆就餐、 购买衣服、讨价还价、旅馆住宿、问路、修理、打车、就医、寻人物。并且为 每一类语句建立了一个初始的核心词列表,这个列表在增加新的语料或者新的应 用领域的时候可以通过学习与训练模块扩展,也可以添加语义度量值。以饭馆就 餐为例,目前的核心词列表包括: 菜单、酒精、饮辩、大蒜、菜、点菜、辣、耔包、芥末、盐、酱涵、醋、葫 椒粉 2 1 3 语用分析 语用分析主要考察当前语句中一个词语与周围环境的协调适应能力。在一期 课题中,语用分析主要是以语义类作为基础目标进行的。面向特定领域的应用场 北京邮电大学硕l 学位论文基于智能下机平台的语音识别后文本处理的应用 景,建立常识标准下的语用描述库,主要考虑以下情况: 一个语句范围内,核心词与核心词之间的协调能力。 一个语句范围内,核心词与必要的普通词之间的协调能力。 从晟简单的二维环境入手,采用统计方法考察两个词语的协调能力,概念定 义如下,更高维数的环境还可以基于二维环境来做。 s e n n u m ( s e m n t i c s w o r d w o r d ) c 0 ( w o m 一日,) i s e m 卸石c 5 t2 百而而i 而吾 。 ! ! 型竺! ! ! ! 里! :竺型! : 公式2 2 s e 州u m ( w o r d ,) + s e n n 啪( w o r dj ) 一s e n n u n l ( w o 啡w o r d ) s e n n u m ( s e m a l l t i c s k ,w o r d 。,w o r d ) s e n n u m ( w o r d ,) + s e n n u m ( w o r d i ) 一s e n n u m ( w o r d ,w o m ) 其中分开写的两个因子中,第二个因子考察两个词语出现在同一语句中的频 度,第一个因子考察两个词语都出现且共同揭示某个语义类的能力,w o r d ;、 w o r d 表示不同的两个词语,s e m a n t i c s k 表示某语义类,s e n n 岫( 、0 r d ,w o r d ,) 表 示两词语同时出现的所有语句数目,s e n n u m ( s e m a n t i c s 。,w o r d ,w o r d ) 表示两词 语同时出现、并且属于该语义类的语句数目,s e n n u m ( w o r d ) 和s e n n 啪( w o r d ) 分 别表示单个词语出现的语句数目。 因此,语用知识库可由统计方法自动获得,需要收集训练语料,目前在一期 课题的语料基础上,还可以借助公用搜索引擎的帮助,自动获得更多典型语料库。 2 1 4 综合纠

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论