




已阅读5页,还剩68页未读, 继续免费阅读
(计算机系统结构专业论文)自然语言处理中介词短语附着消歧问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毛0 j0l i l l l l l l l l l l r l l f l l l f l l i l l r r j i l l l l l r l l l l l l r l l l l r l l f l y 18 0 2 5 4 9 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 ,签名:窿盛鑫日期:鳓f d 年s 月叫日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:j 啦导师签名: 日期:勘f d 年f 月砷日 一 摘要 摘要 歧义是自然语言处理中经常遇见的一种语法现象。当我们在对一个句子做句 法分析的时候,常常会面临这样一个问题,即一个短语或者子句可以附着在两个 或者两个以上的句子成员节点上,机器很难自动地区分正确的附着位置。这种情 况不仅出现在汉语的句法分析任务中,同时在英语自然语言分析中也会遇到。但 是介词短语附着消歧问题只出现在英语或者其他的西方语言中。本文主要探讨英 语中经常出现的介词短语附着消歧问题。很早学者们就将其看成一个模式识别任 务,但是对它的形式化处理却不尽相同。现在广泛地将介词短语附着消歧问题简 化为一个二值n 和v 的分类问题,它分别对应介词短语附着于名词和动词。因此 我们只需要设计一个分类器就能很好地处理介词短语附着消歧任务。 首先,我们介绍了自然语言处理的国内外研究现状,以及课题研究的背景及 理论基础。同时概述了介词短语附着消歧任务。然后我们引入了n 元语法模型并 且简单地介绍了几种数据平滑处理方法。其次,详细描述了语义消歧问题,尤其 是介词短语附着消歧模型。我们介绍了目前比较流行的几种介词短语附着消歧模 型,例如贝叶斯模型,最大熵模型,支持向量机模型,回退模型等。而将重点放 在我们提出的基于双阈值直接回退模型上。我们构建了这个模型,并将其在公共 的i b m 测试集合上进行了测试,实验获得了8 5 0 2 的准确率和1 0 0 的召回率。 我们指出很多学者将介词短语附着消歧问题看成一个独立的任务,通过使用大量 的语料,来提升算法的性能,而这个做法并不有利于句法分析任务的解决。实验 结果也证明该方法是一种非常有效的消歧方法,并具有理论充分,实现简单的特 点。实验也表明,二元组具有充足的信息量对介词短语进行附着消歧处理,而这 个结论与之前很多学者的观点不同。最后将这个模型与其他模型进行比较分析, 提出了一种潜在的改进方案,即通过增加词类信息和上下文相似性计算来提高模 型的准确率。 关键词:语义消歧,介词短语附着消歧,回退模型,双阈值,二值分类 t a b s t r a c t a b s t r a c t a m b i g u i t yi sal i n g u i s t i cp h e n o m e n o ni nn a t u r a ll a n g u a g ep r o c e s s i n g , w h i c hi s a l s of r e q u e n t l ye n c o u n t e r e di np a r s i n gas e n t e n c e i no t h e rw o r d s ,u s i n gc o m p u t e r st o a u t o m a t i c a l l yp a r s eas e n t e n c e ,t h e r ea r ev a r i o u sk i n d so fp a r s i n gt r e e ss i n c eo n ep h r a s e 0 1 7c l a u s ea t t a c h i n gt ot w oo rm o r et h a nt w oa t t a c h m e n ts i t si nt h es e n t e n c e t h i si s s u ei s r a i s e dn o to n l yi nc h i n e s ep a r s i n gt a s kb u ta l s oi ne n 酉i s h i nt h i st h e s i s ,w em a i n l y e x p l o r ep r e p o s i t i o n a lp h r a s e 口p ) a t t a c h m e n td i s a m b i g u a t i o n ;n a m e l y ab i n a r y c l a s s i f i c a t i o nt a s k ,i nw h i c ht h eg o a li st oc l a s s i f yno rvc o r r e s p o n d i n gt ot h e p r e p o s i t i o n a lp h r a s e n o u no rv e r ba t t a c h m e n t ,g i v e na4 - t u p l e s f i r s to fa l l ,w ei n t r o d u c eb o t ht h ef o r e i 盟a n dd o m e s t i cs t a t u sa n dp r o g r e s so f r e s e a r c ho nn a t u r a ll a n g u a g ep r o c e s s i n g ,a sw e l la st h eb a c k g r o u n da n dt h e o r e t i c a lb a s e s o f0 1 1 1 r e s e a r c hs u b j e c t t h e nw eg i v eag e n e r a lo v e r v i e wo ft h e s u b j e c t , p p a t t a c h m e n td i s a m b i g u a t i o n i nt h es e c o n dc h a p t e r , w ep r e s e n tt h en - g r a mm o d e la n d s e v e r a ld a t as m o o t h i n gm e t h o d sb r i e f l y t h e “r dc h a p t e rg i v e sad e t a i l e dd e s c r i p t i o no f w o r ds e n s ed i s a m b i g u a t i o n , e s p e c i a l l yo ft h ep p - a t t a c h m e n td i s a m b i g u a t i o nt a s k i nt h e f i o m lc h a p t w ee x p l o i tt h em a i na p p r o a c h e sf o rp p a t t a c h m e n td i s a m b i g u a t i o n , i n c l u d i n gb a y e s i a n , m e ,s v m ,b a c k o f f a n de ta 1 a n dt h e nw ef o c u so nab i t h r e s h o l d m o d e lf o rp p a t t a c h m e n td i s a m b i g u a t i o nt h r o u g hb a c k i n go f ft o2 - t u p l e sd i r e c t l y t h e m o d e lw a st e s t e di ni b md a t as e t sf o rp p a t t a c h m e n tw i m8 5 0 2 a c c u r a c ya n d10 0 r e c a l l t h ee x p e r i m e n ts h o w st h a to u rm o d e li sw i ms o l i dt h e o r e t i c a lb a s e sa n d c o m p u t a t i o n a li n e x p e n s i v et oi m p l e m e n t ;2 - t u p l e sh a v ea d e q u a t ed e c i s i o ni n f o r m a t i o n t or e s o l v ep p a t t a c h m e n ta sw e l l f i n a l l y , w ea n a l y z et h ea d v a n t a g e sa n dd i s a d v a n t a g e so fm a i nd i s a m b i g u a t i o n m o d e l si nc o m p a r i s o nw i t ho b rm o d e l a n dw ep r e s e n tap o t e n t i a li m p r o v e m e n tw h i c h m a yr a i s ep e r f o r m a n c ef u r t h e r 。 k e y w o r d :w o r ds e n s ed i s a m b i g u a t i o n ,p r e p o s i t i o n a lp h r a s ea t t a c h m e n td i s a m b i g u a t i o n , b a c k o f fm o d e l ,b i t h r e s h o l d ,b i n a r yc l a s s i f i c a t i o n i i 簟 目录 目录 第一章绪论1 1 1 概述1 1 2 课题研究背景及意义1 1 3 国内外研究现状2 1 4 介词短语附着消歧概述3 1 5 论文组织结构4 第二章语言模型5 2 1n 元语法模型5 2 2 数据平滑处理6 2 2 1问题提出6 2 2 2加法平滑技术7 2 2 3线性插值法7 2 2 4 g o o d t u r i n g 算法一7 2 3 小结8 第三章语义消歧9 3 1 概述9 3 2 有监督语义消歧1o 3 2 1 基于互信息的方法1 0 3 2 2 基于贝叶斯分类器的消歧方法1 0 3 3 基于词典的消歧。j 1 1 3 4 无监督语义消歧1 1 3 5 语义消歧系统测试指标1 2 3 6 小结1 3 第四章介词短语附着消歧1 4 4 1 问题提出1 4 4 2h i n d l e 和r o o t h 概率模型17 4 3 回退模型( b a c k - o f f m o d e l ) 1 9 i i i 目录 4 3 1元组提取1 9 4 3 2 问题简化2 0 4 3 3消歧性能的上下限2 0 4 3 4标记说明2 1 4 3 5 回退模型2 2 4 4k 最近邻算法2 4 4 4 1词形分布的相似性度量2 4 4 4 2 最近邻决策流程。2 7 4 4 3实验结果和分析2 7 4 5 最大熵模型2 8 4 5 1 最大熵原理的基本思想2 8 4 5 2形式化最大熵原理3 0 4 5 3参数估计3 2 4 5 4基于最大熵模型的介词短语附着消歧3 2 4 6 支持向量机模型3 3 4 6 1支持向量机线性分类3 3 4 6 2 词汇偏向性计算3 4 4 6 3消歧方法3 5 4 6 4 性能分析3 5 4 7 实验及算法分析3 5 4 8 小结3 9 第五章基于双阈值直接回退的介词短语附着消歧模型4 0 5 1 算法启示4 0 5 1 1m a r t i nv o l k 的混合消歧模型4 0 5 1 2直接回退模型4 6 5 2 基于双阈值直接回退的介词短语附着消歧模型4 7 5 3 训练和测试数据4 8 5 4 数据预处理4 9 5 5 参数估计和实验描述5 0 5 6 实验结果分析5 2 第六章总结。5 5 至i 【谢。5 6 v 5 7 6 l 第一章绪论 1 1 概述 第一章绪论 人类对语言的探索从远古时期就已开始。在信息化时代的今天,人们对语言 的依赖尤其迫切。我们渴望掌握语言内在的一切玄机,并以此来便捷我们的生活。 随着互联网的普及,人们习惯借助网络获取需要的信息。然而如何高效地从海量 的信息中找出有用的信息是研究人员亟待解决的问题。而如何让机器正确地理解 人类语言以及如何有效地建立语言与信息,客观世界之间的联系【l 】正是这个问题的 症结所在。 自然语言处理主要是研究人与人,人与机器之间交流中的语言问题【2 】。它是一 门交叉学科,综合了语言学( 1 i n g u i s t i c s ) ,数学( m a t h e m a t i c s ) ,认知科学( c o g n i t i v e s c i e n c e ) ,计算机科学( c o m p u t e rs c i e n c e ) ,自动化( a u t o m a t i o n ) 等众多学科【3 1 。 语义消歧作为自然语言处理中的一个基本问题,对自然语言处理中的众多应用领 域有着重要的影响,包括机器翻译( m a c h i n et r a n s l a t i o n ,m t ) ,文档分类( d o c u m e n t c a t e g o r i z a t i o n c l a s s i f i c a t i o n ) ,自动问答系统( q u e s t i o n - a n s w e r i n g ,q a ) 等。本文主 要研究语义消歧( w o r ds e n s ed i s a m b i g u a t i o n ,w s d ) 中的一个分支课题,介词短语 附着消歧( p r e p o s i t i o n a lp h r a s ea t t a c h m e n td i s a m b i g u a t i o n ) :它与自然语言处理中的 其它基础理论问题,像语义标注( w o r ds e n s et a g g i n g ) ,句法分析( s y n t a c t i cp a r s i n g ) 有着密切的关系,即对介词短语附着消歧处理的好坏直接影响到语义附着和句法 分析的性能,因此具有重要的研究意义。 本文主要介绍了介词短语附着消歧的常见方法,比如,贝叶斯决策( b a y e s i a n d e c i s i o n ) ,最大熵方法( m a x i m u me n t r o p y , m e ) ,回退模型( b a c k o f r m o d e l ) ,支 持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 等。我们提出了一种基于双阈值的直接 回退模型,并在公共的i b m 测试数据库上进行测试,获得了8 5 0 2 的准确率。 1 2 课题研究背景及意义 对自然语言处理的研究可以追溯到人们对语言学的探索。语言学是- - 1 7 以描 述,归纳和解释身边语言现象为目的的科学【4 1 。比如,人类如何获取语言,理解语 电子科技大学硕士学位论文 言,应用语言;如何构建语言内容与现实世界物质之间的联系;如何规范语言的 处理形式;等等内容都属于语言学研究的范畴【l 】。随着计算机和互联网的出现,伴 随着社会化信息程度的加深,人们渴望运用机器自动地为人类处理各种与语言相 关的事务,比如信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) ,自动文摘( a u t o m a t i c s u m m a r i z i n g a b s t r a c t i n g ) ,机器翻译,自动问答系统等。基于这样的目的,自然语 言处理这门交叉学科诞生了。然而要用机器自动地处理语言,我们必须得让机器 理解语言。那么怎样才算是理解语言呢? 谈到理解语言,我们不得不提到著名的英国数学家图灵。为了研究机器是否 能思考这个问题。他于1 9 5 0 年提出了一个“有趣的测试 。我们现在称它为图灵 测试( t u r i n gt e s t ) 。测试的过程这样展开:测试人在一个规定的时间内,并且在无 法看到反应来源的情况下,根据两个实体( 测试机器和人) 对于他所提出问题的 反应,来做出判断是人还是机器。通过一系列问题的测试,从机器被误判为人的 几率来表示这个系统的理解程度或者智能程度。然而在自然语言处理领域,判断 机器对语言的理解程度有很多种标准,针对不同的应用就有不同的标准。比如, 机器翻译测试机器把一种语言翻译成另外一种语言的准确程度;自动问答系统测 试机器是否理解给予的问题等。 自然语言理解在形态学( m o r p h o l o g y ) 和语法学( s y n t a x ) 层面有不同的研究 任务( 暂不考虑在语义学( s e m a n t i c s ) 和语用学( p r a g m a t i c s ) 这两个层面) 。形态 学主要研究词的内部结构,例如词性变换规则,构词规则等。而在语法学层面的 研究,主要是让机器理解句子在语法层面上的构造规则,并处理成机器能够理解 的形式,比如形式语言或者句法分析树。然而对这两个层面的研究,归根结底关 键在于研究消歧( d i s a m b i g u a t i o n ) 问题和未知词和语言现象的处理问题。因此对 于歧义消解问题的研究具有重要的意义。 1 3 国内外研究现状 国内外对自然语言处理的研究从2 0 世纪2 0 年代开始。有两个主要的研究学 派,理性主义和经验主义。有一段时期对于使用理性主义方法还是经验主义方法, 研究人员进行了激烈的讨论,二者也存在着重要的分歧。然而到现在大多数研究 人员比较倾向于采取结合二者的方法。其中最为普遍的方法是基于统计的自然语 言处理方法,融合了理性主义的形式语言表示方法和经验主义的统计方法,并取 得了长足的进步,也吸引了越来越多的研究人员的兴趣。 2 第一章绪论 领域有很多分支,很难笼统地概括当前的研究状况,但是 它的发展现状。一方面,自然语言处理已经在很多领域得 到了实际的应用,像机器翻译,信息检索,自动文摘,语音识别( s p e e c h r e c o g n i t i o n ) , 语音合成( s p e e c hs y n t h e s i s ) 等。而另一方面,我们仍然面临很多问题,比如,形 式语言与计算问题,句法分析问题,消歧问题等【3 】。 介词短语附着消歧问题作为自然语言处理领域的一个热点问题,已经吸引了 很多研究人员的兴趣,同时也取得了大量丰硕的成果。1 9 9 3 年h i n d l e 和r o o t h 提出了基于语料库( c o r p u s ) 的方法,通过使用他们开发的f i d i t c h 工具对语料 进行处理【5 】。不久r a t n a p h a k h i 等人提出了一种基于最大熵模型( m a x i m u me n t r o p y m o d e l ,m e m ) 的消歧方法【6 】,并将模型在公认的i b m 测试数据集上进行了测试, 获得了8 1 6 的好成绩。1 9 9 5 年c o l l i n s 和b r o o k s 引入了一种革新的模型,回退 模型( b a c k o f f m o d e l ) 7 1 【8 】,这个模型在其他自然语言处理问题上也得到了有效地 应用。同时其性能在介词短语附着消歧问题上得到了很大的提升,获得8 4 5 的准 确率。随后最近邻算法,支持向量机,神经网络相继被应用到介词短语附着任务 上,并取得了不错的成绩。由于介词短语附着消歧现象并不出现在汉语中,所以 国内很少学者投入时间和精力从事这方面的研究。 1 4 介词短语附着消歧概述 句法分析( s y n t a c t i cp a r s i n g ) 是自然语言处理的核心问题,而句法分析错误主要 来源之一就是介词短语附着。所以介词短语附着问题的研究对提升句法分析正确 率有直接的影响。我们在解析一个句子时,经常会遇到一个介词短语附着在多于 一个句子位置上,例如附着在前面动词短语或者动词后名词短语上。举个例子:“i s a wy e s t e r d a yt h em a i li nt h ep a r kw i t hat e l e s c o p e 【9 】这个句子中介词短语“i nt h e p a r k ,“w i t hat e l e s c o p e 有五种不同的附着情况,也对应五种不同的句法解析。 如下: ( 1 ) is a wy e s t e r d a y 厂t h em a n 厂纫t h e p a r k w i t hat e l e s c o p e ( 2 ) is a wy e s t e r d a y t h em a n i nt h e p a r k w i t hat e l e s c o p e ( 3 ) is a wy e s t e r d a y t h em a h 厂伽t h e p a r k j w i t hat e l e s c o p e ( 4 ) is a wy e s t e r d a y t h em a n i nt h e p a r k w i t hat e l e s c o p e ( 5 ) is a w y e s t e r d a y t h em a n i nt h e p a r k w i t hat e l e s c o p e 3 电子科技大学硕士学位论文 很显然( 3 ) 是一种正确的解析:“i nt h ep a r k ”修饰名词短语“t h em a l l ,表 示在公园里的那个男人;“w i t hat e l e s c o p e ”做状语修饰动词“s a w ,表示借助于 一种工具去看。本文主要介绍介词短语附着消歧方法,分析各种算法之间的差别 和性能好坏,并提出一种新颖的基于双阈值直接回退的介词短语附着消歧方法。 1 5 论文组织结构 论文主要由六部分组成。 第一部分绪论,主要介绍了课题研究的意义,国内外的研究现状,并概述了 介词短语附着消歧问题。 第二部分语言模型,语言模型作为自然语言处理的基础,所以我们重点介绍 了常用的几种n 元语法模型。由于论文主要介绍的算法都是基于统计的方法,同 时由于语料库的尺寸太小,我们在建模的时候会遇到数据稀疏问题,所以我们特 别引入了数据平滑理论,但只是简要的介绍一些经典平滑算法。 第三部分语义消歧,作为论文的一个重点,我们详细介绍了语义消歧问题和 当前流行的算法。主要从基于监督的消歧算法和基于非监督消歧算法两部分来介 绍。 第四部分和第五部分是论文的核心。先介绍了前辈提出的一些介词短语消歧 模型,比如回退模型,最大熵,最近邻等模型。然后介绍了我们提出的基于双阈 值的直接回退模型,包括详细介绍了论文的理论基础,实现方法,最后将模型在 公认的i b m 测试集合上做了测试,得到了很好的测试成绩( 8 5 0 2 正确率和1 0 0 召回率) 。我们同时也将这个模型和之前的模型进行了详细地分析和比较,并提出 了潜在的改进方案。 第六部分作为论文的结束,简要总结了论文的核心思想。 4 第二章语言模型 2 1n 元语法模型 第二章语言模型 语言模型( 1 a n g u a g em o d e l ,l m ) 是自然语言建模的基础,并被语义消歧,句 法分析等自然语言处理问题所广泛使用【1 0 1 。我们经常使用的语法模型是n 元语法 模型( n - g r a mm o d e l ) 。它具有构造简单,容易理解的特点,但是由于数据稀疏的 问题,我们必须在建模的同时对数据进行平滑处理( s m o o t h i n g ) ,我们将在下一节 讨论这个问题。首先我们简单介绍n 元语法模型。 我们研究的语言主要是以字符串形式构造出来的。对于一个字符串s ,其概率 分布为p ( s ) ,其中p o ) 表示s 代表一个句子( 或者子旬) 在一个或者多个考察文本 中出现的相对频率。比如,单词“w o n d e r f u l ”在1 0 0 0 个句子中出现了一次,那么 可以简单地认为p ( s ) = 0 0 0 1 。再举一个例子,如果有这样的一个句子“t h em o o n e a t sad o g 很显然我们是不会这样说话的,所以这样的句子应该是不存在的,故 p ( s ) = 0 。但是需要指出的是,语言模型与语言学中句子是否符合语法规则,或者 是否合符人类的语言习惯是没有关系的。相反就算一个句子合符语法习惯,但是 在一个特殊的考察集合中也有可能其出现概率为零。 假设一个句子s = w m w t ,其概率可用公式( 2 1 ) 表示: p ( s ) = p ( w ) p ( w 21w , ) p ( w 3im ) 巾( wi 嵋一) :兀1p ( wm 2 - 1 在公式( 2 1 ) 中对于,它前面的字串w , w 2 w t 一。称为它的历史。然而当字串 不断地增大时,它的历史数目会成指数形态增加。我们假设词汇集合数目为s ,那 么w 前面的历史将有s 卜1 种可能。同时对于模型p ( w iw i m w t 一。) 就将有s 个自由 参数。如果s = 2 5 0 0 ,江3 可计算出自由参数的数目就是1 2 5 0 亿个【1 1 】。在这种情 况下,我们几乎是不能对参数做准确的估计。我们发现很多历史是不会出现在一 个训练集合中的。于是我们引入了等价类的方法。就是将历史转换成它所对应的 等价类e 。当然等价类e 的数目比历史要小的多,否则没有意义。这种关系可以 表示成公式( 2 2 ) : 5 电子科技大学硕士学位论文 p ( w tlw w 2 嵋w i ) = p ( w ie ( w w 2 w t - i ” ( 2 2 ) 我们介绍一种将历史划分成等价类的方法。将两个字串w 。w 一。w 和 唯一:以一。吃映射到同一个等价类,当且仅当这两个字串最近的万一1 ,( 1 珂 分别为句子开始 和结束标志。我们用二元语法模型计算这个句子的概率: p ( s ) = p ( il ) p ( 1 i k ei ) p ( t h ell i k e ) p ( c a k eit h e ) 对于形如p ( wiw - ) 的计算可用公式( 2 3 ) : 烈吲睢i ) - 轰潞 q - 3 ) 2 2 数据平滑处理 2 2 1 问题提出 我们考虑计算式( 2 4 ) : p c 小。2 轰貉普 协4 , 显然这个结果不够准确。当我们的语料库比较小的时候,我们经常会遇到这 样的情况,即便是比较大的语料库也很难保证所有的二元文法的概率不为零。这 种情况还出现在语音识别领域。比如,要转换句子s 对于给定的语音信号y ,并使 式子p ( vis ) 最大化。然而当p ( s ) = 0 时,p ( si 矿) 也会为零。也即是说,无论语 音信号质量有多好,都很难将s 转换成功。当然在自然语言处理领域,这种情况也 是经常遇到的。我们必须采取某种策略来处理这个问题。 6 第二章语言模型 数据平滑( s m o o t h i n g ) 技术就是为了解决零概率事件的一种技术。它的核心 思想就是增大零概率值,减小高概率值。 2 2 2 ) j i 法平滑技术 首先介绍一种比较简单的加法平滑( a d d i t i v es m o o t h i n g ) 技术, 以二元语法为例,我们对实际出现的次数加一处理,如公式( 2 5 ) - p ( h ) 2 豇1 + 鬲c ( w 而1 w i _ 丽t ) 2 再1 + 丽c ( w i w i q ) 即加一法【1 3 1 。 ( 2 5 ) 其中矿表示词汇表单词的个数。当矿趋于无穷大时,其概率趋近于零。 而在上世纪中叶很多学者认为这样的加一算法过于简单,仍然不够准确,于 是gj l i d s t o n e ,w e j o h n s o n 和h j e f f r e y s 等人提出了公式( 2 5 ) 的改进方法 【1 4 1 1 5 1 ,其思想不是简单地加一,而是加上一个常数万,( o 万1 ) ,表示比实际情况 多发生了万次,于是, p a ( w i 屹+ 1 ) 。丽万4 甚 鼢i - 1 ( 2 - 6 ) 2 2 3 线性插值法 另外一种简单的平滑方法是基于线性插值法( i n t e r p o l a t i o n ) 。我们以三元文法 为例,最简单的做法如公式( 2 7 ) : 只( wiw 1 w 一2 ) = a a ( w ) + 五岛( wlw i ) + 五a ( w1w 一。w 一:) ( 2 7 ) 其中,o 以1 并且,五= l 。这些权值可以手动设置,但是在实际建模时, 通常是通过训练来获得。 2 2 4 g o o d - t u rin g 算法 g o o d t u r i n g 算法是一种被广泛使用的算法【1 6 】。并且很多后期的平滑技术都是 在其基础上演变而成,例如,k a t z 回退平滑算法【,w i t t e n - b e l l 平滑算法【1 8 】等。 它的基本思想是,对于任何一个发生了,次的1 1 元文法,都用r 来替换, ,:( ,+ 1 ) 监 ( 2 8 ) 7 电子科技大学硕士学位论文 其中,以,是刚好发生,次的n 元文法的数目。然后进行归一化处理。对于统计 数为,的n 元文法,其概率为 p :上 ( 2 9 ) r 2 万 。么一9 j 其中, = 万,。值得一提的是: n = z n r r = ( ,+ 1 ) ,l 川= n r r ( 2 - 1 0 ) 可以看出n 等于这个分布的最初计算值。所以,这些样本中所有事件的概率 之和 z 棚n r p ,斗 1 像 公式( 2 - 1 1 ) 说明,有_ 的概率剩余量用于分配到那些零概率事件上。 2 3 小结 数据稀疏问题是自然语言处理中比较常见的一种现象。这个问题处理的好坏 直接影响到建模的效率和解决问题的正确性。在这节中,我们首先引入了数据稀 疏问题,然后再介绍了几种常见的平滑方法。我们在介词短语附着消歧模型中也 借鉴了这些平滑方法,但是主要用到的是回退平滑技术,以及运用了词根化处理 ( s t e m m i n g ) 来解决数据稀疏问题,这部分内容我们将在随后的第四和第五章介 绍。 8 第三章语义消歧 3 1 概述 第三章语义消歧 在英语中,一词多义的现象很常见,例如单词g o o d ,做形容词时,有两种含 义,好的和擅长的意思,而在做名词的时候,有三种含义,善,好处和商品的意 思。对于人来说,要想准确理解单词9 0 0 d 在特定文本中的意思,我们只需要认真 理解上下文的意思,就可以很好地确定其意思。汉语作为我们的母语,我们对一 词多义的现象一点也不陌生。本章节将介绍一个重要的自然语言处理问题,语义 消歧( w o r ds e i l s ed i s a m b i g u a t i o r t , w s d ) 。 我们必须指出,语义消歧问题并不是一个终极问题【3 】,它往往作为一些自然语 言处理系统的一种中间问题。例如,早期研究人员在做机器翻译问题的时候就提 出了语义消歧的问题,并随后逐渐发展成自然语言处理领域中一个很重要的课题。 在2 0 世纪8 0 年代之前,我们对语义消歧采用了基于规则分析的方法,该方法很 大程度上受到了语言学家乔姆斯基提出的形式语言思想的影响。在之后由于大规 模语料库( c o r p u s ) 的出现,比如布朗大学的b r o w n 语料库,宾夕法尼亚大学的 语言数据联盟( l i n g u i s t i cd a t ac o n s o r t i u m ,l d c ) 以及p e n n 树库,还有英国的大 不列颠国家语料库( b r i t i s hn a t i o n a lc o r p u s ,b n c ) 等,基于语料库的方法统计机 器学习方法被广泛应用到了语义消歧领域。众所周知,机器学习方法被分为有监 督的学习方法( s u p e r v i s e dl e a r n i n g ) 和无监督的学习方法( u n s u p e r v i s e dl e a r n i n g ) 。 所以基于机器学习的消歧方法也可以划分成有监督的语义消歧( s u p e r v i s e dw o r d s e r l s e d i s a m b i g u a t i o n ) 和无监督的语义消歧( u n s u p e r v i s e dw o r d s e n s e d i s a m b i g u a t i o n ) 。 有监督语义消歧方法借助上下文相关词的信息来决定其语义,可以简单为一 种分类任务( c l a s s i f i c a t i o nt a s k ) 。而无监督消歧方法同样利用了上下文信息,并将 其聚成一类,所以它也被简称为一种聚类任务( c l u s t e r i n gt a s k ) 1 9 1 。如下将分别介 绍这两种方法以及些其他的消歧方法。 9 电子科技大学硕士学位论文 3 2 有监督语义消歧 有监督语义消歧作为一种分类任务,其核心问题是建立一种有效的分类器, 即根据上下文词义来划分多义词的词义。在消歧任务中有如下两个限制被广泛应 用【2 0 】: ( 1 ) 每篇文本只有一个意思,即每篇文本他们具有一个中心意思,并且其每 个词的词义具有很强的一致性。 ( 2 ) 每个搭配只有一个意思,即根据目标词与上下文中词的相对距离,次序 和句法关系,上下文为目标词的意思提供了一种有用的线索。 3 2 1 基于互信息的方法 p f b r o w n 等人于1 9 9 1 年,提出的一种运用信息量度量的方法进行消歧处理 【2 1 1 。他的核心思想是,对于一个需要消歧的词,在上下文中寻找一个代表特征, 而这个代表特征能够有效地指示需要消歧词的词义。他们借助了双语平行语料库, 对一个法英翻译系统做了尝试,并使用了f l i p f l o p 方法解决指示器分类问题。对 于目标词与上下文特征之间的指示关系,他们采用了互信息量计算方法【2 2 1 , ,c p ;功2 萎荟p 力昭羞鬟击 c 3 _ ) 3 2 2 基于贝叶斯分类器的消歧方法 基于贝叶斯分类器的消歧方法是一种简单有效的消歧方法,它是由w a g a l e 等人在1 9 9 2 年提出的。算法的基本思想是根据上下文信息,再利用贝叶斯分类器 对目标词义进行选择2 3 1 。在一个双语翻译系统中,假设目标词的上下文为c ,目标 词y ,其中c = w l w 2 嵋,1 ,有后种语义 2 ) ,毛,s :,。 已知贝叶斯公式: 驯c ) - 掣 协2 , 对于分母p ( c ) ,我们在计算时可以省略,因为它对于所有墨,都是常数。同 时我们做了上下文中单词独立性假设,虽然不太合理,但是为了简化问题,这是 1 0 我们再利用公式( 3 - 4 ) 可以求得母, ( 3 - 3 ) i = a r s 町m a x p ( s i ,f 郎i l w jp c _ i 墨, c 3 4 , e c j 上述介绍的基于互信息和贝叶斯公式的消歧方法都用到了对齐的双语语料 库。由于理论简单,实现不复杂的特点,这两个模型得到了广泛的使用。它们不 仅用在语义消歧模型,还被广泛应用到了其他的自然语言处理任务中,像语义标 注,附着决策,句法分析等。 3 3 基于词典的消歧 如果一个词没有语义范畴信息,我们可以求助于它的一般语义描述。于是很 多学者提出了基于词典和类义辞典的消歧方法。l e s k 直接使用词典中的语义定义 【4 6 1 。他认为词典中词条本身的定义就可以很好的作为判断其语义的一个依据条件。 y a r o w s k y 提出了怎样把词的语义范畴从r o g e t 类义辞典中的范畴得到,应用到上 下文的语义范畴和消歧判断中h 7 1 。基于类义辞典消歧的基本原理是,上下文中的 词汇的语义范畴大体上确定了这个上下文的语义范畴,并且上下文的语义范畴可 以反过来确定词汇的哪一个语义被使用。在d a g a n 和i t a i 的方法中则是从一个双 语词典得到不同语义的翻译,通过分析他们在一个对应外语语料中的分布来进行 消歧【4 8 】。 3 4 无监督语义消歧 无监督语义消歧并不借助于已知的训练数据信息,通过聚类算法实现语义的 选择。但是必须指出,无监督消歧并不是完全无监督的。比如,在词义标注任务 上,不能完全没有训练信息,我们还是需要一些相关语义的特征描述信息。对于 在没有足够训练数据的情况下进行语义消解,我们一般采用这样的思
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024优衣库店铺实习生火热招募中笔试参考题库附带答案详解
- 2025新一代人工智能技术发展及其应用报告-西藏大学
- 2024中铝智能科技发展有限公司面向社会公开招聘59人(第五批)笔试参考题库附带答案详解
- 工业气体销售培训
- 肺栓塞溶栓治疗的护理
- 高中化学奥赛培训全攻略
- 多感官训练室培训
- 吊机安全培训
- 常用公文写作格式培训
- 人教版 (2019)必修2《遗传与进化》第1节 基因突变和基因重组教案
- 上海市工业技术学校招聘考试真题2024
- 配电室消防知识培训课件
- 自来水有限公司应急预案
- 绞车培训考试题及答案
- 2025-2030中国功能近红外光学脑成像系统(fNIRS)行业市场发展趋势与前景展望战略研究报告
- 9.2《项脊轩志》课件统编版高二语文选择性必修下册-1
- 高速公路段工程施工安全专项风险评估报告
- 2025年安阳职业技术学院单招职业适应性测试题库含答案
- GB/T 13511.2-2025配装眼镜第2部分:渐变焦定配眼镜
- 2024-2025学年九年级化学人教版教科书解读
- 第三单元《莫斯科郊外的晚上》课件 七年级音乐下册 花城版
评论
0/150
提交评论