(计算机软件与理论专业论文)汉语切分标注指同求解的研究.pdf_第1页
(计算机软件与理论专业论文)汉语切分标注指同求解的研究.pdf_第2页
(计算机软件与理论专业论文)汉语切分标注指同求解的研究.pdf_第3页
(计算机软件与理论专业论文)汉语切分标注指同求解的研究.pdf_第4页
(计算机软件与理论专业论文)汉语切分标注指同求解的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

。 堡至塑坌堡兰塑塑旦垄竺些型塑i 堕 汉语切分标注和指同求解的研究 摘要 随着计算机的发展,用自然语言作为人机交互语言已是必然趋势,这就对 自然语言处理的深度和广度提出了越来越高的要求。这个问题在西方国家并不 象在中国这样突出,因为计算机从诞生之日开始,就是以处理西方语言为基础 的。他们很自然地主动研究和解决计算机如何不断地适应自己国家的语言文字 问题。可是汉语与西方语言的差别很大。能够处理西方语言的计算机。丽对汉 语的输入、识别、理解、生成、输出等一系列处理过程都显得无能为力。因此, 近几年来中文信息处理技术已经越来越多地受到了国家和国际大公司的重视。 本文主要研究了中文信息处理中最基本的又急待彻底解决的切分、标注问题。 并对指同求解做了初步探讨。 汉语的词与词之间没有间隙,切分就是将字串分割成词串,它是中文信息 处娌的第一步:为词语标上其所属的词类就是词性标注,它是进行句法分析必 需的一个环节。词法分析中的排歧和未登录词的识别一直困扰着切分标注,甚 至已经成为整个中文信息处理的瓶颈。要彻底解决这个困难,就要摆脱传统的 结构主义语法的束缚,从构词法上取得突破。 计算语言学家在语法层面上已经作了很多努力,然而在语义层面上的工作 刚刚起步。理解语言的逻辑语义是自然语占理解的根本所在。本文对指同求解 进行了初步的研究,所谓指同求解就是找出篇章中话语成分之间的语义关系, 是篇章结构分析和自动摘要等文本解释技术中的重要组成部分。现在对汉语指 同求解算法的研究与实现还很少,希望本文的研究对今后的工作有所启迪。 出于全局的考虑,利用句法分析排除切分标注歧义具有明确的前瞻性和整 体性。本文提出了一种具有多输出结果的自动分词模型。在此模型下,尽量在 分词层面上消除大部分分词歧义。对于无法在词汇层面解决的切分歧义,不是 仓促地给出一个最优解。而是留待句法分析阶段进一步确定。 在自动分词的基础上,本文提出了多输入的汉语词性标注系统。针对词性 标注中单用规则方法和概率方法的不足,本系统将两种方法有效地结合起来, 首次将简单的部分句法分析应用到词性标注中进行排歧。根据统计信息计算出 歧义出现概率,以一定的优先级传到句法分析进行分析。为了进一步提高正确 率,系统引入了机器学习,由学习得来的规则修正词性标注的结果。 在借鉴国外先进理论的基础上,本文提出了一个基于定心理论较为系统的 汉语指同求解算法,该算法有机地将旬间和甸内求解结合为一体。其中,算法 利用了约束理论和语法语义信息作为指同求解的限制条件。本文提出的算法具 有较好的实用性,是对指同求解方法的一个重要改进和补充。卜一一 关键词切分,词性标注,指同求解,部分句法分析 ) r e s e a r c h o n c h i n e s e s e g m e n t a t i o n a n d p a ,r t o f s p e e c h t a g g i n g a n dc o - r e f e r e n c es o l u t i o n a b s t r a c t r e s e a r c ho nc h i n e s es e g m e n t a t i o n a n dp a r to f s p e e c ht a g g i n g a n dc o - r e f e r e n c es o l u t i o n a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e r s ,i ti st h ei n e v i t a b l et r e n dt h a tn a t u r el a n g u a g e sa r eu s e d a sh u m a n c o m p u t e ri n t e r a c t i v el a n g u a g e s ,w h i c hd e m a n d sd e e p e ra n db r o a d e rn a t u r el a n g u a g e p r o c e s s i n g t h i sc r i s i si sn o ta ss e r i o u si no c c i d e n t a si nc h i n a ,b e c a u s ec o m p u t e r sa r ed e s i g n e dt o p r o c e s sl n d o e u r o p e a nl a n g u a g e sf r o mt h en a i s s a n c eo fc o m p u t e r s t h eo c c i d e n t a l sd or e s e a r c h o nh o wt om a k ec o m p u t e r sa d a p tt ot h e i rl a n g u a g e so nt h e i ro w ni n i t i a t i v e c h i n e s ei sv e r y d i f f e r e n tf r o mi n d o e u r o p e a nl a n g u a g e s c o m p u t e r sc a n n o tp r o c e s st e x ti n p u t ,r e c o g n i t i o n , u n d e r s t a n d i n g ,g e n e r a t i o na n do u t p u t a se f f e c t i v e l yo nc h i n e s ea so nl n d o - e u r o p e a nl a n g u a g e s t h ec o u n t r yl e a d e r sa n dm a n yl a r g ei n t e r n a t i o n a lc o m p a n i e sh a v et h o u g h tm u c ho fc h i n e s e i n f o r m a t i o np r o c e s s i n g t h i sp a p e rm a i n l ym a k e ss c i e n t i f i cr e s e a r c ho ns e g m e n t a t i o na n dp a r to f s p e e c ht a g g i n g 。w h i c hn o to n l yp r o v i d ef o u n d a t i o nf o rc h i n e s ei n f o r m a t i o np r o c e s s i n gb u ta l s o a r ek e yp r o b l e m st ob es o l v e dc o m p l e t e l y t h i sp a p e ra l s od o e sb a s i cr e s e a r c ho nc o r e f e r e n c e s o l u t i o n t h e r ej sn os p a c eb e t w e e nt w oc h i n e s ew e r d s s e g m e n t a t i o n ,w h i c hd i v i d e sac h i n e s e c h a r a c t e rs t r i n gi n t oac h i n e s ew o r ds t r i n g ,i st h ef i r s ts t e po fc h i n e s ei n f o r m a t i o np r o c e s s i n g ; t a g g i n g ,w h i c ha s s i g n sap a r to fs p e e c ht oaw o r d ,i sn e c e s s a r yt os y n t a xa n a l y s i s a m b i g u i t i e s a n du n r e g i s t e r e dw o r d si nm o r p h e m i ca n a l y s i s ,w h i c he v e nb e c o m et h eb o t t l e n e c ko ft h ew h o l e c h i n e s ei n f o r m a t i o np r o c e s s i n g ,h a v ep u z z l e ds e g m e n t a t i o na n dt a g g i n gf o ral o n gt i m e i no r d e r t ow i nt h r o u g h ,f e t t e r sf r o mt r a d i t i o n a ls t r u c t u r a l i s ml i n g u i s t i c ss h o u l db eb r o k e nt oa c h i e v ea b r e a k t h r o u g hi nw o r d f o r m a t i o n c o m p u t a t i o n a ll i n g u i s t sh a v ep u t m o r ee f f o r ti n t og r a m m a rl e v e l ,b u tl e s si n t os e m a n t i cl e v e l u n d e r s t a n d i n gl o g i cs e m a n t i co f n a t u r a ll a n g u a g e si st h eb a s i so f n a t u r a ll a n g u a g eu n d e r s t a n d i n g t h i sp a p e rr e s e a r c h e so nc o r e f e r e n c es o l u t i o n c o - r e f e r e n c es o l u t i o n ,w h i c hf i n d so u ts e m a n t i c r e l a t i o n sa m o n gu t t e r a n c e s ,i sa ni m p o r t a n tc o m p o n e n ti nc h i n e s et e x ti n t e r p r e t a t i o n ,s u c ha s d i s c o u r s ea n a l y s i sa n da u t o m a t i ca b s t r a c t n o wt h e r ea r ef e ws t u d i e sa n di m p l e m e n t so nc o - r e f e r e n c es o l u t i o n h o p et h i sp a p e rc a nm a k ei l l u m i n a t i o f if o rf u t u r ew o r k i nt h ev i e wo faw h o l es y s t e m ,i ti s p r o m i s i n ga n ds y s t e m i ct h a ta m b i g u i t i e sa r es o d e d t h r o u g hs y n t a xa n a l y s i s t h i sp a p e rp r e s e n t sac h i n e s es e g m e n t a t i o nm o d e l w i t hm u l t i p l eo u t p u t s u n d e rt h i sm o d e l ,m o s ta m b i g u i t i e sa r es e t t l e di nt h ec o u r s eo fs e g m e n t a t i o n a st ou n s e t t l e d a m b i g u i t i e s ,t h e ya r ep a s s e dt oap a r s e rt od of u r t h e rp r o c e s s i n g ,i n s t e a do fg i v i n gap r e f e r r e d s o l u t i o n b a s e do ns e g m e n t a t i o n ,t h i sp a p e rp r e s e n t sac h i n e s ep a r to fs p e e c ht a g g i n gs y s t e mw i t h m u l t i p l ei n p u t s a i m i n ga td e f i c i e n c i e s6 fr u l ea n ds t a t i s t i c a la p p r o a c h e ss e p a r a t e l yu s e d 。b o t h a p p r o a c h e sa r ei n t e g r a t e de f f e c t i v e l yi n t ot h es y s t e m s i n g l ep a r t i a ls y n t a xa n a l y s i si sa d o p t e dt o o r 。e s e a r c h o n c h ,i n e s e s e g m e n t a ,t i o n a n d p a r t o f s p e e c 。h t ,a g g i 。n g a n d c o - r e f e r e n c e s o l u t i o n a b s t r a c t s o l v ea m b i g u i t i e sf o rt h ef i r s tt i m e a m b i g u i t i e sa c c o r d i n gt ot h e i rp r o b a b i l i t i e sc a l c u l a t e dt h r o u g h s t a t i s t i c a li n f o r m a t i o na r ep a s s e dt o a p a r s e r t od of u r t h e rp r o c e s s i n g m a c h i n el e a r n i n gi s i n t r o d u c e di n t ot h i ss y s t e mt oi m p r o v ea c c u r a c ya n dl e a m e dr u l e sa r eu s e dt or e v i s er e s u l t s a d o p t i n gf o r e i g na d v a n c e dt h e o r i e s ,t h i sp a p e rp r e s e n t s as y s t e m i cc o - r e f e r e n c es o l u t i o n a l g o t t b m ,w h i c hi n t e g r a t e si n t e r - s e n t e n c ea n d i n t r a - s e n t e n c es o l u t i o n ,b a s e do n c e n t e r i n gt h e o r y b i n d i n gt h e o r ya n ds y n t a xa n ds e m a n t i ci n f o n n a t i o na r eu s e da sr e s t r i c t i o nc o n d i t i o nf o rs o l u t i o n i nt h i sa l g o r i t h m t h i sa l g o r i t h mw i t hh i g hp r a c t i c a b i l i t yi so fi m p r o v e m e n ta n ds u p p l e m e n tf o r c o r e f e f e n c es o l u t i o n k e y w o r ds e g m e n t a t i o n ,p a r to fs p e e c ht a g g i n g ,c o r e f e r e n c es o l u t i o n ,p a r t i a lp a r s e r 。 坚堕婴坌塑鲨塑旦查塑塑竖塑一! ! 鲨 第一章概述 语言是反映人的思维最重要的一面镜子,义是人与人之间交流的重要j l :具。对语言的 研究,是一个经久不衰古老课题。近一两百年米,p q 方学者在逻辑币i 数学方面的成果,大 大推动了语言形式化的研究。随着计算机的迅速发展,用计算机处理自然语言成为一种必 然趋势。信息时代的到来更为计算语言学提供了一个发展的火好机遇。 本文主要研究了中文信息处理中的切分、标注和指同求解,下文将分别从这三个方面 进行论述。 1 1汉语切分 由于中文文本是按字连写的,词与词之间没有间隙,因而词的切分问题就成为中文信 息处理中要解决的首要问题。自动分词就是将连续的缺乏词的分隔标志的生语料,自动切 分出以词为单位的语料。 从八十年代初期。自动分词技术就受到了重视,陆续有各种分词软件面世。例如,北 京航空航天大学研制的c d w s 系统、山两火学的a b w s 系统、清华大学的s e g t a g 系统、 杭州大学改进的m m 分词系统以及白栓虎的切词与标注一体化系统等等。随着i n t e m e t 的 普及应用各类中文信息处理的应用受到了广泛的重视,因而对白动分词提出了更高的要 求。 尽管对汉语切分的研究已经有了一段时问,但是分词歧义年米登录词至今仍未得到很 好的解决,一直困扰着汉语切分。切分是艘个中文信息处理的基础,切分问题得不到很好 的解决将直接影响到后继层面上的加:l :。从这个意义上讲,切分已经成为中文信息处理中 的瓶颈之一,受到了多方面的关注。 1 1 1自动分词的重要性及其目标 中文白动分词是中文信息处理中最基本的一步,词性标注、句法分析以及语义层次上 的加工乃至以后各种应用均建立在分词基础上。冈而,分词的正确与否将影响到中文信息 处理的全局。主要表现在以下几个方面: 现代汉语句法分析器以自动分词和标注的结果作为输入: 词语的计量分析已广泛应用于词频统计、新词辩识、计算机辅助词典编纂等众多领域; 在汉语篇章理解中只有以词为文本特征,词性、词义利句法结构才能逐层架构; “以词定字”、“以词定音”是解决错别字辨识、同音字辨识、简繁体转换的主要手段 自动分词系统只是中文信息处理系统的一部分分词本身并不是目的而是进行后续 处理的必备手段。自动分词应以分词规范为准但是还要考虑贝体的应用环境,灵活地加 以控制。一般来说。自动分词应贝备易扩充性、可维护性和可移植性: ( 1 ) 分词单位的选取必须有利于标注、句法分析笛厉续过榭的处理: ( 2 ) 分词糟度是分词系统最重要的性能指标; 墨堕塑坌堡生塑旦垄塑塑婴窒! 壁 ( 3 ) 作为各种高层次应用的共同基础,分词系统必须有较好的通用性: ( 4 ) 由于不同的应朋对分词系统的要求不同,冈而各种信息资源、处理模块都要有较 高的独立性。 o 1 1 2自动分词中的理论问题 q 对古汉语来说不存在词的概念,因此很明显是字本位体系。当汉语演化成现代汉语 后,汉语引入了西方的词类体系,山现了词的概念。但词与词之间没有空格米分隔,这就 产起了分词的问题。汉语与印欧语种有很火的不同,英文词由字母组成,汉语词由字组成, 字的数目很大,而词又可由多个字组成,使得词的数目很大。由此可见,汉语的词和英文 的词有很大的区别。要解决汉语切分,首要解决的理论问题就是如何定义汉语中的“词”, 这个问题直接涉及到汉语词表和切分规范的定义。 什么是词,目前还没有一个统一的定义。汉语形态不发达,给汉语中的“词”下定义 是一件难事。朱德熙先生定义“词”为:最小的能够独立活动的有意义的语育成分。但所 谓“能够独立活动”有种种不同的理解缺乏确定性利可操作性,在信息处理上难以实现。 为了满足自然语言处理研究和语言: 程的需要,我国制定了信息处理州现代汉语分词规 范具体地规定了现代汉语的分词规范。规范提山了“分词单位”的概念:汉语信息 处理使用的,具有确定的语义或语法功能的基本单位分词单位不仅包括词还包括少星 结合紧密、使用稳定的词组。五字或五字以上的谚语、格言等分开后如不违背原有组合 的意义。应予切分;结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响 进一步的处理。则不予切分。惯_ 【i = | 语、有转义的词或词组、略语、儿化的分词单位、外来 语一律为分词单位。随着大规模语料库的山现,通过计算词频、词| 受、字频以及互信息 等概念可以使“词”定量化但到目前为j p ,仍来山现为广人语言学家和计算学家所接受 的关于“词”的精确定义。要从根本上解决问题,就要摆脱传统的结构主义语法的束缚, 在构词法上取得突破。 1 2 词性标注系统 词性的自动标注就是在一定的上下文和分类标准下。为文本中的每个词语标上其正确 的词性。在汉语语料初级加工中,一般要判定汉语词的语法范畴,也就是进行词性标注。 目前句法分析还不能处理未经标注的文本,因此词性标注是进行句法分析等后继层次分析 加工的一个必需环节。词性标注的正确率直接影响了句法分析的正确率。 早期对词性标注的研究。主要出于对语言本身的兴趣和教学的要求。今天,面对自然 语言计算机处理的新形势词性标注具有更深层的意义: ( 1 ) 词性标注可以为更高层次的语料加工( 例如句法分析、语义分析等) 以及自 然语言处理中的各种应用( 包括文本过滤、自动摘要或文本检索等) 提供素 材,因为更深层次上的分析加 :常常需要用到词性标注: ( 2 ) 语料库语言学的出现大大地促进了自然语言的计算机处理:与此同时。随着 自然语言处理的发展,又对语料库的建设提山了更高的要求。为了建立大规 模语料库依靠人工建立语料库费时费力,而且容易导致语料库前后不一致。 因此语料库的发展促进了词性标注系统的完善:词性标注系统的发展也促 进了语料库的发展,两者相辅相乘。相互促进 o 堡堡塑坌堑堡塑旦鲞塑塑鲨塑一堕查 1 2 1词性标注中的理论问题 要进行词性标注,首先要确立词性的分类体系,也就是要建立一个公认的,并且在实 践中基本可行的语法体系。词类问题经过长j f | 】研究,有些理论问题已经逐步接近解决,但 还有不少问题没有得到很好的解决。 和词类有关的理论问题主要有两个k 胡明扬9 7 目: ( 1 ) 划分词类的目的也就是探 讨词类和句法分析的关系; ( 2 ) 划分词类的标准。 划分词类的目的,或者说词类和句法分析的关系,是和词类问题相关的带根本性的理 论问题。语言中的词汇单位可以为了不同的目的。根据不同的标准作出各种不同的分类, 而词类不是一般的分类,划分词类的目的是为了进行句法分析,因而词类和句法分析是相 互依存不可分割的。划分词类不是为了分类而分类。而是为了进行句法分析。目前有些分 类体系只是为了寻求一种可以自圆其说的语法理论,造成兼类现象过多。因此划分词类必 须考虑句法分析的需要。 关于汉语词类的划分标准,直到现在仍存在肴较火的分歧。大致可以分为两派:一派 坚持多重标准另一派坚持单一标准。 多重标准派主张综合运用多重标准米划分词类,但是具体采用哪些标准,多重标准中 侧重哪一种标准,意见还不完全一致。有人主张从意义着手,兼顾语法功能;有入主张从 语法功能着手兼顾意义。 单一标准派主张采用单标准来划分词类。主要的一种意见认为划分词类只能采用语 法功能标准。但是。这一派在单一标准的适刚范同上也有不同意见,有人主张在划分词类 和处理兼类问题上都坚持单一的语法功能标准,有人则在划分词类时坚持单一的语法功能 标准,但是在处理兼类问题时由于遇到一些具体困难,就主张采用意义标准。 五十年代以后,特别是到了八十年代,j i 主导地位的语法体系在词类问题上采用了 一种不彻底的句法功能标准也就是在确定分类原则的时候采用句法功能标准但是在确 定单词归类的时候,由于非形态语言单词的多功能现象,担心会导致“词无定类”,因而 改用词义标准,力求定于一类。这样,语法学家就陷入了一种两难的境地,做到了“词有 定类”就“类无定职”做到了“类有定职”就“词无定类”。这一切究其原因是由于汉 语是一神没有形态的语言。怎样做到既“词有定类”又“类有定职”。对一种非形态语言 来说的确是难上加难要制订一套切实可行的词类分类体系,需要语言学家和计算语言学 家的共同努力。 总的来说。对汉语词的词类划分工作是一项艰苦细致的 :作,必须对大量的汉语语料 进行分析总结各种语言现象。词类划分工作不仅需要智慧和精力还需要耐心和细致。 为了便于计算机处理划分词类需要对语言学方面的知识和计算机方面的知识都有所了解。 1 2 2词性标注的发展 6 0 年代初w n f r a n c i s 和h k u c e r a 在美国的b r o w n 大学建立了世界上第一个根据系 统性原则而采集样本的标准语料库,这个语料库就是通常所称的b r o w n 语料库。建库的主 要目的是研究当代美国英语。7 0 年代。g r e e n e 与r u b i n 设计了一个t a g g i t 系统,用来对 b r o w n 语料库中的上百万语料进行词性标注。在这个词性标注系统巾词类标记总共8 6 种。上下文约束规则总计3 3 0 0 条,自动标注的正确率达到7 7 。 7 0 年代初,l o b 语料库由英国l a n c a s t e r 大学的g l e e c h 倡议在挪威o s l o 大学的 s j o h a n s s o n 主持完成并最后装备在b e r g e n 大学挪威人文科学计算中心它是b r o w n 语 0 堡堕塑坌竖鲨塑旦鲞笪塑婴窒! 堕 料库的姊妹库。l o b 语料库的研究人员为语料库设计了1 3 3 个标记的语法标记集。研制的 词类标注系统c l a w s ,根据带有词类标记的b r o w n 语料库通过统计分析获得一个反映 任意两个相邻标记同现频率的概率转移矩阵。根据统计信息对l o b 语料库进行词性标注, 标注的正确率一下子提高到9 7 。 而后d e r o s e 等在c l a w s 系统的基础上设计了v o l s u n g a ,改进了统计方法- 使英 语词类的自动标注趋向实用化。d e r o s e 等在v o l s u n g a 中采_ l l j 了二元语法模型( b i - g r a m ) ,并使用了动态规划算法,其算法复杂度为线性。 1 3汉语指同求解的研究 什么是指同( c o r e f e r e n c e ) 关系? h i r s t 从计算语言学的角度给山了指同的定义:指同就 是在篇章中利用某种简洁的表达方式来指称客观世界中的实体在相应的上下文中,读者 听众可以求解山其所指称的对象k h i r s t8 lm 。简单地说,指同关系就是篇章中不同表达式 问语义所指相同的关系,也可简称为指同。当两个名词短语指称同一对象时,一般先出现 的名词短语称为前驱或前r l :,后山现的称为同指表达式。例如, 昨天小王去医院。在那儿他接受7 手术。 这里。第一句中的“小王”指向可能世界中的一个实体,而第二句中的“他”则与“小 王”语义所指相同,即指向同一个实体,冈而这两个名词短语间存在着指同关系“小王” 是“他”的先行语 根据指同表达式与初始表达式间的差异程度可以将汉语中的指同表达式分为以下几 类吕叔湘9 2 目。 ( 1 ) 同形表达式 同形表达式是指重复上文某一表达式来表示指同。同形表达式最常见于用专有名词或 泛指一类人或物的普通名词或名词短语表示指同的情形。例如,下面的句子中两个“王维” 具有指同关系。 - 这里还流传着不少i 王镧t 的故事t 其中就璃t 王维1l 慧b 识l 韩干1 l 一事。 ( 2 ) 局部同形表达式 局部同形表达式是用上文某一个表达式的局部来表示指同。从形式结构上说,局部与 原形之间的关系主要是中心词与整个结构的关系。大部分的局部指同表达式都是将原形中 的部分或全部修饰成分省略得米的。规定局部同刑表达式中不带有指示词,而将带有指示 词的局部同形表达式归入到下一类定指短语中去。 l 中国国家男子篮球跌) l 二十八日晚在法国痰布霭以丸十一比a 十四再次战牲f 南鞭拉夫 卢布奄雅郡u 。i 中国雯竭l 是在参加7 法国国际黛球邀请赛2 后直邀弱法国其它城京 访阚的。i 中国队】1 将于五月一a 前往波兰参加另一次国际链球邀请赛 ( 3 ) 异形表达式 a 定指短语 定指短语指短语前面带有指示词的名词短语由于带有指示词,冈而这类表达式 具有较为明显的指同作用。这类表达式与初始表达式的关系可能是局部同形,也可能 是统称词指同。如定指短语“这类报刊”与“一些内容不健康的报刊”局部同形,而 定指短语“这种家用l l = l 器”与“雪花电冰箱”则是统称词指同。 4 o 堡里塑坌堑鎏塑旦鉴些些婴壅塑查 b 指代词 指代词被经常用来表示指同关系。在有关指同照应的文献中讨论最多的是人称代 词“他( 们) 她( 们) ”“它( 们) ”,此外还包括指示代词“这”“那”,以及“是彼” “此”“该”( 书面语) i n “前者后者”“对方”等,时间指示代词“这时( 候) ”“那时 ( 候) ”,地点指示代词“这里j l 那里j l ”等,还有表示性状和程度的指示代词“这 样,么”“那样,么”等。以下是一个简单的例子: 然两。【红- - 字国际委员会宦员1 l 说【 i 自赴l 还币能马上证实这戳报道。 c 零形式指代词或缺省 在现代汉语里。上文已提到过的对象在定的条件下可以通过省略不提来表示指 同。这种形式一般称之为零形式指代词( z e r op r o n o u n ) 或缺省。因为它可以看成是补出 的一个代词。但没有具体的表现形式。壤常见的是动词支配成分的省略,如宾语的省 略。如: i 桶鞋湖区1 戬下简称渤区) 位f 湖南雀的北部n 1 土地面积3 1 6 乃平_ 方公里。 n | 耕地1 3 3 2 亩 其中后面两个小句均省略了“洞庭湖区”。 d 同义词 这里所说的同义词是指在独立于语境的条件下,在同一语义结构层次的两个或几 个被认为有相同语义内涵的词语。用同义词表示指同在篇章中并不多见。以下例子中。 “露营地”和“宿营地”同义互指。 公园内翔定缀多t 霸营地3l ,编号入座。i 捂营地al 虽在崇山密林中但是野餐桌凳、 炉- 7 、卫生设备、白来承一良俱垒。 1 3 1 内擂和外指 在韩礼德创立的系统功能语法中,指同作为语篇衔接( c o h e s i o n ) 的四种手段之一。根据 前件是否可在上下文找到又分为外指和内指,如果照应词的所指对象存在于语篇外的现实 或想象中的世界称为外指。内指是指在语篇上下文中可找到先行语的指同现象 外指通过参照和语段相关的情景,用某一词语直接指称某一实体。考虑下面的情景: 某公司人事经理对应聘者说:“我们决定录_ l 】他和她。”( 说话时川手从一个人指到另一 个人) 在上例中尽管只有短短的一句话,但通过现场的情景,听众完全可以求解山人称代 词“他”和“她”所指称的对象。 内指则可以从篇章内部找到参照对象。它又分为回指( a n a p h o r a ) 和一f :f ( c a t a p h o r a ) 回 指中,先行语在照应语前出现:下指则相反。先行语在照应语之后出现。同指现象又可分 为句内回指和句间回指。旬内圊指是两个指同的表达式山现在同一句子中,而句间回指则 是指同的两个表达式山现在不同句子中。例如: 小张去7 美国,j 、李m 去7 那里。 句中“那里”和“美国”指称相同,属于内指中的同指。下指的现象在汉语中山现较少 堡堕型坌堡生! i 旦塞型竺型塑堕堡 l 心 “ | 一 | 外指 内指 : | b , 图1 i指同的两种类型 f i g u r e1 1 t w o t y p e so f c o r e f e r e n c e 1 3 2指同求解在篇章处理中的作用及其发展 指同求解对于面向篇章的应用来说是非常重要的,是篇章分析中的一个非常基本和重 要的功能指同求解对于篇章结构分析和白动摘要都有很大的辅助作用。例如,k 张益民 9 8 5 在中文文摘中采用了基于指同求解的概念频率统计。k 张茄民9 8 目在指同求解的基础 上。对概念( 其表现形式是指同求解中求得的指同等价类) 的每次出现及其相应的语法特征 给予不同的分数,而不是象一般的频率统计那样均给予同样的分数每个概念最后的分数 就是该概念的权重。这种概念频率统计方法类似于在某些针对英语的指同求解系统 ( k e n n e d y9 6 日中采用的方法。 此外指同求解在概念标注中也有一定的作用。在语篇中,利用代词、定指短语等来 表示同一概念使用得非常频繁。如果不利用上下文信息来进行指同求解,概念标注很容易 产生错误例如文中出现的“这种盘”既可用米同指前面提到的“软盘”,义可用来回指 前面提到的“硬盘”,利用指同求解可以有效地处理这些闯题。 总的说来。在篇章处理中,指同求解是一个非常重要的步骤。 w i n o g r a d 在s h r d l u 系统中最早引入了指同求解功能。其方法是寻找与当前回指 表达式距离最近且在人称、数、性方面一致的名词性短语,将其作为先行语。 g r o s z 在其博士论文期间实现了任务对话理解系统( t a s kd i a l o g u eu n d e r s t a n d i n gs y s t e m ) ( g r o s z7 7 孔该系统可对部分非代词性名词短语进行指同求解。但对代词及某些定指性名 词短语则不作处理。在g r o s z :【作的基础上,s i d n e r 提出了焦点理论( f o c u s i n gt h e o r y ) 用于 指同求解 ( s i d n e r7 9 日。s i d n e r 认为焦点是一个篇章会话所谈论的主题人们_ l i 各种方式来 指向焦点,指代就是其中最常用的方式。焦点一个过程。焦点的发展变化是由一些规律来 决定。s i d n e r 提山了一系列的算法川丁描述的j l j = 点发展变化,井将其j 目于指同求解。 在焦点理论的基础上。g r o s z 等人提山了定心理论( c e n t e r i n gt h e o r y ) ( g r o s z9 5 目定 心理论是最新的也是最有影响的指同求解理论。与焦点理论相比,该理论更为简单。也更 为形式化。它主要利用篇章的局部一致性来进行指同求解。定心理论最早的算法实现是由 b r e n n a n 、f r i e d m a n 和p o l l a r d 三人于1 9 8 7 年提出的,也称为b f p 算法 ( b r e n n a n8 7 卫 l a p p i n 和l e a s s 提出了一个用于代词指同求解的算法l a p p i n9 4 ) 7 该算法利用语法分 析结果为其输入,没有利用任何语义信息和世界知识,正确率达到8 6 。不过该算法要求 在输入完全正确的基础上进行求解k e n n e d y 平b o g u r a e v 在l a p p i n 的算法上作了一些改 进提山了一个新的算法r k e n n e d y9 6 3 。目前j i 三确率较高的句法分析器仍然是很难实现 6 o 坚里塑坌堡些塑旦垄堡塑婴壅一! 堕 的。从这点考虑,该算法的输入是词性标注的结果,而非句法分析结果。该算法被称为无 需句法分析器的指同求解方法( c o r e f e r e n c er e s o l u t i o nw i t h o u tap a r s e r ) 。但实际上该算法对 输入作了适当的处理以弥补缺少的句法信息,主要是利用有限自动机和若干启发式规则来 识别其中的名词短语和大致的句法成分。该算法仍能达到7 5 的正确率。 在汉语的指同求解方面i r c h e n9 3 目介蜊了一种基于g b 理论的方法,其中也利用了 一些针对汉语特点的规则,如汉语句子中反身代词的求解规则。作者州p r o l o g 实现了一个 原型系统,其中针对不同类型的指同实现了三个算法。k 马彦华9 8 目年郭志立9 8 目也对 汉语的指同求解进行了研究。总体而言,汉语篇章中指同求解算法的研究仍然十分薄弱, 急需加强这方面的研究,使指同求解算法尽早从面向理论转向面向应用和真实文本。 1 4 切分标注和指同求解的关系 切分标注是在词法层面上进行研究,指同求解是在语义层面上进行研究。两者之间的 研究似乎缺少联系。理解语言的逻辑语义不仅是计算机理解白然语言的根本所在也是计 算语言学中带有根本性的理论基础和应用技术的关键。切分标注是中文信息处理的起点, 语义计算则是中文信息处理的一个终点。从总体上把握,不能为了切分标注而切分标注 而应尽量考虑方便后继层面上的加工分析。因此,本文在切分标注底层研究的基础上对 汉语指同求解这样的高层进行了研究,白顶向下地对切分标注提出要求使得上下兼顾协 调一致。 7 。 坚翌塑坌堡生塑旦垄鳖塑婴塑兰塑! ! 塑坚堕旦塑塑! 蔓量堕 第二章多输出的汉语自动切分系统 计算语言学的研究方法一般可以分为两类方法:一类是基于符号的方法;另一类是基 于语料库的方法。用于自然语言处理的符号处理系统通常根据套规| i ! i j ,将白然语言理解 为符号结构该结构的意义可以从结构中符号的意义推导出来。统计学方法是计算语言 学中基于语料库的一个重要方法。统计学方法为要解决的问题建立统计模型,根据训练数 据( 语料库) 来估计统计模型中的参数。它被广泛应用于语法分析、歧义化解、机器翻译、 语音识别等应用。 本章提出了一种多输出的汉语自动切分系统,该系统结合了上面的两类方法。从中文 信息处理的接体考虑,本系统的切分结果中保留了部分分词歧义。但多输出并不代表全输 出并非在分词阶段不对歧义进行处理,而是在排除大部分歧义的基础上。保留少数在分 词阶段无法确定的歧义留待厉继层丽上的分析加一l :。本章首尤介封 了自动分词中的一些基 本方法,然后提出了一种多输出的切分模型井详尽地介纠,在此模型上实现的一个原型系 统。 2 1汉语分词的基本方法 汉语自动分词是中文信息处理的基本环节。迄今为i e ,学者们已提山了正向最大匹配、 逆向最大匹配、词频统计等方法,不同的分词方法模拟了人类分词行为的不同侧面。服务 于不同用途的中文信息处理系统。从系统论的观点来看,多种方案在一个系统中的有机结 合可以优势互补,使整体效果达到最佳。例如,正向最大匹配和逆向最大匹配相结合的双 向擐大匹配方法可以检测到交集型歧义。 根据是否使用分词词典,可以将分词方法分为基于词典的机械分词方法和无词典的自 动分词方法。机械匹配分词方法对常用词切分速度快、精度高。但当待处理语料中含有大 量的人名、地名和新词新语等未登录词时可以根据汉字串在上下文和背景库中出现的频 率分别抽取特征词和常用词,即采用无词典自动分词算法。该算法不借助词典。因而对常 用词的切分精度较低,并且串频统计的开销过大,分词速度较慢。 2 1 1机械分词方法 机械分词方法指的是主要依据词典信息,按照一定的策略将汉字字串与词典中的词逐 一匹配:如果匹配成功,就加以切分。按照扫描方向的不同,可以分为正向匹配和逆向匹 配;按照不同长度词的优先级别,可以分为最大匹配和最小匹配。 ( 1 ) 最火正向匹配方法 用m l 表示最大词长,p c 表示当前处理的字符位簧,p s 表示当前扫描位置。在分词初 始化阶段,p c 和p s 均指向字符串的起始佗到。按麒从左至右的方向首先从字符串中取 出长度为m l 的子串检索词典,p s 后移m l 个指针。如果词典中存在这个词则切分出这个 子串,将指针p c 后移m l 个长度:否则。将子串长度减一,p s 相应前移一个位置,再和词 。 坚堕型坌堡鲨塑旦鲞竺塑型壅 兰塑坐堕坚堕皇塑型! ! ! 堕 典进行匹配。如果跃度为2 的子串仍不能在词典中找到相应的匹配。则取当前p c 所指汉字 为词,p c 和p s 后移一个汉字继续进行匹配。 ( 2 ) 最小正向匹配方法 按照从左至右的方法,首先提取长度为2 的子串和词典进行匹配,如果成功则切分山 这个子串,指针屙移。否则,将子串睦度加一厅雨与词典进行匹配。如果长度为虬的子串 仍不能匹配成功,就取当前汉字为词。指针后移,继续进行匹配。 例如对“幼:疗生命定勃矿用上述两种方法进行切分时,得到的结果分别为: 最大正向匹配方法 :研究生命起源 最小正向匹配方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论