




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)基于知网的汉语隐喻自动处理.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
兰州大学项士学位论文基于知网的汉语隐喻自动处理 摘要 汉语隐喻处理是自然语言处理的一个重要研究分支。目前人们越来越清楚的认识到隐喻在思维及语言中 所处的中心地位,从计算语言学和自然语言处理的角度来考虑,汉语隐喻自动处理问题在某种程度上已经成 为基于篇章处理的自动文摘、机器翻译、信息检索等的瓶颈。 本文在分析现有国内外隐喻自动处理成果的基础上,从语义分析的角度出发构建了一个较为完整的汉语 隐喻自动处理体系,并给出了自动处理模型。该体系将汉语隐喻的自动处理分为预处理,判别,理解三个阶 段,论文对这三个阶段进行了较为深入的研究,所做的具体工作和取得的成果主要体现在以下几个方面 首先,本文在汉语隐喻处理领域首次提出了比较完整的隐喻自动处理的模型,并基于知网( n o w n e t ) 构造 了一个汉语隐喻自动处理系统该系统先对待处理语句进行分词、句法分析等预处理,然后判断该语句是否 为隐喻句,并提取隐喻句的本喻体词,最后对隐喻语句本喻体词分别构建微本体并利用两个微本体间的语义 映射进行汉语隐喻句自动理解。 其次,基于图论的思想对汉语语句建模并提出了一种汉语隐喻旬判别方法和分类体系该方法首先按照 本体描述语言的建模方法分析了汉语语句的成分和结构,然后对汉语语句进行语义建模( 即构建汉语语句语 义网) ,再通过隐喻弧判断语句是否为隐喻句,该方法可以判别出汉语隐喻语句并识别出隐喻句的类型及其本 喻体,从而为后续的隐喻处理打下基础。 最后,为了使h o w n e t 能够应用于汉语隐喻理解,对h o w n e t 进行了两个方面进行了优化改进,一是在语 义计算公式中采用多义原处理,从而提高了基于h o w n e t 的语义计算的精度;另一个是改进了h o w n e t 的知识 索引结构,提高了知网知识搜索的效率。以此为基础设计了用语义计算的方法构建隐喻句中本喻体的微本体 的流程,并在此基础上通过本喻体微本体间的语义映射进行汉语隐喻句的自动理解。 关键词:汉语隐喻语义计算微本体语义映射知网 兰州走擘硕士擘值论文基于知网的汉语晦赍自动处理 a b s t r a c t i nr e c e n ty e a r s t h er e s e a r c ho f c h i n e s em e t a p h o ra f o c u s e d jo nm o r ea n dm o r e , t h er e s e a r c h e r s a 坞d i s t i n c t l yc o n v i n c e dt h a tm e t a p h o ri st h ec e n t r a lo ft h o u g h ta n dl a n g u a g e b a s e do nt h i s i f c o n s i d e r e do nt h ep o m to fv i e wo fc o m p u t a t i o n a ll i n g u i s t i c sa n dn a t u r a ll a n g u a g ep r o c e s s i n g , t h e p r o c e s s i n go f m e t a p h o ri ss t i l li m p o r t a n t , b c c a u 辩t h ea u t o m a t i ca b s t r a c t i n gf o rd o c u m e n t sa n d m a c h i n e t r a n s l a t i o n 黜b a s e do nm e t a p h o rc o m p r e h e n s i o n t h er e s e a r c ho fc h i n e s ec o m p u t a t i o n a lm e t a p h o ri s b e g i n n i n gr e c e n t l y , a n dt h er e s e a r c ho f c h i n e s em e t a p h o rb a s e d o ns e m a n t i ci sah o ts p o tc u r r e n t l y d i | r i n gal o to f r e s e a r c h e s0 nm e t h o d sf o rm e t a p h o rp r o c e s s i n g ,b ya n a l y z i n gt h ec h a r a c t e r i s t i co f c h i n e s e w ep r o p o s et h em e t h o df o rc h i n e s em e t a p h o rc o m p r e h e n s i o na u t o m a t i c l y t h em a i nw o r kj s s h o w e di nt h ef o l l o w i n g 1 f i r s t l y , w ep r o p o s et h em o d e lo f c h i n e 船m e t a p h o rp r o c e s s i n g b a s e do ns e m a n t i c 锄a l 弘血珞 s e c o n d l y , w ep r e s e n tam e t h o df o rm e t a p h o r c o 毋1 i 五n ga u t o m a t i c l yb a s e do ng r a p hm o d e l i n g a n dt h em e t h o dc a n r c c o g n i z et h ei n t e g r a t e ds t r u c t u r eo f t h em e t a p h o rs e n t e n c e f i n a u y , w ed os o m ei m p r o v e m e n to nt h es y n t a xa n ds e m a n t i cb a s o - - h o w n e ts ot h a tw ec a ne a s i l y s e a r c ha n de a s i l yc o m p u t es e m a n t i c0 ni t w ep r o p o s et h ec o n c e p to fm i c r o - o n t o l o g y ( m o ) a n dt h e m e t h o do fd e s i g n i n gm ob a s e do ns e m a n t i cc o m p u t i n ga n dc l u s t e r i n g ,a n dt h e nw ei m p l e m e n tt h e c h i n e s em e t a p h o rc o m p r e h e n s i o nb ys e m a n t i cm a p p i n go f m o k e y w o r d s :c h i n e s em e t a p h o r s e m a n t i cc o m p u t i n gm i r e oo n t o l o g ys e m a n t i cm a p p i n g h o w n e t n 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成 果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均己明确注明出处。 除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成 果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名: 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人 完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或 机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇 编本学位论文本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果 时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 兰州大学硕士擘位论文 基于知网的汉语穗喻自动处理 1 1 研究背景 第一章绪论 目前,针对汉语的自然语言处理是人工智能研究领域的一个热点而作为自然语言处理一个重要分 支的汉语隐喻处理研究最近几年也逐渐引起重视。人们越来越清楚地认识到隐喻在思维及语言中所处的 中心地位,即作为“异常”语言用法的隐喻现象是语言中的普遍情况,而非隐喻使用才是例外的“异常” 隐喻处理问题若得不到很好的解决,它将成为制约自然语言处理的瓶颈。 当前的篇章处理已经取得了较大的成就l l z j ,但是,在准确性上仍然存在着提升的空间,因为自动 文摘、机器翻译、信息检索等技术的准确性很大程度上依赖于篇章理解的准确度句子作为篇章的重要 构成元素,对于它的处理是篇章处理的关键,而对于常规的句型处理,目前的篇章处理技术已经基本上 可以满足需求,但对篇章中的一些较为特殊的句子的理解,机器处理还存在着较大的问题,隐喻句的处 理就属于这一类,因此本文着重研究隐喻句的自动处理。 隐喻自动处理也就是隐喻的计算研究,是在语言学隐喻理解的基础上,借助计算机建立模型实现计 算机对隐喻语句的自动处理,这对于篇章自动处理及以篇章自动处理为基础的自动文摘,机器翻译、信 息检索是具有重大意义的工作 国外有关隐喻自动的处理研究自2 0 世纪7 0 年代以来已经取得了初步成就隐喻的自动处理研究目 前主要有两个方面的成果l ,叫;一方面是模型的构架研究l o j ,自2 0 世纪7 0 年代以来,出现了一些隐喻语 言理解的各种初步模型【1 2 ,如基于类比语义的方法1 1 3 1 ,包括优选语义方法1 1 4 1 、词汇语义方法【1 5 1 、类比 推理方法【1 日;基于连接主义的方法l l - 州;基于向量空间的方法鲫;通过潜在语义分析( l s a ,l a t e n t s e m a n t i ca n a l y s i s ) b 1 j 来计算词语之间的相关程度的方法渊等隐喻自动处理研究的另一方面是关于 隐喻语言的形式化表示和隐喻类比逻辑系统的构建。典型的有关于隐喻的语法、语义的形式化描述,隐 喻类比逻辑设计脚1 比较系统地建立了一个隐喻类比逻辑系统,它采用扩展的可能世界语义学来处理隐 喻的“字面意义”和“表述意义”,进而提出了所谓隐喻的结构理论( 洲,s t r u c t u r a lt h e o r yo f m e t a p h o r ) 1 酗1 ,针对结构性比较明显的隐喻,建立一套相对完整的类比逻辑释义方法 在国内学术界,还鲜有开展汉语隐喻自动处理模型构建这方面研究的。在目前汉语隐喻研究中:浙 江大学周昌乐教授 e - s j 针对汉语中普遍存在隐畸的现象,对汉语隐喻形式化的合理性及实用性进行了分 析,但是文章对于究竟如何进行隐喻语句的计算机自动理解,并没由提出解决办法;张威幽瑚1 在其博 士论文中从解决逻辑全知问题和隐喻的语义真值角度,提出了一种汉语隐喻逻辑系统。它参考了局部框 架理论,采用池空间概念来替代可能世界,引入理解算子“u p ”关系符“ ”以及格式塔规则,虽然该 系统为汉语隐喻旬的释义提供了很好的支持,但仅仅采用各种属性来组成池空间是不够的,其原因在于, 对于一个本体结构来说,属性只是描述概念特征的一个方面,还应该考虑概念与概念之间的各种关系 兰州大学项士擘位论文基于知同的汉语隐喻自动处理 可以看出,对隐喻的自动处理,在国外开展的比国内要好,且国外的隐喻基本上是从认知角度研究 隐喻,上述的国外隐喻处理各种方法都从某个角度取得了一些成果;但由于汉语的特点使得国外已有的 隐喻处理成果很难直接应用到汉语隐喻处理上来;另一方面,国内对汉语隐喻的研究基本上处于起步阶 段:有从隐喻形式化方面做工作的 7 1 。有从逻辑角度谈隐喻理解的鲫,但也都仅仅是从隐喻处理的一个 角度解决了一些问题,取得了些成果,为汉语隐喻的自动处理打下了良好的开端但汉语隐喻的自动 处理仍然任重道远 综合上述的分析,可以看出当前汉语隐喻自动处理存在着如下问题: 首先,汉语隐喻的研究范畴没有一个清晰的界定汉语的特点是长久以来把隐喻当作比喻的一种, 是从修辞方法来看隐喻的,但显然,我们要研究的汉语隐喻的范畴是更广意义上的隐喻,因此,要研究 汉语隐喻,其范畴界定问题是最基础性的问题; 其次,目前尚没有一个针对汉语隐喻自动处理的理论模型,从整体上对隐喻处理的框架进行定义 当前的汉语隐喻研究包括国外的隐喻研究都是从某个角度进行,或者是针对某类特殊的隐喻进行的,但 隐喻的自动处理终归需要一个系统的流程作为支撑,因此。针对汉语隐喻自动处理构建一个系统模型以 规范汉语隐喻处理的整体流程也是当务之急: 再次,当前的汉语隐喻自动处理研究没有充分利用已有的汉语语言学的成果,比如关于隐喻的分类 体系,语言学中已经有较明确的定义,当前很少有文献从如何形式化的利用现有汉语隐喻成果的角度进 行研究f 最后,对汉语隐喻处理问题中的技术应用缺乏创新,如何将已有的理论技术应用到汉语隐喻自动处 理中来也是急需解决的问题。 1 2 主要研究内容及成果 本文在分析已有自然语言理解及隐喻处理的研究的基础上从语义分析的角度提出了一套处理汉语 隐喻的方法。在此过程中,将基于图论0 1 1 构建的语义网络、语义场d 7 - 6 0 l 、本体“卵及其语义映射 6 3 6 5 j 等理论技术引入到汉语隐喻处理体系中,提出了完整的汉语隐喻自动处理理论模型,从理论层面上给出 了解决汉语隐喻自动处理问题的方法,并对其中部分环节进行了较为深入的研究和分析 具体来讲,针对汉语隐喻自动处理研究中的模型构建问题,构造了汉语隐喻自动处理系统c m p s ( c h i n e s em e t a p h o r p r o c e s s i n gs y s t e m ) ,主要包括对汉语语句的预处理,隐喻语句的自动判别、自动 理解三部分。本文的具体研究及成果主要有以下几个方面。 ( 1 ) 构建了一个基于语义分析的汉语隐喻自动处理模型,该模型提出了将汉语隐喻自动处理分为预 处理,隐喻句识别和理解三个过程的思想具体做法是先对待处理的汉语语句进行预处理,包括分词和 句法分析,在此基础上通过图论方法构建句子的语义网络来判别一个语句是否为隐喻句,随后对隐喻旬 进行自动理解 ( 2 ) 将图论和本体描述语言引入该汉语隐喻处理系统中的汉语语句形式化建模中。基于图论思想对 汉语语句建模并提出了一种汉语隐喻判别方法。该方法首先按照本体描述语言的方法分析了汉语语句的 2 兰州大学硕士学位论文基于知罔的汉语隐喻自动处理 成分和结构,然后将图论引入到汉语语句的语义建模过程中定义了语义网络的节点和语义弧,最终构 建出了汉语语句的语义网络( s n ) ,然后分析了基于语义网络的汉语隐喻分类体系。该方法较好的解决 了汉语隐喻句及其类型判别和本喻体识别问题,从而为后续的隐喻处理作好准备。 ( 3 ) 由于知网是针对汉语的知识库,且基于它可以进行语义计算( 语义相似度、相关度) 和知识搜 索,因此我们将知网引入汉语隐喻处理系统中作为知识库支撑,并通过改进基于知网的语义计算和知识 搜索方法,使得隐喻理解处理时需要的知识可以很方便的在其中搜索,并使得针对知网进行的语义计算 的准确度提高,从而较好的解决了隐喻句判别和微本体的构建等隐喻处理系统中的问题。 ( 4 ) 由于本体的语义映射是在两个域之间进行的,这和隐喻的本喻体间的映射有类似之处,为此我 们将本体和本体语义映射理论技术引入到汉语隐喻句自动理解过程中,再结合语义场的理论提出了微本 体的概念,提出了用语义计算( 语义相似度和语义相关度) 的方法构建隐喻旬的本喻体词微本体流程, 并在此基础上分别构建了隐喻句本喻体的微本体,并最终通过本喻体微本体语义映射完成了汉语隐喻句 的自动理解的分析,较好的解决了隐喻句的自动理解缺乏理论支撑的问题。 1 3 本文的组织 本文组织结构如下:首先介绍了当前汉语隐喻处理的概况和国内外隐喻处理的一些成果,接下来在 第二章中分析了本文汉语隐喻处理中用到的一些常用理论和技术在第三章中,针对汉语隐喻理解的特 点构建了汉语隐喻自动处理系统c m p s ,并分析了c m p s 的体系结构及各子系统随后,在第四章中。 介绍了基于图论建模的汉语隐喻句判别方法。第五章中,对c m p s 系统构架中的隐喻自动理解部分,提 出了微本体的概念、构建微本体的具体流程并对基于微本体的语义映射进行了详细的研究。在第六章中 对本文进行了总结,并对下一步的工作进行了展望 3 兰州大学硕士学位论文基于知网的汉语隐喻自动处理 第二章相关理论与技术 自然语言形式化处理包括语法分析和语义分析两种方式。国内外传统的自然语言处理方法多偏重于 语法分析,但近年来,利用语义分析进行自然语言处理日益受到国内外研究学者的重视。本文汉语隐喻 自动处理也是基于语义分析的,本章先对隐喻的概念和国内外的隐喻处理方法作了介绍,然后介绍了基 于语义分析构建汉语隐喻自动处理主要用到的相关理论与技术,这些相关理论与技术主要包括:知网 ( h o - m e t ) 。句法分析理论,本体论、本体语义映射等。 2 1 隐喻的概念 自上世纪7 0 年代起,西方掀起了隐喻研究的热潮【1 刎l ,学者们把隐喻从单纯的修辞学纳入到认知语 言学的范畴隐喻不仅仅是一种语言现象,而是人的一种思维方式的说法引起了人们的广泛认同,同时 专家们也进行了一些隐喻自动处理的研究与国外的隐喻研究相比较而言,汉语的隐喻处理研究显得有 些薄弱 总结国内外关于隐喻的定义,有如下一些观点刚。 ( 1 ) 隐喻,是一种修辞手段,是一个能取得特殊效果的单词或者词组,使它不再具有其通常的含 义或者字面意义。在隐喻的使用中,没有用到功能词汇,对某一事物的描述是通过一个与之有可比性的 事物的描述来实现的。 ( 2 ) 隐喻。是用菜种名称或描写性的词汇去描写入或物的譬喻,但不能用这种名称或描写性词汇 的字面意义去说明人或事物,因此只能暗示一种类比的意思 ( 3 ) 隐喻,比喻的一种,不用“如”、。似”、“像”等比喻词,而用“是”、“就是”、。成为”等词, 把某事物比拟成和它有相似关系的另一种事物如“荷叶成了一把撑开的小伞” ( 4 ) 戴维森在隐喻意味着什么一文中提出“隐喻的含义无非就是其所涉及的那些语词的最 严格的字面上的解释” ( 5 ) 莱柯夫和约翰森两人合著的( m e t a p h o r sw el i v eb y 嘲中这样界定隐喻的本质:通过另一 件事情来理解、经验某事,例如遥过战争、战斗来理解、经验辩论。谈到一场辩论,我们会有如下说法: 攻击某个薄弱环节、击中要害、摧毁了他的论点,采用了某种战略、赢得或输掉了一场辩论,等等 由此可见,虽然上述观点对隐喻的定义和侧重点不完全一致,但不管在英语还是汉语中有一点是共 同的,那就是隐喻主要体现的是一种相关和可比关系,而总结上述对隐喻界定的观点,主要有两种认识 思路:一种是将隐喻作为修辞现象看待,另一种是将隐喻作为一种认知现象看待。分别介绍如下: ( 1 ) 隐喻作为一种修辞现象 亚里士多德认为隐喻是通过把一个事物的词语给予另一个事物而构成的表达方式。提出了著名的 “对比论”p i 不过他的对比论和后来的“替换论”都认为就其结构和形式来看隐喻是正常语言的一种 4 兰州大擘硕士擘往论文基于知网的汉语隐喻自动处理 偏离,隐喻的功能只是一种修辞作用。这种语义偏离的思想对后来的优选中断理论、修正语义学理论产 生了深远的影响。 2 0 世纪3 0 年代,r i c h a r d “互动论”1 “5 3 1 指出隐喻是一种新意义的创新过程,是两个主词的词义相互 作用的结果。突破了把隐喻仅仅看作一种词汇层次的修辞现象的局限,后来b l k 发展和完善了“互动 论”他们把隐喻作为一种语义现象,放到句子层面考察的方法为认知语言学研究提供了启示 和亚里士多德的观点一致,中国古代也把隐喻看作是语言的一种修饰。先秦诸子的作品大量运用比 喻来说明事理。各种观点的阐述都离不开比喻,也提出了很多精当的描述。不过中国学者一直注重在传统 修辞学的框架下丰富和完善隐喻类别近年来,随着西方语言学理论方法的引入,中国的学者才开始从认 知角度来分析汉语的隐喻现象 4 1 ( 2 ) 隐喻作为一种认知现象 2 0 世界8 睥代,莱柯夫和约翰森吸收了前人的成果,发表了( m e t a p h o r sw el i v eb y p l 一书,标志 着认知隐喻研究的全面开始他考察了大量英语语料。发现许多英文表达式都来自基本的隐喻,他称基本 隐喻为“隐喻概念”,例如:时间是金钱( t i m ei sm o n e y ) ,争论是战争( a r g u m e n ti sw a r ) ,生命是旅程 ( l i f ei saj o u r n e y ) 。这些隐喻概念可以衍生出多种隐喻表达关于认知隐喻主要有以下说法: 纽马克认为,隐喻是指用一种事物来描述另一种事物的任何比喻性的表达法,。它可以是一个单词、 一组搭配、一条习语,一个句子、一则寓言和段完整的虚构的话语”。斯纳尔汉比则不认同纽马克关 于“隐喻可以是一个单词”的说法。她认为,“隐喻是一种话语”,“是具有三种特性( 物体、意象、意 义) 的综合体,是相同与差异的完整的统一体” 拉考夫和约翰逊对隐喻下的定义是:“隐喻实质上是通过另一类事物来理解和体验某一类事物”研。 他们认为。“隐喻在人们的日常生活中无处不在,它不仅仅是语言,而且表现于思想和行为之中”。他们 还认为,隐喻是一定的文化环境的产物,体现了人们的思想观念,也反映了社会的文化价值观。 正是由于隐喻是集语言形式、社会文化价值观及人类的思维方式于一体的特殊的表达形式,其处理 过程就相当复杂 2 2 现有隐喻自动处理方法分析 本小节分析了f 1 2 0 世纪7 睥代以来出现的一些隐喻自动理解的模型,并通过分析每种模型的优缺点 给出了这些模型对于本文研究的汉语隐喻自动处理的一些启示。 2 2 1 隐喻自动处理方法 自2 0 世纪7 睥代以来出现的一系列隐喻自动处理的方法嘲,如基于优先语义的方法,包括优先语义 方法、词汇语义方法;基于知识表示的方法,包括隐喻突显理论、基于实例的模型和人工神经网络模型; 基于类比推理、逻辑推理的方法,包括隐喻的结构理论( s 耵) 和隐喻逻辑理论。随着语料库语言学的发 展,利用统计方法来处理语言信息得到了越来越多的关注,除t k i n t s e h 利用潜在语义分析方法从语料 5 兰州大学硕士学位论文 基于知网的汉语臆喻自动处理 库中挖掘语义信息外,m a s o n 给出了一种基于语料库的隐喻句提取引擎c o r m e t 下面分别详细介绍如下: ( 1 ) 基于优先语义的方法 基于优先语义的方法l l q 认为理解隐喻语言的方法要不同于理解字面语言的方法,而不强调隐喻知 识在语言理解中的运用将输入的语句一律看作为一般的直陈旬进行理解,只有在字面意义获取出现不 一致( 即选择限制冲突) 时,才作为隐喻来处理 在优先语义模型上有一个“隐喻识别”模块,通过语义限制的异常来触发对隐喻的分析。此外,还 有一个带有情景知识结构的辅助解释机制。情景知识采用伪文本表示一旦一个语义优先异常被触发, 隐喻解释系统就从伪文本中选择一个合适的语义框架,并把异常的语义框架结构投影过去。伪文本是一 种类似于谓词格式的实体知识,比如实体“汽车”,有。非生命体”、“消耗汽油”、“能行驶”、“可 载客”、。载货”、。行驶速度”等信息对于隐喻旬“m yc a rd r i n k sg a s o l i n e ”,由于动词d r i n k 的语义优先公式为( ( 堋is o a j ) ( ( ( f l o w s t u f f ) o b j e ) ( 1 1 r ec a u s e ) ) ) ,m p d r i n k 的施事者应是生命体, 而c a r 是非生命体,从而触发一个语义优先异常,隐喻解释系统从汽车的伪文本里选择一个合适的语义 框架来替代,即“消耗” 这种方法认为隐喻语言的理解可以通过使用所涉及概念的泛化知识来理解,而不需要具体词义。但 是,这就要求首先要通过判断,辨别其是否偏离了已知字面解释的语义,从而识别出隐喻句的存在,也 就是要有个识别隐喻句的过程。这说明隐喻的解释被看作为一种认知过程,需要上下文、世界知识以及 类比推理技术,符合认知语言学的观点。然而,基于优先语义学的方法受限于所构造的本体( o n t o l o g y ) , 也依赖于手工构造的字面意义选择优先,因此在构造规模和一致性上难以保障 ( 2 ) 基于知识表示的方法 这里重点介绍w e i n e r 的语义网络方法i 堋此方法从突显性、非对称性、不一致性、夸张性、不可 言表性、原型性以及取值范围等方面来分析隐喻,提出了一种基于语义网络的隐喻理解方法 隐喻通常都是非对称的,形如“ai sab ”的隐喻,可以理解为a 具有b 的某些显著特征,即b 的某 些特征在a 中得到突显,这些特征对于a 来说一般会较b 要弱一些,而通过隐喻使得这些特征得到强调。 实际上,突显和消隐是隐喻思维机制的两个方面。忽略差异性,突显有选择的相似性,这符合隐喻机制 的“同从异出”原则。喻体的有选择相似特性随从本体刻画,而喻体的差异性则剔除出本体刻画。原型 性是指隐喻的喻体概念通常是某个概念领域的具体原型,比如“小玲的脸颊像只苹果”在这里,喻体 。苹果”的原型应该是“新鲜的、圆形的、红的苹果”,而不是“干瘪的、绿色的酸苹果”取值范围 是指隐喻解释需要有关喻体特征谓词的取值范围。这些信息有助于识别隐喻句,比如“他的手像冰一样”, 冰的温度明显超出了手的温度属性,因而判定该旬为隐喻旬 w e i n e r 认为隐喻理解中隐含着某种概念表示,他选择用k l - o n e 作为知识表示语言i ( l - o n e 采用层次 结构来表示概念体系,允许上层的概念属性可以被下层具体概念继承同时,把概念表示为结构化的对 象,并能够描述概念之间的关系。利用k l - o n e 的层次结构可以方便地处理概念之间的属性关系和类属关 系但对于处理隐喻的原型性还存在不足,这是因为隐喻还涉及到人们对事物的一般认识。为此,w e i n e r 又提出引入子知识网络( s u b - k n o w l e d g en e t w o r k ) 1 5 w 的方法来表示隐喻理解者的知识状态,即人们对事 物的一般认识。 6 兰州大擘硕士学位论文基于知网的汉语豫喻自动处理 总体来说,w e i n e r 的方法充分考虑了隐喻现象所涉及的各种特性。同时采用层次结构的知识表示语 言来描述通用概念本体,结合子知识网络作为理解主体的知识,考虑了理解者的主观因素。虽然w e i n e r 的方法强调了原型在隐喻理解中的重要性,但对于结构复杂的隐喻还无法解释,而实现依赖于手工创建 的原型关系知识库。随着语义- e b 的提出,已出现了多种大规模的通用本体,比如s t n 幻,w o r d n e t 等,还 有各种领域本体,w e i n e r 方法中的缺陷可以在某种程度上得到弥补,因此这种方法对于构造更合理的隐 喻理解模型具有较好的参考价值。 ( 3 ) 基于逻辑的方法 由于隐喻的理解还涉及到人们应用常识进行推理的能力,因此采用逻辑的方法来进行隐喻的机器理 解也是值得尝试的方法其中有代表性的当属由s t e i n h a r t 提出的隐喻结构理论( s 咖鼢硼,它采用可能 世界语义学方法给出了某些隐喻类型的真值条件,把词典看作为一个概念网络,其中的语义由内涵谓词 演算提供,称为扩展的谓词演算( e x t e n d e dp r e d i c a t ec a l c u l u s ,x p c ) s t e i n h a r t 区分了语言的表面 结构和深层结构,表面结构即自然语言的句子,深层结构则为x p c 中的命题集合。 s t e i n h a r t 认为在自然语言中,句子有多种意义,其中对于隐喻句则至少有。字面意义”和“隐喻 意义”两种,每种意义都是从可能世界到真值的一个函数。他提出的的x p c 从3 个方面扩展了传统谓词演 算:一是在命题中增加论元角色,如a 6 e n t 、p a t i e n t 、o b j e c t 、s o u r c e 、r e c i p i e 明日i n s t r u m e n t 等, 类似于菲尔墨的格语法。如命题“j o h nl o v e sm a r y ”在x p c 中就由 1 0 v e s o o h n 。m a r y ) 扩展为 1 0 v e s ( a g e n t :j o h n ,p a t i e n t :a a r y ) 二是x p c 增加了对事件的处理,事件使得状态也成为一个个体 三是把逻辑空问从可能世界中继续细分到情境,包含具有某些属性的个体及其相互之间存在的某些关 系相对于可能世界语义中的可达关系,隐喻逻辑中的可达性是类比,情境s 是t 可达的,当且仅当s 可 类比于t 如果s 可类比于t ,则存在一个类比映射函数f ,使得s 中的个体( 或者事件或属性) 与t 中的个体 关联起来。因此s t e i n h a r t 还为隐喻结构理论s 盯提供了一个类比推理理论,来为基于逻辑结构之间的类 比提供基础 在s t m 的实现程序n e t m e t 中,知识库结构如表2 _ l 所示。对于隐喻“原子是一个太阳系”,需要1 6 条命 题来构成知识,其中c o n t a i n s 、o r b i t s 、s u r r o u n d s 表示谓词,a g e n t 、p a t i e 盯分别表示对应谓词的施事 和受事如命题p i 表示。太阳系由太阳、小行星带、行星系统组成”,命题p 6 表示“行星围绕太阳轨道 运转”。有了结构清晰的知识库后,就可以构建可能世界,并利用类比映射建立本体和喻体之间的关联。 在n e t m e t 中,每个隐喻句都需要有一个手工构造的知识库 表2 - 1n e n 町中隐喻“原子是一个太阳”的知识库结构【1 ”1 , p 1 c o n t a i n s ( 太阳系, 太阳,小行星带,行星系统 ) p 2 c o n t a i n s ( d 、行星带, 小行星) ) 1 3 c o n t a i n s ( 行星系统, 行星,月亮,环 ) p 4 c o n t a i n s ( 环, 子环 ) p 5 c o n t a i n s ( 子环,f 碎片 ) p 6 o r i b i t s ( a g e n t :行星,p a t i e n t :太阳1 p 7 o r i b i t s ( a g e n t :行星系统,p a t i e n t :太阳) p 8 o r i b i t s ( a g e n t :月亮,p a t i e n t :行星) p 9 o f i b i t s ( a g e n t :碎片,p a t i e n t :行星) 7 兰州大学项士学位论文基于知网的汉语i 秀喻自动处理 p 1 0 s u r r o u n d s ( a g e n t :小行星带,p a t i e n t :太阳) p l l s u r r o u n d s ( a g e n t :环,p a t i e n t :行星) p 1 2 c o n t a i n s ( 原子,f 原子核,电子云 ) p 1 3 c o n t a i n s ( 电子云, 电子核 ) p 1 4 c o n t a i n s ( 电子核, 电子 ) p 1 5 o r i b i t s ( a g e n t :电子,p a t i e n t :原子核) p 1 6 s u r r o u n d s ( a g e n t :电子云,p a t i e n t :原子核) 隐喻的结构理论s 1 1 i 用内涵演算( 即扩展的谓词演算即c ) 来提供逻辑真值条件的方法将隐喻带入了 可能世界语义学的领域,给出了系统的隐喻逻辑机器推理解释方法。这说明话语的字面意义与隐喻意义 是可以区分的,并能用形式逻辑的方法加以表达和获取。但s t m 的局限性也是很明显的,由于它采用的 类比推理是结构映射理论,因而强调喻体和本体各方面系统性的对应,这对于结构性明显的隐喻比较适 用,比如“原子是太阳”。而对于一般的隐喻,特别是文学隐喻和日常语言隐喻,由于涉及基于主观知 识的选择性推理,某些方面的对应性常常被强调,而另一些方面的对应性则被忽略,即隐喻理解机制的 突显与消隐,这显然违背了结构映射理论的系统性对应原则。 2 2 2 小结 本小节综述了隐喻理解的各种自动处理方法,它们都在某些局部领域或者针对某些特定的隐喻取得 了较好的效果 4 6 , 4 7 虽然在应用性和普遍性上都存在一定的局限,但这些方法对于我们开展汉语隐喻的 机器理解研究具有重要的参考价值,基于以上分析,我们认为在汉语隐喻的自动处理研究中需要解决 好以下几个方面的问题: 首先,关于隐喻的判别。1 现有的隐喻处理方法都是在已经认定是隐喻的前提下进行的,因此。这就 存在一个问题,如何识别或者判别隐喻的存在,这是诸多文献中所未曾解决的问题。而对于汉语隐喻自 动处理来讲,还面临着一个如何界定汉语隐喻的阀题,因为只有对汉语隐喻有了明确界定,才能对隐喻 进行合理的分类,便于后续的自动理解 其次,关于隐喻的分类,现有的隐喻分类方法主要是基于语言学,侧重于隐喻句的语言学特征,包 括句法特征、体裁等为了汉语隐喻自动处理的研究需要,应该充分利用传统修辞学的理论成果。在当 代隐喻学研究成果的基础上,针对隐喻理解方式的不同,建立一种汉语隐喻分类体系。并给出各类不同 隐喻的表现特征,这对于隐喻的判别和理解都是至关重要的 再次,有关隐喻理解中推理方法的研究。隐喻意义是两个概念领域之间的语义映射,如何借助某种 理论技术建立一种概念知识表示方法和适合隐喻意义映射的推理机制,以支持这种语义映射,应该成为 隐喻自动处理研究的重点 最后,关于知识库。各种隐喻自动处理方法都或多或少用到了知识库。这是由隐喻的认知性决定的。 隐喻涉及本体概念和喻体概念之间的对比,因此隐喻自动处理模型的前提是要求系统具有概念描述和推 理能力。对于汉语隐喻自动处理,如何选择合理的知识库并通过对其改进后适于汉语隐喻处理的需要也 是一个关键问题。 8 兰,i i 大擘硕士学位论文基于知两的汉语隐奇自动处理 上述几个方面的问题恰是本文构建汉语隐喻自动处理模型着重要解决的关键问题。 2 3 知网简介 正如上面的分析提到,知识库是隐喻自动处理必不可少的支撑,为了研究的方便性本文的知识库借 用知网本节首先介绍知网的产生。接着对知网系统的概貌做了介绍。最后阐述了将知网引入本系统的 理由 一 2 3 1 知网的产生 “知网”降圳( h o w n e t ) 是董振东先生研究逾十载的重要成果它是一个以汉语和英语的词语所代表 的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识 库。作为面向汉语计算需求的知识库,知网非常详尽地描述了概念之间的关系以及概念所具有的属性之 问的关系。近年来,有很多基于知网构建的可供搜索的语义网 知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有 的属性之间的关系为基本内容的常识知识库知网哲学的根本点是:世界上切事物( 物质的和精神的) 都在特定的时间和空间内不停地运动和变化它 f 】通常是从一种状态变化到另一种状态,并通常由其属 性值的改变来体现。试以人为例,人的生老病死是一生的主要状态。这个人的年龄( 属性) 一年比年 大( 属性值) ,随着年龄的增长头发的颜色( 属性) 变为灰白( 属性值) 。另一方面,一个人随着年龄 的增长他的性格( 精神) 变得日益成熟( 属性值。他的知识( 精神产品) 愈益丰富( 属性值) 基于 上述,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空 阃,属性值以及事件。 知网的一个重要特点是:类似于同义、反义、对义等种种关系是借助于同义、反义以及对义组的 形成由用户自行建立的,而不是逐一地、显性地标注在各个概念之上的 知网是一个知识系统,而不是一部语义词典。尽管被我们称为知识词典的常识性知识库是知网的最 基本的数据库知罔的全部的主要文件包括知识词典构成了一个有机结合的知识系统。例如,主要特征 文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成 部分,而不仅仅是标注的规格文件。我们预计用户将来把它们与知识词典一起加以利用 义原是知网中最基本的,不易于再分割的意义的最小单位例如:“人”虽然是一个非常复杂的概 念,它可以是多种属性的集合体,但我们也可以把它看作为一个义原。我们设想所有的橛念都可以分解 成各种各样的义原。同时我们也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集 合如果我们能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关 系,我们就有可能建立我们设想的知识系统。利用中文来寻求这个有限的集合,应该说是个捷径。中文 中的字( 包括单纯词) 是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概 念与概念之间、概念的属性与属性之间的关系 9 兰州大学项士学位论文 基于知两的汉语隐喻自动处理 2 3 2 知网的体系 作为一般版本的知网系统主要有三部分构成:( 1 ) 中英双语知识词典;( 2 ) 知网管理工具i ( 3 ) 知 网说明文件。具体说明如下 ( 1 ) 知识词典是知网系统的基础文件在这个文件中每一个词语的概念及其描述形成一个记录 每一种语言的每一个记录都主要包含4 项内容。其中每一项都由两部分组成。中间以。= ”分隔每一 个。= ”的左侧是数据的域名,右侧是数据的值它们捧列如下。 、 l x = 词语 g _ = 词语词性 e = 词语例子 d e f = 概念定义 这里试以。打”的为例,它有两个义项,一个义项是“b u y l 买”,另一个是“w e a v e i 辫编”其中 。买”义项在知网中的表示如图2 1 。 图2 - 1 概念“打。在知网2 0 0 0 中的界面 知网的规模主要取决于双语知识词典数据文件的大小。作为2 0 版,它现有规模如表2 - 2 所示 表2 - 2 知网2 o 的规模 ( 2 ) 知网管理工具。主要包括对词语及其概念的选择的方法进行管理,对概念定义的枥鞋方法做 出一些规定及其知网知识系统描述语言的定义 知网认为对于概念的描述应该着力体现概念与概念、概念的属性与属性之间的相互关系,因此,知 嘲知识库对于概念的描述必然是复杂的。同时,对于概念的描述既有概括性的、一般性的描述,也会有 1 0 兰州失擎硕士擘位论文 基于知网的汉语臆喻自动处理 因不同的类别而引起的细节性的描述,由此而引发概念描述的一致性和准确性的问题。为了确保概念描 述的复杂度、一致性和准确性,知网的设计者设计了一种知识描述规范体系知网知识系统描述语言 ( k d m l ) 。 ( 3 ) 知网说明文件。主要包括对动态角色与属性的说明,对词类表的说明,对同义,反义以及对 义组的形成的说明,对事件关系和角色转换得说明及对标识符号的说明。 本文中采用的是知网的2 o 版。是2 0 0 0 年发布的其界面如图2 2 。知网运行系统主要包括八个文件: ( 1 ) h o w n e t i d x ,知网的索引文件; ( 2 ) h o w n e ts y n s e t i d x ,知网同义词索引文件: ( 3 ) h o w n e t a p i d l l ,知网运行的动态链接库 ( 4 ) h o w n e t _ r e l e v a n c e r e l e a s e ,变量释放文件; ( 5 ) h o w n e t _ w o r d s i m i l a r i t y e x e ,知网相似度计算的执行文件; ( 6 ) h o l 州e t 髂a p i d l l ,知网相似度计算的动态链接库; ( 7 ) h o w n e t h e l p ,知网的帮助文件; ( 8 ) m i n i h o w n e t e x e ,知网的概念词典运行文件。 图2 - 2 知网2 0 0 0 的界面 关于知网的更多介绍请参见文献【2 6 】。 2 3 3 知网的特色 知网有如下特色:( 1 ) 当前多数关于汉语的知识库很少,而知网是面向中英文双语l ( 2 ) 计算机 化是知网的重要特色。知网是面向计算机的,是借助于计算机建立的。 ( 3 ) 知网作为一个知识系统, 1 l 兰州大擘硕士学位论文基于知同的汉语隐喻自动处理 是一个网而不是树。( 4 ) 知网着力要反映概念之间和概念的属性之间的各种关系。知网把如图2 3 所示 的“医患关系”的知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。( 5 ) 基于 知瞬可以进行知识的搜索和语义计算( 包括语义粗似度秘相关度的计算) 。 图2 3 医患关系在知网中的语义网络口母 正是由于知网的这些特点恰好能满足我们在其上进行知识搜索和语义计算的需要,因此本文构建的 汉语隐喻自动处理系统中的隐喻旬判别、微本体构建中都需要知网的支撑 2 4 汉语句法分析理论 句法分析是自然语言处理的基础,也是汉语隐喻自动处理的基础性工作,同时它也是本文构建的汉 语隐喻自动处理系统的一部分本文采用的句法分析是基于意合网络和知识图的组合来进行的其原因 是该句法分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息咨询合同标准文本 英语
- 免烧砖买卖合同标准文本
- 公路机电合同样本
- 个人资金托管合同标准文本
- 中标多家医院项目合同样本
- 产品股权合同样本
- 企业废料收购合同样本
- 个人档案合同标准文本
- 策划调酒师考试的多元练习试题及答案
- 2025上海市郊区土地流转承包合同(I)
- 基坑工程土方开挖支护与降水监理实施细则
- 江苏徐州市深地科学与工程云龙湖实验室社会招考聘用9人模拟试卷【附答案解析】
- 土方回填施工记录表
- 植物根茎叶课件
- 反生产行为讲稿
- 施工现场消防安全技术交底
- 冀教版二年级语文下册看图写话专项加深练习题含答案
- 焊接工艺评定及焊接工艺技术评定管理标准
- 洗衣房各岗位工作流程
- 基于SWOT分析的义乌市现代物流业发展研究
- 基于自适应滤波对音频信号的处理详解
评论
0/150
提交评论