(机械制造及其自动化专业论文)面向篇章的代词指代消解及其在机械产品设计中的应用.pdf_第1页
(机械制造及其自动化专业论文)面向篇章的代词指代消解及其在机械产品设计中的应用.pdf_第2页
(机械制造及其自动化专业论文)面向篇章的代词指代消解及其在机械产品设计中的应用.pdf_第3页
(机械制造及其自动化专业论文)面向篇章的代词指代消解及其在机械产品设计中的应用.pdf_第4页
(机械制造及其自动化专业论文)面向篇章的代词指代消解及其在机械产品设计中的应用.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文简要介绍了自然语言理解在械产品设计中的应用,了解了自然语言理解 的语义分析和知识表示的方法。着重阐述了自然语言理解系统中对一大类一代词 中的特殊指示代词一兼有群体标识词的指示代词在篇章中的消解实现的策略。通 过对于以自然语言形式表达的用户需求中的此类代词进行分析和理解,将最终结 果转化成概念设计要求,为后续设计提供支持。 首先,本文较为细致的介绍了现有的语义分析和知识表示方法,结合基于知 识的自然语言理解系统的特点,选择本体论作为基于知识的语义分析方法。其次, 简要介绍了代词的相关知识,重点研究了兼有群体标识词的指示代词指代消解的 特点,对此类代词进行了语义分析。并对篇章中此类代词的消解进行宏观分析, 给出了篇章中处理此类代词的静态知识库的建立方法和消解模型。再次,以概念 从属理论和本体论为基础,建立了此类代词消解所需的模板,并对不同的指代块 给出了具体的消解实现策略。最后,将自然语言理解的此类代词消解应用于机械 产品需求分析及概念设计的原型系统,通过系统测试,结果比较令人满意。 关键字:自然语言理解语义分析指代消解兼有群体标识词的指示代词 本体论 a b s t r a c t i ti sb r i e f l yi n t r o d u c e dt h a tt h ea p p l i c a t i o no fn a t u r a ll a n g u a g eu n d e r s t a n d i n gt o p r o d u c td e s i g n ,a n dt h ew a y so fs e m a n t i ca n a l y s i sa n de x p r e s s i n go fk n o w l e d g ea r e u n d e r s t o o d t h ew a yo f u n d e r s t a n d i n go fa n a p h o r ar e s o l u t i o na l g o r i t h mf o rd o u b l e o fg r o u p so fw o r d sa n di n s t r u c t i o n sp r o n o u ni sf o c u s e do ni nc h a p t e rw h i c hi sa l a r g e c l a s so fp r o n o u ni nn a t u r a ll a n g u a g eu n d e r s t a n d i n gs y s t e m t h r o u g ha n a l y s i sa n d u n d e r s t a n do fu s e rn e e d sw h i c hi s e x p r e s s e di nn a t u r a ll a n g u a g e w i t ht h ew h o l e s y s t e mr u n n i n g ,t h er e s u l t sa r ec o n v e r s e di n t ot h er e q u i r e m e n to fc o n c e p t u a ld e s i g nt o s u p p o r tt h ef u t u r ed e s i g n f i r s t ,m e t h o d so fs e m a n t i ca n a l y s i sa n de x p r e s s i n go fk n o w l e d g ea r ec a r e f u l l y i n t r o d u c t e di np a p e r t h ec h a r a c t e r i s t i co fn a t u r a ll a n g u a g eu n d e r s t a n d i n gs y s t e mi s c o m b i n e dw i t h ,w h i c hi sb a s e do nk n o w l e d g ea n dt h e o n t o l o g yt h e o r yi sc h o s e na sa l l i m p o r t a n tc o m p l e m e n t a r i t yt ot h em e t h o d s e c o n d ,b r i e f l yi n t r o d u c t e dp r o n o u n ,g i v e n e m p h a s i st os t u d yc h a r a c t e r i s t i co fn a p h o r ar e s o l u t i o na l g o r i t h mf o rd o u b l eo f g r o u p so fw o r d sa n di n s t r u c t i o n sp r o n o u na n da n a l y z e d a f t e rm a c r o - a n a l y s i si sg i v e n t ot h i sc l a s so fp r o n o u n ,e s t a b l i s h m e n to fs t a t i ck n o w l e d g eb a s ea n dd i g e s t i o nm o d e l a r eg o t t e nt o t h i r d ,b a s e do nt h ec o n c e p t u a ld e p e n d e n c yt h e o r ya n d o n t o l o g y , c l a s s e s t e m p l a t e sa r ee s t a b l i s h e da n ds p e c i f i cs t r a t e g i e st oa c h i e v et h ea n a p h o r as o l u t i o na r e g i v e n l a s t ,s e m a n t i ca n a l y s i so fn a t u r a ll a n g u a g eu n d e r s t a n d i n gi s a p p l i e dt o r e q u i r e m e n ta n a l y s i sa r c h e t y p a ls y s t e mf o rt h ed e s i g no fw o r m t h ep r o n o u np h r a s ei n u s e rr e q u i r e m e n t si su n d e r s t o o da n da n a l y z e d w i t ho t h e rm o d e l sr u n n i n g ,t h es y s t e m r u n sw e l la f t e rd e b u g k e yw o r d s :n a t u r a ll a n g u a g eu n d e r s t a n d i n gs e m a n t i ca n a l y s i s s o l u t i o n n a p h o r ar e s o l u t i o nd o u b l eo fg r o u p so f i n s t r u c t i o n sp r o n o u n o n t o l o gt h e o r y a n a p h o r a w o r d sa n d 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名: 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期问论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 同期型2i ! 篁 同期耳l 第一章绪论 第一章绪论 1 1 引言 随着现代科技特别是以计算机技术为代表的信息技术的迅猛发展,产品的社 会需求发生了极其深刻的变化。产品设计智能化已经成为产品设计的一个趋势。 将人工智能应用于产品设计的过程有很多优点。首先,产品设计智能化实现 了产品设计的自动化,从而可以加快产品更新,简化产品的开发过程,使生产过 程更精良,工序更简单。其次,在产品设计和制造的过程中广泛应用人工智能技 术,使生产智能化程度大大提高,使得产品信息得以实现跨地区、跨国家的网络 共享。 产品设计是一个反复迭代、复杂的决策过程。对于机械产品的设计过程,产 品的设计阶段在产品的整个生产过程中占有举足轻重的作用。实践表明,产品8 0 的制造问题归因于制造前的阶段,其中有7 0 的属于设计阶段。一般来说它包 括三个主要阶段,分别是:需求分析,概念设计和详细设计【引。其中需求分析在 产品设计中起着举足轻重的作用,这是由于设计的前提和基础是提出切实可行的 产品设计任务书,设计任务书的制定就是根据产品的需求分析束进行的。 产品设计的过程可以看作是一个获取知识、信息,利用信息的过程。这看起 来似乎很简单,但是,由于客户对计算机系统认识的缺乏以及丌发者对产品领域 知识的不足,两者难以达成共识。所给出的信息经常是不完整、不精确,甚至是 未知的,这对计算机构造精准的数学模型带来了极大困难,从而也影响了整个项 目的开发。因此计算机辅助设计( c a d ) 技术的不能仅仅为了将设计人员从手绘中 解放出来,而且要能准确理解用户需求,为产品的概念设计提供精确的信息。 1 2 产品设计概述 产品设计是人类创造性思维的结果,其过程复杂而又有创新性,不同的企业 设计过程也不同。但产品设计过程也具有其特有的规律性。为了对这些不同的设 计过程进行描述,采用设计过程模型,该模型是设计过程的一种抽象【3 】。产品设 计过程一般分为:需求分析、概念设计和详细设计三个阶段。 ( 1 ) 、需求分析可分解为了解用户需求和进行问题分析两个阶段。 ( 2 ) 、概念设计包括方案设计与技术设计。首先要确定待设计系统的功能,之 后是确定实现该功能的效应,最后确定工作原理。 2 面向篇章的代词指代消解及其在机械产品中的应用 ( 3 ) 、详细设计是完成全部生产图样及技术文件。 在产品设计的过程中,用户的需求都是用自然语言形式来描述的。在目前将 人工智能引入产品设计的情况下,如何将用户的需求转换成计算机自动处理需要 的信息,也就是将自然语言形式的信息变为计算机所能理解的信息,这其中就需 要一个中间处理过程一自然语言理解过程【4 1 。自然语言理解的实现是人类迈向智 能化的一个必须经历的过程。下面就介绍一下自然语言理解相关的概念和发展状 况。 1 3 1 自然语言理解的概念 1 3 自然语言理解概述 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,简称n l u ) 又称自然语言处 理,( n a t u r a ll a n g u a g ep r o c e s s i n g 简称n l p ) 是语言信息处理的一个分支【5 】。所谓 语言信息处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、 调、句、篇章的输入、输出、分析、理解、生成等的操作和加工【6 】。 自然语言的计算机理解和处理是一个涉及了语言学、计算机科学、逻辑学、 心理学、人工智能等领域知识的跨学科研究领域,是一门交叉综合学科。同时, 也是一个十分活跃和富有挑战性的研究课题。按照考察问题的角度不同而有不同 的解释:从微观上讲,语言理解是指从自然语言到机器( 计算机系统) 内部之问 的一种映射。从宏观上讲,语言理解是指机器能够执行人类所期望的某些语言功 能。计算机自然语言理解可分为两个方面: ( 1 ) 、e l 语的理解。用口语对计算机讲话,通过语音识别、理解与合成,使计 算机能够“听懂”,并做出响应。 ( 2 ) 、书面语的理解。把文字输入计算机通过分析和生成,使计算机能够“看 懂”,并做出回答。从计算机科学特别是从人工智能的观点看,自然语言理解的任 务是建立种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答 自然语言的结果。 一般认为,自然语言所要达到的目标是: ( 1 ) 、计算机能i f 确理解人们用自然语言输入的信息和有关问题; ( 2 ) 、对输入的信息,计算机能产生相应的摘要,能用不同的词语复述输入信 息的内容。本文所述的自然语言理解为书面语的理解。, 第一章绪论 3 1 3 2 自然语言理解发展现状 自然语言理解系统的发展【7 0 0 】可以分为第一代系统和第二代系统两个阶段。 第一代系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法;第 二代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。 机器翻译【一2 】是自然语言理解最早的研究领域。1 9 7 0 年以来,出现了一定数 量的第二代自然语言理解系统,这些系统绝大多数是程序演绎系统,大量地进行 语义、语境以至语用的分析【i3 1 。其中比较有名的系统有l u n a r 系统、s h r d l u 系统、m a r g i e 系统、s a m 系统、p a m 系统。 人们普遍把自然语言理解划分为一个层次化的过程4 1 ,这个过程一般分为4 个层次:词法分析、句法分析、语义分析、篇章分析。其中词法分析属于拆分过 程,后面几种统称为合并过程。 词法分析主要完成词的切分以及词义选择,还包括一些纠错功能。汉语中词 的切分是一个重要而棘手的问题。 句法分析的目的是确定每个词在句子中的功能以及句子的合法性,自动句法 分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。 语义分析是解决句中的词、短语、直至整个句子的语义问题。通过语义分析 找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。篇 章分析是语义分析的继续和延伸,它脱离了单句层次,在整个上下文中求解语义 问题。篇章分析细分又可包含篇章分析和语用分析,它们都是基于上下文的分析, 前者主要注重上下文关联,后者主要关注自然语言与其所在语境的关系。 就目前的情况而言,词法分析和句法分析相对成熟,语义分析逐渐成为研究 重点,而篇章分析才刚刚起步。 代词作为语法成分中的重要一分子,它能够跨越句子,甚至跨越段落范围, 代替别的成分或指代短语、句子,发挥相应的语义功能。代词的使用可使语言表 达变得简洁。同时,对客观事物有概括性和抽象性,但又不同于名词的概括性, 名词可以独立表达逻辑概念和词汇意义。而代词只有在具体的语言环境中,根据 上下文彳能确定它所指代的人或事物,这就涉及到代词的消解。 1 4 1 指代和指代消解 1 4 代词消解研究概况 指代【峙】也称为照应,是指说话者或写作者假定听话者或阅读者能自己分析出 所指对象是什么。指代也是一种篇章的衔接手段。根据代词和所指对象之间的位 4 面向篇章的代词指代消解及其在机械产品中的应用 置关系。大多数情况下,指代都是前指性的,即代词在所指代的对象的后面出现, 所指的对象或内容就称为指代对象。所谓指代消解,就是f 确唯一地确定代词所 指代的指代对象,并建立两者之间的关联6 1 。 指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处 理相关应用同益广泛,指代消解也显示出前所未有的重要性,并成为自然语言理 解上热门的研究问题。 1 4 2 代词消解发展概述 一、国外指代消解的研究 国外关于指代消解的研究,大致分为两个研究阶段【l 7 1 。在传统阶段,人们把 代词所指的确定问题仅视作一个寻找先行名词短语的问题。其方法通常是在句子 平面上进行的,有时也引入常识和低层次的语言学知识。c h a m i a k j 创建了一个 用于理解儿章故事的系统,主要采用的是深度语义处理w i n o g r a d m l 建立了在“积 木世界”中进行人机对话的自然语言理解系统。在一个简单的限定领域( 积木世界) 内使用人工智能的问题求解方法,许多比较困难的语言+ 问题都被回避了。在现代 研究阶段,有关专家丌始认识到话语平面知识对代词所指确定的重要性。g r o s z 研究的焦点理论【| 9 - 2 0 】通过搜索一个短语列表来确定一个短语和前面的哪个短语照 应,并对候选指代对象的集合加以约束,她还提出了检测话题焦点转换的方法。 g r o s z 等人提出的中心理论描述了话语的关注焦点,所指表达方式的选择和话语的 连贯感之问的关系。这个理论现在也成为许多指代消解理论的基础。 二、国内指代消解的研究 国内在七十年代木刀:始研究汉语人机对话,其中的代表有:李家治等【2 l j 设计 的心理模型的“机器理解汉语一实验i ”;范继淹掣2 2j 设计的语言学模型“r j d 8 0 型汉语人机对话系统”:倪子伟、李举秋【2 3 】的x m m t 系统。 八十年代中后期,代词消解的研究成果主要体现在理论语言学方面。陈平口4 j 利用话语结构分析汉语零形回指的使用规律,考虑指代对象和回指对象在各自句 子中的地位,以及指代对象和回指对象各自所在的句子在话语组织中的关系。 九十年代后期,北京大学的王厚峰【2 5 】提出基于h n c 的代词消解方法,兼顾 语法和语义信息。许敏【2 6 l 以第三人称为代表,利用格框架,提出了在上下文相关 的语义坏境中进行指代分类解决的思想。谌志群等人针对人称代词的消解提出了 “关注焦点集”算法【2 7 】,根据初始权重对每个词进行积分,以积分的高低作为每 个词被“关注”程度的度量。周经野、曹军等对汉语零代词消解作了处理,主要 利用谓词语义对零代词进行消解【2 剐。 三、本文研究的难度和意义 第一章绪论 5 在自然语言理解的探索过程中,大多数的重点是放在了名词和动词。相对来 说,对名词的研究应该是比较透彻的,即使这样,对名词的群体研究也主要集中 在集体名词,没有多少应用。对集体名词的分类也没有明确的分类标准。例如朱 德熙先生( 1 9 8 2 ) 根据名词和量词的关系将名词分为可数名词、不可数名词、集 合名词、抽象名词和专有名词。而刘顺先生从认知角度所述的群量名词可以说是 另一个视角。其从认知的角度来说,具有一定的实际意义。但是所有这些无论从 语法、语义或是认知角度来说,都没有实际的应用,并且都是从词语作为研究的 出发点。群体词大部分是与这些词“其中、任意、另、其余、另外、其他、最后、 各、每”等相关,一般不涉及统计学的概念。群体词本身就是一个广义的群体概 念,它包括定量的群体( 主要是数量词结构) ,无限量群体和不定量群体。所以包 含了刘顺先生所论述的群量名词。对于群体词来说,除了集体名词还有部分代词 也有群体的语义意义。所以浼对群体词的研究还有很长的路走。 代词作为一类主要的语法成分,如果想要自然语言理解功能强大,就必须要 解决好代词的消解。因为,代词的理解贯穿整个自然语言理解的各个阶段。从词 语、句子到篇章都设计到对代词消解的问题。在自然语言处理的过程中,一般是 要借助于语法结构来进行处理的。但单凭借助语法结构是远远不够的,在篇章的 处理过程中,更多的是要借助于语义的处理才能f 确理解所需要处理的内容。而 对于指代消解的研究中,目前仅限于能处理指代对象是词语和短语的层次上,对 于指代对象是单句和段落乃至篇章的研究更是少之又少。而对于象指示代词中 “每、各、其中、其余、另、另外”等代词的指代对象可能需要借助数学公式中 的集合运算彳1 能确定。它的指代对象不是单纯的在现有的内容中查找得出的。同 时,这部分指示代词又与群体词的定义相吻合,我们把这类指示代词称为兼有群 体标识词的指示代词。 对于代词消解的研究处理上,除了在极少数情况下指代对象是句子或段落外, 大多数情况下的指代对象都与名词是分不丌的。对于兼有群体标识词的指示代词 的指示代词的指代对象具有明显的不同于一般代词的特征,它的指代对象大多数 与名词相关的群体,对于此方面的研究还少有人问津,而这部分代词在整个指示 代词中又占有很大的比重,尤其是篇章理解【2 9 j 方面,对于这部分的指代消解问题 己成了阻碍取得突破性进展的难题之一。因而在篇章理解过程中,它将是以后自 然语言理解研究的一个重要方向。 1 5 本文研究的主要工作 本文是采用基于知识的方法作为理论基础,采用本体理论对自然语言理解系 统涉及的领域内的概念知识进行分类整理。本文的主要工作有: 6 面向篇章的代词指代消解及其在机械产品中的麻用 查阅相关资料,分析了自然语言理解发展历程,探讨了汉语代词指代消 解的现状。提出了兼有群体标识词的指示代词的消解研究是代词理解的 一个新的点。 通过对目前现有的几种语义分析方法的分析和比较,选择本体论作为语 义分析的基础。介绍了自然语言理解系统总体模型和过程。 介绍了代词的相关知识,分析了兼有群体标识词的指示代词的消解与数 量词之问的关系,结合核心词理论对篇章中的此类代词进行了语义分析。 根据兼有群体标识词的指示代词的语法结构进行了分类,并给出了相应 的语义模型。提出了采用概念从属理论作为建立静念知识库的依据。 在以上工作的基础上,进行了篇章内与群体词相关的兼有群体标识词的 指示代词的语义分析,并给出了此类代词的指代消解策略。 将自然语言理解的此类代词消解应用于机械产品需求分析及概念设计的 原型系统,经过初步调试,结果比较令人满意。 最后,全文结合汉语中兼有群体标识词的指示代词的语义分析在机械产品设 计中的应用。从选择自然语言理解的模型出发,讨论了汉语的知识表示、语义分 析、自然语言理解的整体思路;梳理了数量词、兼有群体标识词的指示代词和群 体词在代词指代消解中的关系和作用;探讨了对篇章中所含兼有群体标识词的指 示代词进行语义分析的方法和消解策略。结合实际应用,取得了一定的成果。 第二章自然语言理解语的知识表示方法 7 第二章自然语言理解语的知识表示方法 一个自然语言的理解系统中,词法分析要以词典为基础;句法分析要以一些 词性搭配常识为基础;语义分析要以词的概念、意义和搭配为基础,篇章分析则 要以篇章信息、世界知识和当前领域知识为基础。 显然要实现一个自然语言理解系统,所需要的知识是庞大的,而且所需知识 的类型也是不一样的,要让计算机知道这些知识,我们设计需要多种知识表示形 式。一部分知识我们存入知识库,部分以规则的形式给出。一个设计良好可重 用性高的自然语言理解系统,需要规则部分尽量简短、以通用的世界知识为主, 而大量的知识则存入知识库,这样就可以在运行时有选择的载入知识库的内容, 大大提高运行效率。 2 1 知识表示概述 知识作为机器智能的一部分,就必须能够让机器知道什么是知识,这就涉及 到了知识表示的问题,这个问题就像人记录某一事实有不同的方法一样。例如对 于瞎子来说,你让他把“晚上和“开灯”联系在一起,那是根本不可能的。而 对于计算机,它只理解数字和一些人为规定的数据结构,那么如何让它能够理解 知识,特别是知识中的联系就是一个重要的问题了。一个专家系统的推理系统做 得再好,没有知识作为后盾肯定什么也干不成。 知识表示是研究用机器表示知识的可行性、有效性的一般方法,是一种数据 结构与控制结构的统一体,既考虑知识的存储又考虑知识的使用。知识表示也可 以看成是一组描述事物的约定,以把人类知识表示成机器能处理的数据结构。常 用人工智能的知识表示方式有产生式规则、框架表示法、格语法、语义网络、h n c 理论、概念从属理论和本体论。 2 2 1 产生式表示法【2 9 】 2 2 知识表示方法 产生式知识表示法又称规则表示法。它的一般形式是:i f t h e n ( 或 ) ,它的推理机制以演绎推理为基础。产生式系统是由p o s t 于1 9 4 3 年提出 的一种计算机制。1 9 6 5 年由s i m o n 和n e w e l l 引入到基于知识的系统中来。目i j i 8 面向篇章的代词指代消解及其在机械产品中的虑用 已是专家系统中使用最广泛的种表示方法,将这种系统称为基于规则的系统。 产生式系统优点:模块化程度高:提供了高精度的信息( 事实和规则) ,信 息可以很容易地添加、更新和删除;自然易于表示启发式知识、特别是允许更多 的直接演绎处理特殊领域的信息。 产生式规则缺点:在大系统中,规则难以保持模块化,对规则之问相互作用 的限制可能导致降低效率;程序执行效率低,非透明性,不可理解性,难以跟踪 求解问题的控制流当处理的知识块很大而处理基本顺序的信息是,知识和控制区 分不明显,尚未解决一致性和完整性问题,缺乏形式化描述能力。 2 2 2 语义框架表示法 框架理论【3 0 3 1 】是美国著名人工智能专家m l m i n s k y 提出的一种知识表示 法。框架理论认为世界上的各类事物的状态、属性、发展过程和相互关系往往有 一定的规律性,人们对它们的认识是以一种框架的形式存储在大脑中,当面临一 个新事物时人类先是用脑中已有的框架与之相匹配若成功则得到对其的认识反之 另寻其他框架与之再次匹配或修改补充现有的框架形成新的知识,并存入大脑。 框架由框架名和一组“槽”所组成。框架名位于最顶层,用于制成某个概念、对 象或事件;其下层的槽由槽名和槽值组成。这些“槽”可以有任意有限数目的“侧 面”,一个“侧面”又可以有任意有限数目的“值”,它可以描述对象的某一属性, 也可用描述其他对象的框架来填充。一般地,一个对象采用一个框架描述,其属 性则用“槽”描述。 框架表示法的优点:结构性强,框架是一种经过组织的结构化知识表示方法, 适合于表示某一类型的概念、事件和行为;继承性强,框架之间可以形成层次的 和更复杂的关系,组成一种框架网络。 框架表示法的缺点:首先,不善于表达过程性的知识;其次,多重继承可能 产生多义性。如何解决继承过程中概念属性的歧义,目前还没有一种统一的方法。 2 2 3 格语法【3 2 1 格语法是由语言+ 学家c h a r l e sf i l l m o r e 于1 9 6 8 年在他的论文格辨“t h e c a s ef o rc a s e ”中提出。其基本思想是:动词在句中起中心作用,参与动作的各个体 称为“语义格”,且“格”的数量是有限的。针对每个动词的义项,由可能的“语 义格”子集构成格框架,这一子集分为必要的和可选的两个集合。 格语法最大的特点是承认语义在句法中的主导作用,由格语法分析得到句子 的深层语义结构,给出各成分的语义角色。对于确定诈确的句法结构有很大帮助。 第二章自然语言理解语的知识表示方法 9 但是格语法存在以下的缺点:无法解决汉语的连动和兼语句式;短语内部各成分 间关系无法确定;格语法中的语义格的确定比较难。 2 2 4 语义网络 语义网络【3 3 。6 1 是对对象及其属性分类和知识编码的图形结构。在1 9 7 2 年美国 人工智能专家西蒙斯( r f s i m m o n s ) 和斯勒康( j s l o c u m ) 首先将语义网络用 于自然语言理解系统,在语义网络直接用概念表示词义,反映词义与词义之间的 动态组合。 在语义网络中,基本元素是节点和弧。节点代表概念,它的值是词、词组及 短语。弧是有向的,用来表示节点之间的语义关系,这些关系包括格、句态、连 接、属性、限制、集合和存在关系等。 语义网络知识表示中,一个语义网络就是一个由表示实体、概念情况等结点 和表示结点之间各种语义关系的弧或链( 带有箭头的弧) 组成。结点表示概念, 弧是有方向的,表示概念l 日j 的关系。在一个语义网中,关系提供了组织知识的基 本结构。没有关系的知识只是无关事实的一个集合,有了关系,知识就是一个可 以推出其他知识的具有内聚力的结构。 语义网络的优点:能把实体的结构、属性与实体间的因果关系显式地和简明地 表达出来,使概念易于受访和学习;表现问题更加直观,更易于理解。 语义网络的缺点:表示有限,形式过于简单;有效性低;难于维护知识的存 储、修改、和检索;语义网络没有公认的形式表示体系【37 】;网络结构庞大、复杂, 系统丌销大。 2 2 5h n c 理论( 3 8 1 h n c 理论的基本假设是,在人脑中有一个概念空i 、b j ,它是人们认识世界和进 行思维活动的基础。语言。概念空问是人类概念空i n j 的一个子空问,与自然语言空 问相对应。人们利用语言概念空白j 进行自然语言的理解和生成。h n c 理论认为自 然语言理解的过程是,首先把自然语言映射到语言概念空问,然后在语言概念空 问中进行概念联想脉络的激活、扩展、浓缩、转换与存储,从而达到对自然语言 的理解。该理论使自然语言理解获得了突破性的进展,对中文信息处理和汉语研 究尤其具有实际意义。 h n c 把概念空f b j 分为六个层次,分别是概念基元( 概念层次网络) 、概念的 组合、语句、句群、段落和篇章。其中概念基元是概念空间的基本元素,其他各 层都建立在它之上。概念基元符号体系首先将概念分成3 种基本范畴:抽象概念、 l o 面向篇章的代词指代消解及其在机械产品中的应用 具体概念和两可概念,后者兼备抽象与具体的双重特性。 2 2 6 概念从属理论 概念从属理论( c o n c e p t u a ld e p e n d e n c yt h e o r y ,简称c d 理论) 又称为概念 依存理论【3 9 4 0 1 ,最初是由r s c h a n k 在6 0 年代术、7 0 年代初发展起来的。 该理论有两个基本观点:一是山克认为,人在理解自然语言时依赖的是潜在 的概念表述,而不是具体的词或句子。二是建立c d 理论的公理:具有相同意义 的两个句子,不管它们的词语是否相同,或词语排列次序是否相同。它们都有相 同的内部表示,深层结构是一致的。一个句子的主动念形式和被动念形式虽然表 达上不同,但意义上是相同的。概念从属理论的几个基本思想如下: l 、从语言心理学出发 ( 1 ) 、人认识语言的过程,实际上是把一种语言映射到某种概念基的过程。概 念基中概念的数量不应该很多,其中最基础的是行为( a c t i o n ) 。 ( 2 ) 、从语言心理学出发,认为人对语言的理解,并不是先从语法和语义丌始 的。一个句子所包含的独立于语言的东西,不是语法,语义,而是它的概念。 ( 3 ) 、理解语言的过程,是一词一词理解的,而不是听完了整句,弄清了主语、 谓语之后再理解,而是一面听一面理解的。听完最后一个词,整句也就理解了。 ( 4 ) 、从单词到句子,反映了概念与概念之间的相互联系。 2 、概念驱动的理论 ( 1 ) 、以词的概念为基础的理解系统,词汇只是概念的符号。从整体而言,在 系统罩,没有词的概念。最基础的概念集合组成概念基,概念基是以动词为核心 的。 ( 2 ) 、一个词所能包含的信息是极其丰富的,包含词条信息、词法信息、句法 信息、语义信息和概念信息,甚至可预期上下文信息和篇章( 文本) 知识等等。因 此,这样的理论体系罩,机器的理解就是利用这些信息启动实现。 ( 3 ) 、知识和处理知识的机构应该是相互独立的,以便于知识的积累和丰富系 统的处理能力。 概念从属理论具有很多优点:首先,便于知识推理:其次,可以把问题抽象 成模型加以处理;最后可以表达概念问的深层知识。 尽管概念从属理论具有突出的优点,但是它也具有几点不足: ( 1 ) 、概念从属要求把所有知识分解为相当低级的原语,可能低效或在某种情 况下也许做不到。 ( 2 ) 、概念从属理论是一种事件表达理论,但为表达复杂程序可能需要的所有 信息,就要求能表达除事件之外的其它事情。 第二章臼然语言理解语的知识表示方法 2 2 7 本体论 本体论是哲学的一个分支,是一门有关存在及其本质和规律的科学。本体论 是指关于世界某个方面的特定的分类体系,这个系统不依赖于任何一种特定的描 述语言。最新的知识工程化技巧就是本体论( o n t 0 1 0 9 y ) 4 ,获取本体论的动机是 “可再用性”( r e u s e a b i f i t y ) 。本体已被广泛地应用于自然语言理解、知识管理、 信息检索等不同领域。已经成为近年来人工智能领域研究的热点。 1 、本体的基本概念f 4 2 】 在人工智能领域,“本体是对共享的概念化( c o n c e p t u a l i z a t i o n ) 进行形式的 显示规范说明。概念化是现实世界中现象的抽象模型,要明确标识与现象相关 的概念。显示的意思是指被使用概念的类型以及概念在使用中的约束被明确地 定义出来。形式的意思是指本体应该是机器可读的。共享是反映本体中的 知识是中立的一致认可的。” 2 、本体的关系【4 3 】 关系是本体的基本构成元素之一,可具体分为基本关系和普通关系。基本关 系是指在所有本体普遍适用的关系,而普通关系并不适用于所有本体】。本体中 的基本关系不管是对于理论研究还是实际应用都非常重要,它可分为两类:第一 类是处于不同逻辑层次上的概念之间的关系,包括种属关系( i s ar e l a t i o n ) 和 实例关系( i n s t a n c e - - o f r e l a t i o n ) ;第二类是整体和部分之间的关系( p a r t - - w h o l e r e l a t i o n ) ,用来反映物体组成结构。确定这些关系的语义并基于这些关系就可以 进行知识推理。 ( 1 ) 、i n s t a n c e - - o f 关系存在于实例( 或称个体实例) 和概念之间。实例关系 没有自反性、对称性和传递性。但是实例和概念之间具有很好的性质和属性的继 承性。实例继承概念的性质、属性和关系。概念的定义主要包括性质、属性、属 性值的类型以及关系;实例将继承概念的性质、属性和关系,并且给出属性和关 系的值,而属性和关系值的类型已经在概念中作了说明。 ( 2 ) 、l s a 关系存在于种概念和类概念之间,它是一种偏序关系,不满足对 称性,但有自反性、反对称性和传递性。基于种属关系的知识推理规贝j 如下:传 递性、属性继承、性质继承和实例的归属。 ( 3 ) 、p a r t w h 0 1 e 关系在自然语言理解以及知识处理中都扮演着非常重要的角 色,p a r t - - w h o l e 关系是一种基本的本体关系,基本问题包括:概念“部分”和“整 体”的特征、二者之i 日j 存在的不同关系以及二者之间性质的继承。 从概念的外延和内涵分析p a r t w h o l e 关系,可以对p a r t w h o l e 关系有进一 步的认识。 由i s a 关系导出的p a r t - - w h o l e 关系,这种p a r t w h o l e 关系是聚合之问 1 2 面向篇章的代词指代消解及其在机械产品中的虑用 的包含关系。例如,概念“人类 按照属性“性别 进行分类,可以分为子概念 “男人”和“女人”;那么某个单位的“男员工”和“单位员工”之间的关系就是 这种类型的p a r t - - w h o l e 关系。 基于此种p a r t - - w h o l e 关系的知识推理规则: i 在部分概念和整体概念之问具有性质和属性的继承性; i i 满足传递性。 由i n s t a n c e - - o f 关系导出的p a r t - - w h o l e 关系 这种p a r t - - w h o l e 关系是元素和集合的关系。但是它并不是简单的e l e m e n t - - o f 关系,因为它是出i n s t a n c e - - o f 关系导出。例如,“中国”是概念“国家的实 例,那么“中国”一定是概念国家外延集合中的一个元素,这种类型的p a r t w h o l e 关系在自然语言中较少见到。 m e m b e r - - o f 关系 例如,在概念“国家”实例集中划分出一个子集“联合国”,那么“联合国” 与国家的实例“中国”之问的关系就是m e m b e r - - o f 关系。m e m b e r - - o f 关系侧重 于概念之间的组成关系,所连接的两个对象之间没有属性和性质的继承性,例如, “中国”不能继承“联合国”的属性和性质,而它可继承“国家”的属性和性质。 概念和概念之问的关系式是本体的两个非常重要的组成元素。任何一个概念都通 过内涵和外延两个方面来反映人们的认识结果: ( 1 ) 、概念的内涵所反映的是对象的本质,包括概念所有的性质; ( 2 ) 、概念的外延所反映的是对象所指的范围,包括概念所有的实例。 一个概念的外延与内涵是对立统一的。在本体工程中,概念扮演着非常重要 的角色,是人机交互的桥梁。 从描述对象的类型来说,本体既可以用来描述简单的事实,又可以用来描述 信念、假设、预测等抽象的概念;既可以描述静念的实体,又可以描述与时问推 移相关的概念,如事件、活动、过程等【4 4 1 。 本体是独立于语言的,其中概念的获取与所要处理的领域范围有关。它在系 统中的作用有【4 5 j : ( 1 ) 、本体的分析澄清了领域知识的结构,从而为知识表示打好基础。本体可 以重用,从而避免重复的领域知识分析。 ( 2 ) 、统一的术语和概念使知识共享成为可能。 由于本体论能很好的确定概念间的关系,而自然语言的理解的核心就是能够 很好的确定出各个名词之间的关系,所以本文在下面的研究中采用本体论作为确 定知识问关系的理论依据。 第二章白然语肓理解语的知识表示方法 1 3 2 3 自然语言理解系统总体模型 2 3 1 自然语言理解模型 我们采用的是自然语言理解的层次模型,它遵守单向依赖关系它的基本原 理f 1 2 】如图2 1 所示: 图2 1自然语言理解层次模型图 任一较大语言单位的理解,必须在较小语言单位理解的基础上进行,而较小 语言单位的理解,又是在较大语言单位制约条件的限制下获得。 2 3 2 自然语言理解处理总体流程 自然语言理解是语法处理与语义分析相结合、综合处理的过程。本文介绍的 基于领域的自然语言处理系统中,语义理解是语言。理解的重点与关键,语法处理 是语义处理的前提和辅助。总的过程如图2 2 所示,句子处理的过程如图2 3 所示: 切词、词法分析 上 句法分析 上 句子规范化 0 语义分析 篇章分析 占 语用分析 句子处理入门 句中h 位语处理 = = 二 = 二二 形容词数量词处理 1 广一 jy 代词处理入口 = = 二夏二二= 代词语义处理 = = = 夏二二 将代词语义分析填 入句子相应的槽巾 = = = j 二= = 名词短语处理 = = = = = = 动词语义处理 句子处理结束 n 图2 2 白然语言理解处理总流程图2 3 臼然语言理解句子处理流样 1 4 面向篇章的代词指代消解及其在机械产品中的应用 从自然语言理解总体处理流程中我们可以看出:在整个的处理过程中,都是 把段落划分为单句,将单句循坏处理之后,综合单旬处理的结果,将各单句串接 后完成段落的理解。所以,在这罩我们有必要将单句的具体处理流程进行大概介 绍。 通过对自然语言理解的总体处理和句子的处理过程我们可以看出:代词的处 理在单句中是无法完全处理的,有些代词需要在篇章中结合省略或名词间的关系 才能处理。 2 4 本章小结 本章首先阐述了语义分析的必要性;其次,论述了几种常用的知识的表示方 法。知识表示主要包括格语法、语义网络文法、概念从属理论和本体论等。通过 比较这些方法的优缺点比较,我们最终决定选用基于本体的概念从属树来表示概 念的知识;最后,简单论述了本自然语言理解系统的总体流程。 第二章篇章中兼有群体标识词的指示代词消解的语义分析 1 5 第三章篇章中兼有群体标识词的指示代词消解的语义分析 代词是语言篇章中的一个语法成分,它能够跨越句子,甚至跨越段落范围, 代替别的成分或指代短语、句子,发挥相应的语义功能【4 6 1 。代词的使用使语言表 达变得简洁,但同时也引出了一个问题:如何在言谈或篇章中确定代词所指的对 象。代词通常被用束代替上文提到的某一焦点,在理解的过程中,信息接受方就 需要确定在代词表达的相应的主题或对象是哪一个。 以篇章语境为条件进行指代,只有在具体的语言环境中,才能确定它所指代 的人或事物。代词的语法特征是对客观事物的概括性和抽象性,它并不是代替别 的词或别的成分的词,而是代替别的词或成分发挥其相应的功能。所以,要确定 代词的指代对象主要是确定它所指代的语义。 3 1 代词基本概念 代词顾名思义就是替代别的词在句中发挥作用的类词【4 6 4 8 1 ,是自然语言中 一种常见的词类。它可以代替其他成分的词发挥语义作用,省略句中不必要的重 复内容,使句子结构变得简洁。但是由于代词的介入使句子的模糊度增大,因此 在自然语言理解的过程确定代词的指代成分是一个必须要解决的问题。例如:根 据低副运动可逆性,四杆机构选择不同构件,可以演化出其它形式。人类根据已 有知识理解出代词“其它”的指代对象是“曲柄摇杆机构、双曲柄机构、双摇杆 机构”,要让计算机也能得出这一结论就必须结合知识进行相应的代词处理。我 们根据系统代词处理的过程做如下的概念约束: 1 、指代对象:代词所指代的内容称为代词的指代对象。 2 、后行词:代词后的实词,即指代块的中心词。 3 、指代块:代词与其后的名词或名词性短语统称为指代块。 4 、指代消解:确定代词指代对象的过程称为代词的指代消解。 5 、群体词:在自然语言+ 理解中,描述具有数量含义的整体或者整体与部分关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论