Python自然语言处理 课件 第7章 语义分析_第1页
Python自然语言处理 课件 第7章 语义分析_第2页
Python自然语言处理 课件 第7章 语义分析_第3页
Python自然语言处理 课件 第7章 语义分析_第4页
Python自然语言处理 课件 第7章 语义分析_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语义分析Python自然语言处理第七章CONTENT目录

01词义消歧02词义角色标注03深层语义推理课前回顾句法分析概述句法分析的数据集与评测方法句法分析的常用方法使用StandfordParser的PCFG算法进行句法分析词义消歧01基于规则的词义消歧基于统计的词义消歧基于实例的词义消歧基于词典的词义消歧语义分析语义分析的重要性和地位语义分析是人工智能(AI)的一个重要分支,也是自然语言处理技术的核心任务。一般来说,一个自然语言处理系统,如果完全没有语义分析的参与,很难获得很好的系统性能。语义分析能够促进其他自然语言处理任务的快速发展。AI中的语义分析技术近年来发展迅速,随着深度学习(DeepLearning)技术的迅猛发展,在自动驾驶、围棋对弈、图像识别以及语音识别等多个领域取得了突破性进展。语义分析语义分析是什么语义分析是指运用各种方法,学习与理解一段文本所表示的真实的语义内容,任何对语言的理解都可以归为语义分析的范畴。语义分析的分类一段文本通常由词、句子和段落来构成,根据理解对象的语言单元不同,语义分析可分为:词汇级语义分析:关注如何获取或区别单词的语义句子级语义分析:试图分析整个句子所表达的语义篇章级语义分析:研究自然语言文本的内在结构并能够理解文本间的语义关系。语义分析语义分析层次语义分析从分析的深度分为浅表层语义分析和深层语义推理两个层次。浅层语义分析包括:词义消歧(WordSenceDisambiguation,WSD)语义角色标注深层语义推理包括:谓词逻辑语义网络概念依存理论词义消歧词义消歧概念在进行语义分析时需要解决一个很重要的问题,那就是词的多义现象。由于词是能够独立运用的最小语言单位,句子中的每个词的含义及其在特定语境下的相互作用构成了整个句子的含义。因此,词义消歧是句子和篇章语义理解的基础,有时也称为词义标注,其任务是确定一个多义词在给定语境中的具体含义。词义消歧词的多义的三种类型在自然语言处理过程中一般会把词的多义分为三种类型:意义相关的多义。如“open”的两个意义“公开的”和“开着的”意义完全无关的多义。如“ash”的两个意义“灰烬”和“梣树”词性不同的多义。如“包”的意义“package”和“wrap”,前者是名词,而后者是动词

词义消歧3种词义消歧的可能因为词的多义性,所以词义消歧是非常重要,也是非常困难的。意义相关的多义:辨识较困难。对于大部分词汇来说,其多语义间并没有很清楚的划分,而且大部分情况下其语义是不确定的,并且内容是杂糅在一起的。意义完全无关的多义:较容易确定。这类词的多义由于意义区别较为明显、场景明显不同,研究也已经比较成熟。词性不同的多义:较容易确定。这种情况为词性兼类,也称为”同词异类“,目前词性标注正确率已经很高,相对比较容易消除。词义消歧词性标注与词义消歧的区别词性标注可以看成是一种词义消歧问题,词义消歧也可以看成是一种标注问题,不过词义消歧中使用的是语义标记而非词性标记。标记不同:词义消歧标记的是语义而非词性问题本质区别:词性主要通过邻近的结构信息来确定,语义主要通过相隔较远的实词用来确定。处理方法不同:在自然语言处理中词性标注模型一般可以使用当前上下文确定其正确的词性,而对于语义消歧模型则需要使用规模较为广泛的上下文中的实词。词义消歧词义消歧分类本节将词义消歧方法分为三类:1基于规则的词义消歧1基于规则的词义消歧2基于词典的词义消歧3基于语料库的方法基于统计的词义消歧基于实例的词义消歧基于规则的词义消歧产生背景词义消歧本身并不是最终目的,而是在大多数自然语言处理系统的某些层次上都需要的一项中间任务。20世纪50年代初期,人们在机器翻译研究中开始关注词义的消歧问题。同其他自然语言处理任务的研究一样,早期的词义消歧研究一般采用基于规则的分析方法。基于规则的词义消歧

基于规则的词义消歧词义消歧遇到的问题:(1)因可利用的选择限制过于空泛而导致不能唯一的选择出其准确的含义。例如,“他买了苹果”在这个例子中,则需要利用较多的上下文内容或其他方法来解决歧义问题,即“苹果”在这里的意思是指“水果”还是“一部手机”。(2)明显违反选择限制但又是完全良构和可以理解的例子。例如,“不要总玩游戏,当你饿了的时候,又不能吃游戏充饥。”(3)隐喻和换喻给词义消歧带来新的挑战。例“这辆车真是在喝汽油”,“编制梦想”。基于规则的词义消歧问题的解决方法-优选语义学可以把选择限制看作是优先选择。也就是,将词语之间的选择限制降低,视这些限制为优选选择,与此同时也允许其他选择即“优选语义学”。在优选语义学中,动词和名词、形容词和名词、介词和名词之间都被赋予优选数值,名词的语义特征和动词的语义取向距离越远,则优选数值越小。例,动词“跑”有以下两个词义:(1)快速移动(S,+动物,+9)(S,-动物,+2)(2)行驶(S,+车辆,+9)(S,-车辆,+2)基于规则的词义消歧优选语义学如何选择简单句子中,句子的语义合理性是由各搭配词间优选数值之和来表明的。复杂句子的语义合理性是由个句子优选数值之和来表明的。这种优选是指在各种可供选择的情况下的优选。这种优选是指在各种可供选择的情况下的优选。如果只能导出一种结构,并且这个结构不符合优选规则,那这个结构也会被无条件接受。这样就可以处理比喻问题。例如,在处理“山顶的石头都跑了”时,“石头”既不是动物也不是车辆。是可以符合逻辑的。词义消歧01基于规则的词义消歧基于统计的词义消歧基于实例的词义消歧基于词典的词义消歧基于统计的词义消歧产生背景目前语料库语言学已经成为自然语言处理的研究热点之一,基于语料库的方法也成为处理自然语言问题的主流方法。词义消歧和其它自然语言问题一样都离不开语料库的支持。基于统计的词义消歧定义基于统计的词义消歧方法,是在训练语料中运用统计学技术自动获取所需的知识,如歧义词与上下文词语之间的语法关系或语义关系等,并将这些知识用于词义的识别和判断。发展20世纪90年代初P.F.Brown等人率先提出借助上下文特征和互信息的消歧方法,目前已经证实很多常见的机器学习方法,如决策树、支持向量机、最大熵都可以用于统计词义消歧。1992年W.A.Gale等人提出利用贝叶斯分类器的词义消歧方法。基于统计的词义消歧基于互信息论的词义消歧方法方法提出核心思想P.F.Brown等人率先提出的基于互信息的词义消歧方法受统计机器翻译模型的启发是对每一个需要消歧的多义词进行查找能够准确的标识该多义词在特定上下文语境中所使用的语义的特征基于统计的词义消歧基于互信息论的词义消歧方法歧义词条件/指示器例子:值→语义prendreobjectmesure→totakedecision→tomakevouloirtensepresent→towantconditional→tolikecentWordtotheleftper→%number→c.[money]按照统计机器翻译的思路,对于一个由法语和英语为双语的语料库,使用词语对齐模型每个法语都可以找到对应的英语单词,一个具有多义的法语单词在不同的上下文语境中会有不同的英语翻译。如下表:基于统计的词义消歧基于贝叶斯分类器的消歧方法

词义消歧01基于规则的词义消歧基于统计的词义消歧基于实例的词义消歧基于词典的词义消歧基于实例的词义消歧两个关键的问题基于实例的词义消歧方法有两个关键的问题:词义消歧实例的获得实例间相似度的计算1996年Ng等人在其LEXAS系统中成功地采用了基于实例的词义消歧方法。该系统综合多种知识实现词义消歧,如上下文的词性知识、歧义词的用法、词语搭配关系等等。基于实例的词义消歧典型案例-LEXAS系统LEXAS系统为每个歧义词建立一个分类器。分两个阶段完成:训练阶段:

LEXAS接受一个句子集,每个句子都包含标注的待消歧词,LEXAS提取出待消歧词周边词的词性、形态、同现词。以上特征值组成的序列构成一个待消歧词的实例。测试阶段:LEXAS系统从中抽取出特征值序列构成待消歧词的测试实例,将待消歧词的测试实例与待消歧词的所有训练实例作对比。则待消歧词的词义就是与测试实例最匹配的训练集实例所对应的语义。在LEXAS系统对华尔街杂志语料的实验中,Ng等人选择了191个常用的歧义词,共获得192800个实例,最终测试的正确率达69%。词义消歧01基于规则的词义消歧基于统计的词义消歧基于实例的词义消歧基于词典的词义消歧基于词典的词义消歧基于词典语义定义的方法1986年M.Lesk首次提出了使用词典进行语义消歧的思想,即基于词典语义定义的消歧方法。使用词典中词条本身的定义就可以作为判断其语义的依据。基于词典的词义消歧基于词典语义定义的方法以单词ash为例,ash在词典有两个定义,一个是指“木犀科梣属落叶乔木”另一个是指“材料燃烧后留下的固体残渣,即,灰烬”即,若ash和tree同时出现在上下文是语义即是指“木犀科梣属落叶乔木”,与burn同时出现则语义为“灰烬”。基于词典的词义消歧1.基于词典语义定义的方法

基于词典的词义消歧1.基于词典语义定义的方法M.Lesk对小说《傲慢与偏见》和一个AP新闻专线的文章中选取的较短的样例,实验该算法进行词义消歧,报告的准确率只有50%~70%。这种方法的主要问题在于:词典中对多义词的描述一般是由语言学家完成的,语言学家根据多义词的不同语义使用情况进行归纳、总结,然后概括的进行描述,这些描述与实际使用的情况不完全一样,因此,词典信息对于高质量的词义消歧是不够的。​

基于词典的词义消歧2.基于义类辞典方法1987年D.E.Walker提出基于义类辞典的方法,该方法认为多义词的不同义项在使用时可以通过上下文词汇的语义范畴大体上确定这个语段的语义范畴,即可以通过上下文的语义范畴可以判断多义词的使用义项。基于词典的词义消歧2.基于义类辞典的方法

基于词典的词义消歧3.基于双语词典的方法基于双语词典的消歧方法,需要把需要消歧的语言作为第一语言,把需要借助的另一语言作为第二语言,即在双语词典中作为目标语言。例如,要借助汉语对英语的多义词进行词义消歧,则英语为第一语言,汉语为第二语言。此时则需要一部英汉双语词典和一个汉语的语料库。基于词典的词义消歧3.基于双语词典的方法假如我们要对英语句子中的单词(如plant)进行语义消歧,根据英汉双语词典,我们识别出plant有两个含义,一个是“植物”,另一个是“工厂”。为了对plant进行消歧,我们需要识别出plant所处的短语:若plant所处的短语为“processingplant”,在英汉双语词典中,processing翻译为“处理,加工”,在汉语语料库中,“处理,加工”和“工厂”同时出现,则在“processingplant”中plant的语义时“工厂”,若plant所处的短语为“plantlife”,在英汉双语词典中“life”翻译为“生命”,“生命”和“植物”同时出现的概率更高,因此,可以确定此语句中的plant的语义为“植物”。。本章小结词义消歧的分类1、基于规则的词义消歧;2、基于统计的词义消歧;3、基于实例的词义消歧;4、基于词典的词义消歧;语义分析Python自然语言处理第七章CONTENT目录

01词义消歧02词义角色标注03深层语义推理课前回顾基于规则的词义消歧基于统计的词义消歧基于实例的词义消歧基于词典的词义消歧词义角色标注02格语法基于统计机器学习技术的语义角色标注词义角色标注定义:浅层语义分析技术,以句子为单位,分析句子的“谓词-论元”结构。其理论基础来源于Fillmore(1968)年提出的格语法,不对句子所包含的语义信息进行深入分析。任务:是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述他们之间的关系。语义角色标注就是要针对句子中的(核心)谓词来确定其他论元以及其他论元的角色。格语法格语法(casegrammar)是美国语言学家查尔斯·菲尔墨(CharlesJ.Fillmore)于1960年代末对转换语法进行修正而提出的一种语法分析理论。

其继承了转换语法关于深层结构经过转换得到表层结构的基本假设,但在格语法中深层结构表现为中心动词与一组名词短语。这些名词短语与动词间存在语义关系,被称为“深层格”。格语法菲尔墨认为深层格与表层格不同:深层格是所有语言共有的,只是转换规则的不同导致了表层结构中表现的不同。但对语言中有多少格并没有定论,可根据需要来确定。菲尔墨建议使用九个格,分别为施事格、感受格、对象格、工具格、来源格、目的格、场所格、时间格、路径格。格语法例:例如使用格语法分析“Thestudentsolvedproblemswithacalculatorintheclassroomthismorning”(这个学生今天上午在教室用计算器解决问题)solve(解决)为中心动词thestudent(学生)为施事格(选用格)problems(问题)为受事格(必备格)withacalculator(计算器)为工具格(选用格)intheclassroom(教室)为场所格。(选用格)thismorning(上午)为时间格。(选用格)动词必须具有的格叫作必备格,可有可无的格叫作选用格。选用格可以提供更多的信息,没有选用格,也不会破坏句子的完整性。格语法格的中心是动词,动词可以通过格关系的基本式和扩展式来描述。基本式是必备格组成的框架及其所变换的句式。扩展式则是选用格及其格位的描述。例如,动词“打”的描述为:用手或者器具撞击物体,其意义格框架为:格框架=施事(任务)+受事(物体)他的必备格有两个:施事格和受事格。则其基本式、扩展式如下所示:词义角色标注02格语法基于统计机器学习技术的语义角色标注基于统计机器学习技术的语义角色标注基于统计机器学习技术的语义角色标注通常情况下可以划分为剪枝、识别、分类和后处理4个步骤。其中:剪枝:剔除大部分的不可能作为语义角色的标注单元,经过剪枝之后,可以在很大程度上减少待识别实例的数目,提高系统的运行效率。识别:对标注单元进行判断,如果实例为语义角色则保留该标注单元,可以减少进入分类判别的实例数目,加快处理的速度。分类:进一步区分单元是属于哪一类语义角色。后处理:根据语义角色之间的一些固有的约束进行后处理。固有约束一般是指一个谓语动词不能有重复的核心语义角色,而且语义角色也不能存在相互重叠或嵌套等情况。基于统计机器学习技术的语义角色标注在语义角色标注的4个步骤中,识别和分类两个步骤尤为重要。通常可以把角色标注看成分类问题。基于规则的方法来解决分类问题,需要构建规模比较庞大的知识库,随着知识库的扩大随之产生了各种矛盾和冲突的规则。机器学习的方法适用性较好。比如,Pradhan等人使用支持向量机进行语义角色标注、Carreras等人使用感知器方法进行语义标注,并且比支持向量机更快。另外AdaBoost算法、最大熵模型、决策树模型以及随机森林算法都先后用于语义角色标注。基于统计机器学习技术的语义角色标注影响语义角色标注系统性的主要因素是使用的特征,而不是机器学习的模型。所以,想要获得更好的性能,则需要更加精细的划分特征。目前,由Gildea等人使用的语言学特征被当作各个语义角色标注系统的基本特征使用,如下3点:1句法成分相关特征2谓词相关特征3谓语动词-句法成分关系特征基于统计机器学习技术的语义角色标注1.句法成分相关特征010203短语类型句法成分核心词句法成分核心词的词性基于统计机器学习技术的语义角色标注2.谓词相关特征01020304谓语动词原型语态子类框架谓语动词的词性基于统计机器学习技术的语义角色标注

3.谓语动词-句法成分关系特征(1)句法树中,从句法成分到谓语动词之间的句法路径。(2)句法成分和谓语动词之间的位置关系。在Gildea等人的语言学特征基础之上,人们又不断开发出新的,更有效的特征,如句法框架、动词类别等特征。另外,通过对已有特征进行组合生成新的特征也有效提高了系统的性能。本章小结词义角色标注1、格语法是什么;2、基于统计机器学习技术的语义角色标注;语义分析Python自然语言处理第七章CONTENT目录

01词义消歧02词义角色标注03深层语义推理课前回顾词义角色标注01OPTION02OPTION02OPTION格语法基于统计机器学习技术的语义角色标注深层语义推理在自然语言处理研究中,除了分析句子的表面含义之外,还需要推理出句子深层次语义,分析理解深层语义是当前自然语言处理领域中的重点和难点。基于推理的语义分析主要是分析实体与实体之间的因果关系,常用的方法包括谓词逻辑、语义网络和概念依存理论等。深层语义推理03命名逻辑和谓词逻辑语义网络概念依存理论谓词逻辑的发展命题逻辑和谓词逻辑是最先应用于人工智能的两种逻辑,对于知识的形式化表示,特别是定理的证明发挥了重要作用。谓词逻辑是在命题逻辑的基础之上发展起来的,命题逻辑可看作是谓词逻辑的一种能特殊性形式。谓词逻辑是人工智能中一个重要的知识表示方法。命题逻辑

谓词逻辑谓词逻辑是一种更强的逻辑形式。在谓词逻辑中,命题是用谓词来表示的。一个谓词可分为谓词名和个体词两个部分。其中,个体词是命题中的主语,用来表示独立存在的事物或抽象的概念。谓词名是命题中的谓语,用来表示客体的性质、状态或客体之间的关系等。谓词逻辑

谓词逻辑

谓词逻辑

谓词逻辑

深层语义推理03命名逻辑和谓语逻辑语义网络概念依存理论语义网络语义网络是一种用实体及其语义关系来表达知识的有向图,由西蒙(Simmons)于1972年正式提出。在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。有向图的结点代表实体(entity)或者概念(concept),而有向图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。语义关系主要由ISA、PART-OF、IS等谓词表示。语义网络三种语义关系谓词ISA体现的是“具体与抽象”的概念,含义为“是一个”,表示一个事物是另外一个事物的一个实例,例:2.谓词PART-OF指具有组织或者结构特征的“部分与整体”之间的关系。是一种包含关系。例如,“大脑时身体的一部分”这个命题3.谓词IS指表示一个结点是另外结点的一个属性。例如,“北京是中国的首都”这个命题,如图:语义网络除了以上三种关系,语义网络的结点之间的关系还可以有施事(AGENT)、受事(OBJECT)、位置(LOCATION)等。例如,“狮子在草原上捕食羚羊”这一事件,可以表示为下图的形式。结点表现为自然语言的词和短语的概念,语义关系则是句子中动词和主语、宾语等的关系,动词和名词或者是名词性成分的关系是语义网络的核心内容。语义网络用语义网络表示知识的问题求解系统主要由两大部分组成,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论