自然语言理解_第1页
自然语言理解_第2页
自然语言理解_第3页
自然语言理解_第4页
自然语言理解_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言理解第一页,共一百零九页,编辑于2023年,星期二10.1语言及其理解的一般问题

(GeneralIssuesofLanguageandItsUnderstanding)

10.1.1

语言与语言理解

语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。要研究自然语言理解,必须对自然语言的构成有个基本认识。语言的构成框图如图10.1所示第二页,共一百零九页,编辑于2023年,星期二

语言

词汇语法

词熟语词法句法词素构词法词组构造法造句法构形法图10.1

语言的构成图第三页,共一百零九页,编辑于2023年,星期二从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。第四页,共一百零九页,编辑于2023年,星期二

怎样才算理解了语言呢?归纳起来主要有以下几个方面:能够理解句子的正确词序规则和概念,又能理解不含规则的句子知道词的确切含义、形式、词类及构词法了解词的语义分类以及词的多义性和歧义性指定和不定特性及所有(隶属)特性问题领域的结构知识和时间概念语言的语气信息和韵律表现有关语言表达形式的文学知识论域的背景知识第五页,共一百零九页,编辑于2023年,星期二Googletranslate你得藏在一个你看得见他,可是他看不见你的地方Youhavehiddenintheoneyouseehim,buthecouldnotseewhereyouare车臣武装分子和世界其他地区的武装分子是一丘之貉,应予以合力打击Chechenfightersandmilitantselsewhereintheworldarebirdsofafeather,shouldbetocombat胡六点横看成岭侧成峰,见仁见智HuWangassixdifferentangles,amatterofopinion第六页,共一百零九页,编辑于2023年,星期二

规则翻译是傻子统计翻译是疯子第七页,共一百零九页,编辑于2023年,星期二10.1.2自然语言理解的一般问题(1)自然语言:是指人类种族集团的本族语言,是我们日常使用的语言八大语系汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。5600多种不同的语言和方言使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。自然语言是相对于人工语言(程序设计语言)而言的。语言是思维的载体,是人际交流的重要工具。第八页,共一百零九页,编辑于2023年,星期二我国八大方言1.北方方言2.吴方言3.湘方言4.赣方言5.客家方言6.闽北方言7.闽南方言8.粤方言

海南方言第九页,共一百零九页,编辑于2023年,星期二第十页,共一百零九页,编辑于2023年,星期二第十一页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(2)自然语言自然语言:人类交流的语言,口语、书面语、手语、旗语等人造语言:机器语言,包括C++,BASIC,世界语等

到目前为止的人类知识有80%以上使用自然语言文字记载下来的。但将来,可能用计算机语言形式记载的知识将会越来越多。因此说,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。

第十二页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(3)自然语言理解520.2020(计算语言学740.3550)是人工智能领域的重要分支,也是一个极其活跃的研究领域什么是“理解”?从微观上来说,理解是指从自然语言到机器内部表示之间的一种映射从宏观上讲,理解是指能够完成我们所希望的一些功能与“智能”一样,存在各种各样的理解和解释。利用计算机对自然语言进行理解第十三页,共一百零九页,编辑于2023年,星期二自然语言理解分为两个方面:书面语理解和口语理解书面语理解将文字输入计算机计算机识别和理解文字、词、短语、句子、段落和篇章按指定的目标作出相应的回答或反映口语理解用口语对计算机讲话计算机识别和理解语音输入,把语音流变换为文字流然后按书面语理解最后利用语音合成将回答转换成声音输出第十四页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(4)自然语言“理解”的准则:美国认知心理学家G.M.Ulson提出判别计算机是否理解自然语言的四条标准给计算机输入一段自然语言文本,如果计算机能问答(question-answering)-机器能正确地回答输入文本中的有关问题;文摘生成(summarizing)-机器有能力产生输入文本的摘要;释义(paraphrase)-机器用不同的词语和语句复述输入文本;翻译(translation)-机器把一种语言(源语言)翻译为另一种语言(目标语言)计算机只要达到了以上标准的一条,就可以说它能够理解自然语言第十五页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(5)自然语言理解自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能领域关注的核心问题之一。自然语言理解的困难原因:目标表示的复杂性映射类型的多样性源表示中各元素间交互程度的差异性第十六页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(6)语言学的研究自然语言理解是哲学(philosophy),语言学(linguistics),语言心理学(psycholinguistics),认知科学(cognitivescience),计算机科学(computerscience),数学(mathematics),逻辑学(logic)及相关学科发展和结合而形成的一门交叉学科。第十七页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(7)语言学的研究语言学家:只关心词组成短语,短语组成句子,句法如何。即语言理论哲学家:词怎么能表示万物万事。如何用词来描述。心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络。计算语言学家:用数据结构、数学模型把哲学、心理学、语言学等语言分科的知识进行表示,用恰当的算法识别句子的结构,完成自然语言相关的各项任务。第十八页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(8)语言学的研究-理解的层次语音分析:找出最小可独立的声音单元----音素词法分析:找出词汇的各个词素(词根),从中获得语言学信息例:我们研究所有东西;把手放在桌上我们--研究所--有--东西 (交叉歧义)我们--研究--所有--东西把--手--放在--桌上 (组合歧义)把手--放在--桌上第十九页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(9)语言学的研究-理解的层次句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系以及各自在句子中的作用等。在语言自动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(Chomsky)的贡献是分不开的。主要方法有:短语结构语法、格语法、扩充转移网络、功能语法等。语法分析:将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。确定语句是否合乎语法第二十页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(10)语言学的研究-理解的层次语义分析:通过分析找出词义,结构意义及其结合意义,从而确定语言所表达的真正(实际)含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。(尤其是对话系统)

你打我 我打你语用分析:研究语言所在的外界环境对语言使用所产生的影响。描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块)第二十一页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(11)研究目标建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。通过语言索取信息,由此能力则说明该系统对语言已理解了。第二十二页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(12)自然语言的层次划分及对应技术理论层次结构实现技术模板匹配、基于规则语音

模式匹配基于词素、词汇词汇词典结构转换生成、词汇功能语法语法

扩展转移网络(ATN),CF规则格语法、语义基元理论、模型理论语义

产生式规则、概念相依理论、脚本、框架、语义网络、逻辑基于记忆的推理、语言行为理论、篇章语法语用第二十三页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(13)应用机器翻译或机器辅助翻译。文本理解:将输入文本转换成某种数据库格式。文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内的各种信息。自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机交互。……第二十四页,共一百零九页,编辑于2023年,星期二自然语言理解的一般问题(14)应用网络方面:信息检索(informationretrieval),提出(extraction),过滤(filtering),分类(classification),汇总(summarization)等 如:网上信息检索,电子图书馆(digitallibrary),电子商务(e-commerce)等 例:和服|务|于三日后裁制完毕。(kimonomust)这个酒店的设施|和|服务|是一流的。(andservice)未登录词(unknownwordprocessing): 如:高海燕(stormpetrel)

第二十五页,共一百零九页,编辑于2023年,星期二机器翻译是自然语言理解最早的研究领域。自然语言理解的研究大体上经历了三个时期萌芽时期

发展时期早期:60年代以关键词匹配为主流中期:70年代以句法-语义分析为主流,对语言理解对话系统的研究取得进展。近期:80年代以来开始走向实用化和工程化,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃。大规模真实文本处理时期自然语言理解的研究为专家系统的知识获取提供了新的途径。自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。比较成功的系统处理都是受限的自然语言子集句法受限:句子结构的复杂性方面受到限制语义受限/领域受限:所表达的事物的数量方面受到限制10.1.3

自然语言理解研究的进展

第二十六页,共一百零九页,编辑于2023年,星期二60年代以关键词匹配为主流特点:没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致错误第二十七页,共一百零九页,编辑于2023年,星期二系统中事先存放了大量包含关键字的模式,每个模式都和一个解释相对应。待理解句子输入系统,系统将句子与模式逐个匹配,一旦匹配成功便立刻得到对应的解释。如:人-机接口系统(列车数据库查询系统)模式:<车次>经过<处所>吗?解释:询问<车次>是否经过<处所>,执行查询指令,如SQL语句问题:571次经过金华吗?第二十八页,共一百零九页,编辑于2023年,星期二70年代句法语义分析为主流采用句法-语义分析技术句法分析识别构成句子的各个成分以及它们之间的相互关系,例如确定每个动词的主语和宾语,以及每个修饰性的词或短语所修饰的成分。分析结果一般是句子的一棵分析树。语义分析根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示。结果可以是逻辑表达式、语义网络或其它一些复杂的数据结构。第二十九页,共一百零九页,编辑于2023年,星期二典型例子LUNAR允许用普通英语和数据库对话的人机接口句法分析语义解释数据检索ATN语法词典语义规则数据库第三十页,共一百零九页,编辑于2023年,星期二80年代以来的实用化和工程化主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。1990年8月,13届国际计算语言学大会,首次提出了处理大规模真实文本的战略目标。语料库语言学兴起,它顺应了大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。句法-语义分析为主的思想来自于规则的方法,而规则不可能把所有的知识表示出来自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。第三十一页,共一百零九页,编辑于2023年,星期二语料库语言学(corpuslinguistics)语言学知识的源泉是大规模活生生的语料,要想让计算机理解自然语言,首先要让计算机能从库存的大规模语料中自动或半自动地获取语言理解所需的各种知识,对语言现象作出客观的、细致的描述。目前采用的主要手段是建立各种统计模型,可用于词类的自动标注,以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。第三十二页,共一百零九页,编辑于2023年,星期二在当今计算技术条件下,要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来,是不可能的。这既是由于这种知识的“数量”巨大,有时由于它们在“质”的方面高度的不确定性和模糊性。最近十几年来新提出的语料库语言学,它顺应了大规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。……

第三十三页,共一百零九页,编辑于2023年,星期二基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题,对传统的处理方法的一个强有了的补充。新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。第三十四页,共一百零九页,编辑于2023年,星期二汉语机器理解研究的发展1956年开始俄汉机译系统的研究,1959年完成,采用的技术主要是词对词翻译和模式匹配。1978年后开始了真正意义上的汉语理解研究,经过二十几年的发展,在汉语的句法和语义分析、各级语言单位的语义表示与获取、歧义消解等方面都取得了进展,并建立了一批实验系统,其中一些系统已经实用化、商品化。目前国内开展此项研究的单位北京大学(俞士汶)清华大学(黄昌宁、周明)东北大学(姚天顺)山西大学(刘开瑛、郭炳炎)哈工大(王开铸)微软中国研究院第三十五页,共一百零九页,编辑于2023年,星期二发展快的原因:计算机的发展:高速、统计处理。需求:机器人能听懂人的话,与人交谈,自动学习。 但是,因为自然语言是开放集,每天都有新词产生,用规则描述马上可以找出反例。所以,很难。第三十六页,共一百零九页,编辑于2023年,星期二第三十七页,共一百零九页,编辑于2023年,星期二10.1.4

自然语言理解过程的层次

语言的分析和理解过程是一个层次化的过程,它主要包括如下四个层次:

语音分析词法分析句法分析语义分析第三十八页,共一百零九页,编辑于2023年,星期二10.2词法分析词法分析是理解单词的基础,其主要目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义例如unchangeable是由un-change-able构成的,其词义由这三个部分构成。

第三十九页,共一百零九页,编辑于2023年,星期二

语言

词汇语法

词熟语词法句法词素构词法词组构造法造句法构形法图10.1

语言的构成图第四十页,共一百零九页,编辑于2023年,星期二在英语等语言中,因为单词之间是以空格自然分开的,切分一个单词很容易,所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化,要找出各个词素就复杂的多,需要对词尾或词头进行分析。如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常困难,不仅需要构词的知识,还需要解决可能遇到的切分歧义。如“我们研究所有东西”。可以是“我们—研究所—有东西”,也可以是“我们—研究—所有—东西”。

第四十一页,共一百零九页,编辑于2023年,星期二自然语言处理的方向1歧义消除第四十二页,共一百零九页,编辑于2023年,星期二第四十三页,共一百零九页,编辑于2023年,星期二第四十四页,共一百零九页,编辑于2023年,星期二词切分中的歧义固有歧义:根据不同语境所出现的分词歧义例:(1)物理学是一门基础科学。

物理学起来很难。 例:(2)将来的上海将有严重的污染。 他将来上海。组合歧义:本身并不组成一个词,在不同语境下,产生不同的组合切分例:他的确切地址在这儿。 这块肉的确切得不错。第四十五页,共一百零九页,编辑于2023年,星期二词的歧义词性歧义:一个词有多种词性(兼类)例:汉语学习十分重要。(名词) 他们努力学习汉语。(动词)词义歧义:一个词有多种词义例:红花。(红颜色的)

红军。(革命的)结构歧义即词组成词组乃至句子时,由于其组成的词或词组间可能存在不同的语法或语义关系而出现的(潜在)歧义现象第四十六页,共一百零九页,编辑于2023年,星期二10.3句法分析句法分析的主要任务:确定输入句子的结构:识别句子的各个成分及其之间的关系句子结构的规范化:目的是简化后续处理分析自然语言的方法主要分为两类:

基于规则的方法:如短语结构语法和Chomsky语法体系基于统计的方法第四十七页,共一百零九页,编辑于2023年,星期二短语结构语言定义句子:一个符号串语言:句子的集合语法:对一个句集一种有限的形式化描述描述一般语言的方法:识别器:由程序判断读入的符号串是不是一个句子短语结构语法:一种基于产生式的形式化工具,也称为产生式语法第四十八页,共一百零九页,编辑于2023年,星期二定义:短语结构语法定义为:G=(T,N,S,P)T是终结符集合,即被定义的语言的所有词汇(或符号)N是非终结符集合,这些符号用于描述语法成分,并不出现于句子中。则有:V=TN,TN=(空集),V是属于该语法的全部符号。S是起始符号,它是N中的一个成员。P是一个产生式规则集。ab (ab,aV+,bV*)第四十九页,共一百零九页,编辑于2023年,星期二在短语结构语法中,基本运算是把一个符号串重写为另一个符号串,每条语法规则也叫重写规则一个句子的产生就是从S符号到词汇串的推导过程如果一个程序能够根据一个短语结构语法来确定一个句子的推导,则它可称为一个句法分析器(parser)。语法G所定义的语言记为L(G):L(G)={W|WT*,S*GW}第五十页,共一百零九页,编辑于2023年,星期二刻画语言的形式体系的强和弱递归可枚举语言:如果有一个程序,它能以某种顺序逐个地输出(即枚举)一种语言的句子,这种语言是递归可枚举的递归语言:如果有一个程序,它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子,这称该语言是递归第五十一页,共一百零九页,编辑于2023年,星期二正则语法:正则语法有两种形式:左线性语法:如A

a|Ba

右线性语法:如A

a|aB可以表示如下的句子:a*b*语法例子:S

a|S1

|aSS1

b|bS1与有限状态机等价第五十二页,共一百零九页,编辑于2023年,星期二上下文无关语法:语法规则形式为:A

x即左边为一非终结符,右边没有限制可以表示的句子如:anbn语法例子:S

a|SbS该文法应用于程序设计语言中第五十三页,共一百零九页,编辑于2023年,星期二上下文有关语法:语法规则:规则右边的符号数不能少于左边符号数右边的符号可以是终止符也可以是非终止符上下文有关语言是递归的可以表示的语言:anbncn语法例子:ABBA第五十四页,共一百零九页,编辑于2023年,星期二无约束短语结构语法:语法规则是没有限制的:左边可以是任意多个终止符或非终止符右边可以是任意多个终止符或非终止符该语言是递归可枚举的该语言与图灵机等价语法例子:ABC第五十五页,共一百零九页,编辑于2023年,星期二Chomsky体系无约束语法上下文有关语法上下文无关语法正则语法第五十六页,共一百零九页,编辑于2023年,星期二10.3.1句法模式匹配和转移网络

句法分析最为简单直观的方法------模式匹配。一个句子可以表示成:(pronoun∨(adj*noun))verb(pronoun∨(adj*noun))

这也可以用状态转移图来表示,称之为转移网络(TN,transitionnetwork),如图10.2所示。图中,q0,q1,…qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。第五十七页,共一百零九页,编辑于2023年,星期二图10.2转移网络(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj第五十八页,共一百零九页,编辑于2023年,星期二转移网络在自动机理论中用来表示语法。句法分析中的转移网络由结点和带有标记的弧组成,结点表示状态,弧对应于符号,基于该符号,可以实现从一个给定的状态转移到另一个状态。

第五十九页,共一百零九页,编辑于2023年,星期二扩充转移网络ATNATN是20世纪70年代由W.Woods提出来的ATN语法属于一种增强型的上下文无关语法,即用上下文无关文法描述句子文法结构,并同时提供有效的方式将各种理解语句所需要的知识加到分析系统中,以增强分析功能,从而使得应用ATN的句法分析程序具有分析上下文有关语言的能力。ATN主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候,附加在该弧上的过程就会被执行。这些过程的主要功能是(I)对文法特征进行赋值;(II)检查数(number)或人称(第一、二或三人称)条件是否满足,并据此允许或不允许转移。第六十页,共一百零九页,编辑于2023年,星期二

扩充转移网络ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。

ATN的每个寄存器由两部分构成:句法特征寄存器句法功能寄存器图10.4所示是一个简单的名词短语(NP)的扩充转移网络。

第六十一页,共一百零九页,编辑于2023年,星期二图10.4

名词短语(NP)的扩充转移网络ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.第六十二页,共一百零九页,编辑于2023年,星期二表示句子的框架第六十三页,共一百零九页,编辑于2023年,星期二转移网络(4)表示句子的框架第六十四页,共一百零九页,编辑于2023年,星期二表示句子的框架第六十五页,共一百零九页,编辑于2023年,星期二10.3.3

词汇功能语法

LFG用一种结构来表达特征、功能、词汇和成分的顺序。

LFG对句子的描述分为两部分:直接成分结构(ConstituentStructure,简称C-Structure);

功能结构(FunctionalStructure,简称F-structure)。第六十六页,共一百零九页,编辑于2023年,星期二用LFG语法对句子进行分析的过程如下:用上下文无关语法分析获得C-structure,不考虑语法中的下标;该C-structure就是一棵直接成分树;将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式);对方程式作代数变换,求出各个变量,获得功能结构F-structure。第六十七页,共一百零九页,编辑于2023年,星期二用一个短语结构语法对一个句子进行语法分析,意味着寻找一个从起始符到该句子的推导,这个推导一般可以表示为一棵句法树一般一棵句法树对应的推导不是唯一的,但是如果在推导过程中每次总是重写最左边的非终止符,则称该推导为最左推导。<SENTENCE><SUBJECT><VERBPHRASE>

Mary<VERBPHRASE>Mary<VERB><OBJECT>Maryeats<OBJECT>Maryeatscheese第六十八页,共一百零九页,编辑于2023年,星期二<SENTENCE>::=<SUBJECT><VERBPHRASE><SUBJECT>::=John|Marry<VERBPHRASE>::=<VERB><OBJECT><VERB>::=eats|drinks<OBJECT>::=wine|cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMary第六十九页,共一百零九页,编辑于2023年,星期二句法分析器分为:从推导方向来分:自顶向下:从树顶的根结点开始推导建立句法树,方向是从起始符S到句子自底向上:从树底部的叶结点(词或词类)规约,建立句法树,方向是从句子到S从算法上分:回溯算法:每次只尝试一种推导,当这种推导失败时便返回以尝试另一种推导并行算法:同时进行所有的推导第七十页,共一百零九页,编辑于2023年,星期二自顶向下的回溯算法该方法逐个地枚举推导直到找到一个能生成句子的推导一般,对具有左递归的语法,该方法需要增加某些测试以避免陷入死循环对于”Maryeatscheese”的句法和推导为:SNP+VP(1)SNP+VP(1)NPN(2)N+VP(2)VPV(3)N+V+NP(4)VPV+NP(4)N+V+N(2)第七十一页,共一百零九页,编辑于2023年,星期二10.4语义分析语义分析的任务:输入句子的句法结构和句子中每个实词的词义推导出能反映该句子意义的某种形式化表示对语义现象作形式化处理要比句法现象困难得多,主要原因有语义和句法系统的界限很难划清楚语义及其他认知系统的界限也难以划清楚。用于计算机语义处理的计算语义学还远未成熟第七十二页,共一百零九页,编辑于2023年,星期二

语义解析的步骤如下:第一步确定每个词在句子中所表达的词义;第二步根据已有的背景知识来确定语义。逻辑形式表达是一种框架式的结构,它表达一个特定形式的事例及其一系列附加的事实,如“JackkissedJill”,可以用如下逻辑形式来表达:

(PASTS1KISS-ACTION[AGENT(NAMEj1PERSON“Jack”)][THEMENAME(NAMEj2PERSON“Jill”)])第七十三页,共一百零九页,编辑于2023年,星期二格文法格文法是Filmore于1968年提出来的,曾经对自然语言理解技术的发展产生过较大的影响,直到现在不少研究仍在使用格语法。因为人们认识到格关系确实是描述语言语义(包括和语法的关系)的一种很好的形式,当然在实际应用过程中不可避免地要有些修改。第七十四页,共一百零九页,编辑于2023年,星期二格文法

格文法的特点是允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却相应于语义关系,而非严格的句法关系如句子:MaryhitBill的格文法分析结果可以表示为(hit(AgentMary)(DativeBill))在格文法中,格表示的语义方面的关系,反映的是句子中包含的思想、观念等,称为深层格。和短语结构语法相比,格文法对于句子的深层语义有着更好的描述。第七十五页,共一百零九页,编辑于2023年,星期二如果两个句子的底层的语义关系一致,各名词成分所代表的格关系不会发生相应的变化。例如,被动句“BillwashitbyMary”与上述主动句具有不同的句法分析树,但格表示完全相同。第七十六页,共一百零九页,编辑于2023年,星期二第七十七页,共一百零九页,编辑于2023年,星期二10.5真实文本的处理语料库语言学及其特点

传统的句法-语义分析技术,所采取的主要研究方法是基于规则的方法

由于自然语言理解的复杂性,各种知识的“数量”浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识,而且,规则实际上面向语言的使用者人的,将它面向机器则分析结果始终不尽如人意。

研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库

第七十八页,共一百零九页,编辑于2023年,星期二传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释,包括拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图,包含着相当可观的信息存储。但是,它还有一些不足,特别是用在自然语言理解时更显得不够

例如,对于名词“树”,传统的词典一般解释为:一种大型的、木制的、多年生长的、具有明显树干的植物。基本上是上位词加上辨别特征。但是,这还不够,还缺少一些信息

第一,它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提及它们是生命的组织形式。但是在WordNet中,只要查一下它的上位词“植物”,就可以找到这些信息。

第二,树的定义没有包括对等词的信息,不能推测其他种类的植物存在的可能性。

第三,对于各种树都感兴趣的读者,除了查遍词典,没有别的办法。

第四,每个人对树都有自己的认识,而词典的编撰者又没有将其写在树的定义中。如树包括树皮、树枝;树由种子生长而成,等等。

可以看出,普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息第七十九页,共一百零九页,编辑于2023年,星期二WordNet是按一定结构组织起来的义类词典,主要特征表现在

第一,整个名词组成一个继承关系。

WordNet有着严格的层次关系,这样一个单词可以把它所有的前辈的一般性的上位词的信息都继承下来,可以提供全局性的语义关系,具有IS-A关系

第二、动词是一个语义网

动词大概是最难以研究的词汇,在动词词典中,很少有真正的同义动词。表达动词的意义对任何词汇语言学来说都是困难的。WordNet不做成分分析,而是进行关系分析。这一点是计算语言学界所热衷的课题,与以往的语义分析方法不同。这种关系讨论的是动词间的纵向关系,即词汇蕴涵关系

WordNet基于名词和动词以及其他词性的关系进行词类间的纵向分析,在国际计算语言学界有很大的影响。但是,它也有不足之处,如对横向关系还没有考虑。

第八十页,共一百零九页,编辑于2023年,星期二大规模真实文本处理的数学方法主要是统计方法

基于语料库的统计模型(如Markov模型、向量空间模型)不仅能胜任词类的自动标注任务,而且也能够应用到句法和语义等更高层次的分析上来。第八十一页,共一百零九页,编辑于2023年,星期二汉语自动分词由于汉语句子的最小构成单位是字,有意义的最小单位却是词,而汉语词与词之间又没有分割符号(英语词和词之间是空格)。因此,汉语理解首先要进行汉语自动分词。可以概括为两大类方法,无词典分词,它完全依靠整段文章中汉字之间的搭配的频率算出成词可能有词典分词,是一种更有普遍意义的分词方法。有词典分词主要有最大匹配法,逆向最大匹配法,逐词遍历匹配法,设立切分标志法,以及正向最佳匹配和逆向最佳匹配法,而这些方法的一个基本思想都是要依次分出待切分串的可能最长成词第八十二页,共一百零九页,编辑于2023年,星期二基于统计结果的分词算法首先,根据汉语词典(有56800条词汇)进行统计,发现:虽然词典中的最长词可以达到为20多个字节(十几个汉字),但是大多数汉语词都可以由前两字唯一确定,这样的词占绝大多数(如在上述词典中占总词汇量的85%以上)。第八十三页,共一百零九页,编辑于2023年,星期二两个首字相同的词的个数的统计根据前两字可确定的词个数 词总数 所占百分比(%)

1 48431 85.22

2 2801×2 9.86

3 514×3 2.71

4 118×4 0.83

5 46×5 0.40

6 30×6 0.32

7 16×7 0.20

8 6×8 0.08

9 8×9 0.13

10 5×10 0.09

14 2×14 0.05

15 3×15 0.08

18 1×18 0.03

第八十四页,共一百零九页,编辑于2023年,星期二机械分词主要是在字典索引的支持下进行的,索引结构可以分为两级。一级索引就用汉字内码,查找算法用散列方法。而二级索引采用整个词长。第八十五页,共一百零九页,编辑于2023年,星期二最大匹配法。最大匹配法简称MM方法。其思想是:在计算机磁盘中存放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的汉字串,通常为为词典中的最大词长,这个字符串的长度称作最大词长。将这个具有最大词长的字符串与词典中的词进行匹配,若匹配成功,则可确定这个字符串为词,计算机程序的指针向后移动与给定最大词长相应个数的汉字,继续进行匹配;否则,把该字符串从右边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。逆向最大匹配法。逆向最大匹配法简称RMM法。这种方法的基本原理与MM法相同,所不同的是分词时对待切分文本的扫描方向。MM方法从待切分文本中截取字符串的方向是从左到右,而RMM方法则是从右向左。在与词典匹配不成功时,将所截取的汉字串从左至右逐次减去一个汉字,再与词典中的词进行匹配,直到匹配成功为上。实验表明,RMM法的切词正确率要比MM法高

第八十六页,共一百零九页,编辑于2023年,星期二汉语分词的其他难点主要有

分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的问题。对歧义字段的处理水平,直接影响着自动分词系统的分词准确率。未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大,对它们识别正确与否直接影响着分词系统的正确率。然而,目前对于这些词语的自动辨识尽管作了不少的研究,但要想达到实际应用的要求,仍还有不少的困难。

第八十七页,共一百零九页,编辑于2023年,星期二除了由于未登录词而引起的歧义,切分歧义主要有三种类型:交集型歧义,即汉字串ABC既可切成AB/C,又可切成A/BC。组合型歧义,即汉字串既可切分成AB,又可切分成A/B。混合型歧义,是前两种的自我嵌套或三者的交叉组合产生的。为了既能得到较高的准确率,又有较小的开销,可以着重解决相对数量较大又较容易解决的交集型歧义。第八十八页,共一百零九页,编辑于2023年,星期二词类分析汉语的发展是先有字后有词,所以关于词的研究还存在一些问题,比较突出的是汉语词类的兼类问题。例如,大量的双字动词兼作名词。要进行汉语理解,如果不把词类先确定下来的话,那么下一步的分析也难以进行。汉语词类的兼类处理方法两种方法根据规则消除兼类,根据预料库统计消除兼类第八十九页,共一百零九页,编辑于2023年,星期二汉语词汇计量研究随着语料库加工的逐步深入而发展第九十页,共一百零九页,编辑于2023年,星期二10.6Web信息抽取万维网既为人工智能和自然语言理解软件带来了机遇,也带来了许多挑战。最大的挑战是基于Web,抽取“有兴趣的”信息,提供用户个性化服务。最广泛使用的Web信息抽取是搜索引擎。大型互联网搜索引擎的数据中心一般运行数千台甚至数十万台计算机。搜集机器自动搜集网页信息,平均速度每秒数十个网页,检索机器则提供容错的可缩放的体系架构以应对每天数千万甚至数亿的用户查询请求企业搜索引擎可根据不同的应用规模,从单台计算机到计算机集群都可以进行部署。搜索引擎一般的工作过程是:首先对互联网上的网页进行搜集,然后对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。第九十一页,共一百零九页,编辑于2023年,星期二第九十二页,共一百零九页,编辑于2023年,星期二搜索引擎的一般系统架构包括页面搜集器、索引器、检索器、索引文件等部分。各部分之间的关系:第九十三页,共一百零九页,编辑于2023年,星期二1.搜集器搜集器的功能是在互联网中漫游,发现并搜集信息,它搜集的信息类型多种多样,包括HTML页面、XML文档、Newsgroup文章、FTP文件、字处理文档、多媒体信息等。搜索器是一个计算机程序,其实现常常采用分布式和并行处理技术,以提高信息发现和更新的效率搜索器一般要不停地运行,要尽可能多、尽可能快地搜集互联网上的各种类型的新信息。因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。

第九十四页,共一百零九页,编辑于2023年,星期二2.分析器对搜集器搜集来的网页信息或者下载的文档一般要首先进行分析,以用于建立索引文档分析技术一般包括:分词(有些仅从文档某些部分抽词,如Altavista)、过滤(使用停用词表stoplist)、转换(有些对词条进行单复数转换、词缀去除、同义词转换等工作),这些技术往往与具体的语言以及系统的索引模型密切相关第九十五页,共一百零九页,编辑于2023年,星期二3.索引器索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两种:元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,在搜索引擎中,一般要给单索引项赋予一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。第九十六页,共一百零九页,编辑于2023年,星期二为了快速查找到特定的信息,建立索引数据库是一个常用的方法,即将文档表示为一种便于检索的方式并存储在索引数据库中。搜索引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。例索引器的输出是索引表,它一般使用倒排形式(InversionList),即由索引项查找相应的文档。索引表也可能记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现实时索引(InstantIndexing),否则就无法跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。

第九十七页,共一百零九页,编辑于2023年,星期二4.检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文中。检索器从索引中找出与用户查询请求相关的文档,采用与分析索引文档相识的方法来处理用户查询请求。第九十八页,共一百零九页,编辑于2023年,星期二5.用户接口用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用户输入查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论