




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自然语言理解第一页,共二十三页,编辑于2023年,星期三在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。在这样的社会需求下,自然语言理解作为语言传息处理技术的一个高层次的重要方向,一直是人工智能界所关注的核心课题之一。显然,如果计算机能够理解自然语言,人机间的信息交流能够以人们所熟悉的本族语言来进行,那将是计算技术的一项重大突破。另一方面,由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。所以说,这个研究方向在应用方面和理论方面都有重大意义。
第二页,共二十三页,编辑于2023年,星期三7.1自然语言及其理解
1.什么是自然语言自然语言是指人类语言集团的本族语,如汉语、英语、日语等。自然语言是相对于人造语言而言的。人造语言是指世界语或计算机的各种程序设计语言。众所周知,语言是思维的载体,是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。
7.1.1自然语言及其构成
第三页,共二十三页,编辑于2023年,星期三2、自然语言的构成(如下图)7.1自然语言及其理解7.1.1自然语言及其构成
第四页,共二十三页,编辑于2023年,星期三7.1自然语言及其理解7.1.2自然语言理解的概念
7.1.3自然语言理解的进展7.1.4自然语言过程的层次自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:1.问答(quesVtioVn-aVnsweriVng):机器能正确地回答输入文本中的有关问题;
2.文摘生成(summariziVng):机器有能力产生输入文本的摘要;
3.释义(paraphrase):机器能用不同的词语和句型来复述其输入文本;
4.翻译(VtrahslaVtioVn):机器具有把一种语言(源语)翻译成为另一种语言(目标语)的能力。第五页,共二十三页,编辑于2023年,星期三7.2词法分析第六页,共二十三页,编辑于2023年,星期三7.2词法分析第七页,共二十三页,编辑于2023年,星期三7.3句法分析句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。第八页,共二十三页,编辑于2023年,星期三7.3句法分析1、短语结构语法理论一部短语结构语法G可以用如下的四元组来定义:
G=(Vt,Vn,P,S)
其中,Vt是终结符的集合,终结符是指被定义的那个语言的词(或符号);
Vn是非终结符的集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。显然,Vt和Vn的并构成了符号集V,而且Vt和Vn不相交,因此有:
V=Vt∪Vn,
Vt∩Vn=φ(φ表示空集);
S是起始符,它是集合Vn中的一个成员;
P是一个产生式规则集。每条产生式具有如下的形式:
a→b
其中a∈V+,b∈V*,且a≠b;V*表示由V中的符号所构成的全部符号串(包括空符号串φ)的集合,V+表示V*中除φ之外的一切符号串的集合。
7.3.1短语结构语法理论与乔姆斯基语法体系第九页,共二十三页,编辑于2023年,星期三7.3句法分析2、结束的短语结构语法理论---乔姆斯基语法体系7.3.1短语结构语法理论与乔姆斯基语法体系乔姆斯基(N.Chomsky)曾定义了以下四类语法:
(1)无约束短语结构语法,如前所述,又叫做O型语法;
(2)上下文有关语法(context-sensitivegrammars),又叫做1型语法;
(3)上下文无关语法(context-freegrammars),又叫做2型语法;
(4)正则语法(regulargrammars),又叫做3型语法。
第十页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.1短语结构语法理论与乔姆斯基语法体系3、句法分析树在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推倒过程用树形表示出来的话,那么,这种图称做句法分析树。如下图为语句Thegirlwritesletterwithapencil进行句法分析时建立的句法分析树。第十一页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.2递归转移网络与扩充转移网络1、有限状态转移网络扩充转移网络的概念来源于有限状态转移网络。我们曾指出,有限状态转移网络只能用来生成或识别正则(即3型)语言。
一个有限状态转移网络由一组状态(即结点)和一组弧(用来把一种状态连向另一种状态)所组成:
(1)其中的一个状态被指定为起始状态;
(2)在每条弧上都标注着该语法的终结符(包括词或词类)。
它表明必须在输入句子中找到这样一个词,才可以进行这条弧所规定的转移;
(3)状态集中有一个名为结束状态的子集。如果输入句子(或短语)的头从起始状态开始,经过一系列的转移,句尾恰好达到结束状态,我们就说这个句子(或短语)被这个转移网络所接受(或识别)。
第十二页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.2递归转移网络与扩充转移网络1、有限状态转移网络右上图表示以冠词"the"开头的一类名词短语NP的转移网络,它可以拥有零个或多个形容词;最后以一个名词结尾。假如输入的短语是:"theprettypicture"。从起始状态NP开始,它只有一条标注着"the"的外射弧,由于输入串中的第十个词能同它匹配;所以词"the"从输入串中被删除,过程则相应进入图中的,状态NP1。此时输入串是"prettypicture",由于第一个"pretty"的词类是ADJ,同标注ADJ的弧匹配,于是"pretty"从输入串中被删除,但沿着ADJ弧转移的结果是再次回到这个NP1状态.此时输入串只剩下最后一个词"picture",由于它是一个名词,因此发生了沿N弧前进到结束状态的转移。这时,输入串已成为空串,所以分析成功。
第十三页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.2递归转移网络与扩充转移网络2、递归转移网络递归转移网络(recursivetransitionnetworks,简称RTN)是对有限状态转移网络的一种扩展,在RTN中每条弧的标注不仅可以是一个终结符(词或词类),而且可以是一个用来指明另一个网络名字的非终结符。
例如,下面是一部上下文无关语法:
S∷=NPVNPPP*
NP∷=TADJ*NPP*
PP∷=PNP
其中X*表示符号X可以出现零次或多次。这三条语法规则可以用下页图所示的递归转移网络来表示。第十四页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.2递归转移网络与扩充转移网络2、递归转移网络图中用来表示S,NP和:PP等三条上下文无关语法规则的递归转移网络第十五页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.2递归转移网络与扩充转移网络3、扩充转移网络ATN在以下三方面对RTN作了扩展和增强:
(1)添置了一组寄存器,用来存储分析过程中得到的中间结果(如局部句法树)和有关信息(如名词短语的人称和数。某些成分的语义特征等);
(2)每条弧上除了用句法范畴(如词类和短语标记)来标注以外,可以附加任意的测试,只有当弧上的这种溯试成功之后才能通过这条弧;
(3)每条弧上还可以附加某些动作,当通过一条弧时,相应的动作便被依次执行,这些动作主要用来设置或修改寄存器的内容。
设置哪些寄存器完全取决于句法分析的需要,并没有硬性的规定。例如有关句型的信息:陈述句,疑问句,祈使句,可以存放在名为TYPE的寄存器中;动词信息及其局部结构可存放在名为V的寄存器中;当然也可设置象主语、谓语、宾语一类的寄存器来存储各种句子成分的信息以及它们的局部结构。所有这些寄存器都可以看作是程序设计中变量,它们从属于被设置的那个ATN子网络。对于ATN的后继弧来说,这些寄存器的内容可以被访问,并且根据附加在后继弧上的动作可以被复制、修改或组合。
第十六页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.3词汇功能语法词汇功能语法(LFG)是由卡普兰和布鲁斯南(Bresnan)在1982年提出的,它是一种功能语法,但是更加强调词汇的作用。LFG用一种结构来表达特征、功能、词汇和成分的顺序。LFG对句子的描述分为两部分:直接成分结构(ConstituentStructure,简称C-Structure)和功能结构(FunctionalStructure,简称F-structure),C-structure是由上下文无关语法产生的表层分析结果。在此基础上经一系列代数变换产生F-structure。LFG采用两种规则:加入下标的上下文无关语法规则和词汇规则。第十七页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.3词汇功能语法2、词汇功能语法对句子的分析过程用LFG语法对句子进行分析的过程如下:用上下文无关语法分析获得C-structure,不考虑语法中的下标;该C-structure就是一棵直接成分树;将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式);(3)对方程式作代数变换,求出各个变量,获得功能结构F-structure。第十八页,共二十三页,编辑于2023年,星期三7.3句法分析7.3.4自动句法分析算法1、自顶向下回朔算法2、自底向上并行算法(具体内容请参照P257---P262)第十九页,共二十三页,编辑于2023年,星期三7.4语义分析语义分析和句法分析是自然语言理解系统的两个最基本的功能模块。语义分析的任务是根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义(即句义)的某种形式化表示。一般来说,只有在获得输入语句可靠的语义表示之后,系统才能进一步完成问答、释义、翻译和文摘生成等任务。
第二十页,共二十三页,编辑于2023年,星期三7.4语义分析语义分析和句法分析是自然语言理解系统的两个最基本的功能模块。语义分析的任务是根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义(即句义)的某种形式化表示。一般来说,只有在获得输入语句可靠的语义表示之后,系统才能进一步完成问答、释义、翻译和文摘生成等任务。1、逻辑形式表达及语义解析2、义素分析法第二十一页,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业厨房设备异常处理流程
- 基于机器学习的最小割树优化-洞察阐释
- 基于知识图谱的智能疾病预测与预防研究-洞察阐释
- 班主任在教育改革中的培训心得体会
- 医院管理委员会在医疗改革中的重要职责
- 信息技术行业突发事件应急预案及要求措施
- 城市供水系统锅炉水处理工艺流程研究
- 房地产开发的质量保证体系与控制措施
- 四年级学困生学习习惯培养措施
- 基于确定性最小二乘的自适应多模型控制方法-洞察阐释
- 询价函模板范文
- 2023年江苏省南京市中考物理试题(解析版)
- 2023-2024学年科学四年级下册人教鄂教版2.8《蚕的一生》教学设计
- 防汛应急预案演练说辞
- 教育系统后备干部面试题目
- 河南省郑州市2023-2024学年高一下学期6月期末数学试题(无答案)
- 14J936变形缝建筑构造
- TD/T 1012-2016 土地整治项目规划设计规范(正式版)
- 2024年共青团入团积极分子考试题库(附答案)
- 鱼类卵子受精机制与精子激活
- 植物营养学智慧树知到期末考试答案章节答案2024年黑龙江八一农垦大学
评论
0/150
提交评论