人工智能教程习题及答案第7章习题参考解答_第1页
人工智能教程习题及答案第7章习题参考解答_第2页
人工智能教程习题及答案第7章习题参考解答_第3页
人工智能教程习题及答案第7章习题参考解答_第4页
人工智能教程习题及答案第7章习题参考解答_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

#第七章自然语言处理习题参考解答7.1练习题什么是自然语言?自然语言是由哪些构成的?什么是自然语言理解?自然语言理解过程有哪些层次,各层次的功能如何?自然语言理解和自然语言自动生成的关系是什么?研究这两者时有什么共同点.自然语言理解的发展分几个阶段?各阶段的研究重点是什么?语言学家乔姆斯基的论文《语言描述的三个模型》的意义如何?句法分析的目的是什么?基于规则的句法分析理论和方法主要有哪些?什么是乔姆斯基语法体系?它包含几个语法?各型语法之间有何不同?它们与短语结构语法的关系如何?自动句法分析的常用算法有哪些?自顶向下分析算法的思想是什么?下面是一个符合短语结构语法定义的受限英语子集的语法TOC\o"1-5"\h\zP:S—NPVP(a)NP—theNP1(b)NP—NP1(c)NP1—ADJSN(d)ADJS—①|ADJADJS(e)VP—V(f)VP—VNP(g)N—boy|Johnson|blackball(h)ADJ—little|dig(i)V—play|run(j)其中,大写的是非终结符,而小写的是终结符,①表示空字符串。请依据该语法对句子theboyplaystheblackball进行自顶向下的句法分析,并建立相应的句法分析树。写出下列乔姆斯基2型语法(上下文无关语法)所对应的递归转移网络:S—NPVPNPfAdjectiveNounNPfDeterminerNounPPNPfDeterminerNounVP—VerbAdverbNPVPfVerbVPfVerbAdverbVPfVerbPPPPfPrepositionNP7.11设有下列语法:G=(Vt,Vn,P,S)Vn={S,NP,VP,Det,N,V,Prep,PP}Vt={the,boy,dog,hits}S=STOC\o"1-5"\h\zP:SfNPVP(a)NPfDetN(b)VPfVNP(c)VPfVPPP(d)PPfPrepNP(e)Detfthe(f)Nfboy|dog(g)Vfhits(h)利用自底向上的分析算法对句子“theboyhitsthedog”进行分析,并写出它的分析推导过程。语义分析的目的是什么?什么是语义文法?它对语义分析的作用如何?建立语料库的意义是什么?一般对汉语语料库要做哪些基本的加工处理?汉语自动分词的方法有哪些?其难点何在?自动词性标注的意义何在?有什么难点?一般采用什么方法实现词性标注?7.2习题参考解答7.1答:(略)7.2答:自然语言理解就是研究如何让计算机理解人类自然语言的一个研究领域。从宏观上看,自然语言理解就是指使计算机能够执行人类所期望的某些语言功能,包括理解并回答人们用自然语言提出的有关问题;生成文本摘要和对文本进行释义;把一种自然语言表示的信息自动地翻译为另一种自然语言等等。从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。自然语言理解过程有3个层次:词法分析、句法分析和语义分析。词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的。句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。7.3答:(略)7.4答:(略)7.5答:(略)答:句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。基于规则的句法分析理论和方法主要有短语结构语法、乔姆斯基语法、语言串分析法、递归转移网络和扩充转移网络、范畴语法、依存语法和配价语法、管辖和约束理论、词汇功能语法、功能合一语法、蒙太格语法、广义短语结构语法等等。其中短语结构语法是各种理论和方法的基础。答:乔姆斯基语法体系是一组受限的短语结构语法。它包含四种语法:0型语法、1型语法、2型语法和3型语法。这四种语法的区别就是所受的约束不同,型号越高,所受到的约束就越多,其生成语言的能力就越弱,因而生成的语言集就越小,也更易于对其生成的语言进行计算机自动分析。0型语法就是一种无约束的短语结构语法。1型语法、2型语法和3型语法都是一种受约束的短语结构语法,而且3型语法受的约束最强。有关详细的约束条件可参阅前面的内容简介。答:基于短语结构语法的自动分析算法主要有自顶向下回溯算法、自底向上并行算法、富田算法、左角分析算法和CYK算法等等。自顶向下分析算法的思想就是从起始符开始向着被分析的句子进行推导,推导过程的语法树建立从根节点开始,自上而下进行。每次推导只选择一种路径进行尝试,并保留其它可选择的路径,当推导失败时,进行回溯,尝试另一种推导路径。7.9解:下面采用自顶向下回溯算法是对句子“theboyplaystheblackball”进行分析。搜索步骤搜索对象所使用的规则输入句子中遗留部分(1)S(a)theboyplaystheblackball(2)NPVP(b)theboyplaystheblackball(3)theNP1VPtheboyplaystheblackball(4)NP1VP(d)boyplaystheblackball(5)ADJSNVP(e)boyplaystheblackball(6)①NVPboyplaystheblackball(7)NVP(h)boyplaystheblackball(8)boyVPboyplaystheblackball(9)VP(f)playstheblackball(10)V(j)playstheblackball(11)playplaystheblackball(12)theblackball这时,句子中还有遗留部分,但搜索对象中却已变空,分析过程已无法继续,只得回溯。回溯到第(9)步,看看是否还能利用别的规则进行分析。(9‘)VP(g)playstheblackball(13)VNP(j)playstheblackball(14)playNPplaystheblackball

(15)NP(b)theblackball(16)theNP1theblackball(17)NP1(d)blackball(18)ADJSN(e)blackball(19)①Nblackball(20)N(h)blackball(21)blackballblackball(22)NILNIL在应用规则(h)、⑴和⑴对搜索对象进行替换时,由于规则的右边有多个单词可供选择,这时,可根据句子遗留部分的第一个单词确定。和此分析推导过程相对应的句子“theboyplaystheblackball”的句法分析树如图7.6所图7.6“theboyplaystheblackball”的句法分析树7.10解:该文法的递归转移网络如图7.7:下:图7.7题7.10的递归转移网络7.11解:采用移进-归约算法对句子“theboyhitsthedog”进行自底向上分析的过程如步骤栈操作(1)theDetDetboyDetNNPNPhitsNPVNPVtheNPVDetNPVDetdogNPVDetNNPVNP(14)NPVP(15)S移进用规则⑴归约移进用规则(g)归约用规则(b)归约移进用规则(h)归约移进用规则⑴归约移进用规则(g)归约用规则(b)归约用规则(c)归约用规则(a)归约输入句子中的遗留部分theboyhitsthedogboyhitsthedogboyhitsthedoghitsthedoghitsthedoghitsthedogthedogthedogdogdog这时,输入句子串已空,且栈中只剩下起始符S,该句子被接受,分析成功。其句法分NPVNNbny析树如图7.8NPVNNbny析树如图7.8:图7.8“theboyhitsthedog”的句法分析树答:语义分析的目的就是通过对句子和词的分析,找出词义、句子的结构意义及其结合意义,从而确定语言所表达的真正含义或概念。所谓语义文法,是在传统的短语结构语法的基础上将N(名词)、V(动词)等语法类别的概念,用某种专门的语义类别来代替。也就是说,可以将语义文法表示成类似短语结构语法的四元组,也有终结符集合、非终结符结合和语义规则。在有了这种表示形式的语义文法之后,就可以使用和分析短语结构语法相类似的方法来对语义进行分析。例如,可以使用类似于句法分析的自顶向下和自底向上的分析方法对语义进行分析。答:传统的句法-语义分析技术,所采取的主要研究方法是基于规则的方法,也就是说,将理解自然语言所需的各种知识用规则的形式加以表达,然后再进行分析推理达到理解的程度。但由于自然语言理解的复杂性,各种知识的“数量”浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识。理解自然语言所需的各种知识恰恰蕴涵在大量的真实文本当中,20世纪80年代后期,自然语言理解的研究进入了一个新纪元,其重要标志就是,在基于规则的技术中引入语料库的方法,通过对语料库中大量真实文本的分析处理,从中获取理解自然语言所需的各种知识,从而实现以知识为基础的智能型自然语言理解系统。这种建立在大规模语料库基础上的研究方法将自然语言处理的研究推向一个崭新的阶段。由于书面汉语不同于英语、法语、德语等印欧语言,词与词之间没有空格。汉语自然语言处理的难度显然要大于英语,因为词是进行自然语言理解的基本单位,所以必须要对汉语语料库进行基本的加工,这些基本的加工包括:分词、词性标注、词义标注(或概念标注)答:汉语自动分词的方法主要有基于词典的机械匹配分词法、无词典分词法、基于专家系统和人工神经网络的分词法等。但最常用、最成熟的方法还是基于词典的机械匹配分词法。机械匹配分词法又包括最大匹配法、逆向最大匹配法、逐词遍历匹配法、双向扫描法、设立切分标志法、最佳匹配法等。目前,汉语分词的难点主要有:(a)词的概念问题。在汉语语言学中,有关“词”的概念还没有完全弄清。(b)分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的问题。(c)未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大,对它们识别正确与否直接影响着分词系统的正确率。答:自动词义标注就是利用计算机通过逻辑推理机制,利用文本的上下文环境,对词的词义进行自动判断,选择词的某一正确义项并加以标注的过程。研究词义自动标注除了对语言学研究有重要意义外,在自然语言处理的很多领域都有非常重要的作用,如语音合成、情报检索、机器翻译、自动校对、OCR识别后处理等。所以,是当前自然语言信息处理的一个热门课题。词义标注的难点就是对多义词的歧义排除。不论是汉语还是英语,一词多义的现象普遍存在,要确定一个词的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论