自然语言理解课件_第1页
自然语言理解课件_第2页
自然语言理解课件_第3页
自然语言理解课件_第4页
自然语言理解课件_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10讲自然语言理解自然语言与自然语言理解自然语言理解的层次模型汉语的特点及汉语理解面临的困难自然语言理解的应用1第10讲自然语言理解自然语言与自然语言理解1第一节自然语言与自然语言理解自然语言:是指人类种族集团的本族语言,是我们日常使用的语言八大语系汉藏语系、印欧语系、亚非语系、阿尔泰语系、乌拉尔语系、尼日尔-刚果语系、马来-玻里尼西语系和德拉维达语系。5600多种不同的语言和方言使用人口最多的语言有汉语、英语、俄语、日语、法语和德语等。自然语言是相对于人工语言(程序设计语言)而言的。语言是思维的载体,是人际交流的重要工具。2第一节自然语言与自然语言理解自然语言:是指人类种族集团自然语言理解(计算语言学)是人工智能领域的重要分支,也是一个极其活跃的研究领域什么是“理解”?从微观上来说,理解是指从自然语言到机器内部表示之间的一种映射从宏观上讲,理解是指能够完成我们所希望的一些功能自然语言理解分为两个方面:书面语理解和口语理解书面语理解将文字输入计算机计算机识别和理解文字、词、短语、句子、段落和篇章按指定的目标作出相应的回答或反映3自然语言理解(计算语言学)是人工智能领域的重要分支,也是一个口语理解用口语对计算机讲话计算机识别和理解语音输入,把语音流变换为文字流然后按书面语理解最后利用语音合成将回答转换成声音输出美国认知心理学家G.M.Ulson提出判别计算机是否理解自然语言的四条标准:问答:能够回答与输入语言材料有关的问题文摘:能够对所给的语言材料进行文摘释义:能用不同的词语复述所给的语言材料翻译:具有将语言材料转译成另一种语言的能力计算机只要达到了以上标准的一条,就可以说它能够理解自然语言4口语理解4计算机理解自然语言是极其困难的,因为不仅要有相应的语言学知识,而且还要有领域知识和上下文信息困难主要体现在各级语言单位与其语义之间的映射关系多种多样一对一、多对一、一对多、多对多如果计算机能够理解自然语言,人-机间的信息交流将能够以人们熟悉的本族语进行。创造和使用自然语言是人类高度智能的表现,对自然语言理解的研究有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。5计算机理解自然语言是极其困难的,因为不仅要有相应的语言学知识自然语言理解研究的发展以关键字匹配为主流的早期历史(1950-1960年代)五六十年代开发的自然语言理解系统主要依靠关键字匹配技术来识别输入句子的意义,而不是真正意义上的理解。系统中事先存放了大量包含关键字的模式,每个模式都和一个解释相对应。待理解句子输入系统,系统将句子与模式逐个匹配,一旦匹配成功便立刻得到对应的解释。如:人-机接口系统(列车数据库查询系统)模式:<车次>经过<处所>吗?解释:询问<车次>是否经过<处所>,执行查询指令,如SQL语句问题:571次经过金华吗?6自然语言理解研究的发展6以句法-语义分析为主流的中期历史(1970-1980年代)句法分析识别构成句子的各个成分以及它们之间的相互关系,例如确定每个动词的主语和宾语,以及每个修饰性的词或短语所修饰的成分。分析结果一般是句子的一棵分析树。语义分析根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义的某种形式化表示。结果可以是逻辑表达式、语义网络或其它一些复杂的数据结构。7以句法-语义分析为主流的中期历史(1970-1980年代)7以走向实用化和工程化为特征的近期历史(1980-以后)一批商品化的自然语言人-机接口和机器翻译系统出现在市场上。1990年8月,13届国际计算语言学大会,首次提出了处理大规模真实文本的战略目标。语料库语言学兴起,它顺应了大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理新思路。8以走向实用化和工程化为特征的近期历史(1980-以后)8汉语机器理解研究的发展1956年开始俄汉机译系统的研究,1959年完成,采用的技术主要是词对词翻译和模式匹配。1978年后开始了真正意义上的汉语理解研究,经过二十几年的发展,在汉语的句法和语义分析、各级语言单位的语义表示与获取、歧义消解等方面都取得了进展,并建立了一批实验系统,其中一些系统已经实用化、商品化。目前国内开展此项研究的单位北京大学(俞士汶)清华大学(黄昌宁、周明)东北大学(姚天顺)山西大学(刘开瑛、郭炳炎)哈工大(王开铸)微软中国研究院9汉语机器理解研究的发展9第二节自然语言理解的层次模型自然语言语言单位的构成是分层次的对于汉语,分为以下几层:字、词、短语、句、段落、篇章自然语言理解应遵循单向依赖关系任一较大语言单位的理解,必须在较小语言单位理解的基础上进行较小语言单位的理解,必须在较大语言单位制约条件的限制下获得自然语言理解应分层次,层层推进10第二节自然语言理解的层次模型自然语言语言单位的构成是分层(自然语言理解的层次模型)Ri是第i层的规则系统Fi是第i+1层对第i层的制约条件此模型分为五个层次分词层、短语层、语句层、段落层、篇章层11(自然语言理解的层次模型)Ri是第i层的规则系统11分词层把彼此间没有符号隔开的文字流(书面语)或语音流(口语)在规则R1的作用下,变换为一个个词组成的序列(词串),而词串的正确性受上一层制约条件的限制如:“自然|语言|理解|是|人工智能|领域|的|重要|分支”短语层把词串中彼此孤立的词在规则R2的作用下,组成一个个词组,并得到词组的内部结构(词与词之间的关系,如主谓结构、动宾结构、偏正结构等)12分词层12语句层在规则R3的作用下,对语句进行句法分析和语义分析,得到语句的分析树和语句的语义表示段落层考察语句之间的关系,在规则R4的作用下,将语句序列组合成若干个段落注意自然段和意义段的区别篇章层考察段落之间的关系,在规则R5的作用下,得到整个篇章的结构表示和机内语义表示13语句层13第三节汉语的特点

及汉语理解面临的困难汉语不利于机器理解的几个特点汉语在构词方法上主要是词根复合法,而不是词缀派生法,缺乏形态标记,主要以虚词和语序表示各种语法关系。词类与句法成分之间不存在一一对应的关系,如谓语可由名词、动词或形容词充当,而形容词又可作谓语、定语和状语等。汉语语法有重“意合”,轻形式,以意驭形的特点,使得句法分析和语义分析往往不能相对独立,只有二者同时或交叉进行才能取得好的效果。14第三节汉语的特点

及汉语理解面临的困难汉语不利于机器理在汉语中,不仅主宾语可以省略,谓语动词可以省略,甚至定语和定语中心词也可以省略,因而汉语的理解特别强调对语境知识的利用。汉语各个分析层面上的歧义现象非常严重。语音识别时的同音字句子的歧义切分词法分析时的多义词和兼类词句法分析时的同形异构语义分析时的语义组合层次歧义和语义组合关系歧义15在汉语中,不仅主宾语可以省略,谓语动词可以省略,甚至定语和定语音识别的困难同音字如:《施氏食狮史》(赵元任)石室诗士施氏嗜狮,誓食十狮,氏时时适市视狮。十时,氏适市,适十狮适市。是时,氏视是十狮。恃十石矢势,使是十狮逝世,氏拾是十狮尸适石室。石室湿,使侍试拭石室。石室拭。氏始试食是十狮尸。食时,始识是十狮尸实石十狮尸。是时,氏始识是实事实。试释是事。16语音识别的困难16歧义切分如:唐代杜牧“清明”诗——七绝 清明时节雨纷纷,路上行人欲断魂; 借问酒家何处有,牧童遥指杏花村。改写为词: 清明时节雨, 纷纷路上行人, 欲断魂。 借问酒家何处? 有牧童, 遥指杏花村。改写为剧本:[清明时节][雨纷纷][路上]行人[欲断魂]:借问酒家何处有?牧童[遥指]:杏花村!17歧义切分改写为词:改写为剧本:17词切分中的歧义固有歧义:根据不同语境所出现的分词歧义例:(1)物理学是一门基础科学。

物理学起来很难。 例:(2)将来的上海将有严重的污染。 他将来上海。组合歧义:本身并不组成一个词,在不同语境下,产生不同的组合切分例:他的确切地址在这儿。 这块肉的确切得不错。18词切分中的歧义18词的歧义词性歧义:一个词有多种词性(兼类)例:汉语学习十分重要。(名词) 他们努力学习汉语。(动词)词义歧义:一个词有多种词义例:红花。(红颜色的)

红军。(革命的)结构歧义即词组成词组乃至句子时,由于其组成的词或词组间可能存在不同的语法或语义关系而出现的(潜在)歧义现象。19词的歧义19(1)“VP+的+是+NP”型歧义结构例:“反对的是少数人”(2)“N1+N2+N3”型歧义结构例:“北欧语言研究会”(3)“ADJ+N1+N2”型歧义结构例:“小学生词典”(4)“VP+N1+的+N2”型歧义结构例:“咬死了猎人的狗”(5)“VP+ADJ+的+N”型歧义结构例:“喜欢干净的小孩”等等…20(1)“VP+的+是+NP”型歧义结构20指代和省略中的歧义指代歧义:指代词(如我、你、他等)和代词词组(如“这一点”,“那件事”等)所指的事件可能存在歧义。例:老师给大家讲了一个动人的故事,这使大家很激动。省略歧义:自然语言中,经常有省略,该省略的不省略反而显得罗嗦,但有时也会由此产生歧义。例:他说(得/他)不清楚。21指代和省略中的歧义21第四节自然语言理解的应用自然语言人机接口例:数据库汉语查询接口WTCDIS(北京信息工程学院软件研究中心)用自然语言查询学生信息(1)请给出来自湖北的学生名单。(祈使句)(2)哪些学生来自湖北?(疑问句)(3)请问来自湖北的学生有哪些?(祈使疑问句)(4)来自湖北的学生名单。(省略句)(5)找出所有这样的学生:他们来自湖北。(复合句)一次查询处理的系统流程见下图:22第四节自然语言理解的应用自然语言人机接口22(查询处理流程图)23(查询处理流程图)23机器翻译与机助翻译(机器翻译示意图)24机器翻译与机助翻译(机器翻译示意图)24机器翻译的困难:词的多义性:源语言可能一词多义,而目的语言要表达这些不同的含义需要使用不同的词汇。文法的多义性:对源语言中合乎文法规则但有多义的句子,其每一可能的意思均可在目标语言中用不同的文法结构来表达。头语重复引用:源语言中的一个代词可指多个事物,但在目的语言中要有不同的代词,正确地选用代词需要了解其确切的指代对象。成语:必须识别源语言中的成语,它们不能直接按字面意思翻译成目的语言。25机器翻译的困难:25自动文摘就是利用计算机自动地从原始文献中提取文摘。文摘是准确全面地反映某一文献中心内容的简洁连贯的短文。自动文摘的主要方法:自动摘录:计算词频和句子的权重,确定权重最高的若干句子作为文摘内容,并按顺序输出。(最简单)基于理解的自动文摘:利用语言学知识获取语言结构,利

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论