人工智能导论课件第11章第4-5节_第1页
人工智能导论课件第11章第4-5节_第2页
人工智能导论课件第11章第4-5节_第3页
人工智能导论课件第11章第4-5节_第4页
人工智能导论课件第11章第4-5节_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1语法类型2语义分析和扩展语法3IBM的机器翻译系统第4节11.4语法类型与语义分析在自然语言处理中,我们可以在一些不同结构层次上对语言进行分析,如句法、词法和语义等,所涉及到的一些关键术语简单介绍如下:词法——对单词的形式和结构的研究,还研究词与词根以及词的衍生形式之间的关系。句法——将单词放在一起形成短语和句子的方式,通常关注句子结构的形成。语义学——语言中对意义进行研究的科学。解析——将句子分解成语言组成部分,并对每个部分的形式、功能和语法关系进行解释。语法规则决定了解析方式。11.4语法类型与语义分析词汇——与语言的词汇、单词或语素(原子)有关。词汇源自词典。语用学——在语境中运用语言的研究。省略——省略了在句法上所需的句子部分,但是,从上下文而言,句子在语义上是清晰的。11.4.1语法类型学习语法是学习语言和教授计算机语言的一种好方法。费根鲍姆等人将语言的语法定义为“指定在语言中所允许语句的格式,指出将单词组合成形式完整的短语和子句的句法规则”。11.4.1语法类型麻省理工学院的语言学家诺姆·乔姆斯基在对语言语法进行数学式的系统研究中做出了开创性的工作,为计算语言学领域的诞生奠定了基础。他将形式语言定义为一组由符号词汇组成的字符串,这些字符串符合语法规则。字符串集对应于所有可能句子的集合,其数量可能无限大。符号的词汇表对应于有限的字母或单词词典,他对4种语法规则的定义如下:(1)定义作为变量或非终端符号的句法类别。句法变量的例子包括<VERB>、<NOUN>、<ADJECTIVE>和<PREPOSITION>。11.4.1语法类型(2)词汇表中的自然语言单词被视为终端符号,并根据重写规则连接(串联在一起)形成句子。11.4.1语法类型(3)终端和非终端符号组成的特定字符串之间的关系,由重写规则或产生式规则指定。在这个讨论的上下文中:<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→the<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE>→<NOUN><NOUN>→student<NOUN>→expert<VERB>→reads11.4.1语法类型(4)起始符号S或<SENTENCE>与产生式不同,并根据在上述(3)中指定的产生式开始生成所有可能的句子。这个句子集合称为由语法生成的语言。以上定义的简单语法生成了下列的句子:Thestudentreads.Theexpertreads.11.4.1语法类型重写规则通过替换句子中的词语生成这些句子,应用如下:<SENTENCE>→<NOUNPHRASE><VERBPHRASE>The<NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.<SENTENCE>→<NOUNPHRASE><VERBPHRASE><NOUNPHRASE><VERBPHRASE>Thestudent<VERBPHRASE>Thestudentreads.11.4.1语法类型可见,语法是如何作为“机器”“创造”出重写规则允许的所有可能的句子的。11.4.2语义分析和扩展语法Chomsky非常了解形式语法的局限性,提出语言必须在两个层面上进行分析:表面结构,进行语法上的分析和解析;基础结构(深层结构),保留句子的语义信息。关于复杂的计算机系统,通过与医学示例的类比,Michie教授总结了表面理解和深层理解之间的区别:“一位患者的臀部有一个脓肿,通过穿刺可以除去这个脓肿。但是,如果他患的是会迅速扩散的癌症(一个深层次的问题),那么任何次数的穿刺都不能解决这个问题。”11.4.2语义分析和扩展语法研究人员解决这个问题的方法是增加更多的知识,如关于句子的更深层结构的知识、关于句子目的的知识、关于词语的知识,甚至详尽地列举句子或短语的所有可能含义的知识。在过去几十年中,随着计算机速度和内存的成倍增长,这种完全枚举的可能性变得更如现实。11.4.3IBM的机器翻译Candide系统在早些时候,机器翻译主要是通过非统计学方法进行的。翻译的3种主要方法是:①直接翻译,即对源文本的逐字翻译。②使用结构知识和句法解析的转换法。③中间语言方法,即将源语句翻译成一般

的意义表示,然后将这种表示翻译成目标

语言。这些方法都不是非常成功。图11-6机器翻译11.4.3IBM的机器翻译Candide系统随着IBMCandide系统的发展,20世纪90年代初,机器翻译开始向统计方法过渡。这个项目对随后的机器翻译研究形成了巨大的影响,统计方法在接下来的几年中开始占据主导地位。在语音识别的上下文中己经开发了概率算法,IBM将此概率算法应用于机器翻译研究。概率统计方法是过去20多年中自然语言处理的准则,NLP研究以统计作为主要方法,解决在这个领域中长期存在的问题,被称之为“统计革命”。1统计NLP语言数据集2自然语言处理工具3自然语言处理技术难点第5节11.5处理数据与处理工具现代NLP算法是基于机器学习,特别是统计机器学习的,它不同于早期的尝试语言处理,通常涉及大量的规则编码。11.5.1统计NLP语言数据集统计方法需要大量数据才能训练概率模型。出于这个目的,在语言处理应用中,使用了大量的文本和口语集。这些集由大量句子组成,人类注释者对这些句子进行了语法和语义信息的标记。自然语言处理中的一些典型的自然语言处理数据集包括:tc-corpus-train(语料库训练集)、面向文本分类研究的中英文新闻分类语料、以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型、万篇随机抽取论文中文DBLP资源、用于非监督中文分词算法的中文分词词库、UCI评价排序数据、带有初始化说明的情感分析数据集等。11.5.2自然语言处理工具许多不同类型的机器学习算法已应用于自然语言处理任务。这些算法的输入是一大组从输入数据生成的“特征”。一些最早使用的算法,如决策树,产生硬的if-then规则类似于手写的规则,是再普通的系统体系。然而,越来越多的研究集中于统计模型,这使得基于附加实数值的权重,每个输入要素柔软,概率的决策。此类模型具有能够表达许多不同的可能的答案,而不是只有一个相对的确定性,产生更可靠的结果时,这种模型被包括作为较大系统的一个组成部分的优点。11.5.2自然语言处理工具(1)OpenNLP:是一个基于Java机器学习工具包,用于处理自然语言文本。支持大多数常用的NLP任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等。11.5.2自然语言处理工具(2)FudanNLP:主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证,其开发语言为Java,主要功能是:文本分类:新闻聚类;中文分词:词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别;结构化学习:在线学习、层次分类、聚类、精确推理。11.5.2自然语言处理工具(3)语言技术平台(LanguageTechnologyPlatform,LTP):是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(DynamicLinkLibrary,DLL)的应用程序接口,可视化工具,并且能够以网络服务(WebService)的形式进行使用。11.5.3自然语言处理技术难点自然语言处理的技术难点一般有:(1)单词的边界界定。在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。(2)词义的消歧。许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。(3)句法的模糊性。自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(ParseTree),而我们必须要仰赖语意及前后文的信息才能在其中选择一棵最为适合的剖析树。11.5.3自然语言处理技术难点(4)有瑕疵的或不规范的输入。例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。(5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论