单元1:自然语言处理基础2_第1页
单元1:自然语言处理基础2_第2页
单元1:自然语言处理基础2_第3页
单元1:自然语言处理基础2_第4页
单元1:自然语言处理基础2_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.3自然语言处理的三个层面1.3自然语言处理的三个层面自然语言处理中的句子级别的分析技术,可以大致分为词法分析、句法分析、语义分析三个层面,如图1-1所示。图1-1NLP的三个层面1.31.3自然语言处理的三个层面第一层面的词法分析,主要包括汉语分词和词性标注、命名实体识别三部分。和英文等语言不同,汉语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此,汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后就可以在此基础上进行其他分析,这一步骤称为分词(WordSegmentation)。除了分词,词性标注也属于词法分析的一部分。

1.31.3自然语言处理的三个层面给定一个分好词的句子,词性标注的目的在于为每一个词赋予一个词性,这里的词性指名词、单词、形容词、副词等,这个过程称为词性标注(Part-Of-Speechtagging,POStagging)。一般来说,属于相同词性的词,在句法中具有相似的位置,也承担着类似的角色。在词性标注后,通常还会进行命名实体识别(NamedEntitiesRecognition,NER),其目的在于识别语料中人名、地名、组织机构名等命名实体。1.31.3自然语言处理的三个层面词法分析主要面临如下几个问题:词的定义和生词问题:什么是词?词的定义标准是什么?汉语的词是开放、动态的,不可能用一部静态词典包含所有的词。所以,用来描述生词和构词法的模型是非常重要的。分词歧义问题:分词歧义是指在一个句子中,一个字串可以有不同的切分方法。分词歧义进一步和生词问题交叉在一起,分词问题变得就更加复杂。词性定义和词性兼类问题:词性类别远比词的个数要小,但词性的定义也不完全存在一个统一的信息处理用的国内和国际标准。词性兼类问题是词性标注面临的主要问题,需要更高层次的上下文信息来解决。1.31.3自然语言处理的三个层面第二个层面的句法分析,指对输入的文本句子进行分析,最终得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:1.31.3自然语言处理的三个层面(1)短语结构句法分析,该任务也被称作成分句法分析(ConstituentSyntacticParsing),作用是识别出句子中的短语结构以及短语之间的层次句法关系;(2)依存句法分析(DependencySyntacticParsing),作用是识别句子中词汇与词汇之间的相互依存关系;(3)深层文法句法分析,即利用深层文法对句子进行深层的句法以及语义分析。1.31.3自然语言处理的三个层面句法分析主要面临如下四个关键问题:1.模型定义问题:如何为各候选句法树打分。由于符合语法规则的句法树数目非常多,因此要对每棵树进行评估计算它的分值。本项内容是研究如何将句法树的分值分解为一些子结构的分值。2.特征表示问题:如何表示句法树。在模型定义中,句法树已经被分解成一些子结构。这些子结构如何被机器学习模型所识别,也就是特征表示问题。本项内容是研究采用哪些特征来表示每一部分子结构。1.31.3自然语言处理的三个层面句法分析主要面临如下四个关键问题:3.解码问题:如何寻找概率(或分值)最高的句法树。在给定所有子树的分值后,通过组合可以得到数目众多的不同分值树,搜索空间较大,无法通过简单比较得到分值最高的结果。本项内容是研究如何设计有效算法高效地搜索到分值最高的句法树。4.训练算法问题:如何获取特征的权重值。在句法分析中通常有数以千万计的特征,这些特征的重要性存在差异,因此需要为特征匹配一个体现特征重要性的权重值。本项内容主要是研究如何使用机器学习模型来有效的学习特征权重。1.31.3自然语言处理的三个层面自然语言处理的第三个层面是语义分析(SemanticParsing)。语义分析的最终目的是理解句子表达的真实语义。但是,语义到底应该是采用什么样的表示形式,到目前依然没有统一的答案。语义角色标注是目前比较成熟的浅层语义分析技术。基于逻辑表达的语义分析也受到了学术界的大量关注。1.31.3自然语言处理的三个层面1.3基于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论