单元3:词性标注和实体命名识别1_第1页
单元3:词性标注和实体命名识别1_第2页
单元3:词性标注和实体命名识别1_第3页
单元3:词性标注和实体命名识别1_第4页
单元3:词性标注和实体命名识别1_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python文本与语音应用设计单元3词性标注和实体命名识别认识LTP3.1依存句法分析3.2词性标注和实体命名识别单元3三元组抽取3.3知识目标了解LTP。掌握词法层面的词性标注和实体命名识别的概念;学习目标技能目标能够使用LTP进行词性标注;安装LTP的Python封装包;下载LTP的模型文件;能够使用LTP进行命名实体识别,并提取其中的命名实体。学习目标单元概述单元概述分词、词性标注和命名实体识别这三项技术密切相关,构成了中文信息处理的基础性关键技术,也是词法层面的三姐妹,相互联系和影响。上一单元学习了NLP中的基础技术分词,这一单元将学习NLP词法层面的另外两种基础技术——词性标注和实体命名识别。单元概述由于英文在不同的词性下往往有不同的形态,因此词性标注相对较为简单。而中文词性标注的难点在于词在不同的应用场景下没有明显的形态变化,而且往往具有多个词性。因此,中文词性标注的难度较大。本单元主要介绍词性标注和命名实体识别的定义与实现。3.1词性标注3.1词性标注词性是词汇最基本的语法属性。词性标注(Part-Of-Speech

tagging,POS

tagging)是指对给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注的正确与否会直接影响到之后的句法分析、语义分析,是中文自然语言处理的基础之一。3.1词性标注词性标注最简单的方法就是统计语料库中每个词所对应的高频词性,将其作为默认的词性,这种方法可以覆盖大多数场景,满足基本的准确率要求。目前,常用的词性标注方法主要分为两种,一种是基于规则的词性标注方法;另外一种是基于统计的词性标注方法。目前较为主流的方法是基于统计的词性标注方法,其基本思想与基于统计的分词方法相同,也是将句子的词性标注作为一个序列标注问题来解决的。3.1词性标注jieba分词工具提供了词性标注功能。jieba分词的词性标注功能与分词流程相同,同样是结合规则和统计的方式,也就是说同时使用词典匹配和HMM。常用的标注标准主要有北大的词性标注集和宾州词性标注集。3.2命名实体识别3.2命名实体识别命名实体识别(NamedEntitiesRecognition,NER)的目的在于识别语料中人名、地名、组织机构名等命名实体。NER重点在于划分实体的边界以及标注实体的类型。3.2命名实体识别命名实体识别分为(1)基于规则的命名实体识别;(2)基于统计的命名实体识别。但由于不同应用场合的词典存在可移植性差、更新维护困难等问题,因此基于规则的命名实体识别无法在实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论