01-3 自然语言处理相关知识的构成_第1页
01-3 自然语言处理相关知识的构成_第2页
01-3 自然语言处理相关知识的构成_第3页
01-3 自然语言处理相关知识的构成_第4页
01-3 自然语言处理相关知识的构成_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理基础Python自然语言处理第一章02自然语言处理的发展历程CONTENT目录

01什么是自然语言处理04探讨自然语言处理的几个层面03自然语言处理相关知识的构成05自然语言处理与人工智能课前回顾什么是自然语言处理自然语言处理的研究任务自然语言处理的三大重要历程

自然语言处理相关知识的构成03基础术语知识结构分词分词的准确度直接决定了自然语言处理后续的词性标注、句法分析、词向量以及文本分析的质量。词是最小的、能够独立活动的、有意义的语言成分,英文单词之间以空格作为分界符,除了某些特定词,如howmany,NewYork等外,大部分情况下不需要考虑分词问题。而中文以字为基本书写单位,天然缺少分隔符,需要读者自行分词和断句。因此,同样存在分词的需求,但中文词语组合繁多,分词很容易产生歧义。中文分词一直以来都是自然语言处理的一个重点,也是一个难点。难点主要集中在分词标准,切分歧义和未登录词三部分。词性标注其中:我/r代表代词;爱/v代表动词;北京/ns和天安门/ns代表名词;r、v、ns都是标注。命名实体识别命名实体是指从文本中识别具有特定类别的实体,例如人名、地名、专有名词等,是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类:实体类、时间类和数字类;七小类:人名、机构名、地名、时间、日期、货币和百分比。句法分析句法分析是自然语言处理中的关键技术之一。句法分析是对输入的文本句子进行分析以得到句子的句法结构,解析句子中各个成分之间的依赖关系。例如:“小明是小华的哥哥”和“小华是小明的哥哥”,虽然两句话的结构相同,但是句法分析出其中的主从关系是不同的。对句法结构进行分析,一方面是语言理解的自身需求,另一方面也为其它自然语言处理任务提供支持。指代消费指代消解是自然语言处理的一大任务,它是信息抽取不可或缺的部分。在信息抽取过程中,用户关心的事件和实体间语义关系经常散布于文本的不同位置,同一实体可以有多种不同的表达方式。为了更准确且没有遗漏地从文本中抽取相关信息,必须先对文章中的指代现象进行消解。指代消解不但在信息抽取中起着重要的作用,而且在机器翻译、文本摘要和问答系统等应用中也极为关键。情感识别计算机对从传感器采集来的信号进行分析和处理,从而得出对方的情感状态,这种行为叫做情感识别。情感识别,本质是分类问题,人类的情感一般分为两类:正面、负面,当然也可再加上中性类别。情感识别常用来分析电商网站商品评价的好坏,便于商家及时发现并解决问题。纠错自动纠错在搜索技术和输入法中应用比较多,通常是由用户输入出错导致。自然语言处理相关知识的构成03基础术语知识结构知识结构自然语言处理作为一门综合学科,涉及知识包括语言学、统计学、最优化理论、机器学习、深度学习以及相关理论模型。简单罗列其涉及的知识体系如下:知识结构句法语义分析:对目标语句进行分词、词性标记、命名实体识别与句法分析等操作,属于自然语言理解任务。关键词抽取:抽取目标文本的主要信息。比如从一条新闻中抽取关键信息为:谁、于何时、为何、对谁、做了何事、产生了有什么结果。关键词抽取涉及实体识别、时间抽取、因果关系抽取等多项技术。文本挖掘:主要包括对目标文本集的聚类、分类、信息提取、情感分析等处理,以及对挖掘出来的信息的可视化、交互式的展示。机器翻译:将输入的语言文本转化为另一种语言的文本的技术。根据输入数据类型的不同,可细分为:文本翻译、语音翻译、手语翻译、图形翻译等。知识结构信息检索:从大规模的文档中获取最符合规则或者需要的信息。可以简单对文档中的词汇根据具体场景赋以不同的权重来建立索引(也可用算法模型)。查询时,对输入比进行分析,然后在索引中查找匹配的候选文档,根据具体排序机制对候选文档排序,输出得分最高的文档。问答系统:是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。系统需要对查询语句进行语义分析,形成逻辑表达式,然后到知识库匹配可能答案并通过具体排序机制找到最佳回答。对话系统:机器和用户进行聊天、回答、完成任务等工作的系统。涉及用户意图理解、通用聊天引擎

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论