人工智能技术应用导论第6章 自然语言处理_第1页
人工智能技术应用导论第6章 自然语言处理_第2页
人工智能技术应用导论第6章 自然语言处理_第3页
人工智能技术应用导论第6章 自然语言处理_第4页
人工智能技术应用导论第6章 自然语言处理_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章自然语言处理CONTENTS目录自然语言处理介绍01自然语言处理关键技术02自然语言处理案例03自然语言处理介绍6.1应用场景01什么是自然语言处理02自然语言处理的基本方法03自然语言处理的研究方向04自然语言处理的三个层面05自然语言处理的难点06自然语言处理的发展现状07应用场景01文本分类:在预定义的分类体系下,根据文本的特征,将给定文本与一个或多个类别相关联的过程。例如:垃圾邮件检测,情感分析等。文本聚类(Textclustering):依据同类的文档相似度较大,而不同类的文档相似度较小的聚类假设,将文本进行聚类。机器翻译:使用计算机来实现不同语言之间的翻译。自第一台计算机诞生就有相关的研究与探索,基于记忆的->基于实例的->统计机器翻译->神经网络翻译。问答系统:接收用户以自然语言形式描述的提问,并能从大量的异构数据中查找或推断出用户问题的答案的信息检索系统。应用场景01自动文摘:所谓自动文摘就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容的简单连贯的短文。信息抽取(InformationExtraction,IE)是把文本里包含的信息抽取出来,然后以统一的形式集成在一起。舆情分析:就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。机器写作:人工智能机器人编写文章。什么是自然语言处理02什么是自然语言?以语音为物质外壳,由词汇和语法两部分组成的符号系统。文字和声音是语言的两种属性。是约定俗成的,有别于人工语言,比如Java、C++等程序设计语言。什么是自然语言处理(NaturalLanguageProcessing,NLP)?自然语言处理,就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息,进行各种类型处理和加工的技术。——冯志伟

自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。——BillManaris什么是自然语言处理02自然语言处理常用的工具和平台自然语言处理的基本方法03能力模型通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。又称“理性主义的”语言模型,代表人物有Chomsky、Minsky。建模步骤: 1.语言学知识形式化 2.形式化规则算法化 3.算法实现自然语言处理的基本方法03应用模型根据不同的语言处理应用而建立的特定语言模型,通常是通过建立特定的数学模型来学习复杂的、广泛的语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。又称“经验主义的”语言模型,代表人物有Shannon、Skinner。建模步骤: 1.大规模真实语料库中获得不同层级语言单位上的统计信息。 2.依据较低级语言单位上的统计信息运用相关的统计推理技术,来计算较高级语言单位上的统计信息。自然语言处理的基本方法03在NLP的发展过程中,其方法大致分为以下几类:基于规则的方法基于统计的方法自然语言处理的研究方向04自然语言处理主要有两大研究方向:自然语言理解和自然语言生成。自然语言理解(NLU,NaturalLanguageUnderstanding):使计算机理解自然语言(人类语言文字)等,重在理解。具体来说,就是理解语言、文本等,提取出有用的信息,用于下游的任务。自然语言生成(NLG,NaturalLanguageGeneration):提供结构化的数据、文本、图表、音频、视频等,生成人类可以理解的自然语言形式的文本。自然语言处理的三个层面05词法分析:包括分词、词性标注、命名实体识别等。句法分析:包括句法结构分析和依存关系分析等。语义分析:最终目的是理解句子表达的真实语义。自然语言处理的三个层面05图6-5句子分析自然语言处理的难点06词法歧义:分词:词语的切分边界比较难确定。严守一/把/手机/关/了严守/一把手/机关/了词性标注:同一个词语在不同的上下文中词性不同。我/计划/v考/研/我/完成/了/计划/n命名实体识别:人名、专有名词、缩略词等未登录词的识别困难。高超/nr/a华明/nr/nt移动/nt/v自然语言处理的难点06句法歧义:句法层面上的依存关系受上下文的影响。咬死了猎人的狗那只狼咬死了猎人的狗咬死了猎人的狗失踪了自然语言处理的难点06语义歧义:Atlast,acomputerunderstandsyoulikeyourmother.

含义1:计算机会像你的母亲那样很好的理解你。含义2:计算机理解你喜欢你的母亲。含义3:计算机会像理解你母亲那样去理解你。自然语言处理的难点06语用歧义:“你真坏”

当对干了坏事的成年人说时,是一种严厉的苛责。当妈妈对淘气的儿子说时,实际表达的是对儿子的一种疼爱。当恋爱中的女孩对男友说时,则是女孩在男友面前撒娇的一种表现。自然语言处理的发展现状07已开发完成一批颇具影响的语言资料库,部分技术已达到或基本达到实用化程度,并在实际应用中发挥巨大作用北大语料库、HowNet许多新研究方向不断出现阅读理解、图像(视频)理解、语音同声传译许多理论问题尚未得到根本性的解决未登录词的识別、歧义消解的问题、语义理解的难题缺失一套完整、系统的理论框架体系自然语言处理关键技术6.2分词01词性标注02命名实体识别03关键词提取04句法分析05语义分析06分词01分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。背景:在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。中文分词(ChineseWordSegmentation):指的是将一个汉字序列切分成一个个单独的词。例如:ー九九八年/中国/实现/进出口/总值/达/ー千零九十八点二亿/美元作用:中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。分词01常用的分词方法有基于字符串匹配的方法、基于统计的方法、基于深度学习的方法、混合分词等。分词011、基于字符串匹配的方法基于字符串匹配的方法又称为机械分词方法或字典匹配方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:正向最大匹配法(由左到右的方向)逆向最大匹配法(由右到左的方向)双向最大匹配法(进行由左到右、由右到左两次扫描)特点:简单高效,但词典维护困难,网络新词层出不穷,词典很难覆盖到所有词。分词01正向最大匹配法图6-7 基于正向最大匹配法的分词流程图分词012、统计分词其主要思想是将分词作为字在字串中的序列标注任务来实现的。每个字在构造一个特定的词语时都占据着一个确定的构词位置,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。步骤:建立统计语言模型。对句子进行单词划分,然后对结果进行概率计算,获得概率最大的分词方式。如隐马尔科夫(HMM)、条件随机场(CRF)等。分词013、深度学习分词使用word2vec对语料的词进行嵌入,得到词嵌入后,用词嵌入特征输入给双向LSTM,对输出的隐层加一个线性层,然后加一个CRF得到最终实现的模型。分词014、混合分词在实际工程应用中,多是基于一种分词算法,然后用其他分词算法加以辅助。最常用的是先基于词典的方式分词,然后再用统计分词方式进行辅助。词性标注02词性标注:是指为句子分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。例如:迈向/v充满/v希望/n的/uj新/a世纪/n。词性:是词汇基本的语法属性。目的:词性标注是很多NLP任务的预处理步骤,如句法分析、信息抽取等,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。方法:基于规则的方法、基于统计的方法、基于深度学习的方法。命名实体识别03命名实体识别(NamedEntitiesRecognition,NER):又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。例如:冶金/n工业部/n洛阳/ns耐火材料/l研究院/n。分类:命名实体识别研究的命名实体一般分为3大类(实体类、时间类和数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。作用:与自动分词、词性标注一样,命名实体识别也是自然语言中的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。步骤:实体边界识别确定实体类别(人名、地名、机构名等)命名实体识别03难点:各类命名实体的数量众多。命名实体的构成规律复杂。嵌套情况复杂。长度不确定。关键词提取04关键词是代表文章重要内容的一组词,现实中大量文本不包含关键词,因此,自动提取关键词技术能使人们便捷地浏览和获取信息,对文本聚类、分类、自动摘要等起重要的作用。关键词提取算法一般也可以分为有监督和无监督两类。有监督:主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到提取关键词的效果。无监督:不需要人工生成、维护的词表,也不需要人工标注语料辅助进行训练。例如,TF-IDF算法、TextRank算法、主题模型算法(LSA、LSI、LDA)等。关键词提取04TF-IDF算法词频-逆文档频率算法(TermFrequency-InverseDocumentFrequency,TF-IDF):是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。关键词提取04TF-IDF算法TF算法:是统计一个词在一篇文档中出现的频次。其基本思想是,一个词在文档中出现的次数越多,则其对文档的表达能力也就越强。IDF算法:是统计一个词在文档集中的多少个文档中出现。其基本思想是,如果一个词在越少的文档中出现,则其对文档的区分能力也就越强。其中,|D|为文档集中总文档数,|Di|为文档集中出现词i的文档数量。TF-IDF算法:关键词提取04TF-IDF算法例子:词频(TF)是一词语出现的次数除以该文档的总词语数。假如一篇文档的总词语数是100个,而词语“手机”出现了3次,那么“手机”一词在该文档中的词频就是3/100=0.03。逆文档频率(IDF)是文档集里包含的文档总数除以测定有多少份文档出现过“手机”一词。所以,如果“手机”一词在1,000份文档出现过,而文档总数是10,000,000份的话,其逆文档频率就是log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。句法分析05句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的依存关系,分为句法结构分析和依存关系分析。依存句法分析是通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。句法分析05例如,句子“国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。”的分析结果如图6-9所示(参考哈工大LTP:)。

从分析结果中我们可以看到,句子的核心谓词为“提出”,主语是“李克强”,提出的宾语是“支持上海…”,“调研…时”是“提出”的(时间)状语,“李克强”的修饰语是“国务院总理”,“支持”的宾语是“探索新机制”。有了上面的句法分析结果,我们就可以比较容易的看到,“提出者”是“李克强”,而不是“上海”或“外高桥”,即使它们都是名词,而且距离“提出”更近。句法分析05句法分析的重要性机器翻译是NLP的一个主要领域,而句法分析是机器翻译的核心数据结构,是对语言进行深层次理解的基石。对于复杂语句,标注样本较少的情况下,仅仅通过词性分析,不能得到正确的语句成分关系。语义分析06语义分析是编译过程的一个逻辑阶段。语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的意义。语义分析06语义分析的重要性仅仅知道句子的结构,是否就可以了?例如:三段论:所有人都得死,苏格拉底是人,所以苏格拉底也要死。推论:不可能一天读完鲁迅的作品,《药》是鲁迅的作品,所以一天不能读完《药》。通过上述案例可知,结构上是合乎语法的,但语义上不合实际。因此,仅仅分析出句子的结构,并不能妥善的解决机器理解与翻译等问题。所以,需要语义分析。自然语言处理案例体验6.3案例体验1:分词01案例体验2:TF-IDF关键词提取02案例体验1:分词01实验背景:分词是自然语言处理(NLP)中最基础最重要的模块,分词结果的好坏直接影响下游任务的效果,如命名实体识别(NER)、词性标注、机器翻译等。相较于英文,中文词与词之间没有直接的分隔符,因此,中文分词相对于英文分词更具有挑战性,也更加重要。案例体验1:分词01实验目的:了解jieba中文分词工具的使用模式和场景掌握jieba中文分词在不同模式下的调用方法jieba(结巴)是一个强大的分词库,完美支持中文分词。/fxsjy/jieba案例体验1:分词01实验步骤:步骤1:导入实验模块输入:案例体验1:分词01实验步骤:步骤2:探索分词模式精确分词:试图将句子最精确地切开,适合文本分析。输入:输出:cut_all参数用来控制是否采用全模式案例体验1:分词01实验步骤:步骤2:探索分词模式全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。输入:输出:案例体验1:分词01实验步骤:步骤2:探索分词模式搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。输入:输出:案例体验1:分词01实验步骤:步骤3:读取文本文件并分词对文本文件进行分词输出:输入:文本文件:huawei.txt案例体验1:分词01实验小结:本实验介绍了中文分词工具jieba的使用场景和使用方式,包括精

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论