自然语言处理_第1页
自然语言处理_第2页
自然语言处理_第3页
自然语言处理_第4页
自然语言处理_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语言处理方式自然语言处理01简介概念和技术发展史技术难点目录03020405关联技术研究热点工具和平台未来展望目录070608基本信息自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。简介简介语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部分。用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索。虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元。

自然语言处理(NaturalLanguageProcessing,NLP)是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解(NaturalLanguageUnderstanding,NLU)和自然语言生成(NaturalLanguageGeneration,NLG)两部分。发展史发展史最早的自然语言理解方面的研究工作是机器翻译

。1949年,美国人威弗首先提出了机器翻译设计方案

。其发展主要分为三个阶段。早期自然语言处理第一阶段(60~80年代):基于规则来建立词汇、句法语义分析、问答、聊天和机器翻译系统。好处是规则可以利用人类的内省知识,不依赖数据,可以快速起步;问题是覆盖面不足,像个玩具系统,规则管理和可扩展一直没有解决。

统计自然语言处理第二阶段(90年代开始):基于统计的机器学习(ML)开始流行,很多NLP开始用基于统计的方法来做。主要思路是利用带标注的数据,基于人工定义的特征建立机器学习系统,并利用数据经过学习确定机器学习系统的参数。运行时利用这些学习得到的参数,对输入数据进行解码,得到输出。机器翻译、搜索引擎都是利用统计方法获得了成功。

神经络自然语言处理第三阶段(2008年之后):深度学习开始在语音和图像发挥威力。随之,NLP研究者开始把目光转向深度学习。概念和技术概念和技术信息抽取(IE)信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究。信息抽取的主要过程有三步:首先对非结构化的数据进行自动化处理,其次是针对性的抽取文本信息,最后对抽取的信息进行结构化表示。信息抽取最基本的工作是命名实体识别,而核心在于对实体关系的抽取。

自动文摘自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标:首先使语言的简短,其次要保留重要信息。

语音识别技术语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,也就是让机器听懂人类的语音,其目标是将人类语音中的词汇内容转化为计算机可读的数据。要做到这些,首先必须将连续的讲话分解为词、音素等单位,还需要建立一套理解语义的规则。语音识别技术从流程上讲有前端降噪、语音切割分帧、特征提取、状态匹配几个部分。而其框架可分成声学模型、语言模型和解码三个部分。技术难点技术难点内容的有效界定日常生活中句子间的词汇通常是不会孤立存在的,需要将话语中的所有词语进行相互关联才能够表达出相应的含义,一旦形成特定的句子,词语间就会形成相应的界定关系。如果缺少有效的界定,内容就会变得模棱两可,无法进行有效的理解。例如他背着母亲和姐姐悄悄的出去玩了。这句话中如果不对介词“和”作出界定,就很容易形成母亲和姐姐两个人不知道他出去玩,或者是母亲不知道他和姐姐出去玩。消歧和模糊性词语和句子在不同情况下的运用往往具备多个含义,很容易产生模糊的概念或者是不同的想法,例如高山流水这个词具备多重含义,既可以表示自然环境,也能表达两者间的关系,甚至是形容乐曲的美妙,所以自然语言处理需要根据前后的内容进行界定,从中消除歧义和模糊性,表达出真正的意义。

有瑕疵的或不规范的输入例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。关联技术计算机科学机器学习方法互联技术关联技术计算机科学自然语言处理的最初目的就是实现人和计算机的自然语言对话,计算机作为对话的一个主体是自然语言处理这个概念提出的先决条件。长久以来人们对于机器人应用于生活,成为重要生产力推动社会发展,尤其是使机器人拥有“人的智能”就充满了憧憬,自然语言处理作为人工智能领域的一个重要组成部分,对于推动机器人的真正智能化有标志性作用。近年来计算机性能在数据存储能力、处理速度等方面的大幅提升,为海量数据的处理、概率统计,为发现语言的规律、获得内在成为可能。

互联技术互联的出现使信息的传播更加便捷,依托于互联技术出现的各种新媒体是信息已成为信息传播的主要途径,各种络聊天软件增加了人们沟通交流的途径,这些以文字形式出现具有保存一定时间要求的信息带来了数据的爆炸式增长,为利用基于统计的自然语言处理提供了海量资源。依托于互联技术,出现的开源平台,也是研究者们获取研究资源的重要途径。

机器学习方法机器学习是利用数据和经验改进计算机算法、优化计算机性能的多领域交叉学科,可以追溯到17世纪的最小二乘法、马尔科夫链,但是其真正发展起来应该从20世纪50年代算起,经历了“有无知识的学习”的执行、基于图结构及逻辑结构进行系统描述、结合各种应用拓展到对多个概念学习三个阶段的发展,自20世纪80年代中叶进入更新的、能够真正使计算机智能化的第四阶段。

利用半监督或无监督的机器学习方法对海量自然语言进行处理也与机器学习的发展历程相对应,大致可以分为两个阶段:基于离散性表示的线性模型的传统机器学习,基于连续性表示的非线性模型的深度学习。

深度学习是一种计算机自动学习算法,包括输入层、隐含层、输出层三部分,其中输入层是研究人员提供的大量数据,是算法的处理对象,隐含层的层数由实验人员确定,是算法对数据进行特征标记、发现其中规律、建立特征点间的过程,输出层则是研究人员可以得到的结果,一般来说输入层得到的数据越多,隐含层的层数越多,对数据的区分结果也就越好,但是带来的问题是计算量的加大、计算难度的提升,所幸计算机硬件在近年来取得飞跃。工具和平台工具和平台NLTK

:全面的python基础NLP库。StanfordNLP

:学界常用的NLP算法库。中文NLP工具:THULAC

、哈工大LTP

、jieba分词

。研究热点研究热点预训练技术预训练思想的本质是模型参数不再随机初始化,而是通过语言模型进行训练。目前NLP各项任务的解决思路是预训练加微调。预训练对于NLP任务有着巨大的提升帮助,而预训练语言模型也越来越多,从最初的Word2vec]、Glove到通用语言文本分类模型ULMFiT以及EMLo等。而当前最优秀的预训练语言模型是基于Transformer模型构建。该模型是由Vaswani等人提出的,其是一种完全基于Self-Attention所构建的,是目前NLP领域最优秀的特征提取器,不但可以并行运算而且可以捕获长距离特征依赖。

当前影响最大的预训练语言模型是基于Transformer的双向深度语言模型—BERT。BERT是由多层双向Transformer解码器构成,主要包括2个不同大小的版本:基础版本有12层Transformer,每个Transformer中的多头注意力层是12个,隐藏层大小为768;加强版有24层Transformer,每个Transformer中的多头注意力层是24个,隐藏层大小为1024。由此可见深而窄的模型效果要优于浅而宽的模型。目前BERT在机器翻译、文本分类、文本相似性、阅读理解等多个任务中都有优异的表现。BERT模型的训练方式包括2种:(1)采用遮盖单词的方式。(2)采用预测句子下一句的方式。

通过上述2种方式训练得到通用语言模型,然后利用微调的方法进行下游任务,如文本分类、机器翻译等任务。较比以前的预训练模型,BERT可以捕获真正意义上的双向上下文语义。未来展望未来展望自然语言处理领域一直是基于规则和基于统计2种研究方法交替占据主导地位,2种研究都先后遇到瓶颈,基于规则和传统机器学习的方法到达一定阶段后就很难再取得更大的突破,直到计算能力和数据存储的提升才极大地促进了自然语言处理的发展。语音识别的突破使得深度学习技术变得非常普及。取得较大进展的还有机器翻译,谷歌翻译目前用深度神经络技术将机器翻译提升到了新的高度,即使达不到人工翻译标准也足以应对大部分的需求。信息抽取也变得更加智能,能更好地理解复杂句子结构和实体间关系,抽取出正确的事实。深度学习推动了自然语言处理任务的进步,同时自然语言处理任务也为深度学习提供了广阔的应用前景,使得人们在算法设计上投入得更多。人工智能的进步会继续促进自然语言处理的发展,也使得自然语言处理面临着如下挑战:

1)更优的算法。人工智能发展的三要素(数据、计算能力和算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论