《自然语言处理技术的应用研究3500字【论文】》_第1页
《自然语言处理技术的应用研究3500字【论文】》_第2页
《自然语言处理技术的应用研究3500字【论文】》_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理技术在应用领域的研究综述自然语言处理是互联网科技发展的必然趋势,表示的是利用计算机可以实现模拟人类处理日常用语的方式。其覆盖范围较为广泛,主要涉及有语言学、自动翻译、倾向性分析、数学等多个方面。NLP在通信技术突飞猛进的过程中,需求量随之加大。基于此,本文对其背景、运用范围、方法展开了深入研究,同时预测了自然语言处理在未来的发展前景。1.所选定的研究领域的定义、内容1.1自然语言处理的定义由于语言学、AI科技和计算机科学在发展过程中的相互融合从而形成了NLP这门新兴的学科,目的是为了促使计算机能够对人类处理和运用语言的方式进行模拟。随着NLP的不断发展,进一步拓展出理解和生成人类语言这两个分支。1.2自然语言处理的内容1.2.1词法分析重点涉及有语法和词义注释、专名识别、分词以及语义消歧。其中前两者进行语法分析的核心工作。词性是语法的基础,只有对其进行准确注释,才能更好的理解各词所表示的语法意义。之所以要对词义消歧和注释,目的是为了结合情境明确词义,即使是相同的词在不同的语境之下所表达的意思可能存在着一定的差异性,不过在特定情境下通常可以清楚的知道含义。语法分析在中文NLP分词单元中是至关重要的,要想确保其他工作都可以顺利实施,前提即是必须将分词任务完成好。专名识别表示的是对地名、组织名等这种有着特别指定称谓的词语作出准确定性,其是NLP不可或缺的工具。1.2.2句法分析之所以要进行语法分析,目的是要对句子中每个构成部分所存在的关联性作出明确,简而言之即是确定它的句法结构,所要达到的技术包含两个方面,分别是依存和修辞分析。基于功能的层面来看,主要包括浅层和完全句法分析,前者表示的是对局部语言结构方式进行理解,后者表示的是基于分析整个句法全过程来构建树形图。现阶段运用最为广泛的依存分析,通常是分析各词汇所存在的相互依附关系。结合整个句子语法结构而言,乔姆斯基方法是必不可少的基础,按照重写标准可划分成0、1、2、3型四类文法,都统一叫做成分结构语法。局部句法分析主要包含两个分支:除了对语块进行定性及分析之外,还要对其所存在的依存关系进行分析。包含主要关键词、逻辑词困。前者是依存句法树的树根,一个完整的句子独此一个,作用是对其他词进行合理协调,其通常和依附词具有某种关系。1.2.3语义分析语义分析在不一样的语言模块中所蕴含的意义也存在着差异性。结合词的维度而言,其表示的是词义消歧;结合句的维度而言,其表示的是SRL;而基于整个文章的维度而言,其表示的是共指消解。1.2.4语用分析通常所说的语用分析,即是将语句里的描述关联到真实事物上,从而组成不断变化的表意结构。主要由语言发表者、语言接受者、信息内容、语言环境这四个基本要素所构成。2.所选定研究方法的定义、范围2.1数据流分析方法的定义中文NLP是通过采用统计、规则这两种方法来处理词、句亦或是整个文章。第一种方法是借助具有海量信息的知识库对相关信息进行分析,以此达到处理人类语言的目的;第二种方法是人类结合语言规则实现对语言表现形式的处理。数据对于NLP具有很大程度的影响性,大部分NLP性能之所以会加强,主要是依赖于数据量加大,因此要想深层次的掌握分析文本,就必须具备丰富大数据,基于这个方面的原因,导致流分析法在相当多的NLP应用系统中得到了普及。2.2数据流分析方法的范围处理步骤基本上包含以下几项:首先是取得充分的语言材料;其次实施预处理;再者是进行向量化,重点是将分词之后的字词转换成电脑能够计算的向量,如此可以促使不同词所存在的相近性能够实现更好的描述。其四则是要模型训练,可按照不同的任务类型做出相应的选择。可在实际的训练过程中通常会出现假设过度复杂和拟合程度不高的现象。采用正则化处理的方法以增加训练数据,对于过拟合的问题可进行有效处理,而降低正则化处理,促使其他特性的数据增多可以实现欠拟合的有效处理。最后则是衡量模型建立之后的成效,通常是依据以下三项指标进行评价的:一是正确率,即是对检索系统精度进行评估;二是查全率,即是对检索出的文档数比率进行评估;三是F值,将前两项指标相结合来对各项指标进行体现,检验方法和F值呈现出正向发展的关系。3.所选定研究方法在其它领域的典型应用3.1信息抽取(IE)3.1.1信息抽取的主要方法所谓信息抽取,即是把文体所涉及到的相关信息转化成标准化形式,基于语言资料将以名称作为标识的词语关系提取出来,是在专名识别的基础上展开进一步的分析。其流程主要包含三步:第一步是将信息转换成标准化数据;第二步有计划的抽取信息;第三步则是运用结构化来反映信息。专名识别是信息抽取必须要完成的任务,主要目的是为了获得实体间的关联性。3.1.2信息抽取的主要工作其工作内容重点涉及有专名识别、关系抽取以及实体消歧等。于此之中专名识别是其最为基本的工作,是为了将特定含义的词找出来,同时进行词义注释,为剩下工作的能够实现顺利开展提供良好的条件。最开始是运用基于规则来进行专名识别的,大部分都是采用人工的形式,虽然具有较高的正确率,可是查全率却不能达到预期效果,为解决这一问题,人们则采用基于机器学习的方法构建数据库,效率得到了有效提升。最近这些年,国内大多倾向于研究应用研究,专名识别随之到达了实用阶段。文中所描述的所有对象都能够具体的实际事物相对应,实体消歧的主要任务即是对描述对象对应的具体实体进行明确,通常有两种方法分别是聚类和实体链接。关系抽取即是基于语义方面对各实体所存在的关系进行明期。最开始重点是采用基于规则的方法,之后发展成为词典驱动,现在则运用的主要方法则是通过机器学习来实现。3.2自动文摘3.2.1自动文摘的分类根据一定的规则通过计算机自动地从之前的文本中进行摘要集成的技术即是自动文摘,主要是了完成两项任务:其一获得精练的语言;第二则是对关键信息进行保存。3.2.2自动文摘生成方法大致可以分成三个步骤:第一,针对所获取的语言材料实施预处理,将不必要的数据筛选出来;第二,明确并拓展文本内容;第三是生成文摘,具体来讲即是重新组合文本将其转换成全面、精练且具有较强可读性的文摘。包含多种不同的生成方法如模式匹配、结构化、理解和图模型等。基于模式匹配的方法中运用的较为广泛的即是Lead,尽管没有很复杂的规则,可能够取得不错的成效,尤其是针对新闻类。而图模型能够将各词间所存在的关系直接的反映出来,对以往特征法的缺陷之处进行了有效补充。传统最具代表性的TextRank算法即是其中之一,关系式为,V—节点集,E—边集,采用Wji表示任意两个节点Vi到Vj的边权重,Vi得分计算方法参照式3-1。(3-1)式中,d表示的是DampingFactor

,最小为0,最大不超过1,通常是0.85,指的是一个节点向其他节点进行跳转的可能性。相似度也可运用Word2vec求得,即采用向量对每个句子进行表示,在此基础上将余弦相似度计算出来,将和原文所表达的意思最为接近的句子当作文摘。4.评价维度4.1方法先进性NLP是经过规则过程向统计过程升级,然后经过统计过程向智能过程升级,经过一步步的摸索和实践,机器智能的升级速度越来越快,从而让机器可以更有效地兼容自然语言。进一步评估本文算法。5.分维度评价5.1word2vec算法的主要作用是把文本中包含的全部词进行特征化,如此则能够采用定量的方法对各个词所存在的关联信息进行分析,探究其潜在的关联性。通过训练所获得的词向量能够为相关研究提供一定的借鉴价值,因此,从某种意义的层面而言推动了有关领域的进步,尤其是在NLP范畴中。算法实际上包括两种模型分别是CBOW和Skip_gram,在将词语转换成向量时两模型的效率都相当快。5.2TextRank算法2004年,通过研究总结出TextRank算法,其实际上即是抽取关键词的一种算法。该算法是在图论的基础上进行的,常规任务就是对关键词的提取,这个算法是采用谷歌的PageRank算法,其是可以处理网页排名的算法,网页排列顺序分数的获取是依据网页间的互相链接关系。通过网页间的链接关系构造网页框架图,再依据迭代算出网页分数,最后网页的重要程度参考分数的高低顺序。6.各维度综合评述即便NLP的探索发现有些抽象,但是NLP最根本的研究就探索语法和词语用法以及语言意思,关注的焦点就是语言和文章。NLP最艰难的就是对语言的理解不能只依靠依存关系,大规模的知识库也是必不可少的,只有拥有这样的条件才可以更有效进行信息处理,从而更深层的掌握和解析文本。7.结论和展望基于发展的角度而言,NLP的运用范畴特别广泛并且具有良好的发展空间,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论