1006大设计翻译版以面向新闻的抽取技术研究与实现_第1页
1006大设计翻译版以面向新闻的抽取技术研究与实现_第2页
1006大设计翻译版以面向新闻的抽取技术研究与实现_第3页
1006大设计翻译版以面向新闻的抽取技术研究与实现_第4页
1006大设计翻译版以面向新闻的抽取技术研究与实现_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本人我,本 及其研究工作是由在导师指导下独立完成的在完成 时所利用的一切资料均参考文献中列出。时间:20146TheResearchandImplementationofEventExtractionTechnologyOrientedNewsTutor:CHAOWenhanWiththeadventoftheeraofbigdata,theInternetwillproduceverylargeamountsofinformationeveryday,thesemessagesofhasthecharacteristicsoftheunstructured,redundancy.Becauseofthesecharacters,therearemanyinterferencewhengettheinformation,whichtakesmuchtimeandeffort;ontheotherhand,forsuchmuchinformation,weareveryhopetobeabletousecomputertocompletetheysiswork.So,informationextractionisaveryimportantandmeaningfulInformationextractioncontainsmanyaspects,eventextractionisoneofveryimportantpartofinformationextraction.Sofar,therearemanyworkabouteventextraction,buttheseworksoftenaimedatdifferentareas.Forourapplicationscenario,therestilllacksomeworkthatmeetourapplicationrequirement.Tosolvetheseproblems,inthispaper,weresearchandimplementaneventextractionsystemorientednewsarea,accordingtoourdefinitionofeventextractiontask,thispapermainlyincludesthefollowingthreeaspects:First:designtheclassificationsystem,eventextractionisaveryimportantpartofourwork,anaccurateeventclassificationsystemisthebasisofaccurayclassifyevents.Wereferencesomeexistingeventclassificationsystem,andcombinethespecificcontentsinourapplication.Finally,wegetoureventclassificationSecond:thedesignofeventextractionalgorithm,becausetheeventextractiontaskisdefinedbyourselves,wealsoneedtocompleteanautomaticsummarytaskcomparedwithothereventextractionwork.Therefore,wedesignedoureventextractionThird:implementoureventextractionsystembasedonoureventextractionalgorithm.Itacceptsatextfileasinput,afteroperation,outputthecollectionofevents.Inaddition,wedothefunctionaltestingandperformancetestingforoursystembasedontheneeds, ysistheresult.Finally,concludethecurrentwork,presentedthefuture:EventExtraction,EventClassification,AutomaticSummary,Information 绪 研究背 国内外研究现 抽取方 自 方 研究目标与内 研究目 研究内 的组织结 相关技术简 抽取技 基于实例驱动的抽取技 支持向量 卡方特征选择算 聚类方 TF-IDF算 相似度计算算 抽取式自 技 本章小 抽取系统设 系统功能需 分类体 系统总体架构设 系统各模块具体设 预处理模 分类模 聚类模 内容抽取 模 本章小 抽取系统实 系统开发环 开发语言和平 技术基 系统实现概 通用数据结 预处理模 分类模 聚类模 内容抽取 模 本章小 实 实验环 实验设 功能实 实验目 实验过 实验结果与分 性能实 实验目 实验过 实验结果与分 本章小 总 工作总 工作展 致 参考文 绪抽取(EventExtraction)[2,3,4]是信息抽取中重要的组成部分,在信息抽在抽取领域,MUC(MessageUnderstandingConference)会议和Extraction场景的定义,包括时间、地点、对象、等内容。根据这个定义,再完成最后的抽取任务。基于模式匹配的这类方法需要将带抽取的句子和已经提取出的模板进行匹配来完成抽基于机器学习的基于元素驱该方法主要是利用机器学习中的分类器思想来描述的各元素以及元素hiu[8]基于触发词驱。该方法最初由基于实例驱[12]出发,将每一个句子看成是候选的实例,然后通过对候选类来完成抽取任务除此之外,仍存在一些其它的抽取工作,[13]基于开展了抽取的研究。[14]等基于隐马尔可夫模型进行了中文文本信息抽取。付[15]等基于依存分析进行识别。等[16]采用了无监督的方式进行抽取的同时需要对要素识别以及类型判别。等[17]基于卷积树核进行了中文情感要素的识别。等[18]基于条件随机域进行中类别识别。[19]进行了实体关系识别上的研究自动基于统计这种方法主要源于Luhn[20],这种方法主要是通过计算句子的各种较大的句子组成最后的结果。这种方法易于实现,但是其中各种统计信息的基于意义的理 这种方法要求对文本进行语法分析和语义分析。如的研究内容[21],通过抽 中的节点利用编辑距离进行语义聚类,并应用Rank排序算法对语义图进行。 基于 动。Chang-jinJ等[22]根据词或短语的频率、位置和长度计算它们的权重,在此最后根据类中权值选择句子组成。等[23]基于LexRank算法将所有的句子构成一个无向图,通过句子之间的相似度计算确定句子之间是否有边,然后计算出最重要的句子组构成用命名实体识别、自动等技术,对于石油领域的,提取出其中的时间、地点、对象以及整个的信息。 文本预处 实体提 分类体系的构4)类别判5)的划6)自动段组全部用来作为内容的。这里还需要能够从片段组中提取出最能够表示事件内容的片段,作为最后的中包含的内容。第一章绪论 第三章抽取系统设第四章抽取系统实图详细说明了实现过的各个方面与注意事项。相关技术简基于实例驱动的抽取技基于实例的抽取技术可以形式化表示如下假设句子集合为S{s1s2s3si,sn}n表示一篇文本中句子的总数,si表示文本中的第i个句子,是候选实例,然后需要从一个句子中抽取Si={ti1ti2,ti3tijtik},k表示一个句子提取到的特征k个,tij表示i和非实例集合SNE={sne1,sne2,sne3,…,snej},其中i表示时间实例的句子个数,j表示非实例的句子个数,且i+j=n。最后对候选实例采用支持向量机进行多远分类,得到类别Ci∈C={C1,C2,C3,…,Ci,…,Cn},n表示分类。这里的特征可以包括能够描述类别的名词和动词等。支持向量机(SupportVectorMachineSVM)是一种监督式学习的方libsvm来使用支持向量机进行分利用这些默认参数可以解决很多问题;并提供了交叉检验(CrossValidation)的功能。该软件包可以在获得。量(chi-squarestatistic,CHI)进行特征提取。文本分类问题的特征选择阶段,主要关心的问题是一个词w(一个随t对类c完全没有表征作用,即根本无法根据t出现与否来判断一篇文档词w和类t关联到什么程度才算是有表征作用本文中只是借用此方法挑选出最卡方统计量的计算如下𝜒2(w,t)

𝑁×(𝐴𝐷−(𝐴+𝐶)×(𝐵+𝐷)×(𝐴+𝐵)×(𝐶+

假设训练样本为:{x1x2x3xm},其中每个xi∈𝑅𝑛,KMeans1k个聚类中心点(clustercentroids)为u1u2u3uk𝑅𝑛2、重复下面过程直到收敛Ci=argmin||𝑥𝑖−}2.1KMeansPi离中心TF-IDF(termfrequency–inverse TF-IDF算法的主要思想是:如果一个词或者短语在一篇文档中出现的频率TF高,并且在其它文档中出现的次数非常少,那么说明这个词或者短语对于这1、计算词频TF=词𝑤在文档中的出现次 1图1来自 /articles/7779词𝑤在文档中的出现TF 文章的总TF

词𝑤在文档中的出现文档中出现次数最多的词的出现次数

2、计算逆文档频率3、计TF-

语料库中文档IDF=log包含词𝑤的文

TFIDF=TF× |𝐴∩J(A,B)=|𝐴∪ 𝐴∙EJ(A,B)=(∥𝐴∥+∥𝐵∥−𝐴∙ 𝐴𝐵表示两个向量的向量积,∥𝐴∥表示向量A的模长。∥𝐴∥的计算如下∥𝐴∥=√(𝑎12+𝑎22+𝑎32+⋯+ ,A、BA、B的一个维度可以是一个词,而该维度具体的值可以是该词在文档中的TF-IDF值。余弦相似度的计算如下cos(A,B)

𝐴∙∥𝐴∥×∥𝐵

其中𝐴𝐵AB的内积,𝐴A的模长,其具体的计算同广义Jaccard相似度中的模长计算。 抽取式自 主要是通过选择原始文本中的一些重要的句子构成文本密歇根大学的GUNESErkan和DragomirRRadev了LexRank,这种LexRank算法首先对文档进行分句,然后分别计算句子之间的相似度。如果后得到一个无向图G=(S,E),图中每个节点s∈S,对应一个句子,边(si,sj)表示两个句子是相关的。节点s的度d是与s相连的边的数目,d的大小反应了句子 本章主要介绍了本文的抽取系统在设计的过需要使用到的相关技术和理论基础。2.1节中介绍了基于实例的抽取技术以及支持向量机和在使用支持向量机时将要使用的特征选择算法。2.2节中介绍了聚类相关用到KMeans算法,TF-IDF算法和几个相似度计算算法。2.3节中介绍了基于LexRank的抽取式自动技术,这是本课题中将要采用的自动技术。抽取系统设化的,以便能够进行分析等进一步的工作。event={time,ce,object,description,description:描述信息,在本文中,其代表的内容是必要的。其中object,descriptiontype是每个event都必须具有的部分。系,具体的分类体系如表3.1所示。表主要指投资市场票等。主要是上主要和实际市场、库存等内这里主要是和商业组织相关的内以及两个组织之Start-Merge-Declare-等和政策相关的事政策等要是两个或者多个组织之间的交Phone- 和生产相关的内n和个人相关的事Start-和技术相关的事Saving-New-石油周边的一些上表中对本文中的分类体系做了概要的列表展示,下面对以其中[<date>][<ce>]<product><description<date>:指发生的日<ce>:指发生的地<product>:涉及到的产<description>:描述,一般是指的其中,<date>和<ce>是可选的。每桶103.6,涨幅为1.01%。4月10日国内油市场行情平稳是否 判 类 句子为中对各 句子做输 集3.12、句判断。对于分句后的文本,句子的类型包括句子、非句句子长度、包含的特殊词语等作为特征采用基于实例的方法进行判断。3、类型判断。这一步的工作紧接着句的判断。由本文中的抽4、句子聚类。由于句子能够明确地表示出的内容,而非句子 。输入句子集合,采用LexRank算法进行自动 文本,作为的 本小节中,参照系统的总体流程,将系统的8个步骤划分成4个模块,对每分句处 分词处初始处理文档的不规则形式、编码3、处理过的文分传递导入用户词分词、词性标返回分词后的结去停用返回结构化句返回结构化文.分类模初始提 特判断是否

句传

句卡方算法进行特征提取支持向量机进行分返 类返回最终结图3.3分类模块序列 初始计算TF-IDF传递对象文将每个句子转化为向量表句子初始化聚类中循

进行重新计算聚类返回聚类结3.4TF-IDF 模块序列图如图3.5所示 自动部分,将各个句子集合分别输入到工具中,基于算法,得到各个句子集合 .8.11.12.返 结图3.5内容抽取 抽取系统实分数据处理的工作采用Python完成。具体的环境如下所示:操作系统:Windows集成开发环境:JetBrains liJIDEA13.1,JetBrainsPycharm相关依赖包:ansj_seg-1.4.jar,libsvm.jar,TextProcess4.0.jar,tree_split-利用这些默认参数可以解决很多问题;并提供了交叉检验(CrossValidation)的ansjansj中文分词工具3是一个基于语义模型和条件随机场模型的中文分词Java实现。目前实现了中文分词、中文识别、用户自定义词典等内容。2 理过。使用libsvm完成分类模型的训练。 构的定义,降低了系统各个模块之间调用的复杂度,其类图如图4.1所示。通用的数据结构主要包含四个类:Word、Sentence、Event。到了词语的词性、TF-IDFWord类主要保存这些内容。text保存词语本身,pos保存词性,frequency保存词语在一个句子中出现的次数,tf,idf,tfidf是TF-IDF中的三个量。Sentence类是对一个句子的抽象,包括句子的内容text,句子分词后的结果和是否是句子isEventencewords是一个ListList中的每一项都是Word- - - - - - *1- -centralSentence- - - - Content- - - - -isEventence *1- - 4.1类是对文档的抽象,包含整个文档的文本text,和句子集合sentences。sentences是一个List,List中的每一项是Sentence类。Event类用来保存最终结果,即包含类型type,中心句子centralSentence, gettersetterget4.2Reader类中,实现了从一个输入文件名到的对应的文本的转化,SentenceDivider类,实现了对于输入文本的划分,首先将Reader划分。然后调用SentenceProcess类对每一句话进行处理。类和StopWord类对句子进行分词、去停用词、特征词判断。FeatureWord类,这个类主要是用来对特征词进行判断的工作。特征词的盘StopWord类,实现了对停用词的判断工作。该类从停用词字典中出停 :-eventCharacters FilterEventence类,实现了对句子的判断,判断句子实际上是ChiSquare类,完成卡方统计量的计算工作,对于卡方统计量的计算需要首Map<String,Integer>textCountMap<String,List<Sentence≫textsMap<String,Map<String,Integer>>countedWordsMap<String,Map<String,Double>>wordChi1、Map<类别,类别下对应的文档数量2、Map<类别,类别下的句子3、Map<类别List<Map<词,出现该词的文档数4、Map<类别,Map<词,词对应的卡方统计量的值ChiSvmFormating类ChiSquare计算好的各个词卡方值格式化输出保存到训练文件中,供后面的svm进行训练。到的模型用来完成分类工作。这里面主要完成对libsvm的调用工作。ClusterFeature类用来提取聚类的特征。这里的特征选择的是一篇文档中所有的词(去掉了停用词n维向量,n是词的个数,每这个维度上的词语,那么这个维度上的值为0。clusterFeatureMap<Integer, --4.4征向量。具体的计算在第二章中有介绍。 WHILEOR迭代次数最大迭代次数加1RETURN1KMeans 模块类图如图4.5所示:图4.5内容抽取 TimeFilter类,采用正则表达式句子进行时间短语抽取,时间短语中包含了[0-9]{1,4}年[0-9]{1,2}月[0-9]{1,2}ObjectFilter类,考虑ansj分词工具不能够完全准确地标注出每个词语的SummaryLexRank算法,确定最重要的句子,得到。将每个实Windows系统下进行,关于验证本系统功能和性能测试验证的主 (R)Core(TM)i5 M 操作系统:Windows根据本文设定的抽取任务,对抽取系统进行功能实验和性能实验。功能实验验证系统能否完成抽取任务,即能否抽取到给定的5要素。性能实验主要验证系统分类的准确率,处理多篇文档的速度以及的性能。测试集用来验证分类的准确率。最终的结果准确率由libsvm给出。 (Recall 率R反 R= × 表现原文信息的准确程度,定义为P= × 的语句集合,B表示系统产 4、能否生成5、能否确定类型5.1图5.1显示,本文的抽取系统从一篇文本中抽取出了13个(图中只从前3个结果,可以看到的内容基本上能够代表。第4个结果的摘在获取的语料中,RISE、DOWN 对于处理大量文本的测试,本文选取了50篇文本进试。 5035915ms,而用在分词模块初始化花的时间为 =25927ms。3 5.1表 性能指 语23100%,通常情况下来说这是不现实的,的内容权重是不一样的,在语料2和语料3中,部分 这也就导致了LexRank算法很高的准确率。但是总体来说,LexRank算法在本章主要对抽取系统做了测试,第2节和第3节分别介绍了对本系统进行总况,本文对这些无结构的信息进行了抽取的尝试。文的分类体系参考了ACE中给出的分类体系,然后结合确定的在石油2、分类体系的完善。在本文中,我们给出了一个石油领域的分类体系,这个分类体系是参考ACE的分类体系以及大量阅读相关的文本5、自动方面。本文采用了LexRank算法进行自动,这是一种从原文中抽取句子作为的算法。这种算法得到的没有对语句进行的处理。如进行基于意义的,文本的修饰等。致大学四年匆匆而过,在完成我的毕业设计的时候,在此向所有给予我指感谢北航智能信息处理能够给我提供一个优良的环境让我来完成自这对于我以后的发展将会是一笔十分重要的。参考文[1]FreitagD.Machinelearningforinformationextractionininformals[J].Machinelearning,2000,39(2-3):169-202.[2].网络突发信息抽取技术研究[D].信息工程大学,[3],,.抽取技术的回顾与展望[J].信息工程大学学报,2011,12(1):113-118.谭红叶.中文抽取关键技术研究[D].哈尔滨:哈尔滨工业大学,高强.抽取技术研究综述[J].理论与实践,30042013,p.114-YangarberR.Scenariocustomizationforinformationextraction[R].DefenseAdvancedResearchProjectsAgencyArlingtonVA,2001.发.一种跨语句汉语信息抽取方法[J],计算机工程,2001ChieuHL,NgHT.Aumentropyapproachtoinformationextractionfromsemi-structuredand text[J].AAAI/IAAI,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论