




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本我,本 及其研究工作是由在导师指导下独立完成的,完成 时所利用的一切资料均已考文献中列出。作者:201405ResearchandImplementationofEntityRelationshipExtractioninOilAuthor:ZhuBoNamedentityrecognitionandentityrelationextractionareessentialcomponentininfor-mationextractionaswellasprerequisitesofsomehighlevelnaturallanguageprocessingtasksincludinginformationretrieval,machinetranslation,eventdetection,andQAsystem.Itisalsoanimportantapproachtotransformtheunstructuredinformationintothesemi-structuredinfor-mation.Inthispaper,wecarryoutnamedentityrecognitionandrelationextractionexperimentsintheoil-related.Themaincontentsinclude:Obtainoil-relatedarticlesfromtheInternetascorporaanddefinethenameentitiesac-cordingtothecorpora.andtagthecorporaweobtained,finallyweget1000taggedsentencesintheoil-related;TrainanameentityclassifierwhichisbasedonCRFmodelonthetaggedAccordingtotheresultsofnamedentityrecognition,obtainthetypicaloil-relatedrela-ManuallyfindaseedsetforthebootstrapUsetheresultofbootstrapcorporaastrainsettotrainaSVMrelationsclassifiertoclassifytheentitypairsincorpora.Throughexperimentsabove,wegotthenamedentityrecognitionandrelationextractionresultsthatprovetheeffectivenessofthetechniquesweusedintheexperiments.Andalso,weyzetheresultsobtained,anddiscusstheapproacheswhichwecoulduseforafurtherim-provementinthefuture.:NamedEntityRecognition,EntityRelationExtraction,ConditionalRandomFields,Bootstrap,SupportVectorMachine 1绪论11.1研究背景11.2研究现状11.2.1命名实体识别11.2.2关系抽取31.3本文研究内容41.3.1研究目标41.3.2研究内容51.4组织结构52相关技术62.1条件随机场模型62.1.1特征函数的选择72.1.2参数估计82.1.3模型推断2.2自举方法2.2.1自举算法流程2.2.2自举算法关键问题2.3支持向量机 2.3.1问题定义 2.3.2原型 3模型设计 3.1语料库构建 3.2实体关系体系确定和状态集选定 3.2.1ACE中的实体关系分类 3.3条件随机场特征选定 3.3.1特征模板讲解 3.3.2备选特征模板3.3.3语料人工标注3.4自举方法流程3.4.1实体关系的表达3.4.2前提概念3.4.3参数设计3.5软模板泛化策略3.5.1相似度策略3.5.2语义相似度计算3.6分类器设计3.6.1特征向量的定义方法3.6.2最终的特征向量 3.7本章小结 4系统实现 4.1预处理模块 4.1.1分词工具 4.1.2词性POS集 4.1.3文本处理 4.1.4标注工作 4.2命名实体识别模块 4.2.1实验数据集 4.2.2实验设计 4.2.3效果总结 4.3自举方法模块 4.3.1实验数据集 4.3.2实验设计 4.3.3效果总结 4.4SVM分类器模块 4.4.1数据集和代码 实验设计 效果总结 4.5本章小结 5结论和展望 6致 参考文献 着Internt上的信息似的增长,如何利用这些海量的异构数据成为研究热点,具体涉及到信息检索、问答系统等,而这些研究都离不开理解文本中实体之间的关系,也就是实体关系抽取技术。实体关系抽取技术虽然有各种各样的研究方向和实现方式,但都分为两个步骤:实体识别和关系抽取,一般实体关系抽取技术建立在实体识别的基础上。实体关系抽取方面的研究大多针对二元关系,即两个实体之间的关系,也有部分研究多元关系,不过大多是采取把多元关系分解为多个二元关系的方式。实体关系抽取技术主要是基于机器学习的方法,分为有监督的学习方法、半监督的学习方法和无监督的学习方法。现有的研究中,对石油领域的研究基本上还是空白,之前的一些研究主要集中在平行语料,对领域的针对性不强。本文针对石油领域命名实体识别和关系抽取进行研究与实现,实现了一个能够自动抽取石油领域命名实体和关系的系统。从上个世纪末开始,消息理解会议(MessageUnderstandingConference,MUC)[1]、自动内容抽取会议(AutomaticContentExtraction,ACE)[2]等多种会议不断开展开来,于是,国内的信息抽取(InformationExtraction:IE)的研究逐渐发展并被推广。信息理解会议对智能信息处理任务有着重要的推动作用,1995年开展了MUC-6会议,并在此名实体包括了[1]:人名( (Location(OrganizationRelationTR、模板(ScenarioTemteSTACE评测会议是由 于2000年所组织的,此次会议的两大主要任务是[2]:实体识别(EntityDetectionandRecognition,EDR)和关系识别(RelationDetectionandRecognition,主要内容是从语料中自动抽取实体、关系、等内容,识别了7种实体类型。命名实体识别的研究领域已取得了很要专业规则编写人员,制定不同的规则,开发,,工作量是巨大的。基于统计方法,基于规则的方法的介绍规则方法主要依靠两种命名的信息实体本身和它自己的周围词的结构的位置信息,这主要是指依靠专业词典和定制语则,在一般情况下,需要大量的语言学知识才能获得比较好的识别结果。对于词典中已经存在名实体,可以直接识别出来,有些是字典中没有的符合条件名实体,则需要根据上下文的信基于统计的方法统计模型的主要方法有:隐马尔可夫模型(HMM)[3]、最大熵模型()5]、支持向量机(SV)6][7]、条件随机场(CRF)9]等。隐马尔可夫模型是马尔可夫链的一种,是一个具有观察序列和隐含序列的概率模型,他的状态集是符合马尔可夫随机过程的,但是他的观察集不是直接得到的,而是不可见的,每一个时刻的隐含状态都以一定的概率发射一个观察状态。最大熵理论[10]即在对某一随量进行概率估计的时候,尽量满足样本中已知的概率分布,对样本中未知的分布,不做假设。条件随机场模型是由一个马尔可夫随机场和一个观察集构成的,它不像HM模型一样要求观察状态的独立,这样就比隐马模型具有更大的灵活性,同时相对于最大熵模型来说,又解决了其不能解决的一个大问题,即标记偏置问题。规则与统计结合的方法为了获取更好的识别效果,系统现在通常结合统计和规则两种方法,一起进行,先利用统计方法命名实体识别,再定制一些人工规则对通过统计方法得到的结果过滤修正。即通过各种方式收集大量且丰富的语料信息,运用统计模型分担大量的劳动量,同时加入一定的规则进行命名实体识别。在机构名的识别中,就通常以统计方法为基础,通过规则为辅的方式进行识别。,实体间关系的识别主要可以分解为两个关键步骤:获取标注完实体后的数据集和关系模式。获取标注完实体后的数据集即命名实体识别,前面已经进行了讨论;集模式主要是为了抽取实体对的关系,某一种关系类型,对应着一种上下文的实体对模式,用正确的模型来提取实体对模式之间的正确关系即是关系提取的另一个主要工作。有监督的实体关系抽取关系抽取在研究初期主要基于是有指导机器学习方法,在文献[13]winnowSVMACE的语料上进行了结果的评估,F73.08%73.27%,通过这个实验,区分度的特征;文献[15][16]首次提出基于SVM的树核函数的实体关系抽取,结果显示基于树核的SVM比其他方法比较有较高的准确率。总的来说,基于有监督的关系抽取半监督的实体关系抽取有监督的实体关系抽取,需要大量人工标注过的语料,但是,系抽取的思路就是,将实体关系抽取的结果,即得到的新的关系元组,加入集他们原先的设想,非常的好,首次证明了半监督实体关系抽取的有效性;在Agichtein等人开发的另一个半监督实体关系抽取系统Snowball[4]中,他们改进了Brin的算法,同显示比起Brin的系统,SnowballF值有了较大的提升,抽取效果更显著。文献[19]中利用自扩展算实现了国家和的二元关系抽取;基于半监督实体关系抽取优点就无监督的实体关系抽取2004Lgwa20]提出了无指导的机器学习关系抽取方法,其主要在文本聚类算法基础上,实现了关系的提取。文献21][22]通过对k-means系抽取更进了一步,不通过训练语料来获取模式,而是通过所有语料中的共性对语料聚类,这样可以把不同的实体关系区分开来,但并没有注明是哪类关系。从直观的角度,虽然无监督的实体关系抽取是未来的主攻方向,但现在来看它也是最复杂的。现今无监督的实体关系抽取还有许多问题,例如没有针对无监督的实体关系抽取通用的数据集,这就极大的制约了无监督的实体关系抽取的发展。就像半监督的实体关系抽取研究借鉴了很多监督的实体关系抽取研究一样,未来在监督的和半监督的实体关系抽取研究取得突破之后,极有可能推动无监督的实体关系抽取研究,并使之成为主流。本以命名实体识别,自举方法半自动迭成训练语料,对SVM分类器在实体关系抽取中的运用为线索,实现了一个可以识别石油领域名实体,并抽取相关石油领域命名实体识别手动标注一些石油领域相关的数据,尝试不同的特征模板,基于自举方法的半自动实体关系语料获得利用条件随机场识别名实体后,选取一部分句子,作为集,人工选取一些关系,采用自举方法训练分类器,识别新关系,每次迭代选取识别效果较好的关系加入集,再次训练分类器,对剩下的进行识别,直到集不在增加为止。关系特征的抽取针对每一个关系实例,把句子中有用的信息综合起来,构成特征向量,基于特征的SVM分类支持向量机这的机器学习方法在分类问题中已得到了广泛应的特征,对SVM的效果进行试验,并对比不同特征的准确率,率,F值等指标。条件随机场1][12]frty2001基础上,不同于隐马模型,条件随机场是一种判别模型,由于其的有比较优秀的性能,现在广泛运用在自然语言处理的标注问题,机器学习的分类问题和机器视觉等各个领域中。条件随机场首先给定了一个随量的集合,该集合中随量以一定的方式连接着形成了一个无向图,相邻的两个图节点之间在概率上是相关的,具有依赖关系,不相邻的两个节点在条件随机场理论上来说是条件独立的,这样这些随量的集合的无向图就组成了一个马尔可夫随机场。这些随量之间,具有马尔可夫性质,马尔可夫性质可以直观的理解为某一个随量的影响范围是十分有限的,只能影响它周围的顶点,这样的假设大大方便了条件随机场的理论的建立,条件随机场就是在这个马尔可夫随机场状态模型下,又建立了一个观察集合,从这个角度再次审视条件随机场,它就是一个给定了观察集的马尔可夫随机场。而我们的任务就转化为基于马尔可夫随机场结构之下,什么样的观察集合具有最大的概率,即求一种条件概率,而frty给出了求条件概率的解析表达式和如何估计这个解析表达式中的参数的算法。设G=(V,E)是一个无向Y={Yv|v∈V是以G点v为索引的随量Yv构成的集合。在给定X的条件下,如果每个随机变量Yv服从马尔可夫条件随机场p(Yv|X,Yu,u,v)=p(Yv|X,Yu,u∼最简单且最常用的是一阶链式结构,即线性链结构(Linear-chainCRFs)x={x1,x2,···,
y={y1,y2,···,
λt ,y,x,i)j j
µs(y,x,k kp(y|x,λ)= λjfj(yi−,yi,x, 1 Z(x) λjfj(yi−1,yi,x, ,参数估计从已经标注好的训练数据集学习条件随机场模型的参数,即各特征函数的权重向量λ。 Z(x) ∑λjjj(yi−1,yi,x, tj(yi−1,yi,x,sk(yi,x,10b(x,i)b(x,i)
1match f(yi−1,yi,x,i)
b(x, i yi−1=<title>,yi=<author 极大似然估计(umLikelihoodEstimation,MLE)假定对于训练数据有一组 D=x(j),y(
,∀j=1,···,
(,p(y|x,L(Θ)∑
∏
p(y|x,Θ)˜(
L(Θ)
˜(L(λ)
∑
˜(x,
∑
∑
˜(x)
˜(x, λf
˜( λj
˜(x,y)
∑f ,y,x)
∑˜(
f ,y, λ
j ∑
[
]
=Ep˜(x,y)[fj(x,y)]k
Ep(y|x(k)
fj(x(k),
0λ1、迭代缩放如何估计条件随机场模型的参数,通常使用的算GIS算法(GeneralisedI tiveScaling)IIS算法(ImprovedI tiveScaling) λj←λj+δλ
δλλλ={λ1,λ2,··
p(y|x,λ+∆={λ1+δλ1,λ2+δλ2,··∑˜(
˜(x)
˜(
+j ˜(
T(x,
)exp(δλjT(x,
T(x,y)
n∑
fj(yi−1,yi, ∂A(λ,∆)=
∑˜(x,y)
f ,y,∂δλ–∑–
∑
∑
x˜(x)yp(y|x,λ)i=1fj(yi−1,yi,x)exp(δλjT(x,y))=λj←λj+δλ 模型推断采用维特比算法注的模型,用于推断最优的解序列,采用动态规划的算法,利用空间换时间的思想让维特比算法有较快的速度,通常复杂度都是可以接受的。Siπiij的转移概率为aij。令观察到的输y1,...,yT。产生观察结果的最有可能的状态序列x1,...,xT由递 =Py1|k· =Pyt|k·maxx∈S(ax,k·Vt,ktk的观测结果最有可能对应的状态序列的概率。通过保存向后指针记住在第二个等式中用到的状态x可以获得维特比路径。一个函数Ptr(kt),它返回若t>1时计算Vt,kx值或若t=1时的k.这样: =argmaxx∈Sxt−1 Ptr(xt,算法复杂O(T×|S2)首先是一些问题必要的设置。设观察值空间为O={o1,o2,...,oN}、状态空间为S{s1s2sK}Y={y1y2yT},AKKAij为sisj的转移概率BKN放射(emissionmatrix)Bij为在siojKππix1==siX{x1x2xTY{y1y2yT在这个动态规划问题中,我们构造了两个大小为K×T的二维表T1,T2T1每个元素,T1[i,j]Y={y1y2yj}
ˆjˆˆj−ˆjj2jTˆj−1K·jiT1[ij]T2[i,j]T1[i,j]=maxk(T1[k,j−1]·Aki·Bij),T2[i,j]=argmaxk(T1[k,j−1]·Aki·Bi输入:观察空间O={o1o2oN},状态S={s1s2sK},观察序列Y{y1y2yTt时间观察值为oi,yt==i,大小为K·K的转移矩阵A,Aijsisj的转移概率K·NB,Bijsioj的概率,初始概率数组πofsizeK,πix1==si的概率,输出:最有可能的隐含状态序列X={x1,x2,...,xT}自举方法简单的说就是利用未标注的语料库和少量人工选取的,进行自动的抽取相应的关系。未标注语料需要有较高的冗余度,现在多选互联网语料,通过关系,不断构造关系模式,利用关系模式得到关系,反复进行,最后达到收敛停是rin在1998半监督的抽取互联网上(作品)关系的程序(IPE)17],最后的结果显示,效果超过了他们原先的设想,非常Agihtein等人开发的另一个半监督实体关系Snowbll4]rin(公司,公司地址)这样的二元关系的抽取;实验的结果显示比起rin的系统,SnowbllF值有了较大的提升,抽取效果更显著。文献19]中利用自扩展算实现了国家和领导人的二元关系抽取;基于半监督实体关系抽取优点就是克服了指导学习对语料库的依赖,且能保证识别的准确率没有明显的降低。对于半监督的实体关系抽取来说,最大的难题就是如何选择训练数据,包括初始训练数据的选择和实体关系抽取结果加入训练数据的判断标准。俗话说差之毫厘谬以千里,如果训练数据有问题,那肯定会对结果造成相当大的影响。经过十几年的发展,现在的自举方法基本已经有了稳定的结构,关键点也越来越清晰。基于一个显示标注实体名称的文本集,利用共现原理,抽取出集中元素出现将第(4)步中新关系集作为新集合,跳转到(2)重新执行;当新关系集合自举方法是一种概念,Brin时候,对很多实现的细节都没有深入的讨论,经过这么多年的发展,自举方法有了各种各样的实验,但是他们的思想还是想同 上来看,自举方法在(国家,),(机构,地点(,作者)这些领域的效果较好,很大一个原因是由于这些领域的语料库中如果提到,往往会出现冗余,这样的分布就为自举方法提供了天然的平台,所以适合自举方法抽取。集的选择。关系集的选取十分重要,俗话说差之毫厘谬以千里,如果训练数据初始的有问题,迭代过程中,这些问题就会被放大,那肯定会对结果造成相当大的影响。集一般来说,是凭借先验的知识去抽取,要求要少,并且能覆盖到表达这种关系的各个方面,但是实际上往往不能一次通过先验知识选取到最好的集,一般都是通过选取集,带入进行实验,查看结果,再选取集,对比结果直到添加集后,生成的结果已经稳定,不再发生变化为方法的率高,但是准确率低,结果引入很多的噪声。如果泛化过小,则可能支持向量机[7][8]支持向量机属于一般化线性分类器,也可以被认为是提克规范化(ikhonovgulariztion)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。设样本属于两个类,用该样本训练svm得到的最大间隔超平面。在超平面上的样本点也称为支持向量.我们考虑以下形式的n个点的测试集D,D={(xii)|∈Rpyi∈{−11}}nyi−11超平面的数学形式可以写作w·xb=0wb的目的是增加间隔。如果没有b的话,那超平面将不得不通过原点,限制了这个方法的灵活性。由于我们要求最大间隔,因此我们需要知道支持向量以及(与最佳超平面)平行的并且离支持向量最近的超平面。我们可以看到这些平行超平面可以由方程族:w·x−b=1,w·x−b=−1w只是超平面的法向量,长度未定,是一个1-1只是为计算方便而取的常量,其他常量只要互为相反数如果这些训练数据是线性可分的,那就可以找到这样两个超平面,在它们之间没有任何样本点并且这两个超平面之间的距离也最大。通过几何不难得到这两个超平面之间的距离是/|w|,因此我们需要最小化w。同时为了使得样本数据点都在超平面的间隔区以外,我们需要保证对于所有的i满足其中的一个条件w·i−b≥1rw·i−b≤−1i(w·i−b)≥1≤i≤n.个二次规划QP(quadraticprogramming)最优化中的问题。 ||w||2,满足y(w·x–b)≥1其中i=1,...,n。1/2这个w,b 解如上约束问题αiargminw,bmaxα≥0{1∥w∥2− α[y(w·
–b)− i yi(w·xib10分离的点就无关紧要了,因为须设置相应的αi为零。练向量的线性组合w= αyx,其中只有很少的
ii 量,yi(w·xi−b)=1.由此可以推导出支持向量也满足w·xi−b=1/yi=yi⇐⇒b=w·xi−yib.在实际应用中,把所NSV的偏移量做平均后鲁棒性更强:b=1∑NSV(w·xi−y S设样本属于两个类,用该样本训练svm得到的最大间隔超平面。在超平面上的样本点也称为支持向量.nD,D={(xii|∈Rpyi{−11}}nyi−11。超平面的数学形式可以写作:w·xb=0x是超平面上的点w是垂直于超平面的向量。本文利用从互联网上爬取网页的方法,获得石油领域相关的语料,以便进行后面的标注工作。石油领域的信息相对来说比较稳定,网络上存在很多涉及到石油领域的介绍和相关信息整合的网页。而且这些网页的爬取方式也比较简单。本文根据语料的需求,在网络上寻找与地名相关的并且信息相对集中的数据源。经过分析,采用了慧聪石油网,网等12个数据源,进行了语料抓取工作并将抽取到的数据存入数据库中,为下一步的标注工作做准备。团体,如:英国石油公司。:具有自身和他人作用的工具,比如说刀,枪,剑,盾牌等状态集的选择标注参考了的标注,本系统采用17种状态集S-nr,B-nr,I-nr,E-nr,S-in,B-in,I-in,E-in,S-pr,B-pr,I-pr,E-pr,O,start,end,其中,nr代表人名,in代表机构名,pr代表产品名。前缀分别代表S:single单个单词代表一个命名实体,如“习近平/S-nr”,代表词“习近平”是一个单独构成一个人名名实体。B:begin,一串单词构成名实体开头的一个。I:in,一串单词构成名实体中间的某一个。E:end,一串单词构成名实体中结束的一个。举例说明例如句子“61821断块未动用储量试验井组实施现场传来喜讯,由大港油田勘探开发科研人员设计开发方案的叶22—32m井获得高产”经过分词后,句子被分成词的小片段,对句子中名实体进行标注,B-in代表的是一个命名实体的开头I-in代表的是机构命名实体的中间,E-in代表的是命名实体618日,大港B-inE-ins叶21断块未动用储量试验井组实施现场传来喜讯,由大港B-inI-inI-inI-inE-in科研人员设计开发方案的叶22—32井获得高产。油田,大港油田勘探开发。另外还有三个标注符号,分别代表:Ostart,end:在每一句前后分别补start,end状态,可以更好地估计联合概率分布,加上start和end,可以提高模型的性能。否则。表 S-ACE中的关系分 ACE定义了七大类关系,其中每种关系有很多小类施事关系:指施事者和施事对象之间的关系,比如说“爱因斯坦发现了相对E的实体和关系类别并不完全适合石油领域的抽取需求,在石油领域中,我们所要抽取的关系是石油领域相关的实体之间的关系,如产品波动的关系,机构与机构的关系,人和公司的关系。为了明确定义石油域相关关系的类别,本文根据对语料的观察,最终结合通用领域和石油领域各自的特点确定了石油领域的实体和实体间相对应的关系。表 bp0在命名实体识别任务中,我们实际需要的是借助条件随机场模型完成一个标注问题,通过观察序列得到一个合理的状态序列,状态序列就是我们要标注名实体识别序列,观察序列是由待识别句子中的若干特征所构成的特征序列。CF中特征的选取是通特征模板进行的。模板分为两类,一种模板是nirm模板,这个模板用来描*L是标注集中类别数量,N是从模板中扩igrm模板,这个模板会用来描述转移特征。这个模板会在自动产生当前outputtoken和前一个outputtoken**N中不同的特征。特征模板的表示形式为“U00:x[-2,0]”UUnigram模板,后0表示第一列特征,就如下面的例子:“今年/t 现货/n交付/v的/u西/j德州/ns中/f质/ng油/n 均/ag价/n预计/v在/d每/p桶/r98/m/q”在本文的研究中,选取了多种不同的特征模板进行训练,并对比了不同模板的效果,选取了效果最好的模板进行了命名实体对分类器的训练。备选特征模板如表.5所示。10007:3表 训练文tOnOvO的uO西jOO中f质I-油n均O价nOvO将dO在pOrOmOqO表 %x[-1,-1行,0质%x[0,0行,0油%x[1,1行,0均%x[-1,-1行,1%x[0,0行,1n%x[1,1行,1%x[-2,0]/%x[-1,表 123(ectorPattern关系集:分为实体对和特征词,二者进行组合就成了关系(实体1,实体2,关系特征词。关系实例:国bp石油公司,通力合作>,所以它是一个关系实例。软模式:为了提高率,对上下文模式进一步泛化得到的模式,详情见下节。bpE1type*E2type*通力合作*。停用词表去掉停用词,句子中的停用词占用了两个实体间的距离,但是却没有实际的意义,不能为判断关系提供有建设性的提示,影响关系判断精确度会导致将属于该类关系的句对误判,所以去掉停用词对提高率有相当大的影响。实体关系窗口大小命名实体对之间的关系是通过它们之间的上下文来表现出来的,通过对命名实体对之间上下文的分析,可以得到它们之间的关系,为了对它们之间的关系进行分析,可以将它们之间的上下文抽取出来,而过大的范围不但对关系抽取无益,越界标记由于有窗口大小的限制,对于实体谓语句子开头或者句子不够长的,本文采用将其用越界标志“outbound”补充为一样长,越界标记词性为名词,即n。最大迭代轮次自举方法的假设是,如果两个实体在某个句子中具有某一关系,在其他的句子中也可能代表同一关系的不同表达,将这些表达找出,认为符合这些表达式的句子,代表了一种关系的实例,而这些表达式就称为关系模板,利用关系模板带入数据库可以找到新的符合这种关系的实体,最后反复迭代,会自动的找出符合这种关系的各种各样的实例。由于文本的多样性,关系元组中不可避免的存在噪声,而新的关系元组要作为下一轮迭代过程的,噪声元组容易导致错误蔓延,产生循环依赖现象。这就需要人工的去根据迭代匹配的结果进行设置最大迭代的轮次,最后保证找出的语料都属于该关系。以“合作关系”为例,关系为<中石油,英国bp石油公司,合作>,具体步关系实例抽取:利用关系到大规模语料库中检索,根据字符串匹配技术,抽将关系元组的实体替换成实体类型Etype,比如“中石油英国bp石油公司未来将大力合作”,上下文模式为“e1typee2type未来将大力合作”。模式泛化:根据上下文模式,进行进一步泛化,抽取软模式,其中软模式必须包含两个槽和一个特征词,其他词可以定制不同的软模式模板,进行筛选,如由上面两个上下文模式可以泛化得到“1type*2type** 候选元组抽取:使用软模式检索语料库,获得大量匹配模式的句子,根据软模 可以将(中海油,壳牌公司,大力合作)加入初始关系集中,完成一轮迭代 重复执行(1)(5)直到没有新的关系元组产生,或者不再产生新的模式,或者相似度比较策略在中通常有三种[28],如表3.6所示表 singleaveragecomplete模式的相似度是由模式中的词来体现,为了实现词的语义相似度或语义距离的度HoNtHoNt词表,它是一个汉语的语言学的知识库,它的构建是选取了一些基本的义原作为变量,然后逐步的向上构建每个词所用到的义原,最后,只要是词典中能收录的词,利用知网,就可以根据两个词的溯源,得到词语的义原,然后就可以利用这个回归最初始变量的方式,得到两个词语的语意距离,最终得到词语之间的语义相似度,达到了汉语词语知识库的作用,它是语义计算中的一种常用的工具,对于汉语的语义的理解有很大的帮助。wiwjSim(wiwj)Sim(wiwj实现
2∗NCi,NCi+NCi,jwi,wjhownetNCiNCjwj比如句子“正式出任董事长”抽出来的软模式模式为“*nr**in*0.98,如果预先设定的阈值是0.7,那么大于给定的阈值,就可以认为,两个软模式是代表关系,将“*nr*出任*in*”加入软模式集。使用基于向量的方法,将实体对变成一个特征向量,然后运用机器学习方法抽取实体关系。定义多种特征在功能的是使用了不同类型的实例的特性来区分,好的特征可以提供更好的区分功能。文献中实体关系抽取特征向量的构造方法[29]如下所示特征向量:(E1TYPE,E2TYPE),Wi−w,Wi−w−1,…,Wi−1,Wi+1,Wi+w−1,Wj+l,E1TYPE为实体所属的类别,ij表示先后出现的两个实体的位置,Wkk处的词有人对取词窗口W的大小进行了测试实验结果表明当W2的时候达到最优性能这种方法在关系抽取中达到了较好的效果[25]。文献[26认为动词在实体关系中的作用是非常重要的尤其在组织从属关系中候选命名实体对的相对位置和动词的语义概念基本上决定了候选实体对是否具有实体关系。鲁松,白硕在自然语言处理中词语上下文有效范围的定量描述一文中[24],他们在一个句子中,抽象出词和上下文,信源信宿的概念,信息熵包括信源的先验不确定度,就是词作为一个随量来说,在统计意义上的信息。信宿的后验不确定度,在已知的上下文的基础上,得到的周围词的随量的不确定的性质,他们认为二者之差就表3.7(在表3.7中位置标号中的正数N表示该词语的右面的第N个词语,位置标号中的负数M表示该词语的左面的第M个词语)表 123456因此在特征词的处理上加入了词汇的位置权重特征进一步提高了关系抽取的性能,计算如下:Weight(pos)=info(el,posl)+info(e2,2其中,posl为上下文词汇与命名实体el的相对位置,pos2为上下文词汇与命名实体e2的相对位置;info(el,posl)为位poslel的信息增益,info(e2,pos2)为位置pos2相对于命名实体e2的信息增益。定义了石油领域名实体有人物,产品,机构三种并且对数据进行预处理和标注,最1000句石油领域标注过命名实体的数据;然后,利用标注过的数据,基于条件随机场模型训练分类器,进行命名实体识别,事先定义好名实体从未标注的语料中识别出来;接着,建立了石油领域名实体对之间的关系体系,最后得到了石油领域的典型的四种关系,利用命名实体识别的实体对,人工选定一些集进行自举生成对应关系的语料;最后,利用生成的语料,基于支持向量机,选取径向基核函数进行了关系的分类。利用这里设计好的模型,下一章将重点论述,这些模型在本文中的实现方式。ICTCLAS工具进行分词。计算所的汉语词法分析器主要采用《》语料库进行参数训练,系统在处理过程中,通过哈工大停用词表对停用词语进行了过滤,因为停用词语对信息抽取没有意义,这样做一方面可以减少系统的计算量,另一方面可以提高后面信息,所以在括号里面的就会被识别为一个命名实体,所以我们要在预处理的时候,去掉文章中的符号,到时候不会产生错误名实体识别。我们采用了类似的标注方式,“中国/ns石油/n公司/n计划 在/p今/t六月/t”这句话就被标注为“【中国/ns石油/n公司/n】in计划/v在/p今年/t六月/ttokensstates表 标注得到的tokens和states文中国石油公司计划在今年六月OOOO本文通过分析命名实体识别研究方法,通过分析石油领域命名实体的实例,并使用了词特征,使用了和石油领域实体自身特征和外部特征匹配的模板,最终利用我们定义出来的特征模板,抽取特征实现了中文石油领域命名实体对识别任务。定义了特CF语言模型,最后通过语言模型实现名称的识别。运用工具从最大熵模型上演化来的条件随机场是一种全新的概率图模型,不但具有表达特征长距离依赖和交叠的能力,而且能方便的在模型中包含任意多特息。同CRF是一种判别模型,计算的不再是观察序列和标记序列的联合概率分布,而是条件概率,这就有效的克服类HMM特征强独立性假设的问题;在特征的融合的方面,能够有效减少ME的复杂度,而且有效的解决了标记偏移问题。CRF工具包,PocketCRF,FlexCRF,CRF++,本文选择在易用CRF++工具包。下面的章节中介绍的一些特性crf_learntemtetrain.datamodel,这个命令会输出训练过程的时间、迭代次数等命令格式如下:crf_learntemte_filetrain_filemodel_file>train_info_file。-aCRFL2orCRFL1,规范化算法选择。默认CRF-L2。一般来L2算法效果L1算法稍微好一点,虽然L1算法中非零特征的数值要比L2中大幅度的小。1CRF++到大规模数据时,只出现一次的特征可能-pNUM,如果电脑有多个CPU,那么那么可以通过多线程提升训练速度。NUM是线程数量。带两个参数令行例子:crf_learn-f3-c1.5temte_filetrain_file根据模型的建立中所说,我们采用了如实验设计章节表3.5所说的三种模板进行实验,最后从中挑出性能最好的一个作为最终的训练模型,用于识别石油领域名实模板的选择本文采用了实体周围单个词和实体周围的组合词,以及二元特征,分别词评测方法本次评测所使用的工具为CoNLL2000CRFPerl程序:conlleval.pl,该程序通过计算评测语料的正确率、率和F值检验了条件随机场模型在石油领域的在相同测试数据集的情况下,使用本文提出表4.4CRF的实体识别方确率还是率上都存在10个百分点的提高,这个很好理解,一般机构实体都比较表 简单模率f表 组合模率f表 组合特征模板+二元特率f长,如果只采用短距离的简单模板,会丢失很多必要的信息,所以采用长距离的复杂模板不光利用上了机构的内部特征,还利用上了机构的周围上下文特征,实验证明,F值会相对于简单的模板有很大提升。添加了表4.因可能是组合特征和转移特征之间不是独立的,二元特征已经被组合特征表达了出来。90w句,经过命名实体识别模块处理过的,已经标根据通过对于语料中共现的实体对进行分析,我们在实验的设计阶段得到了石油领域的关系体系:我们得到了四种关系,而接下来我们会对这四种关系分别进行自举迭代,生成对应的语料集。集根据自举方法的模型,我们需要生成初始的集,集的选取十分重要,如果没有寻找好的集,则会导致自举方法不能有效的实施,表现过早由于抽取不到针对四种关系,我们分别取了如下的集:表 石油领域关系初始初始集-壳牌石油公集-集集-天然气参数调节根据上一章介绍的自举方法的建模中,自举方法应该有一下几个参数:在具由于[19]2-6-2时,性能会得到最好的结果,而且这篇文章也用实验探究了词性对于关系抽取的影响,最后,动词和名词在关系抽取的表 v,3v3n3n,v,3过滤停用词语在对文本进行分词与标注以后集合,本系统通过一个停用词表将这些停用词语剔除,这样做一方面可以减少系统的计算量,找出命名实体对在对文本集合进行了词语切分与标注,过滤停用词语之后,为了提高信息抽取的准确率,将抽取的范围限定在一个合适的范围,必须找出在同一句子中选出关系集合为了实现命名实体之间关系的自动抽取,可以通过人工的方法,给出少量关系集合。实现关系的自扩展由于人工仅仅提供了少量的关系集合,对于信息抽取来说,这是不够的,通过自动训练的方法实现关系的扩展。计算命名实体对和关系之间的相似度由于命名实体对之间的关系可以通过它们之间的上下文来判断,具有相同或相似上下问的两组命名实体对具有相同或相似的关系,可以通过计算命名实体对和关系之间上下文的模式,结合知网的语言学知识,进行相似度的计算。算法与实现pythonC可以再读写文件的时候获得C的速度,并且,开发速度快,周期短。表 源码hownet相似度的封装置CorpusManagerSentence类EntityPair类Entity类Pattern类PatternManager类Tokenizer类WindowsSizer类Util类雇佣关 雇佣关系共生成生成了1159条语料,摘录若干,如表4.9所示表 1234机构间的合作关系691条语料,摘录若干,如表4.10所表 1234关系关系共生成生成了345条语料,摘录若干,如表4.11所示表 1234市场产品波动关系市场产品波动关系共生成生成了529条语料,摘录若干,如表 1234采用从自举方法生成的关系实例,经过手工删除一些自举中出现的噪声,最后得SM对类型,但是不具有该关系的实体对所在的经过窗口裁剪的句子,数量依照正例的数目来定,和正例一样多这样做的好处是:SVM模型进行分类,在具体的实验实现的时候,用的是我们采用libsvm工具[27]作为本实验的svm分类器,libsvm是大学林智仁等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参(CrossValidation)的功能。该软件可以解决C-SVM、ν-SVM、ε-SVRν-SVR等问题,包括基于一对一算法的多类模式识别问题。LIBSVM拥有C、Java、、C#、Ruby、Python、R、Perl、CommonLISP、Labview等数十种语言版本。最常使用的是C、、Java和命令行(c语言编译的工具)的版本,十分方便使用。参数调节libvm4种核函数供选择:线性,多项式,径向基,igmoid核函数,SM的参数选取本身是一个可深入研究的问题但是考虑到本文重点是选择更有区分度的特征,而且训练语料数量比较大,导致特征数量较多,采取交叉验证会导致使用的时间大大的增加,所以,从实验可行性上来讲模型参数选取了程序包默认参数即:c4,g7:3的比例,划分训练语料和测试语料集。特征选择和特征向量构建本文构造一个向量,不但体现上下文特征对关系抽取的贡献,而且也包含其他特征分量的贡献。设有(E1,E2)为实体对(E1type,E2type)分别为候选名实体对构造vector=[(weight(context1),weight(context2),…,训练文本的所有候选命名实体对的上下文特征词形成一个上下文向量空间。为候选命名实体对的上下文映射这个向量空间所形成的一个向量对的各项特征形成的五元组。特征向量的每个分量的构成是:w(contexti)=[(weightPresent(word),weightPos(word),weightisVerb(word),weightPositionInWindow(word),weightEntityPairDistance(Sample))]对每一种关系进行结果分析,得到如表4.14从上面的数据可以看出,对于雇佣关系,分类的效比较好,F值可以达到0.778,这样的结果与其语料丰富应该有很大关系。关系虽然语料不多,效果相当不错, 表 是动词取1,不是动词取0表 率F本章详细的论述了,实体关系抽取每个阶段的具体实现流程,在命名实体识别模块,实验的结果表明,在石油领域,基于条件随机场模型,利用状态特征的组合模板就已经能取得比较好的效果。在自举方法的模块中,利用命名实体识别的实体对,进行了自举方法生成对应关系的语料,证明了自举方法在针对石油领域的四种关系都表现的比较好,都仅仅利用了少量,最终生成了上百句,甚至上千句的语料。在关系分类模块,我们选用LIBSVM,利用自举方法生成的语料做训练集,实现SVM的实体关系分类。实验的结果说明,支持向量机的分类在石油领域的关系机构,人物,产品命名实体的分类器。但是,石油领域名实体除了我们定义的这些,还可以有比如机构,。但是如果加大了命名实体的识别类别的数目,往往会导致命名实体识别的正确率下降,如果要保持正确率,则需要标注的语料。下一步可以考虑,是否能在不增加语料的情况下,引入规则和词典等,将这些命名实体的识别建立了石油领域名实体对之间的关系体系。通过对于命名实体的识别结果利用命名实体识别的实体对,进行了自举方法生成对应关系的语料。实验证明,模板,就生成了上千句语料,其他也都仅仅利用了少量,最终生成了上百句的语料。下一步的工作,应该考虑如何更有效计算软模板相似度,正确使泛化的得到的关系实例数量更加多,置信度更加高。利用生成的语料,基于支持向量机进行分类。实验的结果说明,支持向量机的分类在石油领域的关系上,是可行的。我们使用的是基于特征向量和径向基核函数的分类策略,但是,据文献记载16]基于树核的支持向量机比基于径向基核函数的支持向量机效果更好,下一步可以考虑引入树核,提高支持向量机的分类准确率。在完成本科之际,要向所有关心,帮助我和给予我宝贵支持的家人,同学,老首先,要感谢北航,大学的四年课程教育,为我打下了扎实的专业基础,让我学会了独立学习的方法。各种各样的科技竞赛和生活,激发了我的创新能力,带领我先进技术的前线。大学充实的课程设计,大大的培养了我的动手能力,丰富了我的工程实践经验。其次,要感谢指导我毕业设计的老师。巢老师是我自然语言处理学习的领路再次,要感谢共事的同学。一起做大创的黄绍晗,王莹,薛安,一起做毕设的吴晓湘,韦昀,张永强,旦曾尼玛,从身上,我学习到了很多优秀的品质踏最后,感谢我的家人。是了我做一个善良的,诚实的,热情的人,有上进心的,不虚度时光的人,到了大学才发现,这这些品质是多么宝贵。善良的人,让我不会所讨厌。诚实的人,让我在大学中有良好的信誉。热情的人,让我在大学到了很多志同道合的朋友。有上进心的人,让我一直向着我目标前进而没有在中途迷失,虽然过程缓慢,但是确实在进步。感谢赋予我的这些美好的品质。再一次感谢所有关心,帮助我的人,谢谢ChinchorN,MarshE.MUC-7InformationExtractionTaskDefinition[EB/OL],InPro-ceedingsoftheSeventhMessageUnderstandingConference,1998.GuodongZhou,JianSu.NamedEntityRecognitionusinganHMM-basedChunkTag-ger[C],InProceedingsofACL,2002.E.AgichteinandL.Gravano.Snowball:Extractingrelationsfromlargein-textcollec-tions[C],InProceedingsoftheFifthACMInternationalConferenceonDigitalLibraries,BorthwickA.umEntropyApproachtoNamedEntityRecognition[D],PhDDis-sertation,NewYorkUniversity,1999.nition[C],The6th
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业设计与制造技术创新
- 工业领域的能源管理培训教程
- 工作中的目标管理与实现路径
- 工作生活的平衡技巧探讨与应用实例
- 工业领域新能源技术的推广
- 工作与生活平衡的技巧
- 工程流体力学中的数学模型与数值模拟方法研究
- 工作汇报的快速制作技巧
- 工程索道设计与施工技术管理
- 工程机械的冷却系统设计与研究
- 2024秋国开《职场写作》形考作业1-4参考答案
- 自动寻优控制系统在生料立磨中的应用实践
- 土地延期合同范本
- 1.4行列式的性质
- GB/T 4706.19-2024家用和类似用途电器的安全第19部分:液体加热器的特殊要求
- 12D401-3 爆炸危险环境电气线路和电气设备安装
- 跟着音乐去旅行智慧树知到期末考试答案章节答案2024年浙江旅游职业学院
- 老年外科患者围手术期营养支持中国专家共识(2024版)
- 2023年6月上海高考英语卷试题真题答案解析(含作文范文+听力原文)
- 征集和招录人员政治考核表
- 生态环境保护与可持续发展智慧树知到期末考试答案章节答案2024年浙江农林大学
评论
0/150
提交评论