基于信息理论的鉴别信息测量.doc_第1页
基于信息理论的鉴别信息测量.doc_第2页
基于信息理论的鉴别信息测量.doc_第3页
基于信息理论的鉴别信息测量.doc_第4页
基于信息理论的鉴别信息测量.doc_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于信息理论的鉴别信息测量 蔡镝摘要 至今,在实际应用的合理、明确环境中,我们仍很难解释词所传达的大量鉴别信息的含义,并且将词之间的语义关联程度概念成功且有意义地引入到科学讨论中也不是那么容易的,本文就尝试完成这个任务。我们试图回答两个重要问题:1)鉴别信息中词所所传达的信息是什么以及我们如何测量它?2)什么是词之间 的关联性以及怎样去判断?我们专注于第一个问题的研究,基于多种信息测量我们对鉴别测量进行了深入地调查研究,这个研究如今已经在很多领域得到了应用。根据各自的鉴别测量,关联性度量可以自然地确定。为阐明存在于关联性度量的潜在问题,一些关键点被提出,并提出了一些解决方法。本文提供了两个在文本挖掘和信息检索方面应用的例子。研究的目的的本文的一个组成部分,它是建立一个以鉴别信息的测量为核心的统一理论框架,并实现有效的语义关联的测量。由于它的普遍性,我们的方法将被期待在多个领域被广泛应用。索引词 统计语义分析,鉴别信息的测量,语义关联性的测量,识别信息术语,关键词提取,文本挖掘,信息检索1.引言本研究中主要有两个点:词的鉴别信息测量和词之间的语义关联性度量。1.1鉴别信息的测量词之间的鉴别信息测量(MDI)问题在科学研究的很多领域充当了重要的角色,其中包括知识表达、机器学习和翻译、计算机语言学、自然语言处理、文本挖掘和注释、信息提取和检索、观点挖掘和情感分析、文件分类和综述、生物信息学和化学信息学等。 本文中所用的词鉴别信息指的是属于某一种类关于确定主题的兴趣点并拒绝其他种类的词所传达的信息量。一个信息词,也常称为一个好的鉴别器,它对分类文件应该有很好的性能。文件分类是基于它的主题内容将每个文件分到一个或多个类别中。为简化我们的讨论,本文中所用的分类是指基于一群不相关主题的相似点而将文件分类的过程,每个已知类别的文件都应该属于一类并仅仅属于这一类。根据这个观点,类别应该能明确地判定,类别之间相互排斥,文件分类是信息科学的另一个基本问题,本文的研究是一个独特但相关的工作。词t比其他词含有更多的信息量,这个观点很含糊。直觉上,具有更强识别力的词应该被认为具有更多的信息,这个观点是可以接受的。统计学上,具有更强识别力的词通常对信息的期望结果贡献更多。词可能贡献的程度被当作是词的信息量测量策略,用于计算程度的公式称为识别力测量。能够计算的潜在数学结构是从信息理论中提取出的散度测量,他们从词的分布情况判断预期散度,因此它为估算预期信息量提供一个有力的工具。1.2 语义关联性的测定词之间的语义测定(MSR)问题在多个研究领域都有了一段很长的历史,我们预期基于词典的算法比基于全集的算法在捕获同义词方面将得到更好的效果,因为词典(也就是词汇网络12)提供了只隐含在体内的同义词信息,但是这个实验结果并不支持我们的直觉3,原因可能是基于全集的方法通常能确定有相似同现模型的词,而并确定的词是相关的或互相相似,或者互相是完全相反的4。语义关联性比语义相似性更具有普遍性。相似的词由于它们词义的相似(同义)通常被认为是相关的;不相似的词通过词典的关系(上下文的关系、部分-整体的关系等),或者从语料库5中得到的同现统计也让其在语义上有关系。实际上,不见得一个词所支持的信息只出现在一个类别中。本文所研究的主要问题是,在所有类别中的每个词之间的鉴别中最强支持类的鉴别(简称为ssc)。词t指的是一些词t与其他词相比更紧密,这个说法还是很含糊。直观上,互相紧密联系的词应该在同类文件的相似上下文同时出现,这个说法是可接受的。统计学上,密切相关的词在分类上彼此往往有相同的最强支持类,并比其他词提供更高的相关性值到最强支持类中。潜在的正式分析是MDI,它为每个词确定其最强支持类,并测量词关于最强支持类的相关值,因而提供测量词之间的关联性的有效方法。计算应用程序通常要求语义关联,而不仅仅是语义相似度6。许多应用程序被当作MSR是其主要关系的情况,例如,问答7、修饰语对8、同义词识别9、语义关系相似性测量3、语篇衔接的测量10、潜在的语义分析11、文本挖掘12和词义消歧13。我们努力地提出了多种相关性测定方法:一些是应用了词典(手动建立词库)1415,一些是应用了共现统计(非监督学习语料库)161718192021222324252627,和一些是应用了混合技术(结合统计和词汇的综合信息)2829302531。1.3 本文的研究目的在实际应用的合理、明确环境中,我们仍很难解释词所传达的大量鉴别信息的含义,并且将词之间的语义关联程度概念成功且有意义地引入到科学讨论中也不是那么容易的,本文就尝试完成这个任务。我们向有效的MSR试图建立一个理论框架,以MDI为核心,并回答在科学界的多个领域中两个重要的问题:1.词t传达的鉴别信息是什么并怎样去测量它?2.词t和t之间有怎样的关联性并怎样去测量它?我们首先介绍两个基本概念的正式定义:1)词的鉴别信息2)词之间的关联性。接着,我们通过正式判读集中于MDI和按照从分类测量中得到的鉴别措施而对第一个概念进行定量表达。然后,我们集中到MSR,根据各自的鉴别措施给出了一系列关联性测定方法的表达。我们也突出鉴别测量的性能,强调从MDI到MSR应用的问题,并给出相应的解决方法。 图1 C类的例子本文的贡献有三点:第一,我们为两个基本的概念建立了表示法并引进了正式定义(第2、3节)。第二,我们集中于MDI,并讨论了鉴别测量方法的性能和阐述(第4节),接着我们集中在MSR,并为关联性测量给出了表示法(第5节)。第三,我们考虑了两个实际应用实例(第6节),最后我们得出结论(第7节)。2.词的鉴别信息这一节通过讨论词的鉴别信息的基本概念,尝试回答在1.3节提出的第一个问题。这个答案对鉴别测量进行了全面的定义,则这个定义将贯穿整个文章。2.1 一个设想首先,我们引入符号。设想,是不相关的成对出现的主体,设C为文件的语料库且,并c是C的一类,并。试想是主体的所有文件的一类,所有的类别在C区形成一个分类,也就是说,其中。图1就是C类的一个例子。设t是一个词,V是在C中指出各自文件的所有词的一个词汇表且,设为包含至少在中出现一次的词的分词汇表,其中。通常,其中。正如前面所提到的,实际上每个中的t不可能只传达支持C中的信息,为了回答第一个问题,首先我们必须提出下列的假设:一个信息词包含的信息不仅支持一种文件类,而且支持其他的类别。词对支持的类别所包含的信息量是可观的或不可观的。拥有最大可观量的类别称为这个类别中词的最强支持类(ssc)。很明显,如果我们知道信息中包含的数量,我们就很容易识别每个词t的ssc,其中。但是,似乎很难估计每个类别中每个词所包含的信息量。在的上下文环境中,我们就主要判断t有多少信息,其中。正如前面所提到的,词有较强的识别力,也就是说它比其他词在预期信息量上贡献更多,则它应该被当作是更有信息的。因此,如果我们有鉴别措施去估计词的贡献程度,则我们就有方法去测量词的信息量和定量词所含有的信息量。2.2 鉴别测量的一般定义测量词的鉴别能力的第一次无疑是估计预期的散度(也就是预期的信息量),它是由每个词对期望散度的贡献所引出的,隐含在其中的分类准则如下32:散度的测量应该不依赖于附加物或去掉与分类不相关的词。所说与分类不想关的词在这里是指它们的分类概率相等。现在设是互不相容的,就是假设词t传达的上下文信息()。为定量t依照它的鉴别信息支持的信息量,我们仅仅需要作一个假设(声明而非正式):语句“表达类上下文关系的信息量”可以被重声明为“词t的鉴别力是支持假设而反对所有其他假设。”设是从类别分类出来的离散词,它的先验概率为,其中。假设D是基于分类准则可行的散度测量,且 (1) 其中是V中的所有D项和是C中每项的子项。D必须得满足分类准则:当,词t不为将C分类到c中提供任何有益的鉴别信息。以上的讨论已经回答了第一个问题。其实,一个词中的信息就是支持一些类别的鉴别信息。MDI问题将在下节进行深入研究,它提供一种方法从形式上定义识别量从而得到它的重要性。这种定义如下列所介绍:定义2.2.1 假设D是式(1)所给的散度测量,已知,支持而反对的鉴别信息以如下定义: , (2)上式称为t对的支持程度,且剩下的鉴别信息由下式定义: (3) ,上式称为t对的剩余支持程度。所有的都被称为鉴别测量。很明显,是估计词t支持的某个特定种类的信息量,每个类别自己所支持的信息量可以相互抵消,最后我们得到余下的信息量,它是类C中各自支持程度的加权代数和。图2说明了我们的观点。 图2 t在各自类别中的信息量2.3最强支持类为确定词t最有可能属于的类别,我们假设是词t在所有支持的类别中含有的最多的信息量,也就是说,存在一些,则 注意的值可能不是很乐观的,且接受的类别也不是唯一的,于是我们引入了下列的定义。定义2.3.1 设D是式(1)中给出的一些散度测量,对于已知的,如果存在一些类别如,则有 于是我们可以称为t的最强支持类(ssc),且它可以从t到c中获取最强支持度。在下列叙述中,已知t,我们把当作是所有t的最强支持类的集合,同时对于一个已知的类别,我们把当作所有其他词在C中最强支持的集合。我们也将通过下列表达引出声明“与其他的假设相比,t更是支持假设的”。 对于,它有。在这种情况下,我们可以得到,在实际应用中,没有ssc的词将被立即丢掉。注意已知词的ssc的概念是在C上而非V上,且在的所有类别都接收相同的最强支持度,根据统计特性分类,跟词之间很大的不同。2.4 潜在的问题在很多应用中所使用的鉴别测量是而不是,但是使用存在很多潜在的问题。我们以两个简单的例子来定向,每个例子都是本研究的一个关键点。在以下的两个例子,设我们有个分类,且已知其先验概率分布。K1:一个正数的剩余支持度可能不会表明在中就有更多的信息而在其他类C中就没有什么信息。例如,设取且。但是时,则,则我们不能称t更支持而非,并且很明显得到和。K2:如果,则t在类的表达环境中更具有信息量(尽管残余支持度的代号可能为负。)例如,如果且,则,很明显得到和。以上的两点对本文研究必不可少,它们将在第三节中表达鉴别测量时得到更清楚的解释。3.两词间的关联性为回答在1.3节中提出的第二个问题,并深入了解词之间的关联性和特性,我们需要深入引入一系列符号我们必须定义词与已知主题间的直观关联性概念。设给定成对不相关的对象:,在实际应用中,在摘要中或类的概述中给出,其中。设作为反映每个词的重要性的加权函数,其中就而言,。一般,当,则,其中是中词的集合。进一步研究,将作为对象的复合体(可以看成是的联合),若一个文件要么属于要么属于,则它可表示为。直觉上,t与的关联性由统计的特性决定:1)关于的t的重要性,2)只支持的t的鉴别信息。因而关联性的测量应该是一个由决定的复合函数;在先验概率下,剩余的关联性测量应该是个别C中的加权代数和,则我们下列形式定义得到一些声明:定义3.1 设D是式(1)中给出的散度测量,对于已知,t和的关联性由下式决定: , (4)则余下的t与的关联性由下式决定: (5) ,其中鉴别测量在式(2)中给出了,所有都成为关联性测量。很明显,是估计特定对象关于的t关联性程度,个别的关联性程度可以相互抵消,最后剩余关联性程度,它是个别关联值在C上的加权代数和。正如前面所提到的,互相紧密联系的词通常有相同的ssc,并对对象提供更高的关联值。事实上,在介绍了鉴别测量和关联性测量后,第二个问题的答案就相当简单了,则我们可以下列的正式定义:定义3.2 设D是式(1)给出的一些散度测量,对于任意的,它们相互紧密联系,且存在一些类,则能得到理想的情况:1.就是它们的ssc,也就是2. 与的相比,能得到更高的关联值、和。从上面两个定义中,我们可以很清晰地得出“词和对象的关联性”和“词之间的关联性”是两个不同的概念。前者是词和个别类别的关系,在这种关系中,支持度看成是并不超过;后者是词之间的关系,则支持度在时仅仅看成是最强支持度。为简单起见,下面的讨论我们只是在两个对象,且。这样的设置很容易推广到任何有限数目的类别中,此外,为了完善我们的想法,在本研究中每个都是与两个对立的猜测联系(如,是的补充)。已知这种简化的一个重要应用是从两个类别中分类文件,其中关于的分类,而不是的分类,在这种情况下,我们可以设是“虚无”对象,即=“不是的任何对象”。很明显,在这种情况下是互不相关的。在下一节,基于类别的一些散度测量,我们集中讨论鉴别信息测量。4.鉴别测量在定义2.2.1我们已经介绍鉴别信息的一般形式,从信息理论和相应的正式表达得出三种散度测量,从而有了一系列的鉴别测量,接下来,都将设。4.1 散度测量方法设和都是分别从类A和类中提取的离散词分布。基于语料库有五种信息测量被广泛使用:定向散度33,散度33,信息半径34,杰森差异35,这就是通常所说的信息增益,现在已经被许多研究者所熟悉,文献33详细介绍了散度的概念,文献36中可以找到公理表征,下列将简略地进行介绍:本研究中所使用的三个散度测量为: , (6) (7) (8) 在散度测量中对数的底数是不重要的,在整个文中,对数都是取底数为2,除非有特殊说明。可看成是支持而反对的期望信息增益,kullback33称为定向散度的测量,则表示可以测量从中的的期望散度,在应用时有一个必要条件就是必须关于的完全连续,也就是,对于每个,都不能关于和的对称。当我们没有特别强调或,则它可能有一个可取的对称散度,且在信息增益方面是很有意义的。可看成是支持而反对的信息期望,且信息期望是支持而反对33。是关于和对称的,但是它需要对每个都满足和,当我们从不同的类别中取出两个词分布,这样的要求在实际应用中很难达到。进一步设分别有先验概率分布和,也设是从语料库中提取的混合分布(注意与不同)。基于信息增益的表达,看成是支持而反对的信息增益期望3734, 与和相比,得到了很好的定义,也就是说,它不需要和的任何要求:当且若,则对于每个都有,因而设和可以用来比较任意词分布,因为这个突出特性,信息半径貌似就有一些新的兴趣点,很明显关于和无论是都是不对称的。在时,一个对称的信息半径可以很容易被引出。如果对所有都有,则、和,这个性质表明从所有词中所得到的信息期望都是非负的,如果词的分布信息是相同的,则将没有信息期望,也就是说他们都满足分类标准。在实践中,杰森差异35也成为熵增加的措施,实际上,当信息熵38使用时它是信息半径,因此另一种方式是寻找信息半径和杰森的差异。因此,在原则上一些正式方法讨论的的信息半径和熵增益是同一回事,交互信息的测量期望是定向散度的特殊情况,我们已经在MDI3940中讨论了这两个测量的应用。4.2 鉴别测量方法设是分别从中取的词t,设和分别从中取出,为深入了解鉴别信息和它的属性,我们需要引入一个符号将这个符号定义为鉴别因子。注意当准确,则有: ,上式成为鉴别因子,其中是在已知t时支持反对的几率,且是支持反对的几率。在图灵机的术语和贝叶斯因素下,概念比在信息论中是一个直观且重要的概念。图灵机介绍表达“贝叶斯因子在假设条件下成立”,Kullback33把贝叶斯因子对数作为支持反对的“鉴别信息”,Good41也给了一个相似的定义,即将当作t关于而反对的“衡量证据的份量”(在这种情况下,词的发生率当作是证据的分量),因此鉴别因子可以测量t支持反对的信息量。现在回到式(6),定向散度可以看成是,其中可看作是t支持反对的鉴别力,幅度概率测量t在类A中的决策力,因此,根据定义2.2.1,则表示支持反对的信息,因此我们可以得到下列的正式定义:定义4.2.1 设对时,对于每个,则支持反对的鉴别信息为: (9) 接着回到式(7),同样的散度可表达成的和,每个都有两个子项:和,在式(9)中我们讨论了,类似的讨论可以应用到第二个子项中,因此通过定义2.2.1,消去,则我们可以得到下列的正式定义:定义4.2.2 设,对每个有,支持反对的鉴别信息可以由下式定义: 此式在式(9)已给出,支持反对的鉴别信息可以由下式定义: (10) 且t传达的剩余信息由下式定义: (11)现在进一步假设是t以先验概率从中提取,设是t从中提取的,且。接着回到式(8),信息半径包含所有的词,每个都有两个子项:和。首先考虑第一个子项,它类似于,是鉴别两个相反的假设的能力,测量t关于A在决策力上的意义,因此,由定义2.2.1,表明支持反对的信息。类似的讨论将应用到第二个子项中,则有下列正式定义:定义4.2.3 对每个都设,则每个支持反对的鉴别信息的定义为: (12) 支持反对的鉴别信息的定义为: (13) 且t传达的剩余信息的定义为: (14)在下一节中,我们讨论在定义4.2.1-4.2.3中已知的鉴别信息的性质,并给出相应的解释。4.3 鉴别测量的阐述取决于他们的属性的个别的鉴别测量的阐述是不同的,在这节中,在表达A的上下文关系时,我们将明白t是否是最有信息的或不取决于A是否是ssc(也就是,),而不是剩余支持度的标志。4.3.1 的阐述 注意,对于每个非对称定向散度中的词在中的符号可能是正也可能是负,因此我们有下列的定量表示: 1.如果,则,即t在分类C到c中不能提供鉴别信息。2.如果,则,且t传达支持反对的信息,因此由定义2.3.1和4.2.1可得: 且 3. 如果,则,且t传达支持反对的信息,因此,如第2节中所提,t应该马上丢弃。评论 注意,从上面的三点我们不能找到t的ssc和,在这三点的情况下,我们也不能说t有助于支持反对的,因为。4.3.2 的阐述 在给出定量表示之前,首先让我们通过下列的定理42考虑的属性:定量 4.3.1 对任意,若满足,则我们通常有且 1.有且只有当,则,也就是;2. 有且只有当,则,也就是。从上面的定理,我们了解到非对称散度的每个词都是非负的,且对每个都有,因此我们有下列的定量表示:1. 如果,则,即t在分类C到c中不能提供鉴别信息。2. 如果,则a. ,则t传达支持反对的信息,且t有助于支持反对的。b. ,t也传达支持反对的信息,且它有助于支持反对的。因此,由定义2.3.1和4.2.2,我们可得,且,因此表明t支持比更多一些。3.如果,则a. ,t传达支持反对的信息,且t有助于支持反对的。b. ,t也传达支持反对的信息,且它有助于支持反对的。因此,且,因此与第二点比较,表明t支持比更多一些。评论 从以上三点,我们能明白当,剩余支持度并不表示,这是因为为正是受所决定的,在第二节中的已经给出了这两个实例清晰地阐述了我们的观点。 因此,为判断是否有,我们必须进行更深入的考虑,从以上第二点我们可以很容易得到,若存在,只有在: (15)4.3.3 的阐述 注意的符号可能正可能负,因为它的两个子项可能正可能负,因此,类似于,在给出定量表示之前,我们通过下列定理32首先考虑下的属性:定理4.3.2 对任意,若满足,我们常有: 1.有且只有当,则,也就是;2. 有且只有当,则,也就是。从上面的定理,我们了解到对每个都有,因此我们有下列的定量表示:1. 如果,则,即t在分类C到c中不能提供鉴别信息。2. 如果,则a. ,也就是,因此,t传达支持反对的信息,且t有助于支持反对的。b. ,也就是,因此,t也传达支持反对的信息,且t有助于支持反对的。因此,由定义2.3.1和4.2.2,我们可得,且,因此从非负性出发,表明t支持比更多一些。3.如果,则a. ,也就是,因此,t传达支持反对的信息,且t有助于支持反对的。b. ,也就是,因此,t也传达支持反对的信息,且t有助于支持反对的。因此, ,且,因此与第二点比较,表明t支持比更多一些。评论 从以上三点,我们能明白当,剩余支持度并不表示,这是因为为正是受所决定的(见第二节中已经给出了)。 因此,为判断是否有,我们必须进行更深入的考虑,从以上第二点我们可以很容易得到,若存在,只有在: (16)5.其他测量方法已给出了MDI的正式分析后,现在我们是要考虑如何将它运用到实际问题中测量词之间的语义关联程度。在定义3.1介绍的关联性测定方法是任何分类的一般形式,根据式(9)-(14)给出的鉴别测量方法,我们可以写出关联性测定的一系列定义,很显然下面三个定义是定义3.1的特殊情况:定义5.1 设每个都有,在每个中,t与对象之间的关联性可以由下式规定: (17)定义5.2 设每个都有且,在每个中,t与对象之间的关联性可以由下式规定: 上式在式(17)已给出;t与对象之间的关联性可以由下式规定: (18)t与对象之间的剩余关联性可以由下式规定: (19)定义5.3 对每个设,在每个中,t与对象之间的关联性可以由下式规定: (20) t与对象之间的剩余关联性可以由下式规定: (21) t与对象之间的剩余关联性可以由下式规定: (22) 特别是,如果我们只考虑鉴别信息而没将对象的权重合并到关联值中,上面所说的个别关联性测量方法的相应的关联性测定法可以写出,例如: (23) (24) (25)它能够让我们了解词的鉴别信息是如何为系统性能发挥作用的。 通过以上定义5.1-5.3,我们很容易给出任意两个词关于的关联性定义,它是定义3.2的一个特殊情况。定义5.4 设D是式(1)给出的一些散度测量,对两个任意的词,当且仅当满足下列条件其一,它们要彼此密切相关,满足的情况如下:Case 1: 1.,也就是2.对所有(或大部分),则有。Case 2:1. ,也就是2. 对所有(或大部分),则有。 在式(9)-(14)给出的鉴别测量方法可以用于鉴定哪一类是ssc,且式(17)-(25)给出的关联性测定方法可以用于,然后量化词之间的关联性。评论 假设我们关注于类A:我们从中选择一些彼此密切相关的词,当使用了(这种情况在实际运用中并不常见),我们强调的是下面的点必不可少。正如第三节所提到的,是两个相反的和的代数加权和:当t在文件中也出现的时候,它提供的不仅是的关联性,而且还是的关联性。注意当而时,表明,但是并不能保证A是t的ssc,这是因为由定理4.3.1和4.3.2给出的性质,仅因为而推出是不够的,因此理解和这两个值并不代表两个密切相关是非常重要的。1.提供的仅仅是的关联性,尽管t可能出现在文件中。因此仅查证,就足以为每个选定的词有效鉴定它们在中密切相关。2. 是和的代数加权和,因此和这两个值并不能保证两个密切相关,为鉴定中的词互相密切相关,则可通过式(15)为每个选定词的查证。3. 是和的代数加权和, 因此和这两个值并不能保证两个密切相关,而式(16)可为每个词进行查证。6.应用实例 在本节中,我们从数学抽象出一些具体的例子,则有助于进一步阐明我们正式方法中的一些思想,MDI的两个典型的应用是在文本挖掘(TM)和信息领域(IR)。因此我们选择的例子是在TM和IR环境中。6.1 TM的实例TM通常指的是提取新的、以前并不知道的知识的过程,它是通过从文本信息源中自动提取关键词,TM的一个典型例子发生在基因组学领域:蛋白质与其他蛋白质相互作用,为预测它们的相互作用,现有一些统计模型学习方法可以在讨论蛋白质文件中确定词共现模型。统计模式学习方法已经在TM领域取得了显著的成效,我们的正式方法可以很容易应用到提取关键词的有效技术,这个方法的基本思想是很简单的。假设我们得到两个蛋白质,通常不同时出现在同一个文件中,则讨论或的文件如下:1.记为发生的一组文件(在这种情况下,通常当作一个对象),且在文件中,记为至少发生在其中一个文件中的一组词,其中。2.提取词的共现模型,且取自的为:a.对每个,将记为词的集合,这些词将为它们的ssc;b. 对每个估计t与的关联性,并记为高度相关词的集合(根据预定阈值),其中。3.观察包含的文件,这些文件希望包含相互作用的蛋白质,反之亦然。在这个例子中,我们将演示用户是如何通过我们的系统从树基43文本中提取分类名和关键词。 一般而言,对任意,的估计值可以由下式得出:其中是一个权重函数,它用于反映文件d中t的重要性,例如,我们可以使用Okapi权重函数(BM25)44表示: 在此式中参数为t在文件d中出现的频率,是d的长度;是语料库C的平均文件长度。则对的讨论也类似,在文献40中详细地讨论了估计词分配问题。 树基是我们使用的语料库之一,它是系统进化的关系型数据库。通过接近已发表的系统进化研究和它们所包含的数据和树,它提供一种机制来发现所谓的系统进化关系。设A(也就是)是用户取自树基的,例如式(23)已知的,关联性测定方法可用于类群名和关键词的提取。在我们的系统中,所有文件都是有来源的,所有的禁用词都被删除了。 图3 提取分类名和关键词的例子在我们的初步实验中,几乎所有的类群名都有非常高的关联值,并位于榜首,我们也认为20个排名第一的并不是类群名。图3是一个实例,在这个例子中,给予的重点是:类群名(下划线),排名1-10的词(加黑阴影),排名11-20的词(阴影斜体)。有趣的是,具有高文件频率的词(如,细胞群,DNA测序,细胞核,叶绿体rbcl基因,系统进化,简约,分支,核糖体RNA基因,属,基因序列,核苷酸,祖先)具有相对较低的关系值,因为我们的方法认为它们并不富有信息。6.2 IR的实例在IR中,用户提供的问题(作为主体)对于用户的信息需求来说,通常是不够的、不准确的或是不完全的描述,一个恢复的系统仅通过用户的查询是不能被期望产生理想的结果。查询扩展是一门技术,它修正用户的查询以便达到更准确的描述用户的信息需求。特别是,当扩展词是选自于一组相关文件,由A表示(其中),查询扩展是一种有效的技术:它增加一些词以便提供更准确的信息需求,它发生在相关文件中关于原始查询的。为调查每个关联性测定方法对改进性能的贡献到底有多少,我们进行了多项实验。方法的详细描述,如文件的权重函数,查询的权重函数(为估计的值,i=1,2),扩展查询(记为)的重新加权函数为,这些可以在文献40中找到。这个例子显示了我们开展的关联反馈过程实验的一部分,关联测量的两组词都是选自A中密切相关的词。第一组是,和,它们分别在式(17),(19),(22)给出了。第二组是,和,它们分别在式(23)-(25)给出了。 图4 这个例子显示的是使用取自TREC专案数据中的50个查询FT集合(金融时报“1991-1994”,210,158号文件)的检索性能。每个查询都分别产生于TREC主题(351-400)之一的标题领域(仅由标题表示),标题和描述域(描述+标题)和全文本(纯文本表示)。从TREC相关评估提供的有关文件,使用的标准评价措施是:PK(在排名前K文件的平均精度,其中K=5,10),A-P(50个查询中的评价精度) ,R-P(R-P精度文件号的精度)。图4的实验结果由平均检索性能(超过50个查询)组成,分别取自(表示):原始查询(基准),和从第一、第二组关联测定词取得的扩展查询。在图4中,方括号给出的是最好的结果,最差的结果由星号标记。从实验结果,可以得到如下结论:扩展查询比基准能取得更好的性能,这些改进表现在所有评估点上,在对所有产查询的不同部分,和对6个关联性测定方法上。和应用在查询的不同部分时,它们显示的性能很相似,在所有的评估点上,它们都几乎优于。和应用在查询的不同部分时,它们显示的性能很相似,当与比较时,在所有的评估点上,它们都几乎劣于。 与,和相比,和包含更好的性能。当它们应用在描述+标题或仅仅标题查询时,性能增加是很有意义的。更好的性能使我们想到,将查询词的权重合并到词的关联值中是不合适的,这很可能是因为查询词的鉴别信息已经合并到鉴别测量中,且反复使用信息可能会降低检索的性能。如前所述,许多优秀的研究实验验证,采用散度测定方法去建立为选择信息词的关联性测定方法是很有益的,本文的重点是在理论分析和正式讨论,读者感兴趣的是我们的正式讨论是如何能被一些经验证据所支持,这些经验证据是来自所引用的一些文献的性能实验。7.结论本文有两个重点:词的MDI和词之间的MSR。我们为一个基本的概念引入了一个正式定义:词所传达的鉴别信息。基于几个散度测定方法,我们深入讨论并正式解释了鉴别测量法。通过散度措施D中词和子项,我们定量表示了它。从这项研究可以清楚的看到,个别的鉴别信息测量法根据它们的属性是不同的,特别是我们能阐明下列两个关键点:并不表示的词在表达A是有信息的。如果,则t在表达A时是有情报的,尽管我们介绍一个直观而正式的定义:两词之间的关联性。从本文研究中可以看出,这直观的概念与本文中所介绍的其他概念是有区别的:词和对象的关联性。前者关心的仅仅是和中感兴趣的词;而后者关心的是中的。从本文中可以清晰地得到,提供的不仅是t和间的关联性,还提供t和间的关联性。因此,并不指。和具有正值,并不表示(其中)是相互紧密联系的。为鉴定词之间的密切联系,解决上面问题的方法为选定的词查证不等式(15)或(16)。本文的目的也就是本文的一个部分就是建立一个统一的理论框架,它是以MDI为核心,并取得有效的MSR。参考文献1 C. Fellbaum, 词汇网络:一个电子词汇数据库. The MIT Press, 1998.2 G. Miller, “词汇网络:一个在线词汇数据库,” Intl J.Lexicography, Special Issue, vol. 3, no. 4, pp. 235-244, 1990.3 P.D. Turney, “相似的语义关系,” 计算机语言学,vol. 32, no.3,pp. 379-410, 2006.4 I. Dagan, “上下文的词语相似度,” 自然语言处理手册, pp. 459-475, Marcel Dekker, Inc., 2000.5 A. Budanitsky and G. Hirst, “基于WordNet的词汇语义相关措施的评价,” 计算机语言学,vol. 4, no. 1, pp. 1-49, 2005.6 A. Budanitsky and G. Hirst, “在WordNet的语义距离:五项面向应用的评价实验,”Proc. Workshop WordNet and Other Lexical Resources, Second Meeting of the North Am. Chapter of the Assoc. for Computational Linguistics, pp. 29-34, 2001.7 D. Moldovan, A. Badulescu, M. Tatu, D. Antohe, and R. Girju, “名词短语的语义分类模型,” Proc.Workshop Computational Lexical Semantics, pp. 60-67, 2004.8 V. Nastase and S. Szpakowicz, “探索名词修饰词的语义关系,” Proc. Fifth Intl Workshop Computational Semantics, pp. 285-301, 2003.9 P.D. Turney, M.L. Littman, J. Bigham, and V. Shnayder,“结合独立的模块来解决选择题的同义词和类比问题,” Proc. Intl Conf. Recent Advances in Natural Language Processing, pp. 482-489, 2003.10 J. Morris and G. Hirst, “词汇衔接词库的关系作为一个文本结构的指标计算,” Computational Linguistics, vol. 17, no. 1, pp. 21-48, 1991.11 T.K. Landauer and S.T. Dumais, “柏拉图问题的一个解决方案:获取的潜在语义分析理论,归纳并知识表示,” Psychological Rev.,vol. 104, no. 2, pp. 211-240, 1997.12 K. Frantzi, S. Ananiadou, and H. Mima, “自动识别多字的词,” Intl J. Digital Libraries, vol. 3, no. 2,pp. 117-132, 2000.13 R. Florian and D. Yarowsky, “建模共识:词义消歧的分类结合,” Proc. Conf.Empirical Methods in Natural Language Processing, pp. 25-32, 2002.14 J.H. Lee, M.H. Kim, and Y.J. Lee, “基于继承层次结构的概念距离的信息检索,” J. Documentation,vol. 49, pp. 188-207, 1993.15 R. Richardson, A. Smeaton, and J. Murphy, “应用WordNet知识库测量词的语义相似性,” Proc. Artificial Intelligence and Cognitive Science (AICS)Conf., 1994.16 C. Corley and R. Mihalcea, “测量文本的语义相似,” Proc. ACL Workshop Empirical Modeling of Semantic Equivalence and Entailment, pp. 13-18, 2005.17 I. Dagan, L. Lee, and F.C.N. Pereira, “基于相似性的词共现概率模型,” Machine Learning, special issue on natural language learning, vol. 34, nos. 1-3, pp. 43-69, 1999.18 G. Hirst and A. Budanitsky, “恢复词汇衔接以实时纠正单词拼写错误,” Natural Language Eng.,vol. 11, no. 1, pp. 87-111, 2005.19 L. Lee, “分布相似的措施,” Proc. 37th Ann.Meeting of the Assoc. for Computational Linguistics, pp. 25-32, 1999.20 I. Marx, Z. Dagan, J. Buhmann, and E. Shamir, “聚类群:一个结构一致的检测方法,”J. Machine Learning Research, vol. 3, pp. 747-780, 2002.21 S. Mohammad and G. Hirst, “作为代理的分布式语义相关措施,” /pub/gh/Mohammad+Hirst-2005.pdf, 2005.22 S. Mohammad and G. Hirst, “概念距离的分配方法:一个面向任务的评价,” Proc. Conf. Empirical Methods in Natural Language Processing, 2006.23 S. Mohammad and G. Hirst, “利用词库确定词义优势,” Proc. 11th Conf. European Chapter of the Assoc. for Computational Linguistics, pp. 121-128, 2006.24 P. Pantel and D. Lin, “从文本中发现词义,” Proc.ACM SIGKDD, pp. 613-619, 2002.25 P. Resnik, “分类学中的语义相似性:基于测量及其在自然语言中关于不确定问题的应用的信息,” J. Artificial Intelligence Research, vol. 11, pp. 95-130, 1999.26 N. Seco, T. Veale, and J. Hayes, “在WordNet中关于语义相似性的内在信息量度量方法,” Proc. 16th European Conf. Artificial Intelligence, 2004.27 J. Weeds and D. Weir, “共现检索:词汇分布相似的灵活框架,” Computational Linguistics, vol. 31, no. 4, pp. 439-475, 2005.28 L. Han, L. S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论