讲稿2-索引的建立_第1页
讲稿2-索引的建立_第2页
讲稿2-索引的建立_第3页
讲稿2-索引的建立_第4页
讲稿2-索引的建立_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

二索引的建立1、目的、标准在大量的文档集中(通常情况下大约为100,000个文档以上),为了提高检索性能和速度,需要找到文档中比较重要的内容并为这些内容创建内部表示,这些表示形式被称为索引。为了找到这些内容,必须进行语义分析来确定哪些是某一文档中的概念。对于IR来讲,这种分析是非常复杂的也是很难进行的。目前存在的技术,大多限制在某一特别领域。建立索引的目标是找出主要内容,创建内部表示。表示法的选择应考虑下面三个准则:精确表示语义涵盖所有内容易于计算机处理实际上,人们更加倾向于研究概念的表示形式。概念表示形式可以是字、词、词组等,概念表示形式与精确度关系如图 2-1所示。选用词作为概念的表示形式的想法是很自然的。 事实上,词是最容易识别的语言单位,并且,它们也能充分地表达语义。在现有的系统中,它是最常用的方法。但是,单词经常不能给出专一的描述。例如,“专家系统”,被表示为“专家”和“系统”, 失去了一定的精确性。因此,研究者们提出了新的方法,建议将单词组织起来形成合成词,文献可以由词和短语联合来描述。研究表明使用中文分词,按词索引结合二元组(bi-gram)索引是检索效率和效果较优的索引综合考虑方式,通常通过自动分词来选择索引词。在文档索引过程中,先通过中文自动分词程序的处理,把文档正文分割成为独立的分词单位,然后在这些分词单位基础上选择索引词。分词单位是指具有确定语义或语法功能的基本单位,通常被直接选作索引词 [7]。涵盖率精确度(Recall)(Precision)字符串词合成词概念图2-1概念表示形式与精确度关系文档集合通常由文档逻辑视图来表示,可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。索引词的选取过程见图 2-2、2-3所示。首先,对文本信息进行预处理,预处理技术主要包括结构提取、分词(中文)、词干提取等,然后选择特征表示形式和进行特征提取,以一定特征项(如词或词组)来代表文档,在检索时只需对这些特征项进行处理。图2-2 索引词选取框图(英文文档)中文文档 中文切词 停用词 词或词组 自动或手工索引结构识别结构 索引词集合图2-3 索引词选取框图(中文文档)语言学界、人工智能领域和情报检索界的学者在汉语自动分词与索引的研究与实践上进行了大量的研究,找到了许多解决汉语分词的方法。80年代以来见诸报端的自动分词方法归纳起来有:最大匹配法、逆向最大匹配法,逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想———回溯法、双向扫描法、邻接约束法、扩弃转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等 22种[3]。由于汉语结构上的复杂性、切分的模糊性以及语法分析问题等诸多因素的影响,汉语自动分词未能取得重大的实质性突破。这一问题的搁浅直接影响了汉语文献的自动索引及汉语的句法分析与语义分析研究,成为中文自动索引研究发展的瓶颈。如何高效低成本地实现信息索引是信息检索领域重要的研究课题。索引从原理上分抽词索引和赋词索引,各种方法和技术以自然语言的规律为基础,构建在相应的数学模型上。在这一章中,我们将介绍以单词和合成词为表示形式的自动索引方法。首先,介绍自动索引的基本原理,然后,介绍基于词汇分布特征的索引方法: 统计标引法、n-gram标引法和概率标引 、基于语言规则与内容的索引: 句法分析标引法、语义分析标引法和基于概念的标引法、人工智能索引法:知识产生式表示法、语义网络表示法和框架表示法和汉语自动索引。其中,重点介绍基于词汇分布特征的索引方法,其它方法只是简单讲解,同学们课后可以查阅相关的资料,对每个方法进行总结,形成介绍性的文章。2、自动索引的基本原理2.1自动抽词标引原理自动抽词标引是指直接从原文中抽取词或短语作为标引词来描述文献主题内容的过程。它涉及如何从原文中抽取能够表达其实质意义的词汇,以及如何根据这些词汇确定标引词。1、自动抽词标引思路在手工标引中,标引员总是尽量选择能较好反映文献主题的原文词语。他们的选择结果可能要受到一些因素的影响, 如词语在文献中出现的频率、 词语出现的位置(标题、结论、插图说明等)及其语境。假定文本以机器可读的形式存在,计算机程序就可以模仿人,通过对文本中词的频率、位置和语境标准来实施抽词标引。标引程序的基本算法是,抽取文本中的词汇, 将词汇与一个“禁用词表”比较 ,除去各种非实义词(冠词、介词、连词等),然后统计剩下的词汇的出现频率,并按其降序排列,排在前面的一些高频词被选作文献的“标引词”。选择标引词的分界点可根据下面几种标准来确定: 词的绝对数、与文本长度有关的数、词频超过一定阈值的词数 。更复杂一些的算法可抽出在文本中经常出现的重要短语。文献因此可以由词和短语联合来描述,选择短语的频率要比选择重要词的频率标准低一些。除了选择词和短语,标引程序还可以选择词根。因此词根(如“ beat”)可以被选择并存储,它代替了多种对应的变体“ beat”、“beating”、和“beated”。取词根程序可以自动去除指定的词尾,如“ed”、“ing”等。当然,词、短语或词根都可以给予反映它们在文献中出现频率的权重 。词和短语除了根据频率抽取之外,还可以通过与某种机内词典中“可接受的”词语相匹配的方式从文本中抽取。2、选取标引词的原则在文本的计算机处理中, 计算词在一篇文献中出现的频率并不是唯一的方法( tf),有时考察词在整个文献库中出现的频率可能更重要 (df,idf) 。最好的区分词(能将一篇文献与其他文献区分开的词)应能保证在非相关的文献集合中很少出现或不出现,如“石棉”在图书馆学文献中,“图书馆”在石棉公司数据库中。实际上,没有必要计算词在整个文本数据库中的出现频数,而只需计算词在倒排文档中的频数即可。除了词在文献中出现的绝对频率,还可使用相对频率方法来选择词语,即选择那些在一篇文献中的出现几率大大高于在整个文献库中出现几率的词和短语。这种方法比绝对频率法要复杂一些,因为它需要知道一个词在数据库中出现频率,并将该频率与词在一特定文献中的频率相比较。基于相对频率从文献中抽出的词和短语集合将不同于基于绝对频率得到的集合, 但是不是完全不同,许多仍然相同。少数新词语将是那些在一特定文献中很少出现,但是在整个数据库中更少出现的词语,如果一个词在一个有1000万词的数据库中只出现5次,则它尽管在一篇5000词的期刊论文中只出现1次,仍然是很重要的,而那些在一篇文献和整个数据库都频繁出现的词语(可称为“泛滥词”)则要去除。频率标准还可用其他标准来补充。例如,Baxendale在1985年提出了对段落主题句抽词的思想,认为只需对每段文本的第一个和最后一个句子进行处理。因为一项研究表明,第一个句子是段落“主题句”的比例为85%,最后一个句子也超过7%。还有许多利用文本中“信息丰富”部分的抽词标引的思路被提出,如利用一下一些元素:文章各级标题,介词短语、后接入“conclusions”和“summary”的线索词的文本等等。一般情况下,检索系统普遍采用全文索引技术,即网页文档中所有词都选择参与索引。在理想情况下,索引词应该是表达文档内容的语义单位,对应着语言学里的词汇词的概念,它是专门表示含义,而其实际意义无法由组合成分相加得到的最小语言单位[7]。2.2 自动赋词标引原理赋词标引是指使用预先编制的词表中词来代替文本中的词汇进行标引的过程,即将反映文本主题内容的关键词(欲用作标引的关键词)转换为词表中的主题词(或叙词等),并用其标引的方法。自动赋词标引类型主要有以下两种:1、基于概率的赋词标引Maron于1979年提出的概率标引模型采用基于相关概率的赋词标引方法,其标引过程是:选一批样品文献,去掉高频词和低频词,把这些文献按其主题归入适当的类目中,然后统计候选关键词在类目中出现的频率,再由人工最后确定一个词表。标引时用被标引文献中的词与词表中的词进行比较,将匹配成功的词赋予该文献。DIA(DarmstadtIndexingApproach) 方法则是基于决策概率(某标引词赋予某文献这一决策事件正确性概率)的一种赋词标引方法。在这种方法中,加权函数 r(s,t)近似等于将叙词 s赋给含有词条 t的文献的正确性概率 P(c/s,t) 。如果词条 t在文献d中被识别出来,同时也符合 r(s,t),则形成从 t 到s的叙词指引。从文献 d到叙词s的全部叙词指引集合称为 s与d的相关性描述 y(s,d) 。下面的过程就是用相关性描述 y(s,d) 来估算概率 P(c/y), P(c/y) 是给定相关性描述 y,叙词s标引文献d正确的概率。信任函数模型(BeliefFunctionModel)也属于概率标引模型,它的标引过程是:将被标引文献与一个具有叙词集合的受控词表进行比较,对出现在文献中的受控词表的每一叙词,根据其出现频率以及同义词出现情况定义一个基本概率数。 基本概率数大于零的叙词, 便可用于对具有该词的文献进行标引。2、基于概念的赋词标引基于概念的赋词标引主要是使用概念词表作为标引词的来源。 FASIT法就是一种典型的基于概念的赋词标引方法,FASIT法的实现过程是:对文献中与其主题相关的词或短语赋予一定的句法范畴或几个范畴的组合,并给出相应的标记;然后采用与上下文相关的消除歧义规则,消除多重标记词的歧义性;最后利用一个概念形式词典进行概念选择,选出的概念经规范化处理后,计算其与其他概念之间的关联度,进而将统一概念进行概念归类,最终以概念类来标引文献。自动标引的模型3.1 向量模型文献的向量空间模型较好地描述了文献之间的相关程度,由此确定了文献空间密度。由于文献标引性能可以从文献空间密度直接反映出来,因此这种以文献向量空间为基础的抽象描述就构成了自动标引的一种数学模型。若用X(a,b)确定二维平面上点X的位置,用为t维文献空间,则可以用D=(di1,di2,...,ditidij为文献Di的第j个标引词的权值。

X(a,b,c) 表示三维空间中点 X的位置,同理,如果 D)表示,其中, Di可以看成是文献空间 D的第i维向量,1)文献向量的相关性有了文献空间,每一篇文献在其中都有一个确定的位置,文献的空间位置就为我们计算它们之间的相关程度提供了途径。从文献空间上看,两篇文献相关就是指代表这两篇文献的向量靠得很近,具体讲就是这两个向量的夹角很小。根据向量代数中数量积计算公式有:a?b |a|?|b|?cos其中,|a|,|b| 分别为向量 a和b的模,=(a,b)为向量a和b的夹角,a?bcos|a|?|b|又设向量a和b的坐标分别为 a={a1,a2,...,a t}和b={b1,b2,...,b t},则:t1aibicosit2t2i1ai?i1bi由余弦函数的性质可知,在[0, 90]上,其余弦值随其角度变小而增大。这一现象正好反映了文献空间中某两篇文献的相关程度的大小,即余弦值小,夹角大,则相关度低;反之,则相关度高。若余弦值为1,则夹角为零,则两篇文献完全重合,即相等。因此,可将两文献之间的相关度 S(Di,Dj)定义为其夹角的余弦值,即S(D,D)=cos,其中,=<D,D>为文献D,D之间的夹角。由于文献D是ijijiji由相应的标引词的权值来表示的,即Di=(di1,di2,...,dit),故文献之间相关度为:t1dik?djkS(Di,DJ)kt2tk1dik?k1djk2可以设想,在一个理想的文献空间中,满足用户情报需求的文献应是紧紧地聚集在一起。但如果对一个给定文献集合的全部检索历史不了解,则很难产生出这种理想空间。因此,为了达到理想的检索效果,应将文献空间中的点尽可能地分开,即对式( 2-1)求最小值。FnnS(Di,Dj)i1j1j)(2-1)(i式(2-1)的最小值表明空间中文献之间的相关性将变得很小,当某篇文献与某个提问相关时,只有这篇文献被检索出来,从而保证了较高的查准率。但这会产生两个方面的问题:第一,这种将点分开的方式是否基于这样一个事实,即分离文献空间中的点将导致高检索效率;反之,高检索效率必将使得文献空间中的点彼此分开。第二,式(2-1)的计算量较大,对具有 n篇文献的集合而言,共需计算 n2 n次。由于上述原因,我们考虑使用聚类文献空间。在该空间中,文献按类集中在一起,每个类由一个类的矩心C(Centroid)来表示。给定一个m篇文献的集合构成的文献类P,其矩心Cp定义如下:Cp(Cdp1,Cdp2,...,Cdpt)1m1dik其中,Cdpkim(k=1,2,...,t)同理可求出整个文献的矩心C*。在未聚类文献空间中,其空间密度为所有文献对相关度的总和,即式(2-1)的计算结果。而聚类文献的空间密度由式(2-2)给出:nQi1S(C*,Di)*,Di)Di*S(C*其中,C为整个文献集合矩心,为文献与矩心C的相关度。显然,式(2-2)只需计算n次。(2)空间密度与标引性能的关系一个理想的文献空间应是同类中文献的相关度x要大,不同类之间的相关度y要小。所以y/x可用来作为测量文献空间密度的标准,y/x值大,则空间密度高,反之则空间密度低。文献空间密度与标引性能之间存在着密切联系,二者存在互逆性。标引性能与空间密度的这种密切关系构成了向量空间自动标引的理论基础。3.2 信息模型人工标引通常是通过分析文献内容本身来确定标引词进行标引,而自动标引是利用计算机从已有的文献数据库(信息系统)中获取信息来确定标引词的过程。两者的区别在于从不同的对象中获取信息,实施标引的主体不同,但它们的目的都是为了表示信息的主题内容。(1)标引词的信息量设文献库D={d,d2,...,dn}为对象库,称为外延空间,而标引词库T={t,t,...,t}为属性集,称112n为内涵空间,矩阵R称为DT上的关系数据库:x1(t1)...x1(tm).........R=xn(t1)...xn(tm)R也称为“对象-属性-数据”系统,di{xi(t1),...,xi(tm)}。其中:xi(tj)1是d的标引ji词,xi(tj)0表示tj不是di的标引词(i=1,,n;j=1,...,m).数据是一种抽象的数量概念,数据所表示的含义即为信息,信息是对数据的解释,数据是信息的载体,假若对数据赋予某种意义, 此数据即为信息, 故“对象-属性-数据”系统也称为信息系统。 如数据:t (x1(t),...,xn(t)) (t T)表示了“文献库 D中的文献是否具有标引词 t”这样一条信息。在计算这种信息的信息量时,最朴素的思想是信息的外延越大,其内涵越弱,信息量越小;反之,信息的外延越窄,其内涵越强,信息量越大。定义1:nI(t)i1(1xi(t))(tT)称I(t)为标引词t的信息量。对I(t)可以直观地理解:标引词标引文献的篇数越多,它的外延对象越广,则信息量越小;反之,标引词标引文献的篇数月少,它的外延对象越窄,则信息量越大。定义2:1、tt'(x1(t)x1(t'),...,xn(t)xn(t')),表示“文献具有标引词t或t’”2、tt'x1(t)x1(t'),...,xn(t)xn(t'),表示“文献具有标引词t与t’”其中,、是取大、取小运算。记(T)为T中元素经、运算后得到的所有元素的集合,显然T(T)。称(T)为广义标引词库。定理1:对t,t’T,有1、I(tt')I(t),I(tt')I(t')表示“文献具有标引词t或t’”的信息量小于等于仅含有标引词t或t’的信息量。2、I(tt')I(t),I(tt')I(t')表示“文献具有标引词t与t’”的信息量大于等于仅含有标引词t或t’的信息量。3、I(tt')I(t)I(t')I(tt')表示“文献具有标引词t与t’”的信息量等于两个标引词信息量之和减去“文献具有标引词t或t’”的信息量。(2)推测标引词在已知文献具有标引词

t的情况下,可根据信息提取的思想来推测文献是否具有标引词

t’。I(tt')D(t'/t)(t,t'T)为由标引词t推测标引词t’的确定率。定义3:称I(t')从定义3可以看出,在获得t的信息时,就可以从t’的信息中提取tt'的信息,故标引词t对t’的确定率就等于tt'的信息量在t’的信息量中所占的比例,比例越高,确定率越大;反之,比例越低,确定率越小,显然有0D(t'/t)1成立。我们的目的是从标引词t出发,对标引词t’作一推测。这种推测不可能都达到100%的准确率,只需得到相对较高的确定率即可。这种推测是一种或然推理,具有或然性。当确定率达到1时,就是推断,即通常的精确推理。基于词汇分布特征的索引方法基于词汇分布特征的索引方法依据下述假设来选择索引词:某词在文献中的出现频率与该词的文献区分功能有密切关系。一个词(实词)在文献中使用越频繁,就越有可能是一个指示主题的词。通过对这些词语的统计,求出其中的高频词、中频词和低频词,并使用中等频率的词语作为标识文献的主题词。除此以外,还可以根据取词的不同位置、词语本身的重要性给每个词赋予不同的权值,使得最终的加权统计结果更加符合实际情况,更能体现文章的主题 [4]。4.1 基于词频的基本方法大量词频统计结果表明,文章中出现频率最高的词汇往往是反映句子语法结构的虚词,作者重点阐述某主题时所用的核心词,其出现频率通常较高。因此,最高频词和低频词都不适宜做标引词,只有词频介于最高频和低频之间的这部分词汇才适合做标引词。词频统计法的出发思想是:根据词频统计结果,将出现频率较高并含有实质意义的词汇作为反映一篇文章主题的有效测度,这一测度就确定了标引词的选择范围。词频统计法的理论基础是著名的齐普夫定律(Zipf’sLaw)。齐普夫定律是描述一系列实际现象的特点非常到位的经验定律之一。它认为,如果我们按照大小或者流行程度给某个大集合中的各项进行排序,集合中第二项的比重大约是第一项的一半,而第三项的比重大约是第一项的三分之一,以此类推。换句话来说,一般来讲,排在第k位的项目其比重为第一项的1/k。以英语文本的一大段典型内容为例,最常见的单词the通常占所有出现单词的近7%。排在第二位的词语:of占所有出现单词的3.5%,而排在第三位的单词and占2.8%。换句话说,所占比例的顺序(7.0、3.5和2.8等)与1/k顺序(1/1、1/2、1/3)紧密对应。虽然Zipf最初发明的定律只是适用于单词出现频率的这一现象,但科学家们发现,它可以描述极其广泛的一系列统计分布,譬如个人的财富和收入、城市人口甚至博客读者数量[6]。Zipf 第一定律即高频词定律可用式( 7-3)表示:R F=C (7-3)式(7-3)中,R为词频等级数,F为词频,C为常数,例子见表 1。定律描述了文本中高频词的出现规律,而其修正定律即 Zipf 第二定律(低频词定律)则描述了低频词的出现情况,如式( 7-4)所示:I1/Inn(n1)/2(7-4)这两个完全不同的定律刻画了文本中词分布的两个极端情况。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照这个定律,词的分配符合下面的曲线(图 1):FrequencyRank123图1词的频率和编号曲线图显然,不能将所有词频高的词都作为索引词。可以定义另一个上限阈值

:

如果某个词的频率超过这个阈值,不被当作索引词。这两个阈值的使用对应于词的信息量。 信息量是指对词所蕴含含义的质量的测量 。这个概念在

IR

中的定义不是很精确。只是通过 直觉来使用。但是,在信息理论中,我们可以发现它的等价物(例如,

Shannon理论或熵)信息量和频率之间的对应关系如下:Frequency/Informativityfrequency informativityMax.Min.123 Rank因此,在这两个阈值之间选择词的时候,希望获得信息量被最好地展现出来的那些词。早在20世纪50年代Luhn就在Zipf定律基础上提出词频统计标引方法,其主要步骤是:给定m篇文献组成的一个集合,设第k个词在第i篇文献中发生的频率fik。决定该词在整个文献集上的发生频率:fkfik按照fk的大小将词降序排列,确定一个上截止阈值,去掉fk大于上截止阈值的词,确定一个下截止阈值,去掉fk小于下截止阈值的词。剩余的中频词用于文献的标引。Goffman在考察了上述两个定律之后,认为存在一个词由高频行为转为低频行为的临界区(criticalregion),只有处于临界区内的词才最适于描述文献的主题。为确定临界点,设低频词定律具有高频词特征,也就是词频为n的词数接近于1(In1),即每个词具有唯一的级数,则式(7-4)变为:I1/In(n1)/2上述整理式为一元二次方程,解此方程保留正平方根,得:n (1 1 8I1)/2求得n之后,以 n为临界区的中点,以最高词频处为临界区的上界,取与 n到上界之间等级距离相等的另一端为临界区的下届,位于临界区内的词经过禁用词表处理即可选为标引词。4.2 基于鉴别(区分)值的基本方法鉴别值识别是指在众多的文档中借助某个词来较好地识别出某个文档的方法。也就是说,某个有较高鉴别值的词一定出现在小数量的文档中。出现在大多数文档中的词没有鉴别力。词的鉴别值对于索引词的选择是非常重要的。想法是保留那些具有区别性的词,淘汰那些没有鉴别力的词。鉴别值的计算在矢量模型中被提出。因此,我们将在下一章中详细地介绍这个模型。在矢量模型中,每个文档由加权的矢量来表示,例子如下:t 1d<pi1i

tp

2t3tni2pi3pin>其中,pij表示词tj在文档di中的权重。已知一个文档集,就有了一个矩阵。一个词的鉴别值的计算方法如下:1、计算文档集的矩心Pj=ΣPij/Ni其中,Pj表示第j个词的权重,Pij 表示在第 i个文档中第 j个词的权重2、计算文档的空间密度,也就是每个文档和文档集的矩心的相关性的平均值U=C*

Σ

Sim(d,V)1

j

i其中,

C是标准化常量,常取

C=1/N

,Sim(d,V)

是文档

d

和文档集矩心

V的相关度。这i

i里,Sim是标准化的公式,它的取值是

[0

,1](在矢量模型中将给出更多的介绍)3、计算去掉第

j个词后的文献空间密度,用

U2表示4、词

j

的鉴别值定义为:DVj=

U

-

U2

1在鉴别值的计算中,我们不能以词的频率为主,而是要关注词在文档集中的分配。在应用鉴别值时,就淘汰了功能词,英语中如,“of”,“to”等。如果一个词的区分值大于零,则用其做标引词会使文献间的相似度减少,使文献空间密度降低,从而使标引效率提高,因而设计词权时应取较大的取值;如果一个词的区分值小于零,则用其做标引词会使文献间的相似度增加,使文献空间密度增大,从而使标引效率降低,因而设计词权时应取较小的权值。也就是说,标引词权重应与标引词的区分值成正比。根据这一思想的加权函数如下:W ij =Fij*DVj词区分值加权标引与逆文献频率加权标引基本上是一致的。在逆文献频率加权标引中,词的文献频率与词权有互逆关系;在词区分值加权标引中,词区分值与权值相一致。若词的文献频率高,用其做标引词会使文献密度增大,从而使词区分值减小;若词的文献频率低,用其做标引词会使文献空间密度减小,从而使词区分值增大。因此,词的文献频率与词区分值有互逆关系,故词区分词加权标引中的词权与文献频率存在互逆关系,或者说逆文献频率加权标引中的词权与词区分值相一致。这说明两种标引方法在本质上是一致的。4.3基于tf*idf 的基本方法tf*idf 是信息检索中比较著名的方法。 Tf是指词的频率, idf 指倒置文档频率。通过 tf, 进行了词对文档的重要性的测量,只对文档集合中某确定的文档有意义,通常 , 这个值是由文档中的词的频率确定的。通过idf, 来测量词的鉴别性, 是对整个文档集合而言的。 这里, 给出了一些常用的 tf 和idf公式。1、tf=f(t,d), 词t在文档d中出现的次数;tf=f(t,d)/MAX[f(t,d)], 在文档d中特征词出现的最大次数;tf=log(f(t,d))tf=log(f(t,d)+1)其中,a、词频的标准化方法,也称为 TF的归一化:将一篇文档中所有 Term的TF值归一化到[0,1] 之间。包括:TFiMaximumNormalization:MaxTFii0.5TFi0.5MaxTFiAugmentedMaximumNormalization :

iTFiTFi2CosineNormalization:ib、对TF进行缓冲:1+log(TF),1+log(1+log(TF)),c、Log的作用:将值域拉平,使得函数的变化更平缓2、idf=log(N/n),其中,N是文档集中的文档数,n是包含某个特征词的文档数。其中,1+log(N/n),是对DF进行缓冲。3、最后,可以在值的计算中加入一些标准化的处理方式。一种形式的tf*idf的公式如下:tf*idf=[f(t,d)/MAX[f(t,d)]]*log(N/n)对tf*idf 进行归一化(TFC):TFij*log(N/DFi)tf*idf[TFkj*log(N/DFk)]2k降低TF的作用(LTC):tf*idflog(TFij1.0)*log(N/DFi)[log(TFkj1.0)*log(N/DFk)]2ktf*idf公式综合考虑了两个因素:1.文档中词的重要性(tf)。2.词的鉴别性的重要性(idf).因此,有较高的tf*idf值的词在文档中一定是重要的,同时它一定在其它文档中出现很少.这就是词与文档的重要特征和独特性相对应的情况.通过这样的公式,可以选择只保留tf*idf的值超过规定的阈值的那些词作为特征词。4.4n-gram 索引方法n-gram标引法的基本原理是以n字符串为统计对象,将其统计得分赋予该串中心字符,然后选择包含得分超过特定阈值字符的单词或短语作为标引词。n-gram是指n(n 1)个相邻字符序列,对一文本进行 n-gram处理 ,可得到该文本所包括的 n长字符串的集合。如对COMPUTER进行3-gram处理,可得3字母集合{COM,OMP,MPU,PUT,UTE,TER}早在1951年,现代信息论创始人Shannon便用n-gram进行文本压缩的检验。1979年Burnett、Willet等人将这种方法引入情报检索领域。 1995年 Cohen用 n-gram 分析法选 择被其称为“最亮 点(Highlights )”的标引词。 Cohen的n-gram标引法主要包括以下几个步骤:过滤文献。无意义字符如标点符号、数字等用禁用符号替换。在过滤后的文献中统计n-gram。考虑一个长为S具有符号s,s,...,ss的文本样本,给定正整数n12(典型的n值从3到6),则定义第j个n-gramgj如下:g=(s-(n-1)/2,sj-(n-1)/2+1,...,sj-(n-1)/2+n-1)jj抽出文本的全部n-gram之后,用一HASH表统计n-gram。这样,gj便通过一容易计算的HASH函数k映射到一表地址k(gj)上。经过大量实验,Cohen选择了下面的HASH函数:n1k(gj)=[k0pkOrd(sj(n1)/2k)]modM其中, p0,p1,...,pn1是不同的大质数,M是HASH表规模,Ord(?)给出了相应字符的数量值。在统计中如发现某 n-gram包含禁用符号,则该 n-gram不被统计。对文献中发现的每个n-gram,用其计数与在“背景文献”中对应的计数比较。“背景文献”是同被标引文献有虚构联系的一组文献。假定文本样本由n-gramgj(j=1,2,...,S)组成,计数C(ii=1,2,...,N)是等于第i个可能的n-gram值的{gj}数。在gj相互独立的假设下,向量C(C1,C2,...,CN)变为下面的多项式:Pr{Cc}f(c|p,S)S!p1c1p2c2...pNcNc1!c2!...cN!其中f是多项式密度,p(p1,p2,...,pN)是潜在概率向量。类似地,“背景文献”中对应的计数B(B1,B2,...BN),总计数R=Bi,B的潜在概率向量为q,则:Pr{Bb}f(b|q,R)通过对数线形联列表分析,第i个n-gram的得分i为:i{Ciln(CBi(SCiRBi)S)Biln(R)(SCiRBi)ln(SR)SCiRBi0SCiRBin-gram的得分越高,其特性越强。将n-gramzj(gj)的得分赋予其中心字符,。确定字符得分阈值m12m2,其中m11sSj1zj1sm1)2m2j1(zjS抽取文献中字符得分超过阈值的单词,如果合适的话,将邻近的单词抽为短语。这些被抽出的单词或短语即为文献标引词(最亮点)。每个被抽出的单词或短语取其所包含字符得分的平均值为其一种特例得分。将抽出的单词或短语并入一词表,累计其各个特例得分作为该单词或短语的总得分。对词表按单词或短语的总分排序并适当去除低分词,便得到标引文献的“最亮点”标引词表。Cohen用此法不仅标引了英文文献,而且还标引了 西班牙文、德文、格鲁吉亚文、俄文、日文,取得了较好的试验结果。其他计算方法:P(w1...wi)

P(w1)

P(w2

|w1)

...

P(wi

|w1...wi1)P(wi

|w1...wi1)

P(wi

|wi2wi

1)P(wi2wi1wi) P(wi2) P(wi1|wi2) P(wi|wi2wi1)C(wi2wi1wi)P(wi|wi2wi1)2wi1)C(wi例如:“PartyonPeterChen’sbirthday”,C(partyonPeter)P(Peter|partyon)C(partyon)4.5 统计学习索引法统计学习标引法首先通过学习过程建立候选标引词与对其标引产生正反不同作用的促进词和削弱词集合之间的关系,然后由标引过程根据候选标引词在此关系中的权值及其词频来确定其是否作为标引词。这种方法由学习和标引两个过程组成。4.5.1 学习过程假设存在 n个受控标引词 I1,I2,...,I n 和在将处理的文献中可能出现的 m个不同的单词w1,w2,w3,...,w m 。对一特定标引词 Ij,将实施由四步组成的学习过程。1)汇集肯定和否定训练(Training)集合对一特定标引词Ij,一些由Ij标引的文献被汇集起来(当然,这些文献事先由标引员标引),这些文献称为Ij的肯定训练集合。 同时一些未被 Ij标引的文献也被汇集起来, 这些文献称为 Ij的否定训练集合。(2) 统计在集合中出现的单词的词频统计肯定训练集合中的每个词,然后将词频转为相应的 z-score。类似地,在否定集合中的每个词亦被统计,其 z-score 也被计算出来。通过这一步,便可得到两个 z-score 表,此表描述了在 Ij 的肯定训练集合和否定训练集合中的单词的统计分布。 z-score 及其他相关的统计测量指标定义如下。对于一列 n个变量:x1,x2,x3,...,x n平均值=(x1+x2+x3+...+x n)/n方差=((xi平均值)2)/(n-1)标准偏差=(方差)0.5xi的z-score=(xi-平均值)/标准偏差(3)选择促进词和削弱词如果一个词的出现促进了标引词Ij的标引,则此词称为Ij的促进词。相反地,如果一个词的出现削弱了Ij的标引,则该词称为 Ij的削弱词。选择促进词和削弱词的方法描述如下。促进词选择IF(一个在Ij的肯定训练集合中的词的z-score>阈值)AND(一个在Ij的否定训练集合中的词的z-score<阈值)THEN该词被选为Ij的促进词;词权值=在肯定训练集合中的z-score-在否定训练集合中的z-score。削弱词选择IF(一个在Ij的否定训练集合中的词的z-score>阈值)AND(一个在Ij的肯定训练集合中的词的z-score<阈值)THEN该词被选为Ij的削弱词;词权值=在肯定训练集合中的z-score-在否定训练集合中的z-score。在这一步之后,我们建立了标引词Ij和促进词及削弱词集合之间的关系Rj。Rj可用加权向量描述:R={wj1,w,...,w}jj2jm其中,wjk为在关系Rj中第k个词的权重,m为肯定及否定训练集合中不同单词数。(4)确定两个平均标引值之间的中值测量给一文献赋予标引词Ij的概率的标引值计算如下:(词在Rj中的权值)(词在文献中的频率)标引值=文献中词数标引值越大,标引词Ij赋予文献的概率越大。但我们需确定一阈值,以便将具有高标引值的文献从低标引值文献中区分出。这一步骤的目的就是为标引词Ij计算阈值。在前一步计算的关系R基础上,我们分别计算肯定训练集合和否定训练集合中的平均标引值。这两个平j均标引值的中值(表示为Mj)定义如下:肯定训练集合中平均标

引值

否定训练集合中平均标

引值Mj=

2Mj

将作为阈值来决定标引词

Ij

是否应赋予一文献。[4]。4.5.2 标引过程经过上述四步学习过程之后,得到关于标引词FOR(j=1ton)DO

Ij/*

的关系假设有

Rj和阈值Mj。标引过程描述如下:n个可能被确定的标引词 */(词在Rj中的权值)(词在文献中的频率)IF文献中词数>MjTHEN标引词Ij赋予文献ENDIF4.6概率索引法从概率论的角度进行文献自动标引的方法最初由 Maron和Kuhns于1960年提出,其基本思想事:文献检索系统可根据文献满足提问的概率来估计输出文献并对其分级。到目前为止,概率标引法所依据的概率主要有相关概率,决策概率和出现概率。基于相关概率的标引法一是根据包含相同标引词的提问与文献的相关概率来标引划分文献,如二值独立性标引模型;一是根据具有一定联系的文献之间的相关概率来标引特定的文献,如基于被引用与引用文献的标引方法。基于决策概率的标引方法主要是依据某标引词赋予某文献这一决策事件正确的概率来标引文献,如DIA标引方法。而 RPI模型则是同时以 需求一文献相关概率和叙词标引文献正确的决策概率为基础而构造的标引方法。基于出现概率的标引方法是根据词在文献中的出现频次所服从的概率分布的特征来选择标引词,如2—Poisson模型。这种标引方法目前还处于理论阶段,具体的标引工具还没有出现。基于语言规则与内容的索引5.1 句法分析标引法句法分析法利用计算机自动分析文本的句法结构,鉴别词在句子中的语法作用和词间句法关系,前苏联开发的自动标引系统多采用此法。它们一般都借助词典来制定词的语法范畴,以此作为句法分析的基础,最终抽出可做标引词的词语。句法分析法从文献的标题出发,分析其内在结构,其假设是文章的标题是可以基本反映文章的主要内容。它从语法角度上确定句子中每个词的作用(如主语还是谓语)和词之间的相互关系(如是修饰还是被修饰),并通过与事先准备好的解析规则或语法相比较而实现。句法分析基于深层结构的标引法将文献标题可能反映的主题内容归纳为有限的几种元素基本范畴,并使用简洁的句法规则,减小了句法分析的复杂性。数字化指示符和处理码标识的运用更方便了计算机的识别处理。但是这种方法在主题名称的范畴分析及主题标目的选择等方面需要较多的人工干预,影响了其自动标引效率。另外,这种方法仅以文献标题为标引对象,虽然主题内容容易突出,但标题句法形式的规范性一般较差,增加了句法分析的难度,同时过窄的分析范围容易漏标一些相关主题5.2 语义分析标引法语义分析标引法通过分析文本或话语的语义结构来识别文献中那些与主题相关的词。这种方法本身受制于语言学的发展,而众所周知的是语言学,尤其是计算语言学本身的研究难度,所以目前利用语义分析的方法进行标引的研究还不多,所能见到的有诸如:潜在语义分析标引法、相信函数模型和语义矢量空间模型等。学术界对从语言学角度研究自动标引的做法颇有争议,反对者的主要理由包括:语言法的使用限制多、语言学领域的研究成果对促进自动发展帮助甚微等人工智能索引法人工智能是计算机科学的一个分支,它专门研究怎样用机器理解和模拟人类特有的智能系统的活动,探索人们如何运用已有的知识、经验和技能去解决问题。实现自动标引的目的是让机器从事标引工作中的脑力劳动,即让计算机模拟标引员完成标引文献的工作,因此,人们把人工智能法运用于自动标引研究既顺应自然,又带来新的活力。人工智能应用在标引中的具体技术是专家系统,专家系统的知识表示方法主要有产生式表示法、语义网络表示法和框架表示法。采用人工智能法进行自动标引比在相同专业领域中运用其他方法要复杂,但人工智能法是真正从标引员思维的角度模拟标引员的标引过程,这显然比以被标引文献为出发点的其它自动标引方法更有希望获得理想的标引效果。其中具有代表性的有:基于产生式表示法的 JAKS系统、基于语义网络表示法的 WorldViews、MedIndEx系统和汉语自动标引专家系统 DIES1等。7汉语自动索引我国研究人员 60年代初开始关注自动标引的研究动向, 70年代末开始探索汉语文献自动标引问题,他们在TK-70计算机上建立了一个试验系统,借助词典对文献题名进行切分,然后使用一套组词规则将切出的小词组成专指的关键词输出 2。比较有代表性的自动标引系统有基于部件词典的启动标引系统、规则与词典的自动标方法、基于非用字后缀表法的自动标引等 3。

基于7.1 词典标引法词典标引法是一个传统的标引法,在目前的 国内自动标引中应用得相当普遍。其思想是构造 一个词典(主题词典、关键词典、部件词典等),然后设计各种算法用文献数据去匹配词典,抽出标引词。但是词典的构造困难,词典的维护也需要付出相当大的代价,并且是永无尽头的。当今社 会,经济和科学技术都飞速发展,新概念、新词汇层出不穷,词典法的明显缺陷就在于学习新词的能力差、设计词1DIES(DocumentIndexingExpertSystem)是北京文献服务处开发的一个试验系统。DIES系统定义了一些语义特征,如object(对象)、human(人类)、course(学科)、operate(操作)等。系统依据语义特征之间的联系和相互作用,构成系统的产生式规则库。2苏新宁.汉语文献自动标引综析.情报学报,1993(2):92~993顾敏、史丽萍、李春玲.自动标引综述.黑龙江水专学报,2000(9):103~104善与否直接影响到标引质量 4。7.2 切分标记法切分标记法是将能够断开句子或表示汉字之间关系的汉字集合组成切分标记机内字典。切分标记字典既有用词首字、词尾字、不构词的单字或几种情况的组合来构建的,也有用“非用字”、“条件用字”等来组成的。当原文句子被切分标记字典中的汉字构词属性分割成汉语词组或短语之后,再按一定的分解模式分割成单词或专用词组。该方法的关键在于词语切分。吴蔚天、田鹤卿先生提出的实现汉字科技文献自动标引的非用字后缀法是一个典型的切分标记法。该法将汉字用与不用机械地分为四个类别:A表外用字、B表内用字、C条件用字、D非用字,并根据这些字的属性构造了一个字典——非用字后缀表。实现时,机器自左至右扫描汉字,逐字对照非用字后缀表。将用字取出,非用字舍去。切分的原则是有联系则取,无联系则断。该方法在微机上实现标引,证明其简单易行,并能获得较高的准确率。7.3 语法分析标引法语法分析标引法是通过对自然语言文法或句型文法的分析来抽取主题词加以标引由于汉语自然语言文法复杂,规则较多,目前还没有一个形式化系统能对汉语文法进行描述。但是句型文法分析则相对容易。如:科技文献的标题和文摘中的句型种类较为有限,如“本文讨论了”等,几乎出现在每一篇文献中,而这些句子对自动标引来说则非常重要,因为这些句型正是表达文献主题内容的句型。因此可以用句型文法来描述现代汉语,进而抽取主题词进行标引。7.3.1 汉语文献标引专家系统汉语文献自动标引专家系统的基本原理是,根据一定的抽词规则、标引规则和专门知识,

以现有的汉语专业主题词表为基础,构建概念语义网络,对所处理的素材进行分析、判断,选择和确定标引主题词。汉语自动标引专家系统是以汉语语义理解为特征的自动标引系统。 由于汉字构词具有极大的灵活性,汉语词性缺乏严格的规定性,汉语词汇没有严格的形态变化,再加上汉语文献作者使用语言的多样性和不规范性,造成同一主题可以有多种表达方式,一种表达方式在不同的语境中可以表达多个主题。目前已提出的各种汉语自动标引方法,基本不进行语义理解,只从形式上进行机械地匹配抽词来完成标引,这种语言表层的标引方式必然出现标引素材与原文主题内容不符的局限。 要提高标引的准确性和真实性,就必须进行语义理解,在语言深层实现标引,因此汉语自动标引专家系统代表了今后汉语自动标引的发展方向。但是专家系统中知识库的构造和推理机制的建立具有相当大的难度,它的实际处理技术与已建立的语义形式化理论还有很大的差距。目前汉语自动标引专家系统只处在初期的试验阶段,远未达到实用水平。7.3.2 单汉字标引法单汉字标引法吸收了西文自动抽词标引的部分思想,在标引时将概念词拆成单汉 字,以单汉字为处理单位,利用汉字索引文件实现自动标引和逻辑检索。它完全摒弃了人工的构造字典,对每个汉字的标引完全由计算机自动进行,保存了文献文本的原貌,因此也就没有主观性的成分 5。由于这种方法把对“词”的处理改为对“字”的处理,因此就绕过了汉字分词的难题。单汉字标引和检索的基本过程中,标引时计算机对处理的文本逐一抽字,经过一些处理(如去掉无意义的虚字)后,建立索引文件。检索时输入的检索字与索引文件进行比较,并做一些逻辑组配,得出检索结果。8特征词的权重一个词所拥有的权重的衡量是变化多样的。 它可以用简单的发生频率来表示, 或者对频率的某种转化 (比如标准化)来表示。它也可以是一种公式 tf*idf 。多种情况显示只是简单地使用发生频率来衡量词的频率,不能取得满意的性能(即使去掉了功能词)。通常情况下, tf*idf 的衡量方法取得了比较好的性能。在实际中,如果采用 tf*idf 的方法来筛选特征词,可以将 tf*idf 值作为词的权重。这是常用的方法。因此,特征词的筛选和权重分配不是两个独立的处理过程。8.1 改善方法1:过滤功能词某些功能词,如“ beforehand”,“thus”等,在文章中出现的不是很频繁。通过鉴别值和 idf 方法不能滤掉它们。但又不想把它们作为索引词,因为它们没有实际意义。为了滤掉这些词 , 通常使用一个列表,称为停止表,它包括不想保留的词。这些词通常是介词(e.g."Of","to" ),副词("elsewhere","now" ),形容词( "certain","possible" )等在这个表中的某些词不是没有意义的(取决于领域,在语言学上它们不是没有意义的)。只是觉得对于信息检索系统它们不是很重要。系统所使用的列表是变化的.这取决于应用领域。例如,concrete,adj.具体的n.水泥(建筑学领域)停止表的使用是非常简单的.将出现在文档中词,先检查它是否出现在列表中。如果是,不能将它作为索引词。8.2 改善方法2:词形的转换我们注意到许多词有不同的形式,但它们的意思是相同的或相近的。比如下面的词在意思上是相近的:transformer,transforme,transforment,transformation,transformateur,这些词之间形式的不同对于信息检索是不利的。对于关于“ transform ”的提问,人们希望找到含有“transformation ”的文档。因此,必须去掉这些词之间的不同,也就是把这些词表示成相同的形式。5陈光祚.论单汉字检索系统 .情报学报,1992(1):11~1我们注意到,这些词有相同的词根。去掉这些词的结尾部分,保留根部,它们会有相同的形式。具体方法如下:1、观察词的构成,按照词形来推理出词根。这种方法在 Porter算法中被采纳。这个算法包括:单复数的转换,派生词等。如,在某些形容词后加入 -ness,happiness, 在动词后加入-able, adjustable 。这个算法有时将两个不同的词转换成了相同的词, 如derivate/derive, activate/active 等。但是,大多数的转换还是有道理的。把这个算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论