基于web元数据的定题web信息采集系统研究_第1页
基于web元数据的定题web信息采集系统研究_第2页
基于web元数据的定题web信息采集系统研究_第3页
基于web元数据的定题web信息采集系统研究_第4页
基于web元数据的定题web信息采集系统研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于web元数据的定题web信息采集系统研究

0定题搜索的应用网络信息的快速增长不仅使用户选择了丰富的信息资源,而且还带来了寻找有用信息的问题。如何快速、准确地获取相关信息成为研究热点。搜索引擎作为网络信息检索工具被用户广泛接受,但其依然存在诸多不足之处。近年来,研究学者不断提出新一代搜索引擎的发展方向,而定题搜索是其中尤为突出的一类。所谓定题搜索,就是将信息搜索限定在特定的主题领域,网络机器人只采集与给定主题相关的网页以供检索。和普通搜索引擎比较,定题搜索引擎的检索范围相对较小,查准率和查全率易于保证。但随着网页数量及复杂程度的不断增加,基于网页全文内容来判断其是否与给定主题相关的策略变得越来越困难,于是基于Web元数据来判断网页内容与给定主题的相关性研究引起了研究人员的兴趣。考虑到中文网页中的分词问题,以及英文网页元数据的描述规范性要好于中文网页,本文仅选择英文网页作为定题采集的对象。1定题信息采集中的元数据类型超链是整个互联网信息库的重要组成部分。网页设计者设计页面时,通常借助超链完成整体信息框架的组织。为了便于用户选择继续浏览的超链,常用较为简洁、正确的文字概括超链指向网页的内容。这类描述超链属性或超链周围的文字被称为超链元数据,简称为元数据。元数据不仅对用户选择浏览有很好的提示作用,对定题信息采集来说,元数据内容所反映出的提示意义同样能表达出该链接所指向网页的实际内容意义。更为重要的是,定题信息采集中的网络机器人能较容易地使用元数据来判断是否采集该超链所指向的网页,而不用对该超链所指向网页作全文浏览。由于目前Web文档大多用HTML(HypertextMakeupLanguage)书写,因而本文的工作专注于HTML文档范围。在HTML文档中有三种基本的超链接:文字链接(hypertextreference)、图像链接(imagelink)和视框链接(framelink)。其中文字链接最为常用,其主要属性包括name,title,href,anchortext,alt,on-mouse-over等。统计表明:href和anchortext最为常见,title中信息含量较大,这三种类型元数据最适合作为定题信息采集时所采用的判断依据。实际的信息采集过程中,元数据的实际内容及相应权重也是要考虑的重要问题。2能自我学习由于一般给定的主题不是非常明确或较为狭隘,定题信息采集必须有自学习的功能,能自我对给定主题进行扩展,得到主题相关词集,以采集更多主题相关的网页。图1是基于Web元数据的主题扩展系统,主要过程描述如图1所示。(1)基于数据语义的标记语言ss传统的HTML语言是一种面向数据显示样式的超文本标签语言,主要描述文档的标题、字体、颜色等外观方面的属性,而没有反映数据本身所包含的语义,并且数据本身具有自描述性和动态可变性等一系列复杂的特性,其结构较为复杂。XML(ExtensibleMarkupLanguage)即“可扩展标记语言”,它允许用户根据行业规范定义标记,是一种完全面向数据语义的标记语言,是数据的容器。XML不关心数据的显示样式与布局效果,突出了数据的语义与元素结构描述能力。因此精确、高效地抽取元数据,首先可将HTML文档转换成XML格式。(2)提取的原始数据经过XML转换后,就可以较方便地抽取网页中超链各属性相应的元数据,并存储在数据库中以备后续处理。(3)与网页结构相关的词语禁用词一般会在文本文档中频繁出现,但对于文档主题却毫无意义。比如说在网页内容描述中经常会出现的一些词,如“welcome”,“best”,“a”,“that”,“is”等,还有些与网页结构描述相关的词,如“com”,“org”,“html”,“http”等。这些词在超链元数据中是较为常见,但与主题一般是毫无关系的,所以必须过滤掉,可参见禁用词表确定所有的禁用词。(4)多元线性范围支持度阈值+最小置信度范围与主题相关的词,常会频繁地与给定主题词一起出现在超链元数据中,即主题候选词与给定主题词有很强的关联性,两者间的支持度和置信度都应有较高的值。因此同时满足最小支持度阈值和最小置信度阈值的强规则关联挖掘可应用于元数据中主题候选词的提取。由于超链的元数据能简明扼要地概况所指向网页的内容,基于元数据的主题候选词关联规则挖掘相对基于网页全文的主题候选词关联规则挖掘来说,在保证一定的挖掘精度的前提下,不仅能简化挖掘计算的复杂度,而且能解决由于挖掘维数增加所造成的精度降低问题。(5)主题候选词过滤通过强规则关联挖掘所得到的主题候选词,并不能保证就和给定主题相关,因为所依据的关联规则集中存在着一些错误的关联。这些错误的关联一般都具有较强的联系规则,使得一些与主题无关的元数据值也被当成主题候选词,部分地导致多主题的现象,影响定题信息的采集。因此必须对主题候选词进行筛选,得到真正的主题相关词。主题候选词过滤主要依据相关策略,依据主题候选词在元数据中的出现信息,判断每一个主题候选词的相关程度,以此来决定该主题候选词能否作为主题相关词保留,扩展作为定题采集的主题词。在主题扩展的整个过程中,网页采集、抽取和过滤等可采用迭代算法来达到更好的效果。经过适当迭代处理得到的主题相关词集可有较好的精确性和广泛性,误包含和误排除的情况能得到明显改善。3网页与主题相关的判定定题采集的任务是在尽可能短的时间内,采集尽可能多的主题相关信息。经过抽取、过滤等迭代处理得到的主题相关词集,可用来指导网络机器人对网页的定题采集,即可利用主题相关词集和网页中各超链相对元数据信息的比较分析,来判断是否采集该超链所指向的网页。采用何种策略来进行网页与主题相关性的判定,将直接影响采集的质量和速度。图2是基于web元数据的定题信息采集系统。在基于元数据的网页相关性判别中,选用href、anchortext和title三种类型元数据作为判别依据,记作MH、MAT和MT,相应权值记作RH、RAT和RT。R(url)表示超链所指向网页与主题的相关度。(1)元数据启发式判别法当MH中含有主题相关词集的任一元素时,RH值为1,否则为0。同理对RAT和RT有类似取值。简单元数据启发式判别法(SMH)如式(1)R(url)={1,RΗ=1或RAΤ=1或RΤ=10‚RΗ=RAΤ=RΤ=0(1)SMH对主题相关性的判别简单明了,当超链所对应的元数据中包含扩展后的主题相关词集中的任一主题词时,则给超链所指向的网页就被认为是主题相关网页,否则为主题无关网页。(2)平均权值元tnSMH方法仅对元数据中是否包含主题相关词集中的元素做出判断,而AWMH进一步考虑了元数据中主题相关词出现的个数、频率及权值。设MH中含有主题相关词(t1,t2,…,tn),每个主题相关词相应数目和权值分别为(k1,k2,…,kn)和(λ1,λ2,…,λn),则ΜΗ=n∑i=1kiλi。同理对RAT和RT有类似处理。将RH、RAT和RT三种权值综合起来,得到平均权值元数据启发式算法式(2)R(url)={13(αΜΗ+βΜAΤ+δΜΤ),13(αΜΗ+βΜAΤ+δΜΤ)≥c0,否则(2)式中:α,β,δ——权重系数,c——自定义的相关性阈值。当13(αΜΗ+βΜAΤ+δΜΤ)≥c时,可认为该链接指向网页与给定主题相关,反之为无关。(3)带增益的元数据权值在实际的web中,即使当R(url)小于用户所设定的相关度阈值C时,超链所指向网页仍有可能与主题相关。另外由于“隧道现象”的存在,在web中有时在某两个主题相关的页面之间会有若干个主题不相关的网页存在。这样基于元数据启发式来判别,很容易将隧道及隧道后面主题相关的网页抛弃。为减少这些原因造成的主题相关页面的漏采,对于当R(url)小于用户所设定的相关度阈值c的网页,提供一个增益,即令其相关度为一随机变量s(0≤s≤1)。当s≥0.5时,网页仍可被采集。采用带增益的元数据权值算法,式(2)可改写为带增益元数据平均权值启发式(AWMH-A),如式(3)R(url)={13(αΜΗ+βΜAΤ+δΜΤ),13(αΜΗ+βΜAΤ+δΜΤ)≥cs,(3)随机变量s作为增益,减少了漏判(相关页面被判断为不相关)和对“隧道现象”的错判,但同时也增加了相关性页面的误判(不相关的页面被判断为相关)。带增益元数据平均权值启发式算法解决了网页采集中可能出现的“停滞现象”,它总能找到相关页面,而不会因为没有相关页面而停止网页的采集。4网页查准率分析实验中选择“InformationRetrieval”作为主题进行测试,人为选定收集了主题相关网站50个,主题相近网站100个,并加入了200个主题无关网站组成测试集,其中共含超过100000个页面。所选择网站之间均可通过不同程度的链接到达(通过网站的手工选择保证)以便实验测试。综合评价定题采集算法的效率,主要看采集的查准率(Precision)和采集的查全率(Recall)。Ρr=已采集页面中主题相关的页面数目已采集的页面数目(4)Re=已采集页面中主题相关的页面数目测试集中所有主题相关的页面总数(5)使用相同的主题扩展词集和初始URL集,分别用基于元数据的SMH算法、AWMH算法、AWMH-A算法测试集中的网页进行采集。采集的过程中,每采集1000个有效网页,就计算一次采集的查准率和查全率。实验中对于主题相关页面的判断,采用了基于关键词的向量空间模型(VSM),用向量空间模型表示网页,网页的相似度采用向量间夹角余弦式(6)计算,并通过阈值来判断是否相关。尽管这种方法的判定正确率没有人工方法准确,但对于大规模的网页数量,自动判定可节约大量的时间。Similarity(Di,Dj)=n∑k=1dik⋅djk√n∑k=1d2ik⋅n∑k=1d2jk,i,j=1,2,⋯,m(6)式中:D——包含m篇文档的集合,Di=(di1,…,din)和Dj=(dj1,…,din)——第i个和第j个文档矢量,dik——文档di的第k个关键字分量。计算所得的相关度Similarity值为0到1之间的实数。不同算法查准率随采集过程进行的变化如图3所示。由于给定初始URL选择了主题相关的网页,所以三种算法在采集初期都具有较高的查准率。随着采集的深入,SMH算法查准率下降最快,最终维持在40%左右。而AWMH和AWMH-A算法由于适当的参数调节将相关度的判别条件限定得更为严格,故能维持较高的查准率,最终分别在56%和68%左右。AWMH-A算法引进了增益,所以在采集初期由于“误判”的影响而查准率略低于AWMH算法,但在采集的后期由于“漏判”的减少其查准率高于AWMH算法,而且维持得较为稳定。图4是不同算法查全率随采集过程进行变化的情况。总体来看,AWMH和AWMH-A算法的查全率在实验最后达到了48%和58%,要明显好于SMH算法的34%。同样由于增益的影响,AWMH-A算法初期的查全率略低于AWMH算法,但在采集后期其查全率要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论