(计算机系统结构专业论文)基于多特征的html网页内容提取的研究.pdf_第1页
(计算机系统结构专业论文)基于多特征的html网页内容提取的研究.pdf_第2页
(计算机系统结构专业论文)基于多特征的html网页内容提取的研究.pdf_第3页
(计算机系统结构专业论文)基于多特征的html网页内容提取的研究.pdf_第4页
(计算机系统结构专业论文)基于多特征的html网页内容提取的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 网页内往往包含丰富而不同的内容,可以分为主题相关内容和主题不相关内 容,识别出主题相关内容应用于网页检索,分类等,可以很大程度上节约空间以 及提高这些应用的性能。此方面的研究已经有很多,也取得了很大的成果,其中 研究较多和应用较广的是利用分块思想:首先将网页看作是由多个分离的聚集块 组成,然后识别并取得需要的主题相关内容,即主题信息块。识别并提取网页主 题相关内容的这一过程称为网页内容提取。网页内容提取对w 曲中的h u b 型网页 和主题型网页有不同的含义,对前者是找到该网页中非噪音内容的主要链接:对 后者是发现描述网页主题内容的文本以及相关链接。本文的研究主要着眼于以下 几个方面: 首先,本文研究介绍了网页的类型划分以及分析了几种较为有效的划分网页 类型的算法,并在此基础上提出了一种改进的网页类型划分的方法。这种改进的 算法分为两个阶段。首先利用v i p s 算法将网页划分为一个个的信息块,然后分别 判断每一块的类型,并根据这些信息块中是否存在一个满足要求的主题型信息块 来判断网页的类型。实验结果表明该方法能准确的划分出网页的类型,正确率达 到9 8 6 。 其次,本文总结了以往网页内容提取的各种方法,在此基础上,提出了一种 新的网页内容提取算法,该算法在网页分块的基础上,分析每一块的特征,得到 了主题信息块的多个特征。并利用概率论对这些特征进行量化,得到每个特征与 信息块为主题内容的一个对应的概率关系,最后综合信息块的所有特征计算得到 这个信息块是主题内容的总的概率,通过将这个概率与阈值的比较来判断信息块 的性质。通过实验可以明显地看到新算法有效地提取了网页的主题内容,并优于 其它同类算法。 最后,本文给出了两个具体的网页内容提取的应用:h i d d e nw e b 分类和w e b 检索。在h i d d e nw e b 分类中,通过应用本文提出的新的网页内容提取算法得到 h i d d e nw e b 的文本描述信息,并将其作为一个分类影响因素,从而明显的提高了 分类的效果。在w e b 检索中,本文用新的网页内容提取算法提取网页主题内容, 对实验集建立索引,进行检索,并与同类方法进行比较,实验结果证明新方法很 山东大学硕士学位论文 大程度的提高了检索的准确率,查全率等指标,而且明显优于同类算法。 由于网页分块的应用和推广,本文详细介绍了两种有效的网页分块方法,并 在实验中进行了比较,本文提出的新算法依赖于网页分块的效果,因此进一步提 高网页分块的准确性,合理性,以及分块后得到信息块的更多属性,都是提高算 法性能的有效途径。 关键词:内容提取;网页净化:内容划分;网页分析 i i 山东大学硕士学位论文 a b s t r a c t w e bp a g e so f t e nc o n t a i nr i c ha n dd i f f e r e n tc o n t e n t s ,a n dc a r lb ed i v i d e di n t o t o p i c r e l a t e dc o n t e n ta n dn o tr e l a t e dt ot h et o p i c ,i d e n t i f y i n gt o p i c 。r e l a t e dw e b c o n t e n t f o rr e t r i e v a l ,c l a s s i f i c a t i o n ,a n ds oo n ,c a l ls a v es p a c ea n di m p r o v et h ep e r f o r m a n c eo f t h e s ea p p l i c a t i o n st oal a r g ee x t e n t s u c hs t u d i e sh a v eb e e nal o ta n dh a v ea c h i e v e d g r e a tr e s u l t s ,m o r er e s e a r c ha n dw i d e ra p p l i c a t i o ni st h et h i n k i n go fu s i n gt h ec o n t e n t b l o c ko ft h ew e bp a g e s :ap a g ei sm a d eu po fan u m b e ro fi s o l a t e dp i e c e so f a g g r e g a t i o n ,a n dt h e nw ec a ni d e n t i f ya n do b t a i nt h et o p i cc o n t e n tw h i c hi st h en e e d e d r e l e v a n tc o n t e n t ,n a m e l yt o p i c c o n t e n tb l o c k t h ep r o c e s so fi d e n t i f y i n ga n de x t r a c t i n g t h ew e bp a g e st o p i c c o n t e n ti sc a l l e dw e bc o n t e n te x t r a c t i o n aw e bp a g eu s u a l l y c o n s i s t so ft h ep a g et i t l e ,t h et e x to ri m a g eb l o c k sd e s c r i b i n gt h em a i nc o n t e n to ft h e p a g e ,n a v i g a t i o nl i n k s ,d e c o r a t i o np a r t s ,i n t e r a c t i o na n dc o n t a c ti n f o r m a t i o n c l e a r l y t h el a t e rc o n t e n t sa r en o tc l o s e l yr e l a t e dt ot h et o p i co ft h ew e bp a g e s i n c ew e bp a g e s a r eu s u a l l yc l a s s i f i e da sh u b p a g e sa n da u t h o r i t yp a g e s ,w h e r eah u b - p a g em a i n l y c o n s i s t so ft h en a v i g a t i o nl i n k so fa u t h o r i t yp a g e sa n da na u t h o r i t yp a g e sp r o v i d e st h e t e x t u a l d e s c r i p t i o no n at o p i c ,t h e nc o n t e n te x t r a c t i o nf r o mw e bp a g e sc a l lb e c a t e g o r i z e da st w ot y p e s ,i e ,f o rah u b - p a g ec o n t e n te x t r a c t i o ni st of i n dt h el i n k s p o i n t i n gt o t h ea u t h o r i t yp a g e s ;a n df o ra na u t h o r i t yp a g ec o n t e n te x t r a c t i o ni st o r e c o g n i z et h et e x tb l o c k sd e s c r i b i n gt h et o p i co ft h ew e bp a g e o u rs t u d yf o c u s e so nt h e f o l l o w i n ga s p e c t s : f i r s t ,t h i sp a p e ri n t r o d u c e st h et y p e so fw e bp a g e sa n da n a l y z e ss e v e r a le f f e c t i v e a l g o r i t h m so fs o r t i n gw e bp a g e st y p e ,b a s e dw h i c hw ep r o p o s e a l li m p r o v e dm e t h o do f s o r t i n gw e bp a g e st y p e t h i si m p r o v e da l g o r i t h mi sd i v i d e di n t ot w os t a g e s f i r s t ,w e b p a g ei ss e g m e n t e di n t on u m b e rp i e c e so fi n f o r m a t i o nb l o c ku s i n gv i p sa l g o r i t h m s ,t h e n w ed e t e r m i n et h et y p eo fe a c ho n ei n f o r m a t i o nb l o c k ,a n di na c c o r d a n c ew i t ht h e i n f o r m a t i o nw h e t h e rt h e r ei sab l o c kt om e e tt h er e q u i r e m e n t so ft h et o p i ci n f o r m a t i o n b l o c kt od e t e r m i n et h et y p eo fw e bp a g e t h ee x p e r i m e n t a lr e s u l t ss h o wt h a to u r m e t h o dc o u l d j u d g e st h et y p eo f t h ew e bp a g ee f f i c i e n t l yw i t ht h ec o r r e c tr a t eo f9 8 6 i l l 山东大学硕士学位论文 s e c o n d l y , t h ep a p e rs u m m a r i z e sv a r i o u sm e t h o d so ft h ec o n t e n t e x t r a c t i o no fw e b p a g e si nt h ep a s t , a n db a s e do nw h i c h ,w ep r o p o s ean e ww e bc o n t e n t - e x t r a c t i o n a l g o r i t h m i ta n a l y z e se a c hb l o c ko ft h ew e bp a g e sa n df i n do u tan u m b e ro f c h a r a c t e r i s t i c so ft h et o p i c c o n t e n tb l o c k ,b a s e do nt h ew e bp a g e s c o n t e n ts e g m e n t a t i o n t h e nu s i n gp r o b a b i l i t yt h e o r yt oq u a n t i f yt h e s ec h a r a c t e r i s t i c s ,a n dg a i nap r o b a b i l i t y r e l a t i o no fe a c hc h a r a c t e r i s t i cw i t ht o p i c - c o n t e n tb l o c k f i n a l l yw ec a l c d a t et h e p r o b a b i l i t yo fe a c hc o n t e n tb l o c ku s i n gt h ec o m p r e h e n s i v ec h a r a c t e r i s t i c so ft h i s i n f o r m a t i o nb l o c k ,a n dc o m p a r ew i t ht h et h r e s h o l dv a l u et oj u d g et h ei n f o r m a t i o nb l o c k n a t u r e t h r o u g he x p e r i m e n t sw ec o u l dc l e a r l ys e e ;t h en e wa l g o r i t h me f f e c t i v e l y e x t r a c t st h et o p i c c o n t e n to f t h ew e bp a g e sa n di ss u p e r i o rt oo t h e rs i m i l a ra l g o r i t h m f i n a l l y , t h i sp a p e r s h o w st w o s p e c i f i ca p p l i c a t i o n s o fw e b p a g e s c o n t e n t e x t r a c t i o n :h i d d e nw 曲c l a s s i f i c a t i o na n dw 曲r e 仃i e v a l ht h eh i d d e nw 曲 c a t e g o r i e s ,t h r o u g hu s i n gt h ec o n t e n t e x t r a c t i o na l g o r i t h mo ft h i sp a p e r , w ec o u l d d i s c o v e rt h ei n f o r m a t i o no ft h eh i d d e nw e b st e x td e s c r i p t i o n ,a n dm a k ei ta sa c l a s s i f i c a t i o nf a c t o ro fh i d d e nw e b u l t i m a t e l yi ti m p r o v e st h ec l a s s i f i c a t i o nr e s u l t s o b v i o u s l y i nw e br e t r i e v a l ,w ee x t r o 曲t h ew e bp a g e s t o p i cc o n t e n t 谢mt h en e w a l g o r i t h mo ft h i sp a p e r , i n d e xa n dr e t r i e v a le x p e r i m e n t a ls e t c o m p a r i n gw i t hs i m i l a r m e t h o d s ,r e s u l t ss h o wt h a ti th a sal a r g ed e g r e eo fr a i s i n gt h er e t r i e v a lr a t eo fa c c u r a c y , r e c a l lr a t e ,a n do t h e ri n d i c a t o r a sw e bc o n t e n ts e g m e n t a t i o n sa p p l i c a t i o na n dp r o m o t i o n ,t h ep a p e ra n a l y z e st w o e f f e c t i v ew e bc o n t e n ts e g m e n t a t i o na l g o r i t h m si nd e t a i l s ,a n dc o m p a r e st h e mi nt h e e x p e r i m e n t t h i sp a p e rp r e s e n t sn e wa l g o r i t h m sw h i c hd e p e n do nt h ee f f e c t i v e n e s so f w e bc o n t e n ts e g m e n t a t i o n ,s of u r t h e re n h a n c i n gt h ea c c u r a c ya n dr a t i o n a l i t yo fw e b c o n t e n ts e g m e n t a t i o n ,a sw e l la sf i n d i n gm o r ep r o p e r t i e so ft o p i c c o n t e n tb l o c ka lea l l t h eu s e f u lm e a n st oi m p r o v en e wa l g o r i t h m s e f f e c t k e y w o r d s :c o n t e n t - e x t r a c t i o n tp a g e - c l e a n i n g ; c o n t e n ts e g m e n t a t i o ns p a g ea n a l y s i s i , 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名: 立莲。盈 日 期:盈蝗:5 :出 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:左疰盆 导师签名: 山东大学硕士学位论文 1 1 研究背景 第一章绪论 随着信息时代的来临,互联网已经成为人们获取信息的最大数据源。目前, 在大多数基于互联网的信息检索应用系统中,总是将网页看作是最小的、不可分 割的单位,但是随着网页编写以及网页内容的复杂化、多样化,一个网页往往包 含了多重信息,并且很多时候这些信息之间并不具备很强的相关性。另外,网页 中通常还会存在诸如导航条、网页美化部分、互动区域以及联系信息等与网页主 题无关的内容。以上的这些问题严重影响了信息检索系统返回值的精确性,而通 过合理地划分网页的语义结构、正确地获取网页主题信息,能够在很大程度上改 善信息检索系统的性能,同时,正确提取网页的主题信息对w e b 分类以及重复网页 的识别都有着重要的意义。 在许多网络应用中都涉及到了网页内容的语义结构。例如,在网络信息存取 ( i n f o r m a t i o na c c e s s i n g ) 中,为了解决顺序浏览以及关键词搜索的局限性,有些 学者提出使用数据库技术中的包装器( w r a p p e r ) 来对网络数据进行结构化1 】【2 3 1 1 4 。 在构建包装器的过程中,需要将网络文档分割成多个信息块( i n f o r m a t i o nc h u n k ) , 但由于网页类型的多样性,这是一个较为复杂的过程口】【5 1 。如果我们能够得到网页 内容的语义结构的话,那么无论是包装器的构建还是网页信息的提取都将更为容 易。网页语义结构的另外一个应用就是近年来日益受到关注的网页链接分析6 】【7 】。 在过去的研究中,链接分析算法是建立在一个假设的基础上的,即:如果两个网 页之间存在着一个链接的话,那么这两个网页整体之间就存在一定的关联。这种 做法充分考虑了每一个链接对网页间关联的影响,但缺点也很明显,它对同一网 页中的不同链接总是不加区分地同等处理。近来的研究发现,在大多数情况下两 个网页之间的链接仅仅表明这两个网页的某些部分之间可能存在着一定的关联, 而并不代表这两个完整的网页之间也存在着这样的关联。另外,大量噪声链接的 存在更是会给命中算法( h i t sa l g o r i t h m ) 带来主题漂移的问题【7 】【引。引入网页语义 结构分析后,会将网页中的链接根据语义分析进行划分,使链接分析更加具体化, 山东大学硕士学位论文 从而得到较好的结果,这些在后续的一些关于主题提炼抓取的文献中得到了很好 地验证f 9 】【1 0 】【1 1 】。此外,随着个人掌上电子设备的普及,利用掌上电子设备进行互 联网信息浏览成为可能,而在使用掌上电子设备小巧的显示屏进行较大网页的浏 览时,自然需要对网页进行语义上的分割,从而使信息的浏览更具直观性和目的 性12 1 。 上述应用都涉及到了网页的语义结构,以往的研究都是以网页的文档对象模 型树( d o mt r e e 1 3 1 ,以下简称为d o m 树) 为基础,通过h t m ld o m 树来抽取网 页的结构化信息5 】【9 】【l o 】【14 1 。需要指出的是,由于h t m l 语言的灵活性,许多网页的 编写都没有遵守w 3 c 规范,这就会导致网页的d o m 树结构出现错误,因而利用 d o m 树并不能对网页实现真正意义上的语义分割。另外,d o m 树创立的初衷并非 是用来表达网页的语义结构,而是表示浏览器中网页各部分间位置关系的。在网 页中经常会出现这样的例子:d o m 树中两个结点拥有共同的父结点,但它们之间 在语义表达上并不具备较强的相关性,反而是和其它的结点有很强的语义相关性, 这也从另一个方面说明d o m 树并不适合用来表示网页的语义结构。 从人的理解角度来看,我们往往将一个网页看作不同语义对象的集合体而并 非是传统意义上的单一整体,并且研究结果表明,用户常常希望诸如导航条、广 告栏这些具有特定功能的部分出现在网页中特定的部分”】。当用户看到一个网页 时,网页中一些在空间上和视觉上较为明显的条框总是使用户下意识地把这个网 页划分成具有某些独立语义性的分块,这也就使得利用这些空间、视觉提示进行 网页自动分割成为可制1 6 】。 1 2 国内外研究现状 目前的w e b 页面绝大多数是由h t m l 语言编写,有多个独立的区域组成。一般 分为正文区、相关链接区和“噪音”区,如广告、装饰、导航和版本等信息。网 页内容提取对w e b 中主要由链接信息组成的h u b 网页和有主题的网页有不同的含 义。对前者是提取出该网页中主要表达链接的锚文本:对后者是提取出描述网页 主题内容的文本块以及相关链接的锚文本。以下简称主题块。 对该问题已经有了许多的相关研究。文献 1 7 1 q 丁提出基于模板去除噪音来提取 2 山东大学硕士学位论文 主题块的概念。该方法假定w e b 中的同类网页有着相同的排版版式或类似的网页的 d o m ( d o c u m e n to b j e c tm o d e l ) 树结构。则噪音内容可以通过模版的匹配发现并 能去除。文献 1 8 1 q b 提出采用机器学 - - j 方式生成网页集的模板,以网页链接关系中 的锚文本( a n c h o r t e x t ) 作为提取目标对模板进行标记,生成对应模板的提取规则, 依据模板的提取规则对网页主题信息进行提取。但是该方法只对模板型网页集( 通 常为网站) 效果显著,但不是基于单一网页处理,因此不具有通用性。文 1 9 1 提出 根据t a b l e 标签将网页分成若干内容,然后将词作为特征抽取出来,并计算每个 特征词的熵值,接着根据内容中每个特征词的熵值进而计算每个内容的熵值,最 后通过与阈值的比较来划分出主要内容和噪音内容。此种方法将页面看成是由 t a b l e 分割的集合,不过对于无t a b l e 的网页则很难成立,且分块粒度较大。文 【2 0 1 也采用了相似的根据t a b l e 等容器标签将网页分成若干内容的方法,并将信息 量最大的一块作为正文块。文 2 1 q p 贝j j 是根据分割标签将网页分块,再根据启发式 规则处理各个块,找到主题块,但其分块效果较差,不具有普遍性。【2 2 q b 提出了 用t a b l e 分块之后通过分析每块中的特殊标签以及长宽等信息来判定网页的主 题,此方法对w e b 文档提供的信息利用较少,效果有限。 由于基于视觉的分块方法( s ) 的出现,产生了许多的基于这种分块思想 的信息抽取方法,也启发了许多研究者采用视觉信息进行网页去噪。【1 6 】中提出了 v i p s 的概念及规则,为这个算法的实现提供了理论依据。文1 2 3 1 提出了利用网页的 可视布局信息对页面进行划分,并在此基础上消除噪音的方法,该方法将网页分 为上部,下部,左部,右部以及中部,中部为主题内容区,但这种方法对于所有 网页来说太过硬性,不能适用于所有网页形式各异的版面形式,同样分块粒度太 粗。文献 2 4 1 提出了根据浏览器显示的原理得到页面每个元素的位置坐标并进行分 析的方法,但利用的规则较少,且分块粒度太细。 本文在总结以往论文的研究的基础上,提出了基于多特征的,利用统计概率 的网页内容提取方法,简称m f mm u l t i f e a t u r em o d e l ) 。文中给出了如何基于统计 概率对特征进行量化处理的方法,并基于上述研究提出新的网页内容提取算法。 由于m f m 算法基于多特征和统计,因此,可以克服单一方法的局限性、网页结构 的复杂性和不同个人在网页制作上的差异性。实验表明,新算法在处理大量类型 3 山东大学硕士学位论文 各异的网页中,明显优于目前已知的方法。 1 3 本文工作及组织 本文在总结以往论文的研究的基础上,提出了基于多特征的,利用统计概率 的网页内容提取方法,简称m f m ( m u l t i f e a t u r em o d e l ) 。文中给出了如何基于统计 概率对特征进行量化处理的方法,并基于上述研究提出新的网页内容提取算法。 由于m f m 算法基于多特征和统计,因此,可以克服单一方法的局限性、网页结构 的复杂性和不同个人在网页制作上的差异性。实验表明,新算法在处理大量类型 各异的网页中,明显优于目前已知的方法。同时,还研究了该方法两个重要的应 用,再次证明了新方法的有效性。内容安排如下: 第一章为引言,首先介绍了网页内容提取的研究背景,意义。然后介绍了目 前国内外的研究现状,以及各种方法的优缺点。最后阐述了本文所做的工作以及 本文的结构安排。 第二章介绍了网页内容提取的概念以及h t m l 网页的特征属性。 第三章介绍了网页分块技术在网页内容提取中的应用,并详细的说明了两种 较为合理有效的网页分块法方法的原理和算法。 第四章讲述了网页内容提取前的重要一步,网页类型判定的方法,介绍了常 用方法和本文的方法。 第五章则详细讲述了本文方法的中心,如何基于多特征对网页内容进行提取, 在两种分块的基础上分别做出了实现,同时实现了几种前人的方法以作比较。最 后给出了实验结果,显示了本文方法的有效性。 第六章介绍了网页内容提取的两个应用,通过实验,再次证明了网页内容提 取的重要性和本文方法的实用性。 第七章为总结与展望,总结了本文的工作,并对以后的改进提出了一些想法。 4 山东大学硕士学位论文 1 4 本章小结 本章绪论,介绍了网页内容提取的研究背景及其应用,接着介绍了相关领域 的研究现状,最后给出了本文的研究内容和结构组织。 5 山东大学硕士学位论文 2 1 引言 第二章l z i t m l 网页内容提取 目前,网络上的网页的绝大部分是h t m l 网页,因此本文所提方法针对的是 h t m l 网页。h t m l 是一种制作网页的语言,有着它自己的规范与特点,要对其 进行内容提取,首先要掌握h t m l 语言,以及h t m l 网页的半结构化性质。 2 2 什么是h t m l h t m l 【2 5 1 ( h y p e rt e x tm a r k u pl a n g u a g e ,超文本标记语言) ,或称为“多媒体文 件语言”,是用于创建w e b 页和w e b 信息发布的第一个通用语言。h t m l 以其简 单精练的语法、极易掌握的通用性与易学性,使w e b 网页可以亲近于每一个普通 人,i n t e r a c t 也才得以普及发展,以至今日的辉煌。t m l 语言是一种描述文档结 构而不能描述实际的语言,用h t m l 语言书写的页面是普通的文本文档( a s c i i ) , 不含任何与平台和程序相关的信息,可以被任何文本编辑器读取,文字和图形可 以同时在同一p a g e 中显示。 h t m l 文档包含2 种信息:一是页面本身的文本:二是表示页面元素、结构、 格式和其他超文本链接的h t m l 标签。现在的h t m l 已经进入了第四代。第一 代的w e b 页采用h t m l l l 0 制作,其页面中的大部分都是文字,中间部分采用了 一两幅图形。第二代的w e b 页采用h t m l2 1 0 制作,最主要的是增加了对表格的 支持,使得w w w 具有了交互功能,即可以进行信息的双向交流。目前的大多数 浏览器都支持h t m l 2 1 0 ,在其页面中可以加入一些漂亮的背景,以表格的形式组 织文字,同时提供在线的顺序表单。第三代的w e b 页采用h t m l 3 1 2 制作,该版本 增加了许多重要的标签,采用了富有创造性的页面布局、色彩控制、快速图像显示、 字体显示和交互式的w e b 页,使得主页生动活泼、富有生机,制作主页也变得非常 方便。第四代的h t m l 4 1 0 和以前几个版本比较起来,除了将原有的标记扩充外, 其最大的变革是可以将网页上的文字和图形当作对象,并通过s c r i p t ( 脚本) 程序 来控制,这种改变对于网页内容的动态显示或控制是非常重要的。同时c gi 6 山东大学硕士学位论文 ( c o m m o ng a t e w a yi n t e r f a c e ) 能使w e b 有更强的交互功能。 h t m l 语言的特性可总结为以下几个方面: ( 1 ) 通用性,可实现不同平台的文档共享。 ( 2 ) 可扩展性,h t m l 的标签集合可以根据新需求而不断修正或加入有限的 新标签符,为实现有限的新功能的扩展提供保障。 ( 3 ) 创建的灵活性,h t m l 文档是纯文本文档,可以由网页编辑器以及其他文 本编辑软件创建。 生成一个h t m l 文档主要有以下三种途径: 1 手工直接编写( 例如用你所喜爱的a s c h 文本编辑器或其它h t m l 的编辑 工具) 。 2 通过某些格式转换工具将现有的其它格式文档( 如w o r d 文档) 转换成 h t m l 文档。 3 由w e b 服务器( 或称町1 p 服务器) 一方实时动态地生成。 2 3h t m l 语法简介 h t m l 语言是通过利用各种标记( t a g s ) 来标识文档的结构以及标识超链 ( h y p e r l i n k ) 的信息。 h t m l 的标记总是封装在由小于号( ) 构成的一对尖括号之 中。 1 单标记:某些标记称为“单标记”,因为它只需单独使用就能完整地表达意思, 这类标记的语法是: 。最常用的单标记是 ,它表示一个段落( p a r a g r a p h ) 的结束,并在段落后面加一空行。 2 双标记:另一类标记称为“双标记”,它由“始标记”和“尾标记”两部分构成, 必须成对使用,其中始标记告诉w e b 浏览器从此处开始执行该标记所表示的功能, 而尾标记告诉w e b 浏览器在这里结束该功能。始标记前加一个斜杠( ) 即成为尾 标记。这类标记语法是: 内容 。其中“内容”部分就是要被这对标记 施加作用的部分。例如你想突出对某段文字的显示,就将此段文字放在一对 标记中: t e x tt oe m p h a s i z e 。 3 标记属性:许多单标记和双标记的始标记内可以包含一些属性,其语法是: 7 山东大学硕士学位论文 。各属性之间无先后次序,属性也可省略( 即 取默认值) 。 4 文档结构:除了一些个别的标记外,h t m l 文档的标记都可嵌套使用。通常 由三对标记来构成一个h t m l 文档的骨架,它们是: 其中 在最外层,表示这对标记间的内容是h t m l 文档。 之间包括文档的头部信息,如文档总标题等,若不需头部信息则可省略此标记。 我们还会看到一些h o m p a g e 省略 标记,因为h t m l 或h t m 文件被w e b 浏 览器默认为是h t m l 文档。 标记一般不省略,表示正文内容的开始。 2 4 半结构化的h t m l 网页 半结构化数据,就是介于结构化数据( 如关系数据库,而向对象数据库) 和无结 构化的数据( 如声音,图形等) 之间的数据,h t m l 文档就属于半结构化数据。它一 般是自描述的,数据的内容和结构混合在一起,没有明显区分。半结构化数据的 出现有以下几个原因: 1 ) 某些数据源被当作数据库处理,但它并不完全遵循某种数据形式。最典型的 例子就是w e b 数据。因特网提供了巨大的信息资源,可以把它视为一个信息库。 但是,在多大程度上我们可以使用现有数据库工具来检索w e b 数据呢,大多数w e b 查询是利用r e t r i e v e 技术从w e b 内容中获取单个的网页,而没有利用w 曲的结构 来明确表达查询。此外,由于w e b 并不符合任何标准的数据模型,因此我们需要 一种方法来描述它的结构。 2 ) 在不同数据库之间交换数据时需要一种灵活的数据模式,这是数据交换和数 8 山东大学硕士学位论文 据转换的需求。 3 ) 对于某些结构化数据,为了显示的方便也将它作为半结构化数据来处理。通 常,如果不了解数据库的模式,是不可能写出数据库查询语句的,而数据库的模 式又包含许多难以理解的术语和关系,因此,为了能够在不完全了解数据模式的 情况下写出查询语句,就提出了这个需求。半结构化数据存在一定的结构,但这 些结构或者没有被清晰的描述,或者经常动态变化,或者过于复杂而不能被传统 的模式定义来表现。半结构化数据模式与传统的关系或面向对象数据模式不同, 它主要有以下这些特点: ( 1 ) 半结构化数据先有数据,后有模式; ( 2 ) 半结构化数据的模式用于描述数据的结构信息,而不是对数据结构进行 强制性的约束: ( 3 ) 半结构化数据的模式具有非精确性。它可能只描述数据的一部分结构, 也可能随着数据处理不同阶段的视角不同而不同: ( 4 ) 半结构化数据的模式可能规模很大,甚至超过源数据的规模,而且会由 于数据的不断更新而处于动态的变化过程中。 2 5 网页的内容组成 前面两节讲述了t m l 网页的结构特性,而网页被浏览器显示出来之后,便能 够看到网页的内容了。不同用途的网页有着不同的内容,一般而言,根据网页内 容的性质和用途,可以将网页粗分为链接型网页( h u b ) 和主题型网页,在视觉 上,大多数网页是容易区分类型的,因为两种类型的网页有着较为明显的视 觉特征。有主题网页中通过成段的文字描述了一件或多件事物,虽然也会有 图片和超链,但这些图片和超链并不是网页的主体。链接型网页通常不会描 述一件事物,而是提供指向相关网页的超链,因此,链接型网页中超链密集。 如果细分还可以划分出图片型网页,视频型网页,它们的内容是通过图片或 视频体现的,而文字仅仅是对图片的一个说明,因而文字不多。为了统一起 见,在文本中,只划分两类网页:链接型网页( h u b ) 和主题型网页,而将图片 型网页,视频型网页作为主题型网页处理。它们的划分方法将在第四章中专 门讨论。 9 山东大学硕士学位论文 不论哪种类型的网页,都不可避免的含有大量的非主要信息,在主题型 网页中,表现为与主题无关的信息;在链接型网页中则表现为网页所表达链 接以外的读者并不关注的信息。总的来说,这些非主要信息可以称为噪音内 容,它们与网页表达的主要内容无关,通常处于网页的非主体位置,如网页 的四周等。具体表现为网页中的导航信息,版本信息,广告信息,以及装饰 性的图片信息等。 因此,网页总体上可以分为两类:链接型网页( h u b ) 和主题型网页。而 网页内的内容又可划分为主题信息和噪音信息。 2 6 本章小结 本章介绍了h t m l 网页的定义,h t m l 网页的类型以及h t m l 网页的内 容,通过这些知识,我们可以详细地了解h t m l 网页,从而为以后处理这类 网页,对其进行内容提取打好了基础。 1 0 山东大学硕士学位论文 3 1 引言 第三章网页分块在网页内容提取中的应用 网页在视觉上可以很明显的分为块块的内容,各块都包含着不同的内容, 那么将网页向分为一个个的子块,再各自讨论各块的性质,判断其是否为主题内 容,是一个很为合理和有效的方法,网页视觉上如同报纸一样,可以划分为一块 一块的信息块,每一块的内容是相关的,它们有着相同的属性及性质,例如字体, 是否为主题块内容等,因此,将网页划分为合理的信息块,可以将信息块做为处 理单位,判断其内容的性质。 3 2 基于d o m 树的网页分块 h t m l 是一个标识语言,它定义了一套标签来刻画网页显示式的页面布局。 因此,对于h t m l 网页最常用的结构表示方法是构造网页的标签树【2 0 1 1 2 1 1 。d o m ( d o c u m e n to b j e c tm o d e l ) 是一个常用的标签树构造工具。它可以将网页中的标 签按照嵌套关系整理成一棵树状结构。为了将网页分成一块块的结构,首先对 h t m l 规范中的标签按照功能分类。 依据标签的作用可以将h t m l 标签分为两类”】: ( 1 ) 规划网页布局的标签。如上所述,在视觉上,网页是有很多信息块组成 的,而信息块是由特定的标签( 称之容器标签) 规划出来的。常用的容器标签有: , , , , 等。 ( 2 ) 描述显示特点的标签。除了上述标签外,h t m l 还定义了一套标签来 描述其包含的信息本身。比如: 标签说明它包含的内容要用粗体表示, 标签说明它包含的信息是一个图片,等等。 由于要将信息块作为处理单位,因此可以依据容器标签构造标签树中的结点, 其他类型的标签信息作为它所在信息块的属性存在。这样就的到了h t m l 网页的 一颗标签树,叶子结点就是一个个的信息块,并且每块都有自己的属性信息。 山东大学硕士学位论文 巾h n d 簟脚 , r m o l b - o o 呻p 囊睁 巾 c r i b , n d h 1 - t ,譬 qh z 。j 囊p _ 一 j b - l b b 一瞳 咖 h - - 置h 由憎 h h - | 舟 h 崎f p t _ b t l - - 扫o d 诤 由n - 一_ 。 吨啊- ! a 哪 。睁姻f 黜n 呵7 ,商苗一 孙 省卤bl 紫一 图3 1h t m l t r e e 的结构示意图为不同的信息块 这样,通过遍历新的标签树就可以依次处理每个信息块,并根据它们的属性 来判断其性质,得到属于网页主题内容的信息块。 3 3 基于视觉的网页分块算法 网页在视觉上可以表现为很和合理的信息块,通过上节介绍的方法,可以将 网页划分为一个个的信息块,但由于只利用了h t m l 的标签结构,得到的信息块 不能很好的符合视觉的分块,因此,提出了一种充分利用了网页标签结构结视觉 特征的分块方法,能够很好的将网页划分为符合视觉分块的信息块。 3 3 1 背景介绍 基于视觉特征的网页分割算法【1 6 】【3 0 1 ( v i s i o nb a s e dp a g es e g m e n t a t i o n a l g o r i t h m , v i p s ) 不同于以往的网页处理技术,它充分考虑了人们的视觉感知对网 页主题获知的影响。在此算法中,网页被表述成一个分层的语义结构,这个结构 中的每一个结点对应着网页中的一个具体分块,而这些分块与人们对一个网页的 直观划分是较为一致的。每个分块都被赋予一个表示相关度的值( d o c ) ,d o c 值用 来衡量每一个分块之间在视觉空间上的内容一致度。 基于视觉特征的网页分割算法最显著的特点是:它将原始网页表述成一个自上 而下的分层结构,利用这些分层结构的特征我们可以进行网页分类等实际应用。 其过程可以简单地概括为:首先,在网页的d o m 树中抽取出适当的分块;然后, 山东大学硕士学位论文 在分块间找寻分割符:最后,根据分割符的划分结果构建出网页的语义结构瞰】。 在下面几节的内容中,我们将详细讨论基于视觉特征网页分割算法的模型定 义、具体算法描述、分块及分割符的抽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论