(计算机应用技术专业论文)基于页面分块的网页内容提取的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于页面分块的网页内容提取的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于页面分块的网页内容提取的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于页面分块的网页内容提取的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于页面分块的网页内容提取的研究与实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于页面分块的网页内容提取的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网时代的来临,w e b 已经成为世晃上最大的信息源,给人们生活带 来了极大的方便。但是w e b 在给人们提供丰富信息的同时,又使人们在对它们的 有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩, 另一方面用户却找不到他们所需要的信息。为了更好的使用w e b 上的信息,人们 不断研究能够有效组织和利用网上信息的技术。然而,w e b 文档不像传统的文本 那样整齐、干净,其中包含大量噪音内容,例如为了增强用户交互性而加入的 脚本,为了便于用户浏览而加入的导航链接,以及出于商业因素所加入的广告 链接等。这些噪音内容往往和网页的主题不相关,在网页分类、信息检索等w e b 应用中,如果不去除这些噪音内容,不仅降低信息处理程序的执行速度,还将 影响分类和检索的准确度。比如在信息检索时,可能仅仅因为某一页面广告信 息中包含用户所查找的关键字而将该页面返回给用户。因此,快速准确地提取 从网页的主题内容和主题相关内容已经成为w e b 信息处理系统预处理环节中一 个必不可少的环节。 本文在网页内容提取方面主要做了以下几点研究: ( 1 ) 提出了并实现了一种主题型页面识别算法,该算法利用主题型页面的多 个特征,首先通过启发式规则过滤,然后再通过分类器对不能识别网页进一步 分类,实验证明了该算法具有较好的识别效果。 ( 2 ) 针对以往网页分块算法只使用一种线索的不足,提出并实现了基于多线 索的网页分块算法,该算法综合利用了标签线索,视觉线索和文本线索,对网 页进行分块,生成语义块树结构,并保留语义块的视觉信息等,方便后序利用。 通过实验证明和现有分块算法相比,本文提出的算法提高了分块准确率,并且 更为鲁棒,适用范围更广。 ( 3 ) 总结了网页内容块的主要特征,提出并实现了一种基于组合特征的主题 内容块识别算法,该算法将基于文字特征识别的算法和基于布局特征识别的算 法组合起来。基于文本特征识别算法偏重于语义块内部的文字内容,而基于布 局特征的算法反映的是语义块内部的结构信息。两个算法组合起来使用,最后 识别出的主题块既能反映其文本的重要性,又能反映其内部结构的重要性,防 止了使用单个特征可能导致的偏差,提高了网页主题内容信息提取的准确率和 召回率。 ( 4 ) 在网页相关内容提取方面,通过使用启发式规则,实现了相关链接提取 算法和相关图片提取算法。 关键词:主题型网页,网页分块,内容提取,语义块 a b s t r a c t w i t ht h ea d v e n to ft h ei n t e m e ta g e ,w e bh a sb e c o m et h ew o r l d sl a r g e s ts o u r c eo f i n f o r m a t i o n i th a sb r o u g h tg r e a tc o n v e n i e n c et o p e o p l e sl i v e s b u tt h ew e ba l s o m a k e sp e o p l ef a c eah u g pc h a l l e n g ei nt h ee f f e c t i v eu s eo ft h e mw h e ni to f f e r sa w e a l t ho fi n f o r m a t i o nt op e o p l ea tt h es a m et i m e o nt h eo n eh a n dt h ei n f o r m a t i o n o nt h ei n t e r n e ti sv a r i o u sa n dc o l o r f u l ,o nt h eo t h e rh a n du s e r sc a nn o tf m dt h e i n f o r m a t i o nt h e yn e e d i no r d e rt ou s et h ei n f o r m a t i o no nt h ew e be f f e c t i v e l y , p e o p l e c o n s t a n t l ys t u d yt h et e c h n o l o g yt h a tc a no r g a n i z ea n du s et h eo n l i n ei n f o r m a t i o n h o w e v e r , w e bd o c u m e n t sa r en o ta sn e a ta n dc l e a na st h ec o n v e n t i o n a lt e x t i t c o n t a i n sal o to fn o i s ec o n t e n t ss u c ha s t h es c r i p tj o i n e dt oe n h a n c et h eu s e r i n t e r a c t i o n ,t h en a v i g a t i o nl i n k sj o i n e dt of a c i l i t a t eu s e r st ob r o w s e ,弱w e l la st h e a d v e r t i s e m e n tl i n k sj o i n e df o rb u s i n e s sf a c t o r s t h e s en o i s ec o n t e n t sa n dw e bp a g e s a r e u s u a l l yn o t t h e m e - r e l a t e d i nt h ew e ba p p l i c a t i o n ss u c ha sw e bp a g e c l a s s i f i c a t i o na n di n f o r m a t i o nr e t r i e v a l ,i fw ed on o tr e m o v et h e s en o i s ec o n t e n t s ,i t w i l ln o to n l yr e d u c et h ei m p l e m e n t a t i o ns p e e do fi n f o r m a t i o np r o c e s s i n g ,b u ta l s o i n f l u e n c et h ea c c u r a c yo fc l a s s i f i c a t i o na n dr e t r i e v a l f o re x a m p l e ,i ni n f o r m a t i o n r e t r i e v a la p p l i c a t i o n , i tm a ys u b m i taw e bp a g et ou s e r sj u s tb e c a u s et h ep a g e a d v e r t i s e m e n ti n f o r m a t i o nc o n t a i n st h ek e y w o r d ss e a r c h e db yt h eu s e r s t h e r e f o r e , e x t r a c t i n gt h et h e m e sa n dt h e m e - r e l a t e dc o n t e n tf r o mt h ew e bp a g e sf a s t a n d a c c u r a t e l y h a sb e c o m ea l le s s e n t i a ll i n kt ot h ep r e p r o c e s s i n gl i n ko fw e b i n f o r m a t i o np r o c e s s i n gs y s t e m i nt h i sp a p e r , t h em a i ns t u d ym a d et h ef o l l o w i n gp o i n t si nc o n t e n te x t r a c t i o n : ( 1 ) p r o p o s e da n di m p l e m e n t e dat h e m e b a s e dp a g er e c o g n i t i o na l g o r i t h m i tu s e d m u l t i p l ef e a t u r e so ft h e m e - b a s e dp a g e s a tf i r s t ,t h ew e bp a g e sa r ef i l t e r e db y h e u r i s t i cr u l e s t h e nt h ep a g e st h a tc a nn o tb er e c o g n i z e dw i l lb ec l a s s i f i e dt h r o u g h t h ec l a s s i f i e r t h er e s u l t ss h o wt h a tt h i sa l g o r i t h mh a sb e t t e rr e c o g n i t i o ne f f e c t s ( 2 ) t oa i ma tt h a tt h ep a s tp a g es e g m e n t a t i o na l g o r i t h m su s e do n l yo n ek i n do f c l u e s ,t h ep a p e rp r o p o s e da n di m p l e m e n t e dam u l t i c l u e sb a s e dp a g es e g m e n t a t i o n a l g o r i t h m t h i sa l g o r i t h mm a k e sac o m p r e h e n s i v eu t i l i z a t i o no ft h el a b e lc l u e s , v i s u a lc l u e sa n dt e x tc l u e so nt h ep a g et od i v i d et h ep a g ei n t ob l o c k s a tt h es a m e t i m ei tg e n e r a t e st l l es t r u c t u r eo fs e m a n t i cb l o c kt r e ew h i c hr e t a i n si n f o r m a t i o no ft h e s e m a n t i cb l o c ks u c hv i s u a li n f o r m a t i o nt of a c i l i t a t et h ef u t u r eu s e t h ee x p e r i m e n t r e s u l t sp r o v e dt h a t c o m p a r e dw i t h t h ee x i s t i n g s e g m e n t a t i o na l g o r i t h m ,t h i s a l g o r i t h mi m p r o v e st h ea c c u r a c yo fs e g m e n t a t i o n i ti sm o r er o b u s ta n da p p l i c a b l et o aw i d e rr a n g e o ) s u m m a r i z et h em a i nf e a t u r e so fw e b c o n t e n tb l o c k , p r o p o s e da n di m p l e m e n t e d at h e m ec o n t e n tb l o c ki d e n t i f i c a t i o na l g o r i t h mb a s e do nc o m b i n a t i o nf e a t u r e s t h i s a l g o r i t h mc o m b i n e sr e c o g n i t i o na l g o r i t h mb a s e do nt h et e x tf 色a t u r ea n dr e c o g n i t i o n a l g o r i t h mb a s e do nl a y o u tf e a t u r et o g e t h e r t h er e c o g n i t i o na l g o r i t h mb a s e d o nt e x t f e a t u r ei sb i a s e dt o w a r d st h et e x tc o n t e n tw i t h i nt h es e m a n t i cb l o c k s ,w h i l et h e a l g o r i t h mb a s e do nl a y o u tf e a t u r e sr e f l e c tt h es e m a n t i cs t r u c t u r ei n f o r m a t i o nw i t h i n t h eb l o c k s t h et h e m ec o n t e n tb l o c k si d e n t i f i e db yt h e a l g o r i t h mb a s e do n c o m b i n a t i o nf e a t u r e sc a nn o to n l yr e f l e c tt h ei m p o r t a n c eo ft h et e x ti nt h ew e b p a g e , b u ta l s or e f l e c tt h ei m p o r t a n c eo fi t si n t e r n a ls t r u c t u r e i tp r e v e n t sb i a sl e a db yu s i n g t h es i n g l ef e a t u r ea n di m p r o v e st h ep r e c i s i o na n dr e c a l lo ft h e m ec o n t e n ti n f o r m a t i o n e x t r a c t i o n ( 4 ) i nt h ef i e l do ft h e m e r e l a t i v e c o n t e n te x t r a c t i o n ,t h r o u g hh e u r i s t i cr u l e s , i m p l e m e n t e dt h er e l e v a n tl i n k se x t r a c t i o na l g o r i t h ma n dr e l e v a n ti m a g e se x t r a c t i o n a l g o r i t h m k e yw o r d :t h e m e b a s e dp a g e ,w e bp a g es e g m e n t a t i o n ,c o n t e n te x t r a c t i o n , s e m a n t i cb l o c k i v 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特- n j j t 以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:一鼬 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学 人可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 签名: 曲诠 导师签名: 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究背景与意义 随着信息时代的来临,互联网已经成为世界上人们获得信息的最大来源。 互联网的高速发展,改变了我们的生活方式,打破了我们的时空界限,重塑着 我们的社会形态。然而,随着w e b 上信息量的急速增长,随之而来的就是存储 成本的增大和信息提取难度的增大了,w e b 在给人们提供丰富信息的同时,又 给人们带来了一个巨大的挑战,即如何有效地使用这些信息。一方面网上的信 息多种多样、丰富多彩,而另一方面用户却找不到他们所需要的信息。如何有 效的获取和整合w e b 信息成为大家面对的共同课题。 为此,人们开发了以w e b 搜索引擎为主的检索服务。为了解决网上信息 检索的难题,人们在信息检索领域进行了大量的研究,开发了各种搜索引擎。 但是,目前,在大多数基于w e b 的信息处理应用系统中,总是将整个w e b 页面 看作是网络信息存储和提取的基本单位,认为获取了这些w e b 页面就相当于获 取了w e b 信息内容。但是,把整个页面作为最基本的信息处理单位有一些不合 理之处。首先是因为w e b 页面中信息量的分布非常不均匀,有主题内容,也有 广告,导航栏,版权信息,装饰信息,以及在大量网页中重复出现的部分,它 们自身的信息含量千差万别。当网页浏览者刚打开一个新页面的时候,如果之 前没有浏览过类似页面,就会目不暇接,眼花缭乱,有无所适从的感觉,必须 仔细探寻一番才能定位到这个页面的主题内容;如果之前浏览过类似页面,或 者常上这个网站,那么通常浏览者就已经被训练出一种直觉或者说是条件反射, 他会立刻定位到他所想要浏览的部分,从而忽略掉页面中的其他部分。 而且,现在相当一部分网页通常包含多个主题,并且这些主题是互不相关 的。另外现在很多w e b 页面是动态更新的,比如,博客页面或者论坛讨论帖, 它们的更新是以一个一个网页块的形式进行的,更新时页面上大部分内容并没 有变化,如果仍然以整个页面为信息处理单位,则不可避免地存在效率损失和 定义的混淆。这些情况促使我们反思以整个页面为基本信息处理单元的做法不 仅不尽合理,甚至一定程度上已经损害了网络浏览者的用户体验,严重影响了 信息检索系统返回值的精确性。因此,检测出页面的语义结构,对给定的w e b 武汉理工大学硕士学位论文 页面进行更进一步的语义提取,能够更准确的获取w e b 信息,改进信息检索系 统的性能。 许多w e b 应用都可以利用网页的语义内容结构。比如,在w e b 信息访问 q 1 ( i n f o r m a t i o na c c e s s i n g ) 中,为了摆脱浏览和关键字搜索的局限性,许多研究 者已经试着通过使用数据技术和构建包装器来将w e b 数据进行结构化处理1 1 】1 2 】 【3 1 。在构建包装器的时候,有必要将w e b 文档分割成不同的信息块。之前的研 究工作使用自适应的方法来处理不同类型的网页,如果我们能够获取w c b 页面 的语义内容结构,那么包装器的构建就会更加简单,当然语义信息也更容易被 提取出来。 w e b 页面的语义提取的重要用途之一就是移动终端访问互联网。目前大部 分的w e b 页面都是针对台式机而设计的,由于移动设备通常屏幕较小,计算能 力有限,直接访问的话要花费很长的时间操作滚动条,跳过大量的噪音内容, 大大影响了用户获取信息的速度,因此这些网页并不适合移动设备直接访问。 目前通常通过两种手段来解决这个问题,即通过服务器进行页面转换和使用网 页缩略图。通过服务器进行页面转换的方法是首先将用户访问的页面进行页面 分块和转换,然后将分块的结果提交给移动终端。使用网页缩略图的方法则是 首先将整个w e b 页面生成缩略页面,然后把整个页面分割为数目不等的区域, 如果用户对特定区域感兴趣的话,则可以再次访问该区域的内容。通过这两种 方法,基本可以完成移动终端访问互联网的任务,但是核心问题还是如何将页 面进行语义分割。 另外,最近几年来,链接分析【4 】受到越来越多的关注。对于搜索引擎而言, 链接分析是一个极为重要的工作。传统上,页面上不同的链接会得到同样的处 理。目前,对于大部分的搜索引擎而言,链接分析算法的最基本假设就是如果 两个页面之间存在一个链接关系,那么这两个页面整体上肯定存在着一定的关 系。而大多数情况下,页面a 和页面b 之间有链接仅仅说明页面a 的某部分与 页面b 的某部分之间可能存在一定的关系。并且,大量噪音链接的存在会导致 h i t s 算法中的主题漂移问题【5 j 。因此对于搜索引擎而言,如果要更准确的获取 链接的关系,把一个完整页面分割为多个语义块是一个必须的工作。 从以上分析我们可以看出,利用网页语义内容结构,删除网页噪音信息, 提取出网页的主题内容信息,对基于网页的信息处理工作的重要性。因此,如 何更好的消除网页噪音,提取主题内容信息,已经成为当前研究领域的一个重 要并且热门的课题。 2 武汉理工大学硕士学位论文 1 2 国内外研究现状 如何更好的消除网页噪音,提取页面主题内容,已经成为当今信息处理研 究和应用领域的一个热点课题。总的来说,当前主要有四种方法:( 1 ) 基于人工 编码的方法;( 2 ) 基于启发式规则的方法;( 3 ) 基于机器学习的方法;( 4 ) 基于d o m 树结构的方式。 1 2 1 基于人工编码的方法 早期的时候,主题内容的获取通常是通过人工编码的方式来删除噪音内容 来实现的,典型的产品有w p a r 6 1 、w e b w i p e r l 7 1 君l l j u n k b u s t e r s 引。但是这些产品 通常是针对特定的领域、面向特定的网站或者是针对特定的格式,主题内容并 不能被完全自动的提取,这是其最大的缺点。而由于用户是随机访问因特网的, 他们会随机浏览不同结构或不同类型的网页,当用户浏览到产品不熟悉的页面 结构时,这些系统就不能准确的提取主题内容了。此外,还有一些方法是通过 重构页面内容来方便移动终端访问互联网,比如内容提供商手工编辑专门适用 于移动设备的页面,然而这些方法并没有真正移除噪音内容,如o p e r a 引。特别 要指出的是,以上所有方法都难以避免的改变了页面本来的内部结构,并且使 得移动终端用户处于被动接受的状态,对于输出页面究竟是不是自己所希望的 内容,他们并不能控制。 1 2 2 基于启发式规则的方法 因为基于手工编码的方式不够灵活,并且改变了页面的内部结构,根据标 签制定启发式规则来进行内容提取的方法开始被研究者使用。 h y k a o , j m h o 等【1 0 l 【1 1 1 利用网页结构中的一些特征先将网页分割成一些 可能具有内容的小块,再通过一些过滤和合并的方法确定一个网页内具有内容 的部分和网页内容分布的层次结构。但是由于需要计算熵值,导致这种方法处 理网页的速度较慢。 j l c h e n 等【1 2 】提出基于功能的对象模型方式对页面内容提取的方法,用于在 手机等移动终端设备屏幕上逐层显示网页。它首先将不能再分的标签定义为基 本标签,然后根据标签在页面中不同的作用,把基本标签组合为各种复杂标签, 一步一步地表现出页面内容的层次结构。但是由于复杂标签的合成规则不很明 3 武汉理工大学硕士学位论文 确,基本没有固定的套路,使得算法的实现起来比较困难。 r h s o n g 等! ”】通过分析具有分隔作用的标签在页面中的出现频率来对页面 进行分块。但是于具有分隔作用的标签多种多样,不同的标签在页面上可能会 表现出相同的效果,而相同的标签可能又会因为组合排列顺序不同,使得其在 页面上表现不同,所以仅仅以分隔标签为线索来进行内容的抽取,准确率不高。 k o v a c e v i c 等【1 4 j 提出了根据页面可视布局信息对页面分块的算法,并在此基 础上移除噪音信息,来消除噪音信息对网页分类的影响。为了利用布局信息, 我们就需要得到各个结点的坐标信息,但因为h t m l 语言本身并没有包含足够的 布局信息,所以网页真正显示出来的效果因浏览器,因操作系统,甚至因硬件 而异。为了得到网页的完整布局信息,必须完全下载该网页所链接的c s s 文件, j a v a s c r i p t 文件,图片文件等等,然后调用浏览器内核代码渲染这些网页文件, 最后从浏览器内核代码的接口中得到每个h t m l 标签的布局信息。但是该文献提 出的算法对于h t m l 规范中的框架和c s s 等不支持使得该页面布局算法得出的 结点的布局信息是不准确的,最终将导致主题内容提取的不准确。荆涛,左万利【1 5 l 根据正浏览器对c s s 等的良好支持,通过调用了i ec o m 接口获得了d o m 树结点 的更精确坐标位置信息,但对k o v a c e v i c 提出的页面分块算法并没有改进。 o b u y u k k o k t e n 等 1 6 1 1 r 7 】提出s t u d o m 树模型,在删除无关结点的同时有效 保留了与主题相关的文字和链接,但是该方法改变了原来网页的结构和内容。 g u p t a 笔j d l 8 j 通过保留一个不断更新的广告服务器列表来移除广告噪音信息, 通过计算链接数非链接文字数来移除链接列表。但是这种方法不能识别相关图 片,也极易删除相关链接列表。而且对于不同的网页,需要手工调整参数的阈 值才能达到最佳抽取效果。 d e n gc a i 等1 1 9 j 提出了v i p s 算法,该算法充分利用了w 曲页面的布局特征,它 有三个主要步骤:首先从d o m 树中以较小的粒度提取出所有可视标签块,并且 给每个可视标签块计算出一个d o e ( “一致性程度 ,d e g r e eo fc o h e r e n c e ) 值来 描述该块内部内容的相关性。d o c 的值越大,则表明该块内部的内容之间的联 系越紧密,反之越松散。第二步利用每个可视标签块的绝对位置和相对位置信 息,检测出它们之间的所有的分割条,包括水平和垂直方向。最后基于这些分 割条,利用更多的诸如颜色等视觉信息,重新构建w e b 页面的语义结构。此算法 大大提高了分块的精确度,但是并没有对分块后的结果做进一步的处理。 4 武汉理工大学硕士学位论文 1 2 3 基于机器学习的方法 基于机器学习的方法很早就被用于信息提取领域了,人们利用它可以自动 识别网页上不同类型的内容。b d d v a i s o n 和张波等【2 0 】1 2 1 】利用决策树c c i s i o n t r e e ) 【2 2 】的方法识别页面上的噪音图片和噪音链接,n j u s h m e r i e k 。掣2 3 j 利用归纳学 习( i n d u c t i v et e a m i n g ) 的方法来移除网络上的广告,y u n h u ah u 等【冽利用非均衡边 界感知算法【2 5 】从m m l 文档的主体中提取出标题并应用到网页检索中,r u i h u a s o n f f 等 2 6 儿明分别利用支持向量机( s u p p o nv e c t o rm a c h i n e ,s v m ) t :勰】和神经网络 识】( n e u r a ln e t w o r k ) 2 9 1 ,通过对页面布局和内容的分析,学习网页块的重要模式, 来区别网页的主要内容块和噪音内容块,l a w r e n c ek a is h i l l 等【删利用改进朴素贝 叶斯分类【3 1 】,通过对u r 卿t a b l e 布局进行分析,提取主题内容,可以用于网页 分类。 随着可以用的特征的越来越多,并且特征的复杂性也在不断的增加,内容 提取的正确率不断提高,于此同时也给标注者标注训练集带来了巨大的困难, 并且使得标注者要具备相关领域的知识才能正确的标注训练集。 1 2 4 基于d o m 树结构的方法 基于d o m 树结构的方法通常是对一个或多个网站中的网页集进行页面的模 板检测,从而就可以把网站中为了生成网页而使用的模板作为噪音从页面中移 除。 b a r - y o s s e f 等 3 2 】把网页中这些相同的部分定义成一个模板( t 锄p l a t e ) 。根据这 一理论,l i ns h 等1 3 3 】提出内容块( c o n t e n tb l o c k ) 的概念,把m m l 文档中的 t a b l e 标记作为处理元素,首先构造网页的标签树,也就是生成网页的h t m l d o m 树,并依据 :标签将网页划分为相互嵌套的内容块,然后,对于使用 同一个模板生成的网页集,找出在该网页集中多次出现的内容,作为冗余内容, 而在该网页集中共同出现次数较少的内容块则被认定为主题内容块。通过实验, 证明了该方法的有效性,同时这种方法又有其局限性,即该算法必须是在基于 同一个模板生成的网页集中提取主题内容,而因特网上的网页模板的多样性使 得这种方法不够通用。 y il a n 掣3 4 j 根据页面的d o m 结构,构造s t y l et r e e ,树上结点的熵值代表该 结点的重要性,对同一网站内页面进行模板检测,来移除各页面内的噪音,该 算法虽然提高了挖掘的准确性,但是对从任意网站下载的页面集无效。 5 武汉理工大学硕士学位论文 w a n gj i y i n g 等【3 5 1 提出d s e 算法,算法首先自顶向下地对比来源于同一个模 板的两个网页的标签树,把它们相同的子树移除,把剩余部分就作为网页的主 题内容。但是,对于如何判断两个网页来自同模板,该论文中并没有给出确 切的方法。欧健文等【蚓通过定义网页地址树的方法比较好地解决了这一问题。 1 3 论文研究的主要内容 本文的主要研究工作如下: 主题型页面识别算法,因为本文是针对主题型页面的内容提取,所以主题 型页面的识别的准确与否,直接会影响后面的内容提取的准确率。因此本文利 用主题型页面的特征,提出了一种两层过滤机制的识别算法,并通过实验证明 了该算法的有效性。 网页分块算法,本文首先研究了目前采用的主要分块算法,分析了它们的 有点和存在的不足,然后,在这些分块算法的基础上,提出了基于多线索的网 页分块算法。与现有分块算法相比,该算法有所创新,并且通过实验证明,该 算法较其它算法提高了准确率,并且更为鲁棒,适用范围更广。 主题内容提取算法,本文提出了一种基于组合特征的主题内容块识别算法, 该算法将基于文本相似度的算法和基于贝叶斯后验概率估计的算法通过策略组 合起来。基于文本相似度的算法偏重于语义块内部的文字内容,是从文本的角 度衡量一个语义块的重要程度;而基于贝叶斯后验概率估计的算法提出的7 条 先验概率都反映的是语义块内部的结构信息,是从结构的角度衡量语义块的重 要程度。两个算法组合起来使用,最后识别出的主题块既能反映其文本的重要 性,又能反映其内部结构的重要性,防止了单个算法可能导致的偏差,提高了 网页主题内容信息提取的准确率和召回率。 相关链接提取算法和相关图片提取算法,因为网页除了包含主题内容外, 还包含对主题内容起辅助说明的相关链接和相关图片,所以有必要对相关链接 和相关图片抽取,本文通过启发式规则来进行抽取。 1 4 论文的组织结构 论文一共分为六章,论文结构及各章内容安排如下: 第一章主要介绍了网页内容提取的研究背景和意义,研究现状,列出了本 6 武汉理工大学硕士学位论文 文的主要研究工作,并给出了本文的总体组织结构。 第二章介绍了内容提取的相关理论知识,包括信息抽取简述,h t m l 的基 础知识和常见的页面分析算法。 第三章详细介绍了本文提出来的双层过滤机制的主题型页面识别算法,并 通过实验证明其有效性。 第四章详细介绍了本文提出的基于多线索的页面分块算法,并通过实验和 其他算法做了对比,证明本文算法的优越性。 第五章详细介绍了一种基于组合特征的主题内容提取算法,并通过实验证 明其有效性,然后介绍了相关链接提取和相关图片提取的算法。 第六章总结本文工作,并提出将来可能的进一步的研究方向。 7 武汉理工大学硕士学位论文 第2 章理论基础和相关技术 2 1h t m l 基础 随着因特网的发展,w e b 已经成为人们获取信息的重要来源,从网页中提 取主要内容变的越来越重要。要提取页面内容首先要对w e b 页面结构进行分析, 而w e b 文档大部分是用h t m l ( 超文本标记语言) 编写的,因此要进行页面内容 的提取就要先掌握h t m l 语言。 2 1 1h t m l 简介 h t m l ( h y p e r t e x tm a r k e dl a n g u a g e ) ,即超文本标记语言,或者称为“多媒 体文件语言 ,是一种用来制作w e b 页面和发布w e b 信息的国际通用的标记语 言。h t m l 可以描述文档的结构,h t m l 文档是使用h t m l 语言编写的超文本, 其扩展名通常为h t m l 或h t m ,它不含有任何与操作系统平台有关的信息。使用 h t m l 语言编写的文档,需要通过w e b 浏览器才能显示出来。浏览器在运行 h t m l 文档时进行的操作和所遵守的规则是通过h t i t ( 超文本传输协议) 来 规定的,该协议的制定使得浏览器在运行h t m l 文档时有了统一的规则和标 准。9 0 年代以来h t m l 就一直被作为万维网中的信息表示语言,每一个h t m l 文档都是一个静态的网页文件,这个文件里面包含的h t m l 指令代码就是用来 描述文档的结构的,来告诉浏览器如何显示其中的内容,比如文字,图片,影 视等。 用h t m l 编写的超文本文档称为h t m l 文档,h t m l 文档实际上是一种 纯文本文档,它能够独立于各种操作系统平台。h t m l 通过标签( t a g ) 式的指令, 将图片、声音、动画、影视等内容显示出来。一个h t m l 文档是由文本和标签 组成,文本是用户浏览网页时看到的信息,标签是控制文本显示效果的控制符。 h t m l 文档通常分为头部( h e a d ) 和主体( b o d y ) 两大部分,图2 1 显示了一 个最简单的h t m l 文档。其中头部描述浏览器所需的信息,而主体则包含所要 说明的具体内容。 8 武汉理工大学硕士学位论文 ( 1 0 0 0 :? p 窆h t 宓1p u b l i c “一w 3 e ,d :0x 麓:l 篮;三1 i l z t l “ ”致t 罐:,w 锄w 3 。r g 臻屈b 跣三二淡0 娩馄王:王。d = d 8 巍t 娃 乞二- 乞2 e 彳n q l 3 c 1 肄:褥 椒m l 头信皇 明嗍u 勾:容信息 图2 - i 最简单的h t m l 文档 h t m l 标签是用“ ”封装起来英文词汇的全称或缩略语。h t m l 标签 分单标签和双标签。双标签是由开始标签 和结束标签 组成 的,必须成对出现,这类标签的格式为 内容 ,双标签只作用 于这对标签中的内容。单标签的格式为 ,单标签只在相应的位置插入 使用就可以了。 大部分单标签和双标签的开始标签都可以包含自己的属性,属性由属性名 和属性值成对出现,属性值要在双引号中,标签可以拥有多个属性,各个属性 之间没有先后次序,有些属性也可以省略而采用缺省值。其语法如下: 。比 如, ,标签 是表格标签,使用b o r d e r 属性,定 义了一个没有边框的表格。 2 1 2h t m l d o m 树 d o m 3 7 1 ( 文档对象模型) 是“d o c u m e n to b j e c tm o d e l ”的缩写,是一种供 h t m l 和x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 文档使用的应 用程序编程接口。它定义了文档的逻辑结构和对文件进行访问和操作的方法。 w 3 c ( w o r l dw i d ew e b ) d o m 被设计成与平台无关、可使用任何编程语言实现的 规范。为了提供准确并独立于语言的规范,d o m 工作组使用了对象管理组织 ( o b j e c tm a n a g e m e n tg r o u p ,o m g ) 的接口定义语言( i n t e r f a c ed e f i n i t i o n l a n g u a g e ,i d l ) 来定义d o m 接口,然后由各个厂商来具体地实现这些接口。 9 武汉理工大学硕士学位论文 这样既实现了标准的统一,又使标准的实现成为可能。 利用d o m 中的对象,开发人员可以对文档进行读取、搜索、修改、添加、 删除等操作。d o m 为文档导航和对h t m l 和x m l j c 档的内容和结构进行操作提 供了标准函数。d o m 是由一组对象和对文档对象进行存取、处理的接口组成。 w 3 cd o m 被分为三个不同的部分,分别是核, t , d o m 、x m ld o m 和h t m l d o m ,其中核- 已, d o m 是可用于任何结构化文档的标准模型,x m ld o m 是用于 x m l 文档的标准模型,而h t m l d o m 是用于h t m l 文档的标准模型。h t m l d o m 继承了d o m 跨平台的特性,但是只适用于h t m l 语言。h t m l d o m 定义了 h t m l i 吾言的标准对象集以及访问和操作h t m l 文档的标准方法。h t m ld o m 将 r r m l 文档视为树型结构。 一般来说,h t m l 文档由各种标签和各种组件组成,并且它们在文件中的出 现的顺序和其显示的顺序相同。h t m l 文档的递归结构决定了其树型拓扑结构, 树型结构的结点对应文档中的各种结构。h t m ld o m 通过对h t m l 文档的解 析,从而生成该文档的树型拓扑结构,即h t m ld o m 树,被称为文档的树型 逻辑结构或逻辑结构。 、 h t m ld o m 树用来准确地描述树结点间的相对位置关系,很适合用来描 述w e b 中的半结构化数据。h t m l 文档就是属于半结构化的数据,所谓半结构 化的数据,就是介于结构化数据( 如关系数据库) 和无结构化数据( 如声音, 图像) 之间的数据,把h t m l 文档转化为h t m l d o m 树可以通过使用h t m l 解析器来完成。h t m l 文档与该文档的h t m ld o m 树是一一对应的关系,是 可以相互转化的,文档的h t m ld o m 树结构使得计算机方便处理半结构化的 h t m l 文档。 h t m ld o m 在解析文档时,整个h t m l 文档被看成一棵树结构。标签 作为树的根结点,而h t m l 文档中的其它标签或组件则被看作树的结 点( n o d e ) ,结点可以作为包含子结点的父结点,也可以作为其它结点的子结点, 如果结点的层次相同,则这些结点互为兄弟结点。 图2 1 为如下h t m l 文档的d o m 树。 文档标题 1 0 武汉理工大学硕士学位论文 我的标题 我的链接 l 文档 根元素: l 豫 元素: l l l l l元素: 属性: u 元索: 元素: i h r e f li ( a ) i文本:文本:文本: l。文档标题。我自勺链接。我的标题。 图2 2h t m l 文档的d o m 树 从图2 2 可以看出,h t m l 文档被转化为一个树型结构。其中 是树根结点; 、 都是 的子结点, 是 、 的父结点, 、 、 互为兄弟结点。 2 2 页面结构分析及内容提取技术 2 2 1 页面的结构特点及其表示 一篇传统的文本通常是通过使用词语,句子和段落来描述内容结构,但是 依据文献【3 8 】所述,网页由于具有以下两个特征,使得其结构表示相对于传统文 本而言复杂很多。 ( 1 ) 两维逻辑结构。在传统文本中,通常全篇文本都是文字,是一个一维的 结构,和传统文本不同的是,网页是一个二维的逻辑结构,使得其内在的内容 结构更加复杂。整个页面包含多个区域,每一个区域都可能和其他区域存在这 样那样的关联。 ( 2 ) 视觉上的布局信息。网页设计者为了方便用户浏览网页,吸引用户,就 会多加利用h t m u 示签属性中的视觉属性,比如字体,字号,背景色,字体色等, 武汉理工大学硕士学位论文 然后通过浏览器呈献给用户,同时,这些视觉上的布局信息也有助于体现网页 的结构表示。 2 2 2 常见的页面结构分析 通常,网页设计者们在设计一个网页时,会首先在脑海里构思一个网页的 设计草图:将网页划分成哪些块,每一个块分别放置什么内容,在什么位置放 置版权信息,在什么位置放置主要内容,在什么位置放置广告版块等等。这个 草图一直指导设计者来完成这个网页,然而,当耵m l 文档通过浏览器以网页的 形式展示给用户时,这些布局结构信息对用户来说是不清晰的。而用户对网页 主题内容的寻找,就要利用网页的视觉上的布局特征或者用户的经验来完成。 我们将网页主要内容的提取过程分为两步,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论