(计算机科学与技术专业论文)基于xml元素处理的web信息抽取研究与实现.pdf_第1页
(计算机科学与技术专业论文)基于xml元素处理的web信息抽取研究与实现.pdf_第2页
(计算机科学与技术专业论文)基于xml元素处理的web信息抽取研究与实现.pdf_第3页
(计算机科学与技术专业论文)基于xml元素处理的web信息抽取研究与实现.pdf_第4页
(计算机科学与技术专业论文)基于xml元素处理的web信息抽取研究与实现.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网技术的不断发展,i n t e m e t 已经取代了电视、广播、报纸等传统媒 介,成为人们生活中最重要的信息获取手段。互联网上有数以万计的w e b 页面, 这些页面中有海量的信息。人们不断研究如何能从这些w e b 页面中获取需要的信 息,w 曲信息抽取也就成了一个有重要研究意义的课题。 本文首先对现有的w e b 信息抽取技术进行了研究及分析,总结它们的优缺点, 然后在现有技术的改进和整合之上,提出了一种新的基于x m l 元素处理的w e b 页面信息抽取方法,并对其进行研究与实现,本文主要工作包括以下三方面: 首先,对w e b 页面的h t m l 文档进行预处理,并完成了定义系统需要的核心 数据结构及函数的工作。在制定w e b 信息抽取的规则时,将需要进行的操作以及 所需变量定义成x m l 元素,写入x m l 形式的配置文件。系统运行后通过加载定 义好的各种x m l 元素处理器,采用管道式执行的方式完成w e b 信息抽取的相关 操作。 其次,本文根据文档d o m 树的结构引入了d o m 节点路径权值的概念,并设 计了一种基于d o m 树节点路径权值计算的算法,生成w e b 页面主体信息路径。 该算法需要计算各子树中非叶节点的路径权值,通过比较,选出其中权值较大的 若干节点,这些各层次的节点组成的序列就是信息路径。此外还对抽取结果的数 据库集成进行研究。 最后,本文对系统的性能进行了测试并对结果进行分析。测试分为两方面: 一方面验证了对源h t m l 文档进行预处理后,系统执行所花费的时间比未进行预 处理少,并且分析了w e b 页面信息抽取的时间复杂度。另一方面通过对各种数据 密集型w e b 页面进行信息抽取测试,结合相关的评价指标进行分析。结果显示, 本文研究的方法很有效,有较高的准确率和召回率。 关键词:w e b 信息抽取;x m l 元素;d o m ;路径权值;信息集成; 分类号:t p 3 9 3 0 9 a b s t r a c t w i t ht h ec o n t i n u o u sd e v e l o p m e n to fi n t e r n e tt e c h n o l o g y , i n t e r n e th a sr e p l a c e d t e l e v i s i o n ,r a d i o ,n e w s p a p e r sa n do t h e rt r a d i t i o n a lm e d i a ,b e c o m et h em o s ti m p o r t a n t m e a n so fi n f o r m a t i o na c q u i s i t i o no fd a i l yl i v e s t h e r ea r et e n so ft h o u s a n d so fw e b p a g e so ni n t e m e t ,w h i c hh a v eam a s so fi n f o r m a t i o n p e o p l ec o n t i n u o u s l yr e s e a r c ht h a t h o wc a l lw eo b t a i nt h en e e d e di n f o r m a t i o nf r o mt h e s ew e bp a g e s w e bi n f o r m a t i o n e x t r a c t i o nh a sb e c o m ea ni s s u ew i t hi m p o r t a n tr e s e a r c hs i g n i f i c a n c e i nt h i sp a p e r , ir e s e a r c ha n da n a l y s et h ee x i s t i n gw e bi n f o r m a t i o ne x t r a c t i o n t e c h n o l o g y , t oi d e n t i f yt h e i ra d v a n t a g e sa n dw e a k n e s s e s t h e nw i t hi m p r o v e m e n t sa n d i n t e g r a t i o no fe x i s t i n gt e c h n o l o g i e s ,ip r o p o s ea n e wm e t h o do fi n f o r m a t i o ne x t r a c t i o n o ft h em a i ni n f o r m a t i o no ft h ew e bp a g e sb a s e do nx m le l e m e n t sp r o c e s s e d ia l s o r e s e a r c ha n di m p l e m e n tt h em e t h o d t h em a i nt a s k so ft h i sp a p e ri n c l u d et h ef o l l o w i n g t h r e ea s p e c t s : f i r s to fa l l ,ip r o p o s em e t h o do fp r e p r o c e s s i n gh t m ld o c u m e n ta n dd e f i n et h e c o r ed a t as t r u c t u r ea n df u n c t i o n sw h i c hs y s t e mn e e d e d w h e nm a k i n gt h er u l e so fw e b i n f o r m a t i o ne x t r a c t i o n ,id e f i n et h en e e d e do p e r a t i o n sa n dn e e d e dv a r i a b l e sa sx m l e l e m e n t sa n dw r i t et h e mi n t ot h ex m lc o n f i g u r a t i o nf i l e s y s t e mc o m p l e t e so p e r a t i o n s o fw e bi n f o r m a t i o ne x t r a c t i o nb yl o a d i n gd e f i n i t e dv a r i o u sx m l e l e m e n tp r o c e s s o r s a n du s i n gam o d eo f p i p e l i n ee x e c u t i n g s e c o n d l y , i nt h i sp a p e rip r o p o s et h ec o n c e p to fp a t hw e i g h t so fd o mn o d e s a c c o r d i n gt o t h ed o c u m e n t sd o mt r e es t r u c t u r e t h e nid e s i g na na l g o r i t h mo f g e n e r a t i n gp a t ho fi n f o r m a t i o nb a s e do nc a l c u l a t i n gt h ep a t hw e i g h t so fd o m t r e e s n o d e s t h ea l g o r i t h mc a l c u l a t e st h ep a t hw e i g h t so fe a c hs u b t r e e sn o n l e a fn o d e sa n d s e l e c t ss o m en o d e sw h i c hh a v el a r g e rp a t hw e i g h t sb yc o m p a r i n g t h es e q u e n c e c o m p o s e db yt h e s en o d e si n e a c hl e v e lo fas u b t r e ei st h ei n f o r m a t i o np a t h ia l s o r e s e a r c ht h ei n t e g r a t i o nb e t w e e ne x t r a c t e dr e s u l t sa n dd a t a b a s e f i n a l l y , t h i sp a p e ra l s ot e s t st h ep e r f o r m a n c eo f t h es y s t e ma n da n a l y s et h er e s u l t s t e s ti sd i v i d e di n t ot w oa s p e c t s :o nt h eo n eh a n d ,t ov e r i 母t h a ta f t e rp r e p r o c e s s i n g w i t ht h es o u r c eh t m ld o c u m e n tt i m ec o s to ns y s t e me x e c u t i n gi sl e s st h a nt h a tw i t h o u t p r e p r o c e s s i n g ia l s oa n a l y s et h et i m ec o m p l e x i t yo fi n f o r m a t i o ne x t r a c t i o no fw e b p a g e s o nt h eo t h e rh a n d ,t h i sp a p e r t e s tw i t hv a r i o u sd a t a r i c hw e bp a g e sa n da n a l y s e u s i n ge v a l u a t i o ns t a n d a r do fi n f o r m a t i o ne x t r a c t i o n t h er e s u l t ss h o wt h a tt h em e t h o d p r o p o s e di nt h i sp a p e ri sv e r ye f f e c t i v e t h em e t h o dh a sh i g hp r e c i s i o nr a t ea n dr e c a l l r a t e k e y w o r d s :w 曲i n f o r m a t i o ne x t r a c t i o n ;x m le l e m e n t ;d o m ;p a t hw 萌g h t ; i n f o r m a t i o ni n t e g r a t i o n ; c l a s s n o :t p 3 9 3 0 9 v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:壶影专 签字同期: 伽7 年乡月勺日 5 7 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:虽么哿 导师签名: 签字日期:硼7 年月f ? 日 蕊彤 蝴期:1 年月f f 日 f 致谢 本论文的工作是在我的导师傅家林教授的悉心指导下完成的,傅家林教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响,在此衷心感谢两年来 傅家林老师对我的关心和指导。 傅家林教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,使我受益匪浅。在此向傅家林老师表示衷心的谢意。 傅家林教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作及撰写论文期间,刘佳、王坤、王玉柱等同学对我论文中的信 息抽取研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢我的父母,他们的理解和支持使我能够在学校专心完成我的学业。 1 1 论文研究背景及研究意义 1 1 1 研究背景 1 绪论 今天,互联网已经成为最为流行的信息发布媒体,互联网早己与我们的学习、 工作和生活密切相关。通过w b r l dw i d ew 曲( 万维网w w w ) 来获取信息渐渐成 为了当前人们获取信息的最重要方法【i 】。w e b 信息有以下三个优点:首先,w e b 信息获取十分便捷,有一台电脑,有网线和其它上网软硬件环境,用户就可以畅 游网络世界,获得信息。其次,w e b 信息是共享的,所有人都能同时成为信息的 提供者和获取者,这也就保证了w e b 信息的充足数量。最后,w 曲信息也是可交 互的,比如一些论坛,或者i t 开发网站,用户可以自由地提出问题,回答问题, 互相交流。 由于越来越多的企业和个人通过w e b 发布信息,使得w e b 上的信息量以指数 级的速度在增长,用户为了获取自己需要的一点点信息,可能需要花费几十分钟、 几个小时、甚至更长时间来搜索、浏览网页,查找信息1 2 1 。即使获得了相关内容的 网页,想通过人工方式将这些网页中有用的信息抽取出来,作为自己信息库中的 信息,同时又要保证抽取信息的完整性和准确性,这也不是一件简单的事,往往 非常繁琐。 由于i n t e m e t 上的信息具有数量大、异构、动态等特性,这使得w 曲信息抽取 不同于传统的信息抽取。首先,互联网是一个巨大的信息空间,w e b 页面数以亿 计,如何能够自动高效地处理海量w e b 信息成为一个难点;其次,w e b 页面的异 构性,例如同一主题信息可能会分散在多个形式各异的w 曲页面中,这使得在网 页罩准确识别所需要的信息变得复杂起来;最后,i n t e m e t 是一个动态空间,w e b 页面格式和内容瞬息万变,如何保证w e b 信息抽取技术对网页变化的适应性也是 一个有待解决的问题。 由于x m l 的通用性以及易扩展和访问等特点,x m l 也丌始应用在w e b 信息 抽取中。以x m l 为基础的新一代w w w 环境是直接面对w e b 数据的,不仅可以 很好地兼容原有的w e b 应用,而且可以更好地实现w 曲中的信息共享与交换。 x m l 可看作一种半结构化的数据模型,可以很容易地将x m l 的文档描述与关系 数据库表中的属性一一对应起来,实施精确地查询与模型抽取【3 】。 1 1 2 研究意义 怎样对w e b 上的数据信息进行复杂的应用成了当今数据库技术的研究热点。 相对于w e b 上的数据而言,传统的数据库中的数据结构性很强,即其中的数据为 完全结构化的数据,而w e b 上的数据最大特点就是半结构化【4 】。所谓半结构化是 相对于完全结构化的传统数据库的数据而言,w 曲信息的发布与浏览都是通过基 于h t m l 语法的页面实现的,而h t m l 是非结构化、半结构化的语言,它们无法 被计算机所理解,也无法像传统的数据库那样,提供结构化的、功能强大的、高 效的查询语句。如何让计算机从w 曲数据源中获取用户所需的信息,这正是w e b 信息抽取的任判别。 研究w 曲信息抽取技术主要是为了能找到自动的,抽取信息完整性和准确性 高的信息获取方法。w 曲信息抽取技术的核心是能够从w e b 页面所包含的无结构 或半结构的信息中识别用户感兴趣的数据( 比如商品信息,搜索引擎返回结果信 息,厂商信息,技术资料等等) ,并将其转化为更加结构化、语义更为清晰的格式。 转化后的格式化的数据文件,可以供用户进行对比( 比如对比获取到的商品信息, 电影信息等等,从中做出选择) 或者作为语料库继续下一步数据挖掘方面的工作, 也可以丰富用户自己的信息库,比如将从w 曲页面中获取的信息转化成关系型数 据库表来完成信息集成。综上可见,对w e b 信息抽取进行研究是一项十分有意义 的工作。 1 2 国内外研究现状 1 2 1国际研究现状 根据自动化程度大体上可以将w e b 信息抽取分为人工方式的信息抽取、半自 动化方式的信息抽取和全自动化方式的信息抽取三大类。但这种分类方式并不详 细,主要是根据w e b 信息抽取的核心w r a p p e r ( 包装器) 生成方式的不同来分类 的。更具体地划分,现有的w 曲信息抽耿方法可以依据抽取原理和抽取方式的不 同可以分为以下六类: 1 ) 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源网页文档中包含大量文本的情况( 特别针对于合 乎文法的文本) ,在一定程度上借鉴了自然语言处理技术,利用字句结构、短语和 字句问的关系建立基于语法和语义的抽取规则,实现信息抽取。应用了这种方法 比较有影响的有u n i v e r s i t yo f t e x a sa ta u s t i n 提出的r a p i e r t 6 】和s t e p h e ns o d e r l a n d 2 c l a i r ec a r d i e , r a y m o n dm o o n e y 等人提出的w h i s k t7 。这类方法的不足是将w e b 文档视为文本进行处理的( 适用于含有大量文本的w e b 页面) ,抽取的实现没有利 用w e b 文档不同于普通文本的层次特性。为了能够获得有效的抽取规则,往往需 要大量的样本学习。 2 1 基于w r a p p e r ( 包装器) 归纳方式的信息抽取 基于w r a p p e r 归纳方式的信息抽取根据事先由用户标记的一系列训练样本生 成基于定界符的抽取规则。其中定界符实质上是对感兴趣信息上下文的描述,即 根据信息的左右边界来定位信息。典型的有i o nm u s l e a , s t e v em i n t o n ,c r a i g k n o b l o c k 等人提出的s t a l k e t 8 1 ,和h s ucn ,d u n gmt 等人提出的s o f t m e a l y l 9 1 。 这种包装器归纳方式的信息抽取和基于自然语言理解方式的信息抽取技术的不同 点在于仅仅使用语义项的上下文来定位信息,并没有使用语言的语法约束。 3 ) 基于模型的信息抽取 这种方法通过一系列建模原语( 元组,表等) 来描述结构,构建数据模型。 其中识别与给定结构匹配的目标网页上对象的方法与基于w r a p p e r 归纳方式类似。 使用了这种方法的有n o r t h w e s t e r nu n i v e r s i t y , b r a da d e l b e r g 提出的n o d o s e 1 0 1 。 4 ) 基于o n t o l o g y 方式的信息抽取 基于o n t o l o g y 方式的信息抽取主要是利用对数据本身的描述信息实现数据抽 取,对网页结构的依赖较少。o n t o l o g y 是指共享概念模型的明确的形式化规范说 明。该方法缺点是需要事先构造一个完整的o n t o l o g y 库,而构造这样的一个库需 要由专家投入相当多的时间,而且在很多情况下较难确切给出对应的o n t o l o g y 。 目前采用这种原理的典型系统有b y u i ( b r i g h a my o n gu n i v e r s i t y 信息抽取小组开 发的信息抽取工具) 和c h r i s t i n ayc ,m i c h a e lgn e e ls 等人提出的q u i x o t e 【l 2 1 。 5 1 基于h t m l 结构分析的信息抽取 网页是具有一定结构的特殊文本,该类信息抽取就利用了网页h t m l 结构, 依据网页h t m l 结构定位信息,将网页解析为标记树,将信息抽取转化为对网页 标记树的操作实现抽取。应用这种方法的有u n i v e r s i t yo fp e n n s y l v a n i a ,a m a u d s a h u g u e t ,f a b i e na z a v a n t 提出的w 4 f j3 1 和g e o r g i ai n s t i t u t eo ft e c h n o l o g yl i n gl i u , c a l t o np u w e ih a n 等人提出的x w r a p 4 j 。 6 ) 基于w e b 查询的信息抽取 由于上述的信息抽取技术,采用了不同的原理,抽取规则的形式和对感兴趣 信息的定位方式也各不相同,因此均不具有通用性。基于w e b 查询的信息抽取和 以上几种方法最大的不同之处在于它将w e b 信息抽取转化为使用标准的w e b 查询 语言对w e b 文档的查询,具有通用性。目自妒采用这种原理的典型系统有t o r o n t o u n i v e r s i t yd e p t o fc o m p u t e rs c i a r o c e n ag o ,m e n d e l z o na o 提出的 w e b o q l 1 5 1 。 1 2 2 国内研究现状 国内的研究基本上是处于包装器的半自动生成阶段,尚未见到自动识别网页 并产生包装器抽取数据的方法的有关研究资料。国内较为典型的系统和算法有: 1 1 中国人民大学数据与知识研究所提出的基于预定义模式的包装器,由用户定 义模式并给出模式与h t m l 网页的映射关系,接着系统推导出规则同时生成包装 器。此方法能较方便的定义抽取模式,但不足是在系统推导规则时需要h t m l 网 页与预定义模式间有较好的映射关系,因而有一定局限性。 2 ) 中科院软件所提出的基于d o m 的信息抽取。该方法以文档对象模型( d o m ) 为基础,把所要提取的信息在d o m 层次结构中的路径作为信息抽取的“坐标,【】, 并以这个基本原理为基础设计了一种归纳学习算法来半自动化地生成抽取规则, 然后根据抽取规则生成j a v a 类,将该类作为w e b 数据源包装器组成的重要构件。 这种方法优点是实现简单,并且获取信息路径的方法更灵活,用户可以自己提出 路径生成算法,当前很多研究都是基于这种方法的改进。 3 ) 河北大学提出的基于样本实例的w e b 信息抽取,用户首先选定样本页面和 预先定义模式( 基于o r ) ,然后对样本页面和其中的样本记录进行标记学习形成 规则( 包含抽取规则和关联规则) ,并将规则放入知识库中,最后利用知识库对其 它同类页面自动抽取信息,存放在对象关系数据库中。这种方式的局限性在于如 何对知识库不断扩充,如果抽取规则和关联规则数量不够,可能会影响最后的信 息抽取效果。 4 ) 中国科学技术大学提出的基于多层模式的多记录网页信息抽取方法,基本思 想是对h t m l 网页信息抽取利用多层模式来加以描述,以便能够利用各层模式之 间相互联系的特点帮助动态获取各层中与h t m l 页面内容具体描述( 格式) 密切 相关的信息识别模式i 7 1 。最终再利用所获得的多层( 信息识别) 模式,完成相应各个 h t m l 网页的具体信息抽取工作。这种方法比较好地利用了h t m l 页面内信息问 的关系,挖掘页面内信息间的联系现在越来越受到重视,该方法对于当前很多w e b 信息抽取的研究方向都有重要参考价值。 1 3 本文主要工作及章节安排 本文首先对现有的一些主要的w e b 信息抽取技术进行了对比和研究,分析其 中的优缺点,然后在此基础上,研究并实现一种基于x m l 元素处理的w e b 页面 4 主体信息抽取的系统。本文还研究了h t m l 文档预处理及信息路径生成的方法。 本文中的系统,实现功能是能够从半结构化的h t m l 文档中把需要的网页主体信 息抽取出来,抽取工作通过制定x m l 配置文件以及其中的主体信息路径来完成, 使得可以半自动地抽取单页或分页的数据。最后对于抽取出的网页信息,还可以 进行格式转换的数据库集成。 本文共分为六章,组织结构如下: 第一章为绪论,给出了本文研究的背景及研究意义,国内外研究现状,本文 工作及章节安排。 第二章介绍了w e b 信息抽取系统的相关知识,包括w e bi e 的概述,w e b 信息 的特点,w 曲i e 的关键技术以及当前几种主要w e b l e 方式的比较等等。 第三章介绍了x m l 的相关知识,以及与x m l 相关的技术包括x p a t h 、x q u e r y 和d o m 树等。 第四章是本文的研究重点,给出了一种基于x m l 元素处理的w 曲页面主体 信息抽取系统的设计与实现。包括了方法的研究,系统架构设计,各模块实现等。 最后还对于x m l 格式的数据提出格式转化的数据库集成的方法。 第五章对于上述方法和系统进行了测试、分析。 第六章对本文的工作进行了总结和展望。 2 1w e b 信息抽取概述 2w e b 信息抽取介绍 w e b 信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n ,简称w e bi e ) 是将w e b 作为信息 源的一类信息抽取,属于信息抽取的范畴,是从页面集合中抽取出相关数据的过 程。w e b 信息抽取的形式化描述可以表述如下:对于给定的一组w e b 页面s ,定 义一个映射w ,w 将s 中的对象映射到一个具有更为结构化、语义更为清晰的数 据结构d ( 如x m l 文件或关系型数据库表) 中,并且对于与s 在语义和结构上都 相似的w e b 页面集合s ,映射w 对s 也应具有相同的功能。 随着互联网的发展,研究人员逐渐将兴趣转移到w e b 信息抽取的研究上,出 现了许多算法和系统。其中最知名的研究项目是卡耐基梅隆大学c e n t e rf o r a u t o m a t e dl e a r n i n ga n dd i s c o v e r y 的“m i n i n gt h ew o r l dw i d ew 曲 w 曲挖掘项目 【1 8 1 。该项目的目标是通过自动地从w e b 中提取信息,来创建大型的、结构化的有 用信息的数据库。它们的技术途径是研究机器学习算法,通过训练,能够自动提 取出相关信息。目前已经开发出的学习算法有f i r s t o r d e r 规则学习算法,g r a m m a r i n f e r e n c e 算法等。除此之外,近年来一些数据挖掘方面及人工智能方面的模型, 例如:隐性马尔可夫模型,类p r o l o g 逻辑语_ f i - 模型,确定的有限自动机模型,本 体论模型等在w e b 信息抽取中也得到了应用,这也推进了w e b 信息抽取技术的进 一步发展。 目前w e b 上的数据大部分都是以超文本标记语言( h y p e rt e x tm a r k u p l a n g u a g e ,简称h t m l ) 描述的,主要目的是为了显示,让人通过浏览器浏览, 缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确,这使得应用程 序无法直接解析并利用w 曲上海量的信息。 w e b 信息抽取与在浏览器上的信息检索和查询有着本质的差异,它们处理信 息的粒度也是大不相同。信息抽取与信息检索之间的差异主要表现在以下几个方 面: ( 1 ) 功能不同。信息检索系统的任务主要是从大量的文档集合中找到与用户 需求相关的文档列表;而信息提取系统则旨在从文本中直接获得用户感兴趣的事 实信息。 ( 2 ) 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文 本看成词的集合( b a g so f w o r d s ) ,不需要对文本进行深入分析理解;而信息提取往 往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能 6 完成。 ( 3 ) 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的; 而信息提取系统则是领域相关的,往往某一类信息抽取系统只能对某一种类别的 w e b 页面有比较好的效果。 一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。 但从广义上讲,除了电子文本以外,w e b 信息抽取系统的处理对象还可以是语音、 图像、视频等其它媒体类型的数据。w e b 信息抽取是从w e b 页面所包含的半结构 化信息中识别用户感兴趣的数据并转化为结构更为清晰的模式( 比如x m l ) ,为 用户获取、对比、利用w e b 信息提供便利。 未来w e b 信息抽取的发展,应该从以下几方面考虑: 首先,目前的网站设计,大量地采用了动态页面技术,而非传统的静态h t m l 页面。这种“动态”,不仅仅是出于美化页面角度而引入的动态显示技术( 如f l a s h ) , 更多的是指系统采用了“模版+ 后台数据库”的技术。模版式的网页,易于更新, 符合现在信息每日都在激增的趋势。因此,网页结构将朝着更加“结构化”的方 向发展,基于这点考虑,未来的w e b 信息抽取技术也将着重于针对模版页面的w e b 信息的提取。 其次,信息抽取系统的一个重要用途,就是收集来自不同网站的信息,为系 统集成提供服务。基于这点考虑,未来的w e b 信息抽取技术将朝着增强跨网站抽 取能力的方向发展。跨网站w e b 信息抽取,不仅仅要解决精确抽取数据的问题, 更要解决不同网站之间数据表示的差异问题,实现真正意义上的异构系统集成【l 引。 同时,还应该结合数据整理的功能,保证最终数据的一致性和有效性。 最后,从对用户操作的友好角度来看,未来的w e b 信息抽取技术,在追求自 动化的同时,应该提供用户指导的功能。在抽取的过程中,能够随时接受用户的 输入,并根据用户的输入做出响应,及时调整抽取过程。这种操作方式能够在系 统运行效率和抽取结果满意度之间取得一种动态平衡。 2 2w e b 信息的特点 w e b 信息有如下特点: ( 1 ) 数据的非结构化与半结构化 数据的非结构化与半结构化是针对传统数据库中的数据结构性很强而言的。 h t m l 页面是声音、图片、文本等这些数据的集合,所以h t m l 页面所蕴含的数 据是非结构化的;同时,它们又不是完全非结构化的,文本、图片、声音、图像 等数据或者其链接会按照一定的方式组织起来,具有一定的层次和结构,所以从 整体上看,h t m l 页面还是有一定结构的,但没有如同结构化数据那样严谨的结 构模式,我们称之为半结构化数据。 ( 2 ) 面向显示与面向数据 从现在w e b 网页的构成来看,w e b 上的网页大都以h t m l 页面的形式存在, 所以w e b 信息具有h t m l 本身所具有的特点:面向显示与面向数据。h t m l 标记 所蕴含的显示方式由浏览器理解完成,而页面信息的具体含义与语义的理解由用 户自己完成。 ( 3 ) 不同形式数据源的数据 w e b 上的信息除了可以直接保存在h t m l 页面中外,还可以和企业的后台数 据库相连,通过查询,将后台数据库中的数据用h t m l 页面的形式显示,以实现 数据共享和交换。 ( 4 ) 信息动态性 随着时间的变化,网站上的信息也是随时间而动态变化的,体现在w e b 网页 中就是内容发生改变。此外,随着企业的需求改变,技术的发展,会导致网站页 面问组织结构发生变化,w e b 页面的结构也发生改变。 ( 5 ) 组织的规律性 根据对w w w 的统计,在设计者设计网站组织结构时,他们往往会把主题相 同的页面放在w e b 服务器的同一个目录下,或根据主题层次组织成树形目录,这 些目录和页面的层次结构将映射到具体页面以及目录的u r l 上。即使在同一个页 面中,信息的组织也有其规律性簇聚性,就是内容含义相同或相似的信息组 织在一起,在页面上体现为占据某一块页面。 网页的组织结构及层次结构 在非结构化或半结构化的页面里,一个页面由多个固定的域组成,每个域包 含具体的内容,各个域的内容不仅仅限于文本,可以为数字、日期、图片、u r l 、 脚本、f l a s h 等页面允许的类型。这种页面结构实际上就是一种关系模型,由于页 面中域的组成顺序以及关系的不同,可能对应不同的关系模型【2 0 1 。根据页面中是 否有嵌套域,也即对应的关系模式是否存在表的嵌套结构,可以分为以下两种情 况: ( 1 ) 页面中没有嵌套域,也即一个页面的结构只是对应一张表的结构。在这 种情况下根据页面中域的情况,页面还可以分为两种情况: a 页面中域是不重复的,则对应的关系表中的每- y u 相当于页面的一个域, 其结构可用图2 1 表示: 8 图2 1 页面组织结构( 单记录页面) f i g u r e 2 1t h es t r u c t u r eo fn l ep a g e ( s i n g l er e c o r dp a g e ) b 如果页面中域是有规则重复的,这时可以称此类页面为多记录页面,则对 应的关系表中每一列相当于页面的一个域,而其中的几列可能会结构性重复,其 结构可用图2 2 表示: 厂上广一l r - - 丫7 l 竺一 l 兰j 域11 j 厂j 一1 i 域1 l 一,j 图2 2 页面组织结构( 多记录页面) f i g u r e 2 2t h es t r u c t u r eo ft h ep a g e ( m u l t i - r e c o r dp a g e ) ( 2 ) 页面中的域间存在嵌套,也即一个页面的结构对应多张表的结构。在这 种情况下根据页面中域的情况,页面也可以分为两种情况: a 如果页面中域是不重复的,则对应的关系表中的每一条记录相当于个页 面,而每一列相当于页面的一个域( 嵌套的上层域) ,此外存在张或多张关系表 分别对应嵌套域,其结构可用图2 3 表示: 9 囱匿 图2 3 页面组织结构( 单域记录页面) f i g u r e 2 3t h es t r u c t u r eo ft h ep a g e ( s i n g l e - d o m a i nr e c o r dp a g e ) b 如果页面中域是有规则重复的,这时可以称此类页面为多记录页面,则对 应的关系表中的每一条记录相当于一个页面,而每一列相当于页面的一个域( 嵌 套的上层) ,此外存在一张或多张关系表分别对应嵌套域,其结构关系可用图2 4 来表示: 厂i 厂,一 i 域3 域4 一一l j 图2 4 页面组织结构( 嵌套的多记录页面) f i g u r e 2 4t h es t r u c t u r eo ft h ep a g e ( n e s t e dm u l t i r e c o r dp a g e ) 而页面的层次结构般可以分为网状结构和层序结构两种。 2 3w e b 信息抽取的关键技术 本文研究w e b 信息抽取的关键技术有两点:包装器( w r a p p e r ) 生成和抽取规 l o 一型 一型 一域一内 则生成。 包装器是一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加 以表示。在数据库环境下,包装器是软件的组成部分,负责把数据和查询请求从 一种模式转换成另外种模式【2 1 1 。在因特网环境下,包装器的目的是把网页中储 存的信息用结构化的形式储存起来,以方便进一步的处理。因特网包装器可接受 针对特定信息源的查询请求,并从该信息源中找出相关的网页,然后把需要的信 息提取出来返回给用户。 包装器由一系列的提取规则以及应用这些规则的计算机程序组成。通常,一 个包装器只能处理一种特定的信息源。从几个不同信息源中提取信息,需要一系 列的包装器程序库。包装器的运行速度应该很快,它还要能适应网络经常变化、 运行欠稳定的特点,比如,网络连接失败、文档格式混乱、格式变化等。建造针 对网页的包装器主要有两个好处:一是提高了从某一特定信息源获取相关信息的 能力,二是能把不同信息源的信息整合到数据库中,用通用查询语言即可查找信 息。具体在本文中,包装器可以理解为基于x m l 元素处理的w e b 信息抽取系统 的实现。 信息抽取规则生成对于w 曲信息抽取系统来说非常重要,同时也对信息抽取 质量有着重大影响。抽取规则描述的是要抽取信息的各种特征和规律,作用是要 确定需要抽取哪些信息,用于在w e b 页面上识别和定位待抽取的信息。在本文中, 抽取规则可以理解为要抽取的w e b 页面信息的路径以及为了优化抽取质量而制定 的一些修f 性规则。 2 4 当前几种主要信息抽取方式的比较 根据自动化程度的不同,可以将现有的w e b 信息抽取分为人工方式的w e b 信 息抽取、半自动化方式的w e b 信息抽取和全自动化方式的w e b 信息抽取三大类。 这种分类方式主要根据w e b 信息抽取的核心w r a p p e r ( 包装器) 生成方式的不同 来分类的【2 2 1 。下面就对这三种方式进行分析和比较。 人工方式的w e b 信息抽取能够支持的输入形式多而且灵活,例如结构化文本, 半结构化文本等等,并且人工方式抽取信息的完整性和准确性都比较高。但缺点 是该方式需要用户对h t m l 语言有相当的了解,对所要抽取的网页的结构也要相 当熟悉,需要编写程序的人有相当的专业知识,在此基础之上,通过人工方式来 完成信息抽取。手工生成包装器通常需要编写专用的代码,要花很多时间理解文 档的结构并将其转换成程序代码。手工构造的w e b 信息抽取系统不能适应处理对 象所属领域的变化。每个领域都要有相应的包装器,维护成本很高。 全自动化方式一般适用于少数特别的网页类型,包装器的生成利用机器学习 的技巧,通过设计学习算法,设计出从非常简单到相对复杂的包装器。系统必须 通过学习阶段,从例子中归纳出规则,并且需要构建庞大而完整的知识库以便完 成自动学习。此方式虽然方便度最高,但是适用性较低,需要的硬件条件也最高, 而且实现难度最大。 半自动化方式是研究比较多,而且应用范围较广的一种方式。顾名思义,也 就是介于上述两种方式之间的一种方式。这种方式是利用描述性语法对网页结构 进行描述,并且提供工具生成代码。半自动化方式的主要过程可描述为:首先获 得源网页,做一定的自动化预处理之后,由人工提供训练样本,并定义目的模式 和抽取规则,选择网页中感兴趣的内容,最后再通过抽取算法,由程序自动完成 信息抽取。 本文也是主要研究这种半自动化的方式,对于现有的一些半自动化的信息抽 取技术进行整合和改进,并提出一种基于x m l 元素处理的方法来实现w 曲信息 的抽取,实现起来更方便,对于数据密集型网页更有针对性。 2 5 本章小结 本章介绍了w e b 信息抽取的相关知识,包括w 曲i e 的概述,w e b 信息的特点, w 曲i e 的关键技术以及当前几种主要w 曲i e 方式的比较等等。 首先给出了w 曲信息抽取的定义,发展背景,以及未来应考虑的问题。其次 对于w 曲信息的特点进行了研究,主要是研究了w e b 页面中信息的组织形式以及 页面间的结构。然后介绍了w e b 信息抽取中的两项关键技术,生成包装器以及w 曲 页面信息路径生成。最后对于当前主要的三种w 曲i e 方式:人工抽取、全自动化 抽耿和半自动化抽取作了比较,为后面的研究做好了准备。 3 1x m l 介绍 3x m l 及其相关技术介绍 3 1 1x m l 的产生背景 随着互联网的迅猛发展和普及,在信息交换的过程中存在着一个突出的问题, 就是存在多种多样的数据格式,这也给信息的有效使用带来了障碍。人们期待着 能够找到一种可以描述任何逻辑关系的数据格式柬统一电子数据的存储,从而不 再因为数据格式的不统一而苦恼和困惑。目前,能够担当此重任的就是x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 。 x m l 是由w 3 c ( 万维网联盟) 于1 9 9 8 年2 月发布的一种标准,用于在w e b 上组织、发布各种信息以及描述数据间的关系。它不仅可以满足迅速增长的网络 应用的需求,还能够确保网络上进行交互操作时具有良好的可靠性与互操作性。 x m l 是一种中介标示语言( m e t a - m a r k u pl a n g u a g e ) ,详细来说x m l 是一种类似 于h t m l ,被设计用来描述数据的语言。x m l 提供了一种独立于运行程序的方法 来共享数据,它是用来自动描述信息的一种新的标准语言。x m l 由若干规则组成, 这些规则可用于创建标记,并能用一种被称作分析程序的简明程序处理所有新创 建的标记【2 3 1 。f 如h t m l 为一个计算机用户阅读i n t e m e t 上的w e b 页面提供一种 显示方式一样,x m l 也创建了一种任何人都能读出和写入的语法结构。 x m l 文档的核心是数据,在一个普通的文档旱,往往混合有文档数据、文档 结构、文档样式三个要素。而对于x m l 文档来说,数据是其核心。将样式与内容 分离,是x m l 的巨大优点。x m l 将h t m l 的易用性结合到w e b 的应用中,以一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论