(计算机软件与理论专业论文)deep+web中基于领域知识的接口集成.pdf_第1页
(计算机软件与理论专业论文)deep+web中基于领域知识的接口集成.pdf_第2页
(计算机软件与理论专业论文)deep+web中基于领域知识的接口集成.pdf_第3页
(计算机软件与理论专业论文)deep+web中基于领域知识的接口集成.pdf_第4页
(计算机软件与理论专业论文)deep+web中基于领域知识的接口集成.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘# 铲r 、 目录 摘要i a b s t r a c t i i i 序论1 第1 章相关知识。5 1 z h t m l 5 1 1 1 h t t p 简介5 1 1 2 h t m l 表单5 1 1 3 h t m ld o m 7 1 1 4 h t t p 协议8 1 2 d e e pw e b 接口抽取与集成技术框架9 1 2 1 术语定义1 0 1 2 2 接口的发现与判定1 2 1 2 3 接口属性抽取1 3 1 2 4 接口查询接口的集成1 4 第2 章接口集成理论1 7 2 1 接口的发现1 8 2 1 1 网络爬虫。1 8 2 1 2 基于网络爬虫的接口发现1 9 2 2 接口的判定2 0 2 3 接口属性抽取2 2 2 2 1 n g r a m 算法2 3 2 2 2 基于n g r a m 的属性抽取。2 3 2 4 接口模式抽取2 4 2 4 1 接口属性的匹配2 4 2 4 2 全局属性抽取。2 4 第3 章接口集成系统2 5 3 1 基于二聚焦网络爬虫的接口发现2 5 3 1 1 爬虫入口。2 5 3 1 2 爬虫工作流程设计。2 6 3 1 3 页面预处理2 8 3 1 4 页面词频的统计2 8 i 3 1 5 爬虫限定条件2 9 3 1 6 候选u r l 优化。3 0 3 2 查询接口的判别3 1 3 2 1 分类器特征提取3 2 3 2 2 使用感知器分类3 2 3 2 3 去除非当前领域接口3 3 3 2 基于n g r a m 的接口属性抽3 3 3 2 1 属性抽取总体流程3 3 3 2 2 分解表单元素3 4 3 2 3 n g r a m 匹配过程3 5 3 2 4 不匹配的情况3 6 3 4 文本语义处理3 6 3 4 1 中文分词3 6 3 4 2 同义词扩充3 8 3 4 3 中文词汇翻译与缓存3 9 3 5 领域词汇表更新策略4 0 第4 章有效性验证4 3 4 1 实验环境4 3 4 2 聚焦网络爬虫4 3 4 3 基于n g r a m 的接口抽取4 4 4 4 接口属性集成4 s 第5 章总结4 7 5 1 工作总结4 7 5 2 改进之处4 7 5 3 展望4 8 参考资料4 9 致i 射5 3 在学期间所发表的文章5 5 i i i f 弋 、 , 一1 摘要 随着w w w 技术的高速发展,基于网络数据库( w e bd a t a b a s e ,w d b ) w e b 的应用程序数量 掣指数级增加,随着这些应用程序的增加,互联网信息来源发生了巨大的改变。这改变对传 统的基f 搜索引擎的查询和获取信息的方式带来了巨大的挑战。由于这些基于w e b 的数据 库,仅能通过h t m l 查询表单提交数据获得,并动态生成查询结果。这些信息不能为传统搜 索引擎所获得,因此研究如何利用这部分即将成为w e b 信息最大来源的深度网( d e e pw e b ) 的 数据,是十分有必要的。 从1 9 9 4 年d r j i l le i i s w o r t h 提出了深度网的概念,国外就开始对深度网进行了大量的研究 工作。并提出了深度网信息集成框架,该框架共分三人部分:深度网接口集成,主要完成对 深网接口的发现,分类以及模式抽取;查询处理,主要完成对客户查询请求的映射;结果处 理模块,主要完成查询结果的抽取,变换与合并数据的任务。研究深度网的最终目的是为获 取隐藏fw e b 应用之后的网络数据库中的数据。由tw d b 仅仅只提供了基于h t m l 表单的 查询接口,以及基丁二h t m l 的查询结果返回,并且h t m l 语法弹性过大,写法灵活,不包含 任何w d b 语义信息,所以通过h t m l 的分析来对w d b 查询接口进行抽取、判定、分类、结 果抽取等【= 作具有相当的困难。 深度网信息集成框架试图建立起一个全自动的系统,可以自动的完成该框架中的每一部 分功能。但对丁二数鼍巨大的w d b 来说,很难找出统一的处理方式。多数的研究倾向于部分 工作由人l 参与,或是在小范围内进行数据集成工作。有鉴f 此,本文考虑将应用缩小至某 一领域,如图书查询,火车信息查询等。当指定一个领域之后,利用该领域知识作为集成的 指导信息,可在一定程度上降低集成的难度,并提高集成的效率。本文研究如何在指定的领 域内自动的进行w d b 查询接口的识别、判定与接口模式的抽取。本文通过使用聚焦网络爬 虫来实现w d b 查询接口的发现,使用一元感知器完成接口的判定与筛选。提出了以n g r a m 算法计算属性相似度的方法来完成对接口属性的抽取与集成。 关键词:d e e pw e b ,接口集成,属性抽取 一。o 一 f 2 毛 p i k 一 毫 砖南卢:学硕 学p 论文 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fw w wt e c h n o l o g y , w d b b a s e dw e ba p p l i c a t i o n s e x p o n e n t i a l l yi n c r e a s e ,a l o n gw i t ht h ei n c r e a s eo ft h e s ea p p l i c a t i o n s ;t h ei n t e r n e ts o u r c eo f i n f o r m a t i o nh a su n d e r g o n et r e m e n d o u sc h a n g e s t h e s ec h a n g e sh a v eb r o u g h tt h et r a d i t i o n a l s e a r c h - e n g i n e - b a s e dq u e r ya n dw a yo fo b t a i n i n gi n f o r m a t i o nh u g ec h a l l e n g e b e c a u s eo ft h e s e w e b b a s e dd a t a b a s e ,q u e r yr e s u l t sw h i c hc a no n l yb eg o tb ys u b m i t t i n gd a t at h r o u g ht h eh t m l q u e r yf o r ma n dt h e ng e n e r a t e dd y n a m i c a l l y c a n n o tb eo b t a i n e db yt r a d i t i o n a ls e a r c he n g i n e s ,s o t h er e s e a r c h e sh o wt ou s et h i sp a r to ft h ed a t at h a tw i l lb e c o m et h el a r g e s ts o u r c eo fi n f o r m a t i o no n t h e d e e pw e b ,i sv e r yn e c e s s a r y s i n c e19 9 4d r j i l le l l s w o r t hp r o p o s e dt h ec o n c e p to ft h ed e e pw e b ,r e s e a r c h e sh a v eb e e ns t a r t e d i nf o r e i g n e r s d e e pw e bi n t e g r a t i o n f r a m e w o r kh a sb e e np r o p o s e d , w h i c hc o n s i s t so ft h r e ep a r t s : o n ei st h ed e e pw e bi n t e r f a c ei n t e g r a t i o n ,m a i n l yt oc o m p l e t et h ed i s c o v e r yo ft h ed e e pw e b i n t e r f a c e s ,c l a s s i f i c a t i o na n ds c h e m ae x t r a c t i o n ;o n ei sq u e r yp r o c e s s i n g ,m a i n l yt oc o m p l e t et h e m a p p i n go fc u s t o m e rq u e r i e s ;a n dt h er e s u l t sp r o c e s s i n g , m a i n l yt oc o m p l e t et h er e s u l te x t r a c t i o n , d a t at r a n s f o r m a t i o na n dc o n s o l i d a t i o n t h eu l t i m a t eg o a lo f t h ed e e pw e bi so b t a i n i n gd a t ai nw d b h i d d e nb yt h ew e ba p p l i c a t i o n w d bo n l yp r o v i d e st h eh t m lf o r m b a s e dq u e r yi n t e r f a c ea n d q u e r yr e s u l t sa r er e t u r n e db a s e do nh t m lf u r t h e r m o r et h eh t m ls y n t a xi s s of l e x i b l ea n d c o n t a i n sa n ys e m a n t i ci n f o r m a t i o n t h e r e f o r e ,t h ea n a l y s i sb yh t m lw d bq u e r yi n t e r f a c eo nt h e e x t r a c t i o n , d e t e r m i n a t i o n , c l a s s i f i c a t i o n , e x t r a c t i o na n dt h er e s u l t si sq u i t ed i f f i c u l t d e e pw e bi n f o r m a t i o ni n t e g r a t i o nf r a m e w o r kt r i e st oe s t a b l i s haf u l l ya u t o m a t e ds y s t e mt h a tc a n a u t o m a t i c a l l yc o m p l e t et h ef u n c t i o no fe a c hp a r to ft h ef r a m e w o r k b u tf o rt h eh u g en u m b e ro f w d b ,i ti sh a r dt of i n dau n i f i e da p p r o a c h m o s ts t u d i e sh a v et e n d e dt op a r t i c i p a t ei np a r to ft h e w o r kb yh a n d , o rd a t ai n t e g r a t i o ni nas m a l lp a r t i c u l a ra r e a i nv i e wo ft h i s ,w ec o n s i d e rt h e a p p l i c a t i o nd o w nt oap a r t i c u l a ra r e a , s u c ha sb o o ki n f o r m a t i o ni n q u i r i e so rt r a i n si n f o r m a t i o n i n q u i r i e s w h e ns p e c i f y i n ga na r e a , u s i n gt h ed o m a i nk n o w l e d g ea sa ni n t e g r a t e di n s t r u c t i o n a l i n f o r m a t i o nc a nr e d u c et h ed i f f i c u l t ya n di m p r o v et h ee f f i c i e n c yo fi n t e g r a t i o n t h i sp a p e rs t u d i e s h o wt oa u t o m a t i c a l l yi d e n t i f yt h ew d b q u e r yi n t e r f a c e ,a n di n t e g r a t i o nt h ew d bi n t e r f a c ew i t h i n as p e c i f i e da r e a k e yw o r d s :d e e pw e b ,i n t e r f a c ei n t e g r a t i o n ,i n t e r f a c es c h e m ae x t r a c t i o n i i i : , ,flfi 字沦 序论 w i d ew o r l dw e b ( w w w ) 技术的发展推动了w e b 应用程序的大量发展,这些以后 台数据库,作为数据载体,提供h t m l 表单作为数据库数据获得方式的网站正在以 指数级的速度增长 1 1 。这些网站接受用户经h t m l 表单提交的查询参数,动态向用 户返回满足查询结果的h t m l 页面,这种动态生成的网页中的数据不能被传统搜索 引擎检索。我们称之为深度网( d e e pw e b ) ,或是“看不见的网页( i n v i s i b l ew e b ) , 相反的,不需要通过提供查询数据,由搜索引擎直接可以检索到的页面称之为表 层网( s u r f a c ew e b ) 。从信息量来讲,与现在能够索引的数据相比,深度网更是要庞 大得多。根据b r i g h tp l a n e t 公司2 0 0 0 年7 月发布的一个名为( t h ed e e pw e b - s u r f a c i n g t h eh i d d e nv a l u e ) 白皮书【2 1 中提供的数据,深度网包含1 0 0 亿个不重复的表单,其 包含的信息最是表层网的4 0 倍,有效高质内容总量至少是后者的1 0 0 0 倍至u 2 0 0 0 倍。 更让人无所适从的是,b r i g h tp l a n e t 发现,无数网站越来越像孤立的系统,似乎没 有打算与别的网站共享信息,如此一来,深度网已经成为互联网新信息增长的最 大来源。 与表层网相比,深度网具有以下性质【3 】: a ) d e e pw e b 蕴含的信息量是s u r f a c ew e b 的1 0 0 0 2 0 0 0 倍。 b ) 深度网数据访问量比表层网高1 5 。 c ) d e e pw e b 蕴含的信息量匕l i s u r f a c ew e b 的质量更高 d ) d e e pw e b 的增长速度要远大于s u r f a c ew e b e ) 超过5 0 的d e e pw e b 的内容是特定于某个域的,即面向某个领域 f ) 整个d e e pw e b 覆盖了现实世界中的各个领域,比如商业、教育、政府 等等 g ) d e e pw e b 上9 5 的信息是可以公开访问的,即免费获取 综i - _ 所述d e e pw e b 具有信息量大、结构性好、价值高、主题性专一等特性, 因此得到了越来越多的关注,也日益成为研究热点。目前主要的研究热点包括: d e e pw e b 站点爬行和发现( d e e pw e bc r a w l i n ga n dd i s c o v e r y ) ,查询接口抽取( q u e r y i n t e r f a c ee x t r a c t i o n ) ,数据源分类( s o u r c ec l a s s i f i c a t i o n ) ,数据抽取( d a t ae x t r a c t i o n ) , 数据集成( d a t ai n t e g r a t i o n ) 等几大关键问题。 曲商大学硕十产t 寺论文 而d e e pw e b 接口集成是研究上述热点问题的基础工作。d e e pw e b 接口集成 是信息抽取和异构数据源集成的至关重要的一步,也是今后研究和建立领域本体 知识库的基础,促使信息集成和信息挖掘研究工作顺利进行的保证。因此d e e p w e b 的模式研究在d e e pw e b 研究领域中有着霞要地位和作用。 d r j i l le l l s w o r t h 于1 9 9 4 年首次提及到不可见网络( i n v i s i b l ew e b ) 一词。1 9 9 8 年 l a w r e n c e 和g i l e 意识到传统搜索引擎的网络信息利用率并不高,通过超级链接作 为搜索方式并不能让网络信息资料能被充分的发现和利用,所以他们提出了开发 d e e pw e b 信息资源的想法。 从d e e pw e b 概念被提出国外就已进行了大量的研究。并出现了大量的网站 c o m p l e t e p l a n e t c o m 和i n v i s i b l e w e b n e t 等,提供d e e pw e b 资源的搜索。但 c o m p l e t e p l a n e t 和i n v i s i b l e w e b 收录的也仅仅只包含了少量的互联网d e e pw e b 资 源,并且它们的工作方式多采用半自动,人工干预较多。虽然目前在d e e pw e b 数据集成系统中数据库的发现,接口的抽取,聚类,表单自动填写,查询结果分 析等都有深入的理论研究。但并没有产品阶段的d e e p w e b 信息系统。面临着复杂 多变的网络,没有一个通用的解决方案可以完整地实现d e e pw e b 系统集成的所有 功能。 b r i g h t p l a n e t 公司早期开发了l e x i b o t z 0 用于深网资源检索,可以对2 2 0 0 多个 网页和数据库进行检索,后来更新为d q m z ( b r i g h t p l a nd e e pq u e r ym a n a g e rt m ) , 对网页的检索能力增加到7 0 0 0 0 个,用户可以根据领域限定检索。哥伦比亚大学 的q p r o b e r 研究小组【4 】。p a n a g i o t ig i p e i r o t i s t 等人开发了一套基于规则的分类器, 利用机器学习技术,对后台数据库查询进行探测,分析查询结果,以对w d b 数 据库进行分类。斯坦福大学的h i w e ( h i d d d e nw e be x p o s e r ) s 1 是其一个研究项目, 它将人工预先准备好的表单数据作为深网爬虫填写表单的数据,向服务器提交查 询,然后分析所得的查询页面。由于其表单数据需要预先准备需要人工辅助,限 制了其应用的范围。 国内d e e pw e b 的研究大约起步于2 0 0 5 年,虽然取得了一定的成果,但与国 际水平相比还是有很大的差距国内中国人民大学的孟小峰教授走在d e e pw e b 信 息研究前端,对d e e pw e b 信息集成有比较深入的研究,同时国内的软件学报 在2 0 0 8 年开始开设了d e e pw e b 信息集成论文专刊,收录了国内9 篇具有代表性 2 一 f i 亭论 的有关d e e pw e b 信息集成的论文。 本文旨在研究如何在小范围内自动完成d e e p w e b 查询接口的集成工作。主要 工作分为四个部分:基于传统搜索引擎的d e e pw e b 查询接口的发现,小范围内 的d e e pw e b 接口集成是指采用传统搜索引擎获得聚焦于该范围的可能包含深度 网入口的页面集合。以这些页面作为聚焦于深网的网络爬虫入口地址,搜寻可能 包含w d b 的网站。基于感知器分类技术,使用h t m l 中提取的表单元素,利用感 知器训练样本,以达到对表单是否w d b 查询接口的判定。基于n g r a m 的接口属 性抽取,利用表单元素属性与表单中文本在语义和位置上进行匹配,以达到准确 提取出查询接口属性的目的。基于文本词汇相似度的属性匹配,用来完成w d b 查询接口的全局属性的抽取。 3 一 吧 一 第1 章相芙知汉 1 1 h t m l 1 1 1 h 丌p 简介 第1 章相关知识 h t m l ( h y p e rt e x tm a r k - u pl a n g u a g e ) 超文本标记语言【6 】,1 9 9 1 年,t i m b e r n e r s l e e 编写了一份叫做“h t m l 标签 的文档,内罩包括了大约2 0 个用来 标记网页得h t m l 标签。随后h t m l 经过了从h t m l 2 0 到h t m l 3 0 的变化,最 终于1 9 9 8 年w i d ew e bc o n s o r t i u m ( w 3 c ) 带i j 定了广泛使用h t m l 4 0 标准。2 0 0 0 , w 3 c 制定了x h t m l l 0 标准,x h t m l 要求使用符合x m l 良好格式的写法,即所有 标签小写,属性均由引号包括,不允许有没有闭合的标签。时至今日,w h a t w g ( w e b h y p e r t e x ta p p l i c a t i o nt e c h n o l o g yw o r k i n gg r o u p ) 和w 3 c 联合推出了h t m l 5 0 标准, h t m l 5 o 【7 1 充分考虑了新一代w e b 交互中用户与开发人员的方便与实用。 使用h t m l 作为w e b 客户端信息内容的展示,是目前最为广泛的方式也是最 为有效的方式。h t m l 可以用于定义网页显示的内容以及外观,可以在w e b 客户 端显示文字、图形、表格、声音以及最为体现互联网特点的超级链接。 1 1 2 h t m l 表单 h t m l 作为w e b 客户端信息显示的载体,还担负着和客户进行交互的任务。 h t m l 中使用表单的客户进行交互。即定义于标签 之间的h t m l 表 单元素,提供了客户与服务器交互的能力。表单元素内容可提交至w e b 服务器, 以n a m e = v a l u e 的格式。即表单中的元素必须具有属性”n a m e ”和”v a l u e ”,这两个 属性的值,在提交的时候,组成名值对提交。表单 常用的属性有以下三个: n a m e ,指定表单的名称,可在客户端j a v a s c r i p t 运行中引用;a c t i o n ,这是最重要的 属性,指定表单提交的目标u r l ;m e t h o d ,该属性只有两个值“g e t 和“p o s t ”, 用于指定表单提交数据的方式,默认值为“g e t ”。虽然不是必须的,但是由上可 知,表单元素和表单本身均包含一些可用作分析的数据。这些属性中可能包含对 于理解表单元素有用的数据。 5 陌! 句,、学硕 寺论文 i 量曼量量曼曼曼量量量置量置曼曼曼皇曼璺皇曼曼曼曼曼曼量曼皇量鼍曼曼曼量曼曼曼曼量曼皇曼皇曼曼曼曼曼曼曼量曼曼曼曼曼量曼曼量曼量曼曼鼍曼曼曼曼曼曼曼曼鼍曼量 表1 1 2 - 1 显示了h t m l 4 0 提供的几种表单元素( h t m l 5 中将提供更多的表单 元素) 表1 1 2 1 ,h t m l 4 0 表单元素( t a b l e1 - 1h t m l 4 0f o r me l e m e n t ) 一个典型的h t m lf o r m 如图1 1 2 1 所示 6 书名: ll i s b n :一i 。 “l 译著者: il 出版社:l。 出版时间:卜”年r 月 【提交查询】 图1 1 2 1 h t m l 表单例子( f i g u r e1 1 , h t m lf o r me x a m p l e ) + j 二 国砌7 纽f , 岛 “r t 2 :, t h e 图1 1 2 2 表单d o m 结构( f i g u r e1 t 2 2 , d o ms t r u c t u r eo f t h ef o r m ) , 第1 章相芰知识 :o 二自 i t r ( td 、书名:t d : i s b m t d ) 。t 珏:。t e x t 。l p t t 一。1 5 0 。f 。1 s b n * 7 , t d ) ( tr , t r 、 t d 译著者:口t 口 :t d , : 一t e x t m l e r 薯t h 。1 6 0 。f t l & n t f 二。m _ , t h o r 。,7 , f ,f o :氍 图1 1 2 3h t m l 表单源代码( f i g u r e1 1 2 - 3t h eh t m lf o r ms o u r c ec o d e ) 1 1 3 h t m ld o m h t m l 文档对象模型( h t m ld o c u m e n to b j e c tm o d e l ,d o m ) 定义了访问和处 理h t m l 文档的标准方法。h t m l 文档结构是通过标签的嵌套来组织的,因此可 以将其看作是树形结构的文档模型。如图1 1 3 1 所示,通常h t m l 文档使用 标签作为其根结点,其它的h t m l 元素都作为其子结点。在1 9 9 8 年,w 3 c 发布 了第一个的d o m 规范。这个规范允许访问和操作h t m l 页面中的每一个单独 的元素。所有的浏览器都执行了这个标准。 | 文档 l i 根元索: i i ( 陀m i i l元素:元棠: i c b o d v i元素: l 属性:u元素:元素: l l h r e f i i文本: 文本:文本: i 。文档标题我的链接。我的标题 图1 1 3 1 文档结构模型( f i g u r e1 1 3 1d o m ) 需要说明的是,h t m l 仅仅作为w e b 服务器与浏览器之间信息呈现的标记语 7 西南夫学硕卜伊论文 言。并未包含h t m l 数据的元数据信息,并且h t m l 书写极为灵活,不同的设计 者对相同效果的页面可以设计出完全不同的h t m l 代码。因此,通过分析h t m l 代码来获得其中蕴含的信息是非常有挑战性的任务。 1 1 4 h t t p 协议 h t t p 是h y p e r t e x tt r a n s f e rp r o t o c o l ( 超文本传输协议) 的缩写。它是由万维网协 会( w o r l dw i d ew e bc o n s o r t i u m ) 和i n t e r n e t 工作小组i e t f ( i n t e r n e te n g i n e e r i n gt a s k f o r c e ) 合作发布,在最终发布了一系列的r f c ,r f c1 9 4 5 定义了h t t p 1 0 版本。其 中r f c2 6 1 6 9 定义了今天普遍使用的一个版本h t t p1 1 。h t t p 协议是用于从 w w w 服务器传输超文本到本地浏览器的传送协议。它町以使浏览器更加高效, 使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文 档中的哪一部分,以及哪部分内容首先显示( 如文本先于图形) 等。h t t p 是一个应 用层协议,由请求和响应构成,是一个标准的客户端服务器模型。h t t p 是一个无 状态的协议。 h t t p 请求头:由客户端向w e b 服务器发出,包含请求的文档、客户端本地信 息、字符编码、客户端町以接收的文档类型、客户端提交的数据和c o o k i e 等信息。 通常h t t p 请求是由浏览器向w e b 服务器发送,图1 1 4 1 ,是一个典型的h t t p 请 求头信息,是由f i r e f o x 3 6 1 6 向服务器名为i o c a l h o s t 端口为6 9 6 9 的w e b 服务器 发出。 蕾袁蠡镑童 * ,。 h n t:c 圯i ! b i t - 岳辱苦粤 l 妇争a 口麟t 洳z :二二鼻s 0 霄:n d 埘:cw i n _ _ 妇s 辫5 :。薯h - 错w l ,拿2 1 6 :弓c b ,2 0 1 1 1 9p l t 幻暑,3 6 :s a c c e p tt = th t 荔:,童# 争二:o 暑t 童。氩i = h t 墨l 糯:i 皇l ,9 二l o 蕾t 三溉强:4 :o 拿。# j - ,口:覆骞 a c c e p t - l a n g u a g e = h 。:瓦工b :筘e 5 囊x c e p t - e r , c o d m o :薯二;,d e f , i c e a c c e p t - c h a r s e t :3 二:,u t f - 8q = 0 7 ,毒:筘0 7 k e e p a r w e :5 c m m e c t i o 靠k e e r i 二i v c a c h e - c o n t r o l 翻- x a t :o 图1 1 4 1 一个h r r p 请求报头( f i g u r e1 1 4 1a nh ”田r e q u e s th e a d e r s ) h t t p 响应:由w e b 服务器返回至客户端的响应信息,其中包含请求状态( 预 先定义的,告知客户端服务器状态的数字代码,常见的有2 0 0 、4 0 4 、5 0 1 等) 、服 务器信息、响应内容类型( c o n t e n t - t y p e ) 、文档最后修改的日期( 1 a s t m o d i f y ) 以及服 务器返回的数据( 由文档类型决定的文档内容) 等信息。图1 1 4 2 显示了一个典型 的h t t p 响应头。 8 第l 章相关知识 璃也& 售直= :,二嚣 d a t ef r i ,o i 泐2 0 1 i0 3 :4 4 :1 7c - 1 7 s e r v e ra p 基o h e ? 2 2 :3 ( w i n 3 2 ) 研矛? 5 2 ,l l x - p o w e r e d b y p k p ,5 2 1 工 c o n t e n t - 删2 2 6 5 k e e p - a l n r e c i b e m r t - - 5 t 盈i a 互:拿7 c o n n e c t i o ue e e l y - a li v e c o n t e n t - t y o e t e x t h t 互王 图1 1 4 2 一个h r r p 响应报头( f i g u r e1 1 4 2a nh t t pr e s p o n s eh e a d e r ) h t t p 请求响应过程通常由浏览器与w e b 服务器之间建立t c p 连接来完成。 在使用网络爬虫时,建立t c p 连接,发送h t t p 请求与获得响应过程,由爬虫来 完成。 1 2 d e e pw e b 接口抽取与集成技术框架 - 1 i n t e r f a c ei n t e g r a t i o i lm o d u l e 图1 2 - 1d e e pw e b 技术框架( f i g u r e1 2 1d e e pw e bt e c h n o l o g yf r a m e w o r k ) 由图1 2 1 可知d e e pw e b 信息抽取框架可以分为三个部分。查询接口集成模 块;查询处理模块;结果处理模块。查询接口集成模块,获得互联网上隐藏于大 量网页之中的w d b 查询接口,并针对这些接口进行分类,将表述相同查询领域 的接口分作一类,再分析这些相同领域的查询接口,获得对该领域查询接l 】统一 的描述模式,称之为全局查询接口;查询处理模块,该模块接收来自用户的查询( 基 于查询集成模块中提取的领域全局模式) ,并将查询请求映射到不同的w d b :结 果处理模块,获得每个w d b 的查询结果,分析并获得查询结果,对结果进行整 9 两商尺硕 学f 沦之 理合并,返回至查询客户。 本文仅针对接口集成部分进行研究。其中查询接口集成又可以分为下步骤: a )w d b 发现( w d bd i s c o v e r y ) ,获得网络中可能包含w d b 接口的页面,识别并判定其 是否为w d b 接口; b ) 接口模式抽取( i n t e r f a c es c h e m ae x t r a c t i o n ) ,对前一步获得的查询接口中所包含的属 性进行分析和抽取,将一个查询接口分解成为一组属性的集合; c ) 基于领域w e b 数据库的分类( w d b c l u s t e r i n g ) ,根据已得剑的查询接口的属性信息确 定其对应w e b 数据库所属的领域,即按照领域对w e b 数据库进行分类; d )查询接1 2 1 集成( i n t e r f a c ei n t e g r a t i o n ) 对属于同一个领域的查询接口进行集成,得到一 个全局的查询接口 以上四个步骤每一个步骤均是其后续步骤的基础。为了完成接口的自动集成, 需要,对其中每一个步骤的处理都是非常重要的。 1 2 1 术语定义 定义1 :网络数据库( w e bd a t a b a s e ,w d b ) ,即隐藏于网络应用程序背后,由 h t m l 查询表单作为其外部视图的数据库。 定义2 - w d b 接口,是指通过h t m l 定义的可以提交查询数据到w e b 服务器 的h t m l 表单。如图1 2 1 1 ,为卓越图书查询接口。 定义3 :w d b 接口属性,以下简称接口属性或属性,是指查询接口中定义的 可以作为单一查询条件,反映w d b 元组属性的h t m l 元素。表单中属性通常由属 性名称和其对应h t m l 表单控件组成。属性名称和输入控件以应关系包含如下两 种,1 :1 和l :m ,如图1 2 1 1 ,中属性名“商品名”及其后输入控件是为1 :1 的情 况,属性名称“出版时间 则与3 个输入控件对应,是为l :m 的情况。 w d b 接口通常包含多个w d b 接口属性。一个接口属性由属性名称与控件列 表组成。 1 0 第l 章相关知识 凼竹蠡强艘曩 孀( d l vc l a s s = “a d v e l e m e n t “ 一粘:一 商品名j 嘲:一一:二_ 一? 一 岬隆: 一 国 糊脯孑;酬绣 瞢弹者j 勘:槲鲼 x n p u t c l a s s = “k d v k u t h o r “ 新扣所有蛳纛 出糊:1 i 琶引m 他c l a v 珲c l 等t e z le m e n r t ta 出) 殷社: 施瘟回 樊别j 国 s e le c tc l a s s = ”a d y s u b c a te 图1 2 1 1 ,卓越图书查询接口界面图1 2 1 2 ,卓越图书查询接口部分源代码 f i g u r e1 2 1 1 ,t h eq u e r y i n t e r f a c eo f f i g u r e1 2 1 2 :t h eh t m lc o d eo fa m a z o nj o y o a m a z o nj o y ob o o kq u e r yi n t e r f a c e 定义4 :领域,是指由提供相同或相似信息查询的w d b 接口的集合。物理上, 它描述的是人们感兴趣的一类能提供相似结果的信息来源。 由上面的定义,我们给出描述这些概念的形式化的定义: 表单元素:e = c o n t e n t ,t y p e ,v a l u e 定义表单中有意义的h t m l 元素,例如一段文 本,一个输入控件等。 一 c o n t e n t 表示元素的文本内容,文本元素,c o n t e n t 为其文本,非文本元素

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论