(计算机应用技术专业论文)基于主题的deep+web搜索引擎研究与探索.pdf_第1页
(计算机应用技术专业论文)基于主题的deep+web搜索引擎研究与探索.pdf_第2页
(计算机应用技术专业论文)基于主题的deep+web搜索引擎研究与探索.pdf_第3页
(计算机应用技术专业论文)基于主题的deep+web搜索引擎研究与探索.pdf_第4页
(计算机应用技术专业论文)基于主题的deep+web搜索引擎研究与探索.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于主题的deep+web搜索引擎研究与探索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 i n t e r n e t 的飞速发展,为我们提供了海量的信息资源。但目前传统的搜索引擎能够 检索的仅仅是w o r l dw i d ew e b 中的- 4 , 部分,大量的d e e pw e b 信息对这些搜索引擎 是不可见的。这些信息隐藏在w e b 页面的搜索表单后面,保存在大型的动态数据库中。 用户必须通过查询表单在线访问其后端的w e b 数据库才能获得这些信息。有效地把 d e e pw e b 信息加以利用是一个比较富有挑战性的课题。 本文首先介绍了通用搜索引擎的一般原理,定量地分析了d e e pw e b 的概况,并在 此基础上对构建基于某一主题的d e e pw e b 搜索引擎所涉及到的三个主要模块( 表单抽 取、查询处理、结果抽取) 进行了分析研究,同时阐述了相关算法。本文的主要研究内 容包括: 1 讨论了d e e pw e b 的定义,在分析d e e pw e b 工作原理的基础上给出了基于某一 主题d e e pw e b 搜索引擎的总体设计思路和实现技术。 2 研究了表单抽取模块中的d e e pw e b 站点发现策略,通过对不同结构表单页面 的分析,提出了查询表单元素的统一表示方法。 3 分析了目前存在查询表单抽取方法,结合同一主题元素模板视觉的相似性,采 用竞争分类法对表单元素值进行抽取,实验证明抽取效果比较理想。 4 研究了元素间的相似度算法,通过计算表单元素之间的相似度,排列数据源与 用户查询的相关性,从而选择出该领域内与用户查询最相关的数据源。 5 设计了一个查询转换器,有效地解决了用户查询接口与数据源之间的元素映射 问题。 6 分析了目前存在的w e b 页面抽取技术,通过构建正则表达式和样本模板,对半 结构化的结果页面进行抽取,将抽取的信息保存到本地数据库。 为了验证文中涉及方法的有效性,本文设计了一个基于职位查询主题的d e e pw e b 搜索引擎,对5 l j o b c o m 及c h i n a h r c o m 进行了抽取实验。结果表明,竞争分类法和情 景模式的引入,简化了抽取方法,提高了抽取的查准率。 关键词:d e e pw e b 爬虫,表单抽取,数据源选择,结果抽取 a b s t r a c t a st h er a p i dd e v e l o p m e n to fi n t e m e t ,t h e r ei st r e m e n d o u si n f o r m a t i o nc a nb es u p p l i e df o r u s b u t c u r r e n tt r a d i t i o n a ls e a r c he n g i n e sr e t r i e v eo n l yas m a l lp o r t i o no fw o r l dw i d ew e b i n p a r t i c u l a r ,t h e yi g n o r et h et r e m e n d o u sa m o u n ti n f o r m a t i o nh i d d e nb e h i n d s e a r c hf o r m s ,i n l a r g es e a r c h a b l ee l e c t r o n i cd a t a b a s e s i no r d e rt oa c h i e v et h o s ei n f o r m a t i o n ,w em u s ts u b m i t a u t o m a t i c a l l yf o r m sa n de x t r a c ta u t o m a t i c a l l yc o r r e l a t i v ei n f o r m a t i o nf r o mf e e d b a c kw e b p a g ea n ds a v et h e mt ol o c a ld a t a b a s ei nau n i f o r mp a t t e r nt oc o n v e n i e n c eu s e r ss e a r c h i n g t h ep a p e rf i r s t l yi n t r o d u c et h eg e n e r a lp r i n c i p l eo fg e n e r a ls e a r c he n g i n e ,t h e ng i v et h e s u m m a r yo fd e e pw e b a n a l y z et h es u r v e yo fd e e pw e bq u a n t i f i c a t i o n a l l y a f t e rt h a t ,p r o p o s et h ek e ym o d u l e so fd e e pw e bs e a r c he n g i n eb a s e do nt h e t h e m a t i cd o m a i n ,i n c l u d i n gf o r me x t r a c t i n g ,q u e r yd i s p o s i n ga n dr e s u l t se x t r a c t i n g t h ep a p e r m a i nr e s e a r c hw o r ki n c l u d e s : 1 d i s c u s st h ed e f i n i t i o no fd e e pw e b ,a n da n a l y z et h ep r i n c i p l eo fd e e pw e bs e a r c h e n g i n e ,t h e np r o p o s et h et h o u g h t w a yo fd e s i g n i n ga sa w h o l e 2 r e s e a r c hm e t h o d so fd i s c o v e r i n gd e e pw e bs i t e s a n dam e t h o do fq u e r yi n t e r f a c e e x p r e s s i o ni sp r o p o s e d 3 d i s c u s st h ea l g o r i t h ma b o u tq u e r yi n t e r f a c ee x t r a c t i n gi nc u r r e n t c o n s i d e r i n gt h e c o m p a r a b i l i t yo ft h es a m et h e m e ,t h ep a p e rp r o p o s e st h ei d i o g r a p h i ce x t r a c t i n gp r o c e s st o q u e r yi n t e r f a c ee l e m e n t sb yc o m p e t i t i v ec l a s s i f i e dm e t h o d ,t h er e s u l ti sq u i t ei d e a lb yp r o v e d 4 s e l e c tt h ec o r r e l a t i v ed a t a s o u r c eb yc a l c u l a t i n gt h ec o m p a r a b i l i t yo fe l e m e n t s a n d a r r a n g e m e n td a t a s o u r c e sa n ds e l e c tt h eh i g h e rc o r r e l a t i o nd e g r e ed a t e s o u r c ea st h ei n p u t e l e m e n to fq u e r yc o n v e r t e r 5 a d o p tt h eq u e r yc o n v e r t e rt or e s o l v et h em a p p i n gp r o b l e mb e t w e e nau s e rq u e r ya n da s e to fd e e pw e bs o u r c eq u e r yi n t e r f a c e s 6 g i v eas u r v e ya b o u tt h et e c h n i q u eo fe x t r a c t i n gw e bp a g el a y o u t s t h e nb yd e s i g n i n g t h er e g u l a re x p r e s s i o na n ds t y l e b o o kt e m p l e t ,d i s t i l lt h es e m i - s t r u c t u r e dp a g el a y o u t s ,a n d s a v i n gt h er e s u l ti n f o r m a t i o ni nt h el o c a ld a t a b a s e i no r d e rt ot e s tv a l i d i t yo fa l g o r i t h mr e f e r e d ,t h i sp a p e rd e s i g nad e e pw e bs e a r c he n g i n e s i i b a s e do nq u e r ya b o u tp o s i t i o n ,l i s t51 j o bw e bs i t ea n dc h i n a h rw e bs i t e ,a n dc a l t yt h r o u g h e x t r a c t i o nt e s t ,f e e d b a c kt h er e s u l t st ou s e ri nu n i f o r mm o d e l k e y w o r d s :d e e pw e bc r a w l e r ,f o r me x r a c t i n g ,d a t a s o u r c es e l e c t i n g , q u e r yr e s u l t se x r a c t i n g i i i 论文独创性声明 本人声明:本人所呈交的学位论文是在导师的指导下,独立进行研究工 作所取得的成果。除论文中已经注明引用的内容外,对论文的研究做出重 要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何 未加明确注明的其他个人或集体己经公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名: 趸苔 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属学 校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请专利等权 利。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成 果时,署名单位仍然为长安大学。 ( 保密的论文在解密后应遵守此规定) 论文作者签名: 导师签名: 丑芍 虚r 锨 佃g 年矽月髟日 , 聊年,月椤日 长安大学硕士学位论文 1 1 论文研究背景 第一章引言弟一早 与i 百 2 0 世纪9 0 年代万维网的出现使得人们在w e b 上发布和浏览信息变得十分便利,并 且随着w e b 技术的发展,各种各样基于w e b 的应用层出不穷。这些因素导致存储在 w e b 上的信息数量迅速膨胀起来,并且与日俱增。以中文w e b 为例,截止2 0 0 6 年底, 中国已经有8 4 3 万个网站,中文网页数达到4 4 7 亿个。一方面w e b 上信息的急剧膨 胀,另一方面由于互联网的分布式体系结构使得网络导航变得越来越困难,人们急需一 种能对w e b 上信息进行自动搜索的工具一这就是搜索引擎。 搜索引擎提供了对w e b 网页的一种快速便捷的搜索方式,然而w e b 中还有非常巨 大的一部分信息是搜索引擎所不能搜索到的,比如保存在w e b 数据库中的信息、动态 网页信息等等。这些信息数量巨大、价值很高,但因为技术或商业等原因,目前搜索引 擎还不提供对它们的搜索。鉴于搜索引擎在检索w e b 信息方面的重要地位,以搜索引 擎为观察角度可以将w e b 分为“浅层网络”和“深层网络”:那些能被搜索引擎搜索 到的w e b 称为“浅层网络 ( s u r f a c ew e b ) ,而那些还不能被搜索引擎搜索的w e b 称 为“深层网络”( d e e pw e b ) r 2 o 大量的研究结果表明d e e pw e b 中蕴含着大量有价值 的信息,可是它们却不能被当前主流搜索引擎搜索到。因此,寻找能够对d e e pw e b 进 行搜索的技术和工具就显得很有必要,很有价值。 1 2d e e pw e b 研究现状 由于搜索引擎目前还不能提供对d e e pw e b 的搜索服务,分类目录服务是目前检索 d e e pw e b 的一个途径,比如图书馆员互联网索引、d i r e c ts e a r c h 等。、但这种方式尚处于 手工处理阶段,还不能实现自动化或半自动化索引处理。 就国外而言,最著名的h i d d e nw e be x p o s e r ( h i w e ) b 1 是斯坦福大学研究的一个项目。 该项目设计并开发完成了一种可以抽取d e e pw e b 内容的爬虫,在此系统中爬虫管理器 负责管理搜索过程。它对下载的w e b 页面进行分析,包含表单的页面被送到表单处理 器中专门处理。表单处理器先从页面中抽取出表单,再从预先准备好的数据集中选择数 据自动地完成表单的填写。然后将合成的u r l 提交给爬虫管理器去下载相应的页面。由 于需要系统自动完成表单填写,所以要求用户事先准备相应的表单数据集。h i w e 只能 第一章引言 面向特定的领域使用,而且必须在人工帮助下完成。 华盛顿大学的s h o p b o t 研究小组研发的s h o p b o t 是一个针对消费品的比较代理,它 利用特定领域的启发式方法来填写表单以比较其领域的商业产品。它聚焦于处理卖主站 点的表单提交页面所返回的产品列表。s h o p b o t 操作分为两个阶段:离线学习阶段和在 线产品比较阶段。在学习阶段,确定如何填写站点表单,以及对产品站点结果页面进行 分析并获取其站点模式信息。在比较阶段,利用得到的站点模式结构来抽取结果信息, 寻找满足用户要求且价格最优的产品,最终将这些产品信息格式化输出。可以看出其研 究领域非常狭窄,不适用于大规模的信息集成。 哥伦比亚大学的q p r o b e r m l 研究小组的p a n a g i o t i sg i p e i r o t i s 等人研究了自动地将 w e b 网页所连接的后台数据库进行分类的方法。它首先使用机器学习技术生成一套基于 规则的分类器( c l a s s i f i e r ) 。然后将分类器转变成查询u r l ,对后台数据库进行查询,计算 查询结果。他们的算法最后根据查询结果对数据进行分类,但只针对文本数据库进行分 类。 目前d e e pw e b 的研究在国内也受到越来越多的关注。研究单位及相关文献也越来 越多。上海交通大学的宋晖等人提出基于标记树的对象抽取方法自动地从w e b 页面中 抽取h i d d e nw e b 信息,然后在此基础上给出了结构化的h i d d e nw e b 信息查询算法。苏 州大学的郑冬冬,赵朋朋等人也对d e e pw e b 的访问进行了相关研究,在“爬虫研究与 设计巧一文中提出使用启发式规则集和领域本体知识库来自动发现相关表单,填写表 单,识别和收集相关结果页面。 总之,目前关于d e e pw e b 信息集成的技术不是很成熟,大多数工作还处在研究阶 段。还没有完善的评价机制和大规模的商业应用。 1 3 论文的研究目的和意义 本文研究的目的主要有: 1 对d e e pw e b 的定义和特征进行分析,得出开发d e e pw e b 搜索引擎的必要性。 2 对d e e pw e b 搜索引擎开发中涉及到的关键技术进行分析研究,在总结已有成果 的基础上试图给出实用的实现方法,并通过实验验证。 本文研究的意义在于: 1 使得人们对d e e pw e b 及如何对d e e pw e b 进行有效搜索有比较全面的认识。 2 d e e pw e b 搜索引擎框架的提出及各个关键技术的研究,对实现特定领域d e e p 长安大学硕士学位论文 w e b 搜索引擎有着重要的启发和借鉴意义。 3 发展d e e pw e b 搜索引擎,使得隐藏在d e e pw e b 中的巨大高价值的信息能为大 众所搜索,极大地提高资源的利用率,搜索的查全率和查准率。 1 4 论文的主要内容和结构 1 4 1 论文的主要内容 本文主要做了以下几个方面的工作: 1 综述了d e e pw e b 的定义和特点、d e e pw e b 搜索引擎的工作原理及研究现状,为 发掘d e e pw e b 资源开发搜索引擎提供了理论依据。 2 重点讨论了开发d e e pw e b 搜索引擎的各个功能模块和工作原理;研究了开发 d e e pw e b 搜索引擎的开发流程、实现技术。 3 针对d e e pw e b 搜索引擎,讨论了发现w e b 数据库的各种方法及其可行性。为了 便于查询表单的统一和w e b 数据库的分类,研究了如何表示查询表单及其包含的各个元 素,并探讨了查询表单元素值的抽取方法。 4 分析研究了查询处理的各个模块,即:数据源选择模块,查询转换模块,查询提 交模块。将元素相似度算法与数据源选择算法引入到查询处理中,给出了实验结果。 5 讨论了对查询结果的处理流程。剖析了h t m l 结果页面,通过分析w e b 服务器 返回的半结构化页面,给出了对结果信息的抽取方法,并将抽取到的数据保存到本地数 据库中。 6 设计了一个基于主题( 职位查询) 的d e e pw e b 搜索引擎系统( j d ws e a r c h ) , 构建了其体系结构、模块划分、功能实现。 1 4 2 论文的组织结构 本文对d e e pw e b 搜索引擎的研究主要集中在获取后台数据库的信息方面。系统地 研究了d e e pw e b 搜索引擎开发的相关问题,并设计了一个基于主题( 职位查询) 的小 型搜索引擎。技术实现方面主要研究的是查询表单元素的抽取、匹配及查询结果页面的 抽取。各章的内容是这样组织安排的: 第1 章引言,探讨了论文研究背景、目的和意义、研究现状,介绍了论文的主要研 究内容和论文组织结构。 第2 章给出了d e e pw e b 的定义及其特点。并分析了d e e pw e b 搜索引擎的工作 3 第一章引言 原理。 第3 章设计了一个基于某一主题( 职位查询) 的d e e pw e b 搜索引擎系统( j d w s e a r c h ) ,给出其设计思想、体系结构、功能模块及实现后的主界面,介绍了开发搜索 引擎所需要的软硬件平台。 第4 章主要研究了w e b 数据库的发现及查询表单元素值的抽取这两个模块。通过 分析查询表单页面,给出了抽取表单元素值的方法,并将这些技术应用到j d ws e a r c h 中。 第5 章研究了查询处理的各个模块,并对各模块涉及到的技术及其难点做了分析, 主要探讨了各元素的匹配算法及其相关的数据源的选择问题,给出了具体的实验步骤和 实验情况。 第6 章研究了对查询结果页面的处理方法,结合j d ws e a r c h ,给出了抽取半结构 化页面信息的方法。 第7 章总结本文的工作并进行了下一步工作的展望。 4 长安大学硕十学位论文 2 1 搜索引擎概述 第二章d e e pw e b 搜索引擎 关于搜索引擎的1 目前还没有一个统一的定义,一般可以从广义和狭义两个方面来理 解。从广义上讲,搜索引擎是一类提供w e b 信息搜索服务的网站口1 。从狭义上讲,搜索 引擎是一种对w e b 网页进行搜集、索引并提供搜索服务的信息检索机制噶1 。一般来说, 搜索引擎对已下载网页的内容进行全文索引,并从网页中提取新链接保存到链接库中; 从链接库中提取链接,下载链接指向的网页,索引网页内容,提取新链接,如此反复, 不断搜集和索引w e b 信息资源。对用户而言则表现为通过检索接口接受用户的查询, 从已建立的索引中选择匹配的结果并以合适的顺序返回给用户。 2 1 1 通用搜索引擎工作原理 搜索引擎在处理用户请求时并不真正搜索互联网,它实际上搜索的是预先整理好的 网页索引数据库。搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的 文字四1 。真正意义上的搜索引擎,通常指的是收集互联网上几千万到几十亿个网页并 对网页中的每一个文字( 即关键词) 进行索引。建立索引数据库的全文搜索引擎。当用 户查找某个关键词的时候,所有在页面内容中包含的网页都将作为搜索结果被搜索出 来。这些结果再经过复杂的算法进行排序后,将按照与搜索关键词的相关度高低依次排 列。 搜索引擎的工作包括如下三个过程:一是在i n t e m e t 上发现、搜集网页信息;二是 对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序根据用户输入的查询 条件,在索引库中快速检索出相关文档并对检索出的结果进行排序,将查询结果返回给 用户。其工作原理如图2 1 所示。 图2 1 搜索引擎工作原理 5 第二章d e e pw e b 搜索引擎 1 从互联网上搜集网页 利用能够从互联网上自动收集网页的r o b o t 系统程序们,自动访问互联网。r o b o t 沿着任何网页中的所有u r l 爬行到其它网页。重复这一过程,并把爬行过的所有网页收 集回来。 2 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息( 包括网页所 在u r l 、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其 它网页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得到每一个网页针 对页面文字中及超链接中每一个关键词相关度( 或重要性) ,然后用这些相关信息建立 网页索引数据库。 3 在索引数据库中搜索,排序后呈现给用户 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词 的所有相关网页。因为所有相关网页针对该关键词的相关度早就已经算好,所以只需按 照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结 果的链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎处理流程如图2 2 所示。 图2 2 搜索引擎流程图 长安大学硕士学位论文 搜索的处理过程是对关键字进行匹配的过程,首先对用户输入的搜索关键字进行分 析、处理,然后在索引库中得到文档列表,并对文档列表进行扫描j 与处理后的关键字 进行匹配,提取满足条件的网页。然后计算网页和关键词的相关度,根据相关度的数值 将前k 篇结果页面返回给用户。如果用户查看下一页结果,重新进行搜索,把排序结果 中在第k + 1 和2 * k 的网页组织返回给用户,依此类推。 2 1 2 通用搜索引擎性能评价指标 w e b 信息的搜索从本质上说是一个信息检索问题。关于搜索引擎的性能评价,美国 的l a n c a s t e r 和f a y e n 列出5 项衡量指标3 ,即覆盖范围、查全率、查准率,响应时间、 用户负担和检索结果输出格式。是然,在这些评价指标中,查全率和查准率是最重要的 两项指标,结它们的一般理解如下: 1 查全率:检索出的相关文档数与文档库中所有相关文档数的比率,衡量的是检索 系统的查全率。 2 查准率:检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的 查准率。 对于一个检索系统来讲,查全率和查准率又是相互关联的,查准率高但查全率低, 查到的信息的绝对量就少;反之,查到有用信息的代价就高。对于目前的搜索引擎系统 来讲,很难搜集到所有的w e b 网页,所以查全率很难计算。各个搜索引擎系统都非常 关心精度问题,以g o o g l e 为例,它通过不断优化自己的文档和查询的表示方法、关键 字相关性的匹配策略和查询结果的排序方法等一系列相关措施,使g o o g l e 具有非常高 的查准率,从而得到了用户的认可。 2 1 3 通用搜索引擎常见分类 按照信息搜索方法和服务提供方式的不同,搜索引擎可分为三大类6 1 。 1 目录式搜索引擎 以人工方式或半自动方式搜索信息,由编辑员查看信息之后,人工形成信息摘要, 并将信息置于实现确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检 索服务。该类搜索引擎因为有人工参与整理,所以信息准确,导航质量高,缺点是需要 人工介入、维护工作量大、信息量少、信息更新不及时1 扣。这类搜索引擎的代表是早 期的y a h o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、g og u i d e 等。 2 机器人搜索引擎 7 第二章d e e pw e b 搜索引擎 由机器人程序r o b o t 以某种策略自动地在互联网中搜集和发现信息,由索引器为搜 集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给 用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及 搦 时、毋需人工干预,缺点是返回信息多,有很多无关信息,但用户需要从结果中进行筛 选。这类搜索引擎的代表是:a l t a v i s t a 、e x c i t e 、 i n f o s e e k 、i n k t o m i 、l y c o s 、g o o g l e ; 国内代表为:百度、天网、o p e n f i n d 等。 3 元搜索引擎 这类搜索引擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎递 交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服 务方式为面向网页的全文检索。这类引擎的优点是返回结果的信息更大、更全,缺点是 不能够充分利用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表 是w e b c r a w l e r 、i n f o m a r k e t 等。 按照搜索引擎的检索内容、服务对象的不同,可以将它们分为三大类型如:综合 搜索引擎、主题搜索引擎、专门用途的搜索引擎。 1 综合搜索引擎 综合搜索引擎面向全体i n t e r n e t 用户服务,以不同主题和类型( 网页、新闻组、f t p 、 g o p h e r ) 的资源为搜索对象,将各种主题与类型的信息按一定的方式来组织,因此其信 息覆盖范围广,人们可利用它们检索几乎任何方面的资源。目前大部分商业搜索引擎都 是综合搜索引擎,它们的数据库容量非常大,搜集了各行业、各学科数以千万计的网页。 例如:i n f o s e e k 除网页和新闻资源外,还收集f t p 、g o p h e r 资源;微软公司的m s ns e a r c h 可以搜索m p 3 、e x e 、j p g 、g j f , v b s c r i p t 和j a v a s c r i p t 文件等。 2 主题搜索引擎 主题搜索引擎专门收集某一学科、某一主题、某一行业范围内的信息资源,并用更 为详细和专业的方法对信息资源进行标引和描述,且往往在信息组织设计时利用与该专 业密切相关的方法和技术。其典型代表有h e a l t h c a t e 、m e d i c a lw o r l ds e a r c h 等。 3 专门用途的搜索引擎 这种类型的搜索引擎专门收集某一类型的信息和资源供用户检索。例如查询地图的 m a p b i a s t ;专门收录新闻信息的d e j an e w s ;查询图像的w e b s e e k ;专门收录各种域名 及世界大多数国家的域名注册情况的c h e c kd o m a i n ;f r e ee m a i la d d r e s sd i r c t o r y 则是专 门收录免费邮箱的搜索引擎。 长安大学硕士学位论文 2 2d e e pw e b 搜索引擎 2 2 1d e e pw e b 定义 整个w e b 如果按其所蕴涵信息的“深度 可以划分为s u r f a c ew e b 和d e e pw e b 两 大部分。s u r f a c ew e b 是指通过超链接可以被传统搜索引擎索引到的页面的集合。d e e p w e b 又称为h i d d e nw e b 或i n v i s i b l ew e b ,是相对于s u r f a c ew e b 而提出的。该概念最 初由d r j i l le l l s w o r t h 于1 9 9 4 年提出n 4 1 ,原意是指搜索引擎商出于自身考虑不愿索引 的某些网络内容,或是因为技术原因传统搜索引擎无法索引的网络内容。2 0 0 1 年,c h r i s t s h e r m a n 、g a r y p r i c e 将d e e pw e b 定义为:虽然通过互联网可以获取,但普通搜索引擎 由于受技术限制而不能或不作索引的那些文本页、文件或其它通常是高质量、权威的信 息。 本文遵从文献 1 5 】的如下定义:“d e e pw e b 是指w e b 中可访问的在线数据库,这 里简称w e b 数据库或d w b ,其内容存储在真正的数据库中。这些内容只有在被查询时 才会由w e b 服务器动态生成页面把结果返回给访问者,因此没有超链接指向这些页面, 这是和那些可以被直接访问的静态页面的根本区别”。 2 2 2d e e pw e b 的特点 与s u r f a c ew e b 相比,d e e pw e b 蕴藏了更加丰富,更加“专业 的信息。在2 0 0 0 年7 月,b r i g h tp l a n e t 对d e e pw e b 做了一次较为全面的宏观统计,发布了d e e pw e b ( 在 该文中b r i g h tp l a n e t 对d e e pw e b 的定义主要指的是w e b 数据库) ,指出整个w e b 的 白皮书上大约有4 3 ,0 0 0 9 6 ,0 0 0 个w e b 数据库,并从宏观上对d e e pw e b 做了定量的调 查统计。下面是其中的部分调查结果们: d e e pw e b 蕴含的信息量是s u r f a c ew e b 的4 0 0 5 0 0 倍。 对d e e pw e b 数据的访问量比s u r f a c ew e b 要高出1 5 。 d e e pw e b 蕴含的信息量比s u r f a c ew e b 的质量更高。 d e e pw e b 的增长速度要远大于s u r f a c ew e b 。 超过5 0 的d e e pw e b 的内容是特定于某个域的,即面向某个领域。 整个d e e pw e b 覆盖了现实世界中的各个领域,比如商业、教育、政府等等。 d e e pw e b 上9 5 的信息是可以公开访问的,即免费获取。 整个w e b 是开放的、不断变化的。作为w e b 的组成部分,应该如何有效地评估当 前整个d e e pw e b 的规模( 即当前d e e pw e b 上w e b 数据库的数量) 以及变化情况? u i u c o 第二章d e e pw e b 搜索引擎 大学在2 0 0 4 年4 月对整个w e b 做了一次较为准确的估纠”】,推测整个w e b 上有3 0 7 , 0 0 0 个提供w e b 数据库的网站、4 5 0 ,0 0 0 个w e b 数据库,比b r i g h tp l a n e t 在2 0 0 0 年 估计的5 0 0 ,0 0 0 个数据库网站的数目增长了6 倍多,目前这个数据可能更大。d e e p w e b 中的w e b 数据库不但数量众多,而且覆盖了现实世界的各个领域。一些专门的机 构,象c o m p l e t ep l a n e t 和i n v i s i b l ew e b 等,构建了d e e pw e b 目录并按现实世界的领域 对d e e pw e b 的内容做了分类,主要包括:( 1 ) 商业与经济;( 2 ) 计算机与互联网;( 3 ) 新闻 媒体;( 4 ) 娱乐等一共十几个分类。这只是宏观的分类,每个分类下面还有小的分类,比 如“科学 这一类可以继续分为“社会科学”与“自然科学”,而“自然科学 又可分 为若干学科。从表2 1 可以看出,尽管这些网站对w e b 数据库进行了细致的分类,但所 列出的w e b 数据库仅仅只是整个w e b 数据库的很小的一个比例( 即使最大的c o m p l e t e p l a n e t 也只有1 5 6 ) 。 表2 1d e e pw e b 目录的覆盖率 网站名称w e b 数据库的数目覆盖率 c o m p l e t e p l a n e t t o m 7 0 ,0 0 0 1 5 6 l i i o r g1 4 ,0 0 0 3 1 t u r b o10 c o m 2 ,3 0 0 0 5 i n v i s i b l e w e b n e t 1 ,0 0 0 0 2 2 3d e e pw e b 搜索引擎的技术分析 2 3 1d e e pw e b 搜索引擎的工作原理 用户一般通过3 个步骤来访问d e e pw e b 后台数据库n 73 :首先,用户在站点提供的 查询界面提出查询;然后,用户得到一个查询结果的索引页面列表;最后,从索引列表 页面选出用户感兴趣的页面,从而获得真正的数据页面。其工作原理如图2 3 所示。 图2 3 用户访问后台数据库流程 1 0 长安大学硕士学位论文 d e e p w e b 搜索引擎就是要模仿用户访问数据库的流程,实现对数据库的自动访问。 第一步,发现i n t e r n e t 上的d e e pw e b 数据源:首先,使用一般搜索引擎的爬虫程序爬 行整个i n t c r n e t 来发现和识别某个站点是否提供h t t p 服务:然后对含有h t t p 服务的站点 页面进行分析,剔除非研究性表单,找到d e e pw e b 数据源入口“”。第二步,对前一 步获得的表单页面所包含的元素进行分析和抽取:将一个查询表单分解成为一组元素的 集台,对属于同个领域的集合进行集成,得到一个统一的查询表单,通过这个集成的 查询表单可以达到同时访问多个数据源的目的。第三步查询表单填充和提交:系统模 仿用户的行为自动填充并提交表单;服务器端产生一个完整韵h t m l 页面到d e e p w e b 搜索引擎;引擎分析这些页面,并抽取相关数据到本地计算机:然后统一查询结果页面 最终返回给用户。 2 3 2d e e pw e b 搜索5 l 擎与通用搜索引擎的区别 d e e pw e b 搜索引擎与通用搜索引擎的区别表现在以下三个方面: 1 通用搜索引擎搜索的对象是普通网页,而d e e pw e b 搜索引擎搜索的对象主要是 结构化的数据。 2w e b 数据库通常有复杂的接口,而搜索引擎的接1 3 较为简单,一般为关键字搜索。 d e e p w e b 研究如图2 4 所示的多属性查询表单。 一关t 搬: 鞫霍公目名 一j9 m + i 理:= 口目g q 日 热厂卫吼凇兰墼盟里芷堡基量量篮堕墨壁邑壹垫苎童壁 更量囊鲁* : 职蝗* w 黼微。疗m 划 gl 艘 日同i 啸:刁i 作辅同瞄f 刁月赫豳厅罹幂= 刁 * 司岫同瓣f = 刁# 腰$ 同嘲:_ 刁i f t 女d l i 同嘲f 习 甲霭溪霭霭” 图2 多属性表单页面 3 搜索引擎对结果的排序是根据搜索结果与所提交查询的相似性,而d e e pw e b 则 是根据结果中某个元素的值。 第三章j d w 总体设计 第三章j d w 总体设计 通过前两章的分析和讨论,我们已经认识到开发一个较理想的d e e pw e b 搜索引擎 具有重要的理论意义和实用价值。由于构建多领域的d e e pw e b 搜索引擎难度很大,非 一个人在一两年的时间内所能完成的,因此本论文仅研究某一主题领域的d e e pw e b 搜 索引擎的构建问题,为构建多领域搜索引擎奠定基础。基于这样一种考虑,本文开发了 一个基于职位主题的d e e pw e b 搜索引擎j d w 。本章论述了j d w 的设计思路,功能模 块划分和开发工具的选择,最后给出具体实现后的几个主要界面。 3 1j d w 的总体设计 3 1 1 原型设计思路 该原型的挖掘对象是有关职位查询主题的d e e pw e b 数据源。核心工作是从通用搜 索引擎g o o g l e 中搜索有关职位查询主题的w e b 站点,抽取其入口表单元素值,根据元 素值的相似度选择与用户查询最相关的数据源,将查询中用户输入的信息映射到所选数 据源上,形成查询u r l 。提交此u r l ,抽取w e b 服务器返回的结果页面信息,去重整理 最终将以统一的格式反馈给用户。 3 1 2j d w 运行过程示意图 示意图如图3 1 所示: 图3 1j i ) w 运行过程示意图 长安人学硕士学位论文 3 1 3 原型功能模块划分 根据3 1 2 小节的运行过程示意图,该原型主要划分为查询表单抽取、查询处理、 查询结果抽取三大模块,功能模块如图3 2 所示。 图3 2j d ws e a r c h 功能模块图 查询表单抽取模块:该模块分为查询表单发现和表单元素抽取两个子模块。表单发 现模块实现从w e b 中发现具有真正w e b 数据库的站点,过滤站点页面,然后从中发现 可访问这个w e b 数据库的查询表单。元素抽取模块进行表单元素值的抽取,以备数据 源选择模块与查询转换模块使用。 查询处理模块:该模块实现的功能是将不同领域的查询表单抽象为不同对象,依据 元素间的相似性,选择出与用户查询最相关的数据源。将用户输入的查询条件转换到所 选数据源对应的元素值上,形成查询u r l 。它由三个子模块组成:数据源选择、查询转 换、查询提交。 查询结果抽取模块:该模块分析各个数据源返回的半结构化页面,并按照事先设定 的规则,抽取结果页面数据,实现将查询结果以统一格式输出给用户的功能。 3 2j d w 运行界面 设计实现后的j d w 系统主界面如下3 3 所示。 1 3 第三章j d w 总体设计 圈3 3j d w 搜索引擎壹询主界面 j d w 搜索引擎前台检索首页采用纯净的搜索界面,放置了l o g o 和检索输入框。输 入关键词或其组合后,点击查询,系统将返回相关信息。 最终返回给用户的每条信息中包括职位名称、公司名称、工作地点、学历要求、工 作经验、公司性质、公司规模、职位简介、发布日期、页面州以及索引时间等内容, 实现后的运行效果,如图3 4 所示。 二、o oo 日托。蜀卧“删山“一-甘:阻圳t制 i 誊:嚣嚣? 嚣:嚣慧嚣荨茹? 嚣= 嚣嚣 一。i m l f , 荽= 竺竺= 竺竺竺兰 i 五刮。,一 图3 4 i d w 搜索引擎客户端结果页面 长安大学顷学位诒i 用户也可以通过高级搜索页面进行详细信息查询。高级搜索界面如图3 5 所示。 图3 5j d w 搜索引擎客户端高级查询界面 第p h q 章j d w 查询表单抽取 第四章j d w 查询表单抽取 查询表单是d e e pw e b 后台数据库的唯一入口,因此发现d e e pw e b 站点就是要寻 找这些入口。查询表单的抽取分为两部分:查询表单发现和查询表单抽取。 4 1 查询表单发现 4 1 1 查询表单发现方法 查询表单的发现是指从w e b 中发现具有一个真正w e b 数据库的网站,然后从中发 现可访问这个w e b 数据库的查询表单。完成这个功能主要分为两个步骤:找到w e b 数据库所在的网站;从获得的网站中发现能够对w e b 数据库查询的查询表单。 发现数据库目前有三种方法: 1 从c o m p l e t e p l a n e t t o m 和i n v i s i b l e w e b n e t 这样的网站中获取。虽然不能找到所有 的w e b 数据库,但这些w e b 数据库都己按领域作了分类,对于小规模的集成仍然是一 个有效的方案; 2 遍历w e b 中所有的口n 们。这种方案在理论上可以把所有的w e b 数据库完整地找 出来,但目前大约有2 2 亿3 千万个有效的p ,逐个遍历显然代价过高。因此,该方案 只能作为一种统计研究手段,比如估计整个w e b 上w e b 数据库的规模、w e b 数据库在 各个域上的分布比例等等; 3 利用搜索引擎来搜索,虽然搜索引擎不能获取w e b 数据库中的内容,但可以用 来找到w e b 数据库所在的网站,由于必须向搜索引擎提交查询,因此,这种方案是基于 某个领域的w e b 数据库的发现,也更加具有实际应用意义。 由于我们是针对某领域的d e e pw e b 研究,所以,我们采用第三种方式,利用搜索 引擎来获得w e b 网站。文献 2 0 】中通过大量的观察发现,从网站的主页开始以宽度优先 遍历网站所形成的树,查询表单在这棵树中的深度不会超过5 ,而且9 4 的查询表单不 超过3 ,这样搜索空问就会大大降低。 对于判断页面中是否含有查询表单,我们采用如下的方法:首先,要求页面中要有 f o r m 标签;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论