(管理科学与工程专业论文)面向异步通讯机制的网页搜索技术研究.pdf_第1页
(管理科学与工程专业论文)面向异步通讯机制的网页搜索技术研究.pdf_第2页
(管理科学与工程专业论文)面向异步通讯机制的网页搜索技术研究.pdf_第3页
(管理科学与工程专业论文)面向异步通讯机制的网页搜索技术研究.pdf_第4页
(管理科学与工程专业论文)面向异步通讯机制的网页搜索技术研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向异步通讯机制的罔页蔑素技术研究 面向异步通讯机制的网页搜索技术研究 摘要 随着互联网的飞速发展,信息化正在深刻的改变着世界的面貌和 人们的生活方式。与此同时,互联网信息爆炸性的增长,使得人们如 何快速准确地获取信息的问题日益突出。2 0 世纪9 0 年代,搜索引擎 的出现和快速发展,很好的解决了海量信息搜集和检索的问题。2 l 世纪初,随着w e b 2 0 概念和技术的出现和兴起,互联网进入了全民 “织网”的新时代。作为w e b 2 0 技术基础的各种富客户端技术也随 之得到了大范围的使用和推广。通过采用异步通讯技术,客户端与服 务器端的交互将在后台以异步通讯的方式进行,客户将从枯燥的页面 刷新以及漫长的服务器响应等待中解放出来,客户的请求将得到更快 的响应,服务器端的压力将得到有效的缓解。 本文系统的回顾了搜索引擎页面搜索的研究现状,分析了目前全 文搜索引擎页面搜集和存储的工作原理,介绍了异步通讯技术的工作 原理和优势,总结了在w e b 2 0 环境下,由于采用异步通讯机制而给 搜索引擎所带来的问题,提出了一种面向异步通讯机制的网页搜集技 术的实现方法。 面向异步通讯机制的页面搜索技术研究旨在克服由于采用异步 面向异步通讯直【制的h - 贞搜索技术研究 通讯技术而给搜索引擎所带来的新问题。由于目前全文搜索引擎的搜 集器大多采用基于超链分析的算法,搜集器程序只分析页面的h t m l 代码部分,而忽略页面中脚本区域的代码。而异步通讯技术正是借助 大量的脚本代码来实现的,大量的链接被隐藏在了页面的脚本代码 中。因此需要对现有的搜索引擎的搜集器做适当的改进,使得搜集器 程序可以分析页面脚本区域的代码,将其中的超链接取出。为此,本 文提出了一种借助于脚本运行环境,利用w i n d o w s 消息机制,通过 系统模拟点击页面脚本函数的方法来提取超链接。同时,针对异步通 讯机制所带来的服务器返回不完整页面的问题,采取了导入链接所属 的源页面,通过局部刷新机制,存储刷新后页面的方法来解决信息不 能直接存储的问题。 最后展望了这一课题的后续工作。 关键词:异步通讯,搜索引擎,a j a x ,支持向量机 面向异步通讯机制的同页搜索技术研究 t h ei 乇e s e a t c ho f a s y n c h r o n o u s c o m m u n i c a t i o n 0 r 洽i t e dp a g es e a r c h i n g w i t ht h ed e v e l o p m e n to ft h ei n t e r a c t , i n f o r m a t i o nt e c h n i q u e sh a v e c h a n g e dt h ef e a t u r eo ft h ew o r l da n dt h es t y l eo fp e o p l e sl i f ed e e p l y a t t h es a m et i m e ,t h eg r o w t ho ft h ei n t e r a c ti n f o r m a t i o nm 妇t h e p r o b l e m o fh o wt oo b t a i nt h ei n f o r m a t i o nq u i c k l ya n d a c c u r a t e l ys e r i o u s l y 9 0 si n 2 0 t hc e n t u r y , t h es e a r c he n g i n ed e v e l o p e dq u i c k l y , a n di ts o l v e dt h e p r o b l e mo f c o l l e c t i n ga n ds e a r c h i n gi n f o r m a t i o nw e l l a tt h eb e g i n n i n go f 21 c e n t u r y , a l o n gw i t hw e b 2 0c o n c e p t sa n dt e c h n i c a le m e r g e n c e ,t h e i n t e r n e tg o ti n t ot h em o d e r ne a ro f ”k n i tan e tb ya l lt h ep e o p l e a n dm a n y r i c hc l i e n tt e c h n i q u e sw h i c ha st h eb a s eo fw e b 2 0a l eu s e dw i d e l y t h e a s y n c h r o n o u sc o m m u n i c a t i o ni so n eo fm a i ns y m b o l so fr i c hc l i e n t t e c h n o l o g y t h r o u g ht h ea s y n c h r o n o u sc o m m u n i c a t i o nt e c h n o l o g y , t h e a l t e r n a t i o nb e t w e e nt h ec l i e n ta n dt h es e l n e ri s p r o c e s s i n gi n t h e b a c k s t a g eb yt h ew a yo fa s y n c h r o n o u sc o m m u n i c a t i o n i tw i l ll i b e r a t e c o s t o m e rf r o mt h el o n gs e l n a t 1 1 e s p o n w a i t i n ga n da r i dp a g er e n o v a t i n g a n de f f e c t i v e l yi m p r o v et h eu s e r se f f i c i e n c y i ta l s ow i l l r e s p o n dt o c u s t o m e r s r e q u e s tm o r eq u i c k l y , a l l e v i a t e t h e p r e s s u r eo fs g l n e r e f f e c t i v e l y , a l lo f w h i c hw i l lp r o v i d eab e t t e rs e r v i c et ot h eu s e 体 1 t h i sp a p e rr e v i e wt h ep r e s e n tr e s e a r c hc o n d i t i o no fs e a r c he n g i n e s y s t e m a t i c a l l y ,a n a l y z et h ep r i n c i p i u mo fp a g es e a r c h i n ga n ds a v i n g , a n d i n t r o d u ct h ew o r k i n gp r i n c i p i u ma n da d v a n t a g e so ft h ea s y n c h r o n i e s c o m m u n i c a t i o n , a n ds l i mu ps o m ep r o b l e m sw h i c hw e r eb r o u g h tb y a d o p t i n gt h ew a yo fa s y n c h r o n i e sc o m m u n i c a t i o n t h i sp a p e ra l s op u t f o r w a r da w a yo f p a g es e a r c h i n gf o rt h ea s y n c h r o n i e sc o m m u n i c a t i o n t h er e s e a r c h e so f a s y n c h r o n i e s c o m m u n i c a t i o nf o c u s o n o v e r c o m i n gt h en e wp r o b l e m sw h i c hw e r eb r o u g h tb ya d o p t i n gi t a tt h e p r e s e n tt i m e , t h ew o r k i n gw a yo fm o s tf u l lt e x ts e a r c he n g i n eb a s eo n a n a l y z i n gt h eh y p e r l i n k s ,s ot h es e m c he n g i n eo n l yc a nc o l l e c tt h e h y p e r l i n k sw h i c hi nt h ec o n t e n to f h t m lp a g e ,a n di g n o r et h eh y p e d i n k s w h i c hi nt h ed i s t r i c to f s c r i p tc o d e s t h es c r i p tc o d ep l a y sa ni m p o r t a n t r o l ei nt h ew o r k i n gw a yo fa s y n c h r o n i e sc o m m u n i c a t i o n , ag r e a td e a lo f h y p e r l i n k sa r ec o n c e a l e di nt h ed i s t r i c to fs c r i p tc o d e ,s oi th a st om a k e s o m ei m p r o v e m e n to nt h es e a r c h e n g i n e ,a n dm a k et h es e a r c he n g i n e p o w e r f u le n o u g ht od i go u tt h eh y p e d i n k si nt h ed i s t i n c to fs c r i p tc o d e s t h i sp a p e rp u t sf o r w a r daw a yw h i c hc a na c h i e v et h i st a r g e t t h i sw a y t a k e sf u l la d v a n t a g e so ft h es c r i p te n v i r o n m e n ta n dt h ew i n d o w s m e s s a g e m e c h a n i s m ,i tc a nc o l l e c tt h eh y p e r l i n k st h r o u g hs i m u l a t i o nc l i c k i n g s c r i p t f u n c t i o n i nt h em e a n t i m e , w h e na d o p t i n gt h ea s y n c h r o n i c s c o m m u n i c a t i o n , t h ef e e d b a c kd a t ao fs e r v e ri sn o tac o m p l e t ew e b p a g e , s oi tc a n tb es a v e dd i r e c t l y i no r d e rt os o l v et h i sp r o b l e m ,t h i sp a p e r 面向异步通讯机制的h 页搜索技术研究 i n t r o d u c e saw a yw h i c hu s e st h es o u i c 七p a g ea n dt h e p a r t - r e f r e s h m e c h a n i s mt os a v i n gt h ep a g e f i n a l l y , i tg i v e st h ef u t u i ew o r ko f t h er e s e a r c h k e y w o r d s :a s y n c h r o n i e sc o m m u n i c a t i o n ,s e a r c he n g i n e ,a j a ) ( ,s v m v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示谢意。 签名: 日期:一 ,7 年凡垆 关于论文使用授权的说明 本学位论文作者完全了解浙江工商大学有关保留、使用学位论文 的规定:浙江工商大学有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 日期:口矿7 年月歹日 面向异步通讯机制的嘲贝搜索技术研究 第一章引言 在过去的1 0 年中。互联网已经得到了突飞猛进的发展,互联网也已经从最 初的资源共享,逐渐演变为信息共享2 l 世纪是互联网信息爆炸的时代,随着 互联网的迅猛发展、w e b 信息的数量呈指数级的增加,面对海量的信息,如何快 速、准确、有效的检索信息成为了当务之急。在这种形势下,搜索引擎应运而生 搜索引擎的出现和发展很好解决了海量信息检索这一难题。搜索引擎以一定的策 略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户 提供检索服务,从而起到信息导航的目的。它为数以百万甚至千万的信息孤岛的 互联,提供了强大的工具。 搜索引擎的无处不在,使得信息在全球范围内实现了自由而充分的共享。也 正是由于这一点,网民创造内容和分享知识的热情被充分地点燃,引爆了w e b2 0 的热潮。拉开了互联网个性化时代的序幕。通过互联网,人们已经可以完成比之 前多得多的工作,得到更丰富、更准确、更迅速的反馈,以及更加美妙的体验。 随着w e b 2 0 的快速发展,作为w e b2 0 的技术基础,a j a x 等新一代w e b 开发技 术也随之得到了迅猛的发展和广泛的应用。本文从w e b2 0 的技术基础出发,分 析了a j a x 等异步传输和局部刷新技术的特点,以更加友好的支持w e b 2 0 特点为 目标,设计并构建了一个可实际应用的面向异步通讯机制的网页搜集器。 第一节本文研究背景及意义 对于现代管理学来说,从理论研究到日常的管理实践,对信息的充分性和及 时性要求越来越高。许多管理学的理论探索与实践更是建立在海量信息的统计和 挖掘的基础之上因此,有效信息的及时获取对于管理学的理论研究和管理工作 日常的开展来说,都是至关重要的。当前互联网正处在一个信息爆炸式增长的时 代。互联网的这种飞速发展为管理科学的研究和实践提供了巨大的信息源和强大 的交流平台。另一方面,互联网的这种快速发展,也促进了信息检索技术的发展 和进步,简单方便、准确有效的信息海量数据检索工具也是管理科学工作开展所 必须的。因此,对于管理学本身来说,信息搜索技术的的发展,在客观上推动了 现代管理学的进步,因此,在新的互联网发展形式下,对于信息搜索技术的研究 面向异步通讯机制的同页搜索技术研究 便具有了非常重要的意义 对于电子商务来说,据调研机构o o u b l e c l i c k 提供的调查数据显示,在2 0 0 6 年第2 季度,超过8 5 的上网民众通过搜索关键字词来解决他们的问题,有1 9 1 的用户使用了站内搜索工具,高于前年同期的1 5 1 。并且,通过搜索而获得的 在线销售额占到网站总销售的8 钱。研究表明:消费者在网络上的购物流程大 多数情况下是通过搜索引擎来找到与商品相关的站点,获取一定的信息,然后在 网上购买商品在其中,他们会通过搜索引擎来对比价格和产品的销售商,因此, 一个成功的电子商务站点,必然在搜索引擎中有良好的体现这突现了搜索引擎 在电子商务中的作用。 在未来几年内,电子商务网站最重要的特征是要具备优秀的搜索功能。因此, 拥有高质量的搜索工具对刺激在线零售商的销售收入是至关重要的。高质量的电 子商务搜索工具,带给电子商务的利润非常巨大因此,在某种程度上,是否能 和高质量的搜索相结合可能会左右未来电子商务的发展方向 软件和互联网的发展,导致了一种新的计算模型的出现。这种计算模型的特 色就是软件以平台的方式提供服务,在前台给用户留下表演的空间。计算模型 的这种变化,导致肛b 2 0 的出现。目前,对于w e b 2 0 并没有明确的定义与传 统的w e b l 0 相比。在核心概念上,w e b 2 0 主张努力将互联网改造成为以人为中 心的多向的互联网,强调信息的对等交互和传播,信息接受者同时也是这些信息 的创造者“1 它脱离了w e b i 0 时代传统的信息生产模式,主张提供给用户更方 便的织网工具,鼓励用户提供信息嘲在架构上, e b i 0 使用传统的a s 结构来 实现应用,主张弱化客户端而强化服务器端功能。而w e b 2 0 以b s 结构为基础, 同时融合c s 结构的优势和特点,主张大范围采用和实现富客户端技术,增强客 户端的功能,减轻服务器端负荷,从而为更高级别的应用做基础脚。在交互性和 技术上,w e b i 0 使用传统的基于h t m l 的交互技术,而w e b 2 0 提倡使用大量的 r i 技术,通过各种富客户端技术将服务器的部分功能转移到客户端来实现,快 速响应客户的请求,提高交互的效率,进而提升客户体验度 通过图卜l ,可以看到由w e b i 0 到w e b 2 0 的变化。 面向异步通讯帆锚的网页搜索技术研究 时代 w e b l 0 w e b 2 0 核心概念p u b li s h e rp a r t i c i p a t i o n 架构观b sc s b 所属技术传统w e b r i a 圈1 - 1 | e b l 0 向i e 觇0 的演变 w e b 2 0 强调为用户提供优秀的发布工具、便捷的沟通和展示平台、顺畅的进 入和退出机制、高效的信息整合机制旧这导致了网络应用程序和网页结构都发 生了巨大的变化。客观上也对传统的搜索引擎带来了挑战。全文搜索引擎自诞生 以来其页面搜索方法大多采用基于超链分析的方法,这种基于超链的页面搜索算 法在异步通讯技术面前,一直表现出支持不友好不敏感的缺陷御。随着w e b 2 0 的兴起,a j a x 、f l e x 等具有异步传输和局部刷新特点的富客户端技术将得到了 更加广泛的应用,这也使得原先不被重视的针对异步通讯技术的页面搜索问题变 得十分突出”1 异步通讯的应用,原先存在与页面内容中的大量链接将隐藏在页 面脚本区域中,这种变化将导致搜索引擎严重的。漏抓”问题。同时,异步通讯 机制也将带来局部刷新技术的应用,服务器的响应信息将更加多样化,不再是单 纯的可直接存储的网页,这对网页的存储带来了抚战。因此,对现有搜索引擎页 面搜索技术的研究和改进,特别是改进搜索引擘网页搜集器功能,使其能够更好 的应对w e b 2 0 所带来的w e b 开发结构上的重大变化,是十分迫切的,本文研究 具有很强的理论意义和实际意义 第二节国内外研究现状 一、r l a r i a ( r i c hi n t e r n e t p p l i c a t i o n ,富互联网应用系统) 是集桌面应用程序 最佳用户界面功能、w e b 应用程序的快速、低成本部署以及实时快捷互动的多媒 体通信于一体的新一代网络应用程序。传统的客户机服务器( e l l e n t s e r v e r , 简称c s ) 的应用程序采用图形用户界面,客户端的数据处理能力比较强但由 于客户端应用程序需要进行不断的更新,因此部署成本比较高。浏览器服务器 应用程序即b s 架构的应用程序的出现,解决了c s 应用程序部署和更新困难的 问题。但由于受到了h t 札本身的限制,b s 架构中的客户端只负责展示页面, 缺少必要的智能性,无法像c s 那样使用丰富的效果来展示数据。此外,与服务 面向异步通讯机制的同页搜索技术研究 器的交互也过于频繁,所有的处理响应都由远程的服务器提供,用户体验比较糟 糕。因此,r i 的出现实际上是带来了重新在客户端和服务器端之问进行更好的 平衡的机会,体现了应用程序设计的一种回归,如图卜2 所示r i a 克服了h t m l 的局限性,同时保持了集中部署管理的特点,并添加了桌面应用程序的丰富性和 易控性。r i 的客户端应用程序使用异步客户服务器架构连接现有的后端应用 服务器,这种交互模型由w e b 服务所驱动,是一种新的具有安全、可升级、良好 适应性以及面向服务特征的模型m r i 中的r i c hc l i e n t ( 丰富客户端) 客户 机在r i 中的作用不再仅仅是展示页面,客户机可以提供可承载己编译客户端应 用程序的运行环境的功能,这种运行环境能够显示集成的用户界面和综合使用声 音和图像。客户机更可以在不依靠与服务器进行实时通讯的基础上,能够将请求 数据缓存在客户端,在后台以异步通讯的方式对用户请求进行计算和传送,从而 可以实现一个具有更快响应速度且数据往返于服务器的次数更少的用户界面。 圈l - 2 应用程序回归圈 早期的r i 技术,可以认为包括j a v a 平台的a p p l e t 和w i n d o w s 平台的 a c t i v e x 两种。这两种技术在浏览器安全模型中执行,并且只具有有限的访问桌 面端应用程序和数据的功能。如果想提供更多的桌面集成,则必须通过为浏览器 安装由权威机构办法的数字证书这非常麻烦的方法来实现。同时,a p p l e t 必须 要有j w ( j a y a 虚拟机) 的支持,而大部分浏览器都不支持最新的j v m ,用户要运 行a p p l e t ,还必须单独下载、安装并部署j 埘。而a c t i v e x 技术,则只能在i e 中使用,这就限制了用户必须使用w i n d o w s 平台随着互联网迈入了w e b 2 0 开 发的新时代,新的应用需求对r i a 提出了更加高的要求,在过去的两到三年中, w e b 开发人员一直致力于将r i a 构建为一种比传统t 1 w l 更丰富的、能实现的接 口更加健壮的、反应更加灵敏和更具有令人感兴趣的客户端 二、a j a x w e b 2 0 带来了互联网的革命,它的成长和运行吸引了包括开发人员、风险 4 面向异步通讯机制的同甄搜索技术研究 投资商、市场和最终用户等在内的所有人的目光。1 与w e b l 0 不同,w e b 2 0 强 调w e b 客户端化,强调w e b 应当作为一个应用开发的平台,而不仅仅是网页。 而r i a 是w e b 2 0 的具体实现目前,r i a 的代表有m s c l i c k o n c e ,a d o b ef l a s h 。 s u nj a v a - e bs t a r t ,以及a j a x 等叫图1 - 3 显示了这些名词之间的关系。应 该说,各大厂商均看到了r i a 美好的未来,纷纷行动起来投入到该领域。 圈卜3a j a x ,r i a 与w e b 2 0 关系图 a j a x ( a s y n c h r o n o u sj a v a s c r i p ta a dx m l ,异步j a v a s c r i p t 和煳l ) 是一 种创建交互式应用的网页开发技术严格意义上来讲a j a x 不是一个技术,而是 几种技术的组合,每种技术都有其独特这处,合在一起就成了一个功能强大的新 技术。a j a x 包含了c s s ( c a s c a d i n g s t y l e s h e e t s ) 、d o m ( d o c u m e n t o b j e c tm o d e l ) 、 x h t m l 、x s l t 等技术。它使用文档对象模型进行动态显示和交互,使用瑚l 和x s l t 进行数据交互和操作,使用x m l h t t p r e q u e s t 进行异步数据接收,而j a v a s c r i p t 起到粘合剂的作用,将所有的东西绑定在一起“”。图1 - 4 显示了a j a x 的技术结 构框架。 图1 - 4a j a x 的技术结构框架图1 在所有的r i a 技术中,a j a x 以其开源的风格,基于标准化的技术,以及出 众的浏览器兼容性而突现出来。在实现高可用性和高交互能力的用户界面上显示 了强大的生命力和成长性。与a j a x 技术的无需改变客户端而直接运行的特点相 面向异步通讯机制的同页搜索技术研究 比,其他的各种技术目前都或多或少的还表现出一些兼容性的问题。因此,a j a x 已经成为了w e b 2 0 事实上的技术支撑1 与上世纪9 0 年代末的d i i t m l 相比,a j a x 更加强调符合真正的w e b 标准的开发方式,基于真正的w e b 标准做开发,充分地 利用w e b 标准发展的各项成果,利用最先进的技术为用户提供更好的交互体验。 a j a x 理念的出现,揭开了无刷新更新页面时代的序幕,大部分交互在页面之内 完成,不需要切换整个页面。并且在页面内使用异步方式与服务器通信,不需要 打断用户的操作,具有更加迅速的响应能力由此可见,a j a x 使得w e b 应用更 加动态,带来了更高的智能,并且提供了表现能力丰富的u i 组件,缓和并解决 了从网络开始诞生起,w e b 应用程序就面临的许多问题“4 。 作为搜索引擎届的巨头和a j a x 的先驱者,6 0 0 9 l e 公司率先采用a j a x 技术, 并建造出了包括g o o g l em a p s 、g m a i l 、g o o g l es u g g e s t 等在内的一大批非常有 特色的应用,将a j a x 技术引到了聚光灯下在后台技术差别不大的时候,使用 a j a x 技术,提供优秀的交互设计,制造出超越竞争对手的高交互体验的产品就 成为了众多竞争者的竞争筹码和法宝。从g o o l g e 的g o o g l e m a p 、6 m a i l 到y a h o o 的f l i c k e r ,再到a m a z o n 的a 9 c o a l 搜索引擎,高客户体验度产品的巨大成功, 使得i t 界巨头们都成为了a j a x 技术坚定的拥护者和胜利者。市场的欢迎程度证 明了,a j a x 这项技术正在完成从支流到主流的鸿沟的跨越。同时i e 和基于 m o z i l l a 的f i r e f o x 这两个占据市场分额最大浏览器,都支持在浏览器上轻松创 建基于a j a x 的w e b 应用这为开发运行在更为先进的w e b 浏览器上的基于a j a x 的富w e b 应用成为了可能,也为a j a x 技术的大规模应用扫清了道路与此同时, i b m 、o r a c l e 、y a h o o 、b e a 、r e d h a t 、n o v e l l 等页界领先的公司都启动了o p e na j a x 项目,致力于为a j a x 开发建造先进强大的的开发工具。i b m 在2 月底已经发布 了o p e na j a x 项目的a j a xt o o l k i tf r a m e w o r k ( t f ) 1 0 ,这是一个基于e c l i p s e i d e 的a j a x 开发工具。微软开发了自己的a j a x 框架h l t a s ,主要是和服务器端 的a s p n e t 框架配合工作,s u n 也将a j a x 技术列入了j 2 e e 的b l u e p r i n t 中,作 为j 2 e e 技术的有益的补充“町 三、b 2 o 环境下的搜索引擎页面搜索 目前,随着互联网的高速发展,w e b 已经成为这个世界上最大的信息来源 w e b 的发展给人类生活带来了巨大的方便,在互联网发展初期,网站相对较少, 6 面向异步通讯机制的h 搜索技术研究 信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的 资料简直如同大海捞针,这时为满足大众信息检索需求的搜索引擎便应运而生 了。 搜索引擎的技术流派可以分为三类:第一类是全文搜索引擎( f u l lt e x t s e a r c he n g i n e ) 即利用计算机程序自动进行信息处理的自动化派,其典型代表 国外有6 0 0 9 l e 、g h u n6 0 0 9 l e 、f a s t a l l t h e w e b ,a l t a v i s t a 、i n k t o m i 、t e o m a 、 w i s e n u t 等,国内著名的有百度( b a i d u ) 等;第二类是目录索引类搜索引擎 ( s e a r c hi n d e x d i r e c t o r y ) ,即以人工进行信息分类处理为主的人力加工派, 这方面的典型代表是早期的y a h o o ,正在兴起的w e b2 0 、网摘等社区化搜索是 这一流派的新发展;第三类是元搜索引擎( m e t as e a r c he n g i n e ) ,即强调智能 化人机交互、协f 弓的融合派,目前英文y a h o o 的搜索引擎正在发展这方面的技术, m s nl i v e 也显示出其更加重视融合性的特点,联索i f a c e 专业搜索融入了用户 知识和机器学习方法,可以看作是融合派在中文搜索引擎方面的典型代表“” 在各类搜索引擎中,全文搜索引擎是名副其实的搜索引擎。全文搜索引擎把 从互联网上提取的各个网站上的信息按照一定的规则和逻辑组成网页数据库,并 为数据库建立网页索引,当有客户查询需求到达时,从数据库中检索出与用户查 询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。全文搜索引 擎借助于高性能的“网络蜘蛛”去自动地在互联网中漫游,发现和搜集信息。 “网络蜘蛛”通常是一个计算机程序,日夜不停地运行。一个典型的网络蜘蛛工 作的方式是:查看一个页面,并从中找到相关信息,然后它再从该页面的所有链 接出发,继续寻找相关的信息,。以此类推,直至穷尽“”。网络蜘蛛”即搜索引 擎的搜集器要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上 的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效 连接“”。目前有两种搜集信息的策略:一种是从一个起始u r l 集合开始,顺着这 些u r l 中的超链接,以宽度优先、深度优先或启发式方式循环地在互联网中发现 信息。这些起始u r l 可以是任意的u r l ,但常常是一些非常流行、包含很多链接 的站点( 如y a h o o 、s i n a 等) 。另一种是将w e b 空间按照域名、i p 地址或国家域 名划分,每个搜索器只负责一个子空间的穷尽搜索。 在w e b 2 0 的环境下,山于w e b 2 0 本身强调强化客户端的功能,因此,各类 用于增强客户端功能的富客户端技术被广泛使用,这导致了网页在结构上发生了 7 面向异步通讯机制的同页搜索技术研究 重大的变化。针对这种变化,目前的一些搜索引擎界的巨头,如g o o g l e 、百度 等都在其原有产品的基础上开发可以搜索富客户端技术实现的网页的产品,但 由于原有搜索引擎产品自身特点的束缚,以及富客户端技术的多样性等因素的制 约,因此,绝大多数这类产品还只处于研究阶段。此外,出于商业用途,许多搜 索引擎界的公司都将研究成果严加保密,公开发表的有关学术成果和技术非常 少目前针对搜索引擎。漏抓”的问题,普遍采用的是人为的修改页面的方法, 即通过s e o ( s e a r c he n g i n e0 p t i m i z a t i o n ,搜索引擎优化) 的方法来实现。s e o 的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如 何确定其对某一特定关键词的搜索结果捧名等技术,来对网页进行相关的优化, 人为的将一些链接放入网页,使得搜索引擎可以捕捉到一些与网页有关的链接, 提高搜索引擎捧名。在搜索引擎方面做的工作,目前还没有通用的可以搜索各类 富客户端技术实现的网页的网页搜集器 第三节研究内容 随着互联网信息的不断增长,如何主动地为互联网用户提供高质量的信息服 务已经成为互联网应用中一个重要研究课题。本文以w e b 2 0 的技术基础a j a x 为切入点,对面向异步通讯的页面搜索算法和技术,以及对具有多样性和不完整 性特征的服务器响应信息的存储进行了深入的研究,构建了一个面向异步通讯的 搜索引擎搜集器。 一、基于s v m 的网页分类器 。 分析了s v m 的算法特征,用c 语言实现了s v m 模型算法,并且根据采用a j a x 技术实现的网页的特点,确定向量元素,基于s v m 的网页分类器可以自动采集当 前网页的向量元素的值,通过判别模型进行网页类型判别,以区分采用a j a x 技 术的网页和没有采用a j a x 技术的网页,为页面搜索做一个前期处理工作 二、面向异步通讯的页面搜索 针对采用a j a x 技术将导致搜索引擎无法取得有效链接列表的问题,本文设 计的面向异步通汛的页面搜索系统能够适应a j a x 技术的特点,借助j a v a s c r i p t 脚本运行环境,通过分析页面代码特征,采用w i n d o w s 消息机制触发页面 8 面向异步通讯机制的网页搜索技术研究 j a v a , s c r i p t 响应函数,截取客户端请求并加以分析提取u l i l 的方法,获取隐藏 在脚本代码区域中的链接。 三、不完整响应信息的存储 采用a j a x 技术构建w e b 应用,服务器返回的响应信息将呈现多样性,而不 再是单纯的可直接存储的网页,针对服务器不同的响应信息类型,借助 j a v a s c r i p t 脚本运行环境,采用导入源页面,局部刷新的方法,对无法直接存储 的服务器响应信息包装成可存储的完整页面,为页面存储创造条件。 第四节创新点 l 、根据s v m 分类算法的特点,设置向量元素和样本数据,建立基于s 的网 页分类模型,借助计算机语言,实现网页分类系统。利用这个网页分类器,有效 提供搜集器的工作效率。 2 、根据a j a x 页面的表现特征,提出面向异步通讯机制的页面搜索方法,通 过分析页面中的脚本代码,提取脚本函数,利用w i n d o w s 的消息机制和网页标签 句柄唯一性的特点,通过系统模拟点击,捕捉隐藏在脚本代码处的超链接,从而 使得搜集器能够有效采集到采用a j a x 这种异步通讯技术网页中的超链接信息 源,有效解决搜索引擎搜集器在面对异步通讯技术实现的网页时所面l 临的“漏抓” 问题。 3 、在网页存储方面,针对异步通讯技术所带来的服务器返回信息多样化的特 点,通过页面存储再处理系统,将反馈信息包装成可直接存储的完整网页信息 第五节论文章节安排 本文共分六章。 论文的第一章介绍与本文研究工作相关的基本背景:然后简要介绍目前国内 外对该领域的研究现状;接着对本文的研究内容作一概要性总结,提t r g , j 新点; 最后介绍论文内容的组织框架。 论文的第二章首先介绍了全文搜索引擎的工作原理以及页面搜索和存储方 法,接着对异步通讯技术的原理、异步通讯的优势以及异步通讯对搜索引擎的页 9 面向异步通讯机制的同页搜索技术研究 面搜索所带来的挑战进行了探讨 论文的第三章介绍了构建一个面向异步通讯的搜索引擎页面搜集系统的步 骤和框架,包括系统结构、系统流程及实现的要点。 论文的第四章介绍了s 的基本思想,列举了网页采用a j a x 后所具有的一 般特征,并以此确定向量元素。构建了基于s v h 的网页分类器,并对分类器的分 类效果做了评价 论文的第五章介绍了面向异步通讯的搜索引擎搜集器的具体实现,包括对网 页链接提取和处理子系统和页面存储子系统实现过程的介绍,最后对面向异步通 讯的搜索引擎搜集器的工作效果和效率进行了评价 论文的第六章对本文所做的研究工作做出总结,并对其进行后续展望。 面向异步通讯帆制的h 页搜索技术研究 第二章相关技术研究 第一节全文搜索引擎工作原理 传统的全文搜索引擎一般由收集器、索引器和检索器三个部分组成。搜索引 擎的信息收集器也称为蜘蛛程序( s p i d e r ) 。搜索引擎通常同时运行多个收集器, 每一个收集器可以同时打开几百个链接,s p i d e r 按照一定的网络协议,沿着网 页中的所有u r l 爬到其它网页并把网页收集回来保存到本地的网页数据库中。收 集器不断重复着上述过程,尽可能多的收集信息“”。索引器对收集回来的网页进 行分析,提取相关网页信息( 包括网页的u r l 、编码类型、页面内容包含的关键 词及其位置、生成时问、页面大小、与其它网页的链接关系等) ,根据一定的相 关度算法进行计算,得到每一个网页针对页面内容中及超链中每一个关键词的相 关度( 或重要性) ,然后用这些相关信息建立网页索引数据库当有搜索请求时, 检索器从网页索引数据库中找到符合该关键词的所有相关网页。并根据关键词的 相关度将网页排序。最后,由页面生成系统将搜索结果的链接地址和页面内容摘 要等内容组织起来返回给用户 图2 - 1 搜索引擎工作原理图 图2 - l 是著名搜索引擎g o o g l e 的工作原理图,o o o # e 搜索引擎通过几个分 布式收集器来完成网上信息的搜集工作。收集器所需要的u r l 列表则由u r l 服 面向异步通讯帆制的同页搜索技术研究 务器负责提供,收集器将搜集到的w e b 页面信息发送给存储服务器,随后存储 服务器将这些页面信息压缩后存放到一个知识库中,并赋予每一个网页一个唯一 的文件号索引器和排序器负责完成建立索引的工作索引器在建立索引的过程 中承担读取、解压并从语法上分析知识库中存放的页面信息的工作。经语法分析 之后,每一个页面被转换为一组词频集合( w o r do c c m v e n c e s ) ,称为采样( h i t s ) 。 采样中记录了语词、语词在页面中的位置、字体人小以及大小写等,索引器将这 些信息分装在数据库组( b a r r e l s ) 中,产生经过捧序的索引索引器的另一项重要 功能是分析网页上的所有链接,并将链接的重要信息放在锚点文件中。根据锚点 文件的信息可确定每个链接的u r l 解析器,索引器读取锚点文件的数据,将相 对u r i s 转换为绝对u r l s ,并依次存放到文件索引库中。u r l 解析器将锚点文 本存放到索引中。u r l 解析器还产生一个用于计算所有文件的页面等级 ( p a g c r a a k ) 的链接库排序器读取数据库中的数据,重新按语词捧序形成倒捧索 引捧序软件也生成一系列语词,并补充到倒捧索引中。另外一个程序将捧序器 产生的语词和索引器所生成的词表,生成一个新的词表,以供杏询使用当查询 请求到达时,系统根据词表以及页面等级进行查询并捧序输出“” 第二节页面搜索算法研究 搜索引擎搜集器的功能是在互联网中并搜集信息,它搜集的信息类型多种多 样,包括i f f m l 页面、x 虬文档、n e w s g r o u p 文章、f t p 文件、字处理文档、多媒 体信息等伽。搜集器网页的搜集的过程是从u r l 库( 初始时包含用户指定的起始 种子u r l 集合,可以是一个或者多个) 获得输入,通过对网页的链接地址的访问 来寻找网页,解析u r l 中标明的w e b 服务器地址、建立连接、发送请求和接受数 据,将获得的网页数据存储在原始网页库,并从中提取出链接信息放入网页结构 库,同时将待抓取的u r l 放入i j r l 库,保证整个过程的递归进行,直到u r l 库为 空1 整个过程如图2 2 所示如果把整个互联网当成一个网站,那么搜集器就 可以用这个原理把互联网上所有的网页都抓取下来。 1 2 面向异步通讯机制的h 页搜索技术研究 图2 2u 甩搜集过程图”1 搜集器在搜集页面时,往往参照一定的策略进行搜索,搜集器的工作效率和 效果与搜集策略有很大的关系,一般搜索引擎的页面搜集策略通常可以分为线性 搜集策略、深度优先搜集策略、宽度优先搜集策略以及收录搜集策略四种。 i 线性搜集策略 线形搜索策略的基本思想是从一个起始的i p 地址出发,按i p 地址递增的方 式搜索后续的每一个i p 地址中的信息,通常完全忽略各站点的h t m l 文件中指向 其他w e b 站点的超链接地址。线性搜索策略适用于小范围的全面搜索,利用此种 策略的搜集器可以发现被引用较少或者还没有被其他h t m l 文件引用的新h t m l 文件信息源。但由于动态i p 的存在,因此这种策略不适用于大规模的搜索 2 深度优先搜集策略 深度优先搜集策略是早期开发搜集器使用较多的一种方法,它的目的是要达 到被搜索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论