(计算机软件与理论专业论文)基于web挖掘的中文专业搜索引擎设计关键技术研究.pdf_第1页
(计算机软件与理论专业论文)基于web挖掘的中文专业搜索引擎设计关键技术研究.pdf_第2页
(计算机软件与理论专业论文)基于web挖掘的中文专业搜索引擎设计关键技术研究.pdf_第3页
(计算机软件与理论专业论文)基于web挖掘的中文专业搜索引擎设计关键技术研究.pdf_第4页
(计算机软件与理论专业论文)基于web挖掘的中文专业搜索引擎设计关键技术研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

y - 6 7 1 0 9 5 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 摘要 随着w w w 技术的广泛应用,传统的通用搜索引擎正面临巨大的挑战,存在着 查全率不高、检索的精度不高、更新不及时、不能很好地表达用户需求、提交的 搜索结果中包含大量与用户无关的信息、缺乏个性化和智能化等问题。同时,越 来越多的不同领域的客户群,他们急需的是能够提供高效检索其业内信息的专业 搜索引擎。 面向特定主题信息的专业搜索引擎( t o p i c s p e c i f i cs e a r c he n g i n e ) ,通 过采用导向词导引、定点采集、定题采集、网站结构挖掘等特有的方法来提高查 全率和查准率,保证其较高的时效性、专业性并提供更好的个性化服务,从而可 高效地发掘特定领域的信息,提供有特色的检索服务。 本文阐述了基于w e b 信息挖掘技术的专业搜索引擎的设计与实现,并着重分 析了基于特定主题的爬取方法、网页特征的综合描述方法、网页分类技术、专业 分词词典的构造;通过对网页的按功能分类及超链接分析,研究并建立了一种网 站结构挖掘的模型;提出了类别向量和特征向量的特殊构造方法,利用改进的v s m 方法将结构挖掘和内容挖掘结合起来,并设计了特定主题的自动分类算法,对基 于w e b 挖掘的中文专业搜索引擎的设计与实现具有较好的理论和实践价值。 关键词:专业搜索引擎、w e b 挖掘、主题搜索、自动分类、向量空间模型 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 a b s t r a c t w i t ht h er a p i de x p a n s i o no fw w w , t h et r a d i t i o n a lg e n e r a ls e a r c he n g i n e sa r e e n c o u n t e r i n gt h es e r i o u sc h a l l e n g e sb e c a u s eo ft h e kp o o rr e c a l l a n dp r e c i s i o n t h e y c a nn o tu n d e r s t a n dt h eu s e r s r e q u i r e m e n t sa c c u r a t e l y a n dt h e s e a r c h i n g r e s u l t s r e t u r n i n gc o n t a i nt o o m u c hi r r e l e v a n ti n f o r m a t i o n m o r e o v e r , t h e yl a c kp e r s o n a l i t y a n di n t e l l i g e n c e a tt h es a m et i m e ,m o r ea n dm o r e u s e r sf r o md i f f e r e n tf i e l d sd e s i r et o h a v et o p i c s p e c i f i cs e a r c he n g i n e ( n a m e l yv e r t i c a lp o r t a l ) t or e t r i e v ei n f o r m a t i o no n s p e c i f i cs u b j e c te f f i c i e n t l ya b o u t t h e i rf i e l d s t o p i c s p e c i f i c s e a r c h e n g i n e h a se x c e l l e n tr e c a l la n dp r e c i s i o n ,i t c a nb e u p d a t e d i nt i m ea n d p r o v i d em o r es p e c i a l i z e di n f o r m a t i o na n dp e r s o n a l i z e ds e r v i c e s s i n c ei tu s e si n t e l l i g e n ts t r a t e g i e ss u c ha so r i e n t a t i o nw o r d s ,g a t h e r i n gi n f o r m a t i o no n s p e c i f i c w e bp o r t a l sa n df o rs p e c i f i ct o p i c s ,u s i n gw e bp o r t a l ss t r u c t u r em i n i n g t e c h n o l o g y t h i st h e s i sd e s c r i b e st h ek e yt e c h n o l o g i e so nd e s i g na n di m p l e m e n t a t i o no f c h i n e s e t o p i c s p e c i f i cs e a r c he n g i n e b a s e o nw e b m i n i n gi nd e t a i l s f o c u s i n g o l l f o c u s e d c r a w l i n g ,t h ec o m p r e h e n s i v ed e s c r i p t i o n o f w e b p a g e , a u t o m a t i c c l a s s i f i c a t i o n ,t h e c o n s t r u c t i o no fs p e c i a l i z e dd i c t i o n a r yf o rs p l i t i n gw o r d s i nt h i s p a p e r ,w es t u d ya n d b u i l do n em o d e lo fp o r t a ls t r u c t u r em i n i n gt h r o u g ht h ew e b p a g e c l a s s i f i c a t i o nb yf u n c t i o na n dh y p e r l i n ka n a l y z i n g w i t ht h i s ,w es t u d yas p e c i f i c c o n s t m c t i o nm e t h o do fc a t e g o r yv e c t o ra n df e a c t m ev e c t o ro fw e b p a g ea n dg i v ea l l t o p i c - s p e c i f i c a u t o m a t i cc l a s s i f i c a t i o na l g o r i t h mo fw e b p a g eb a s i n go ni m p r o v e d v s m , w h i c hc o m b i n i n g w e bs t r u c t u r em i n i n ga n dw e bc o n t e n tm i n i n g a l lo ft h e m a r ev e r yu s e f u lf o rt h ed e s i g na n di m p l e m e n t a t i o no ft h ec h i n e s et o p i c 。s p e c i f i c s e a r c he n g i n eb a s e d o nw e bm i n i n g k e y w o r d :t o p i c - s p e c i f i c s e a r c he n g i n e ,w e bm i n i n g ,f o c u s e dc r a w l i n g , a u t o m a t i cc l a s s i f i c a t i o n ,v s m 研究生姓名 华南师范大学 硕士学位论文 舞蓖随 学位论文答辩合格,特此证明 学位论文答辩委员会委员( 签名) 主席:勉聱 委员:跬! 豳 塞! ! 鎏 论文指导教师( 签名) :逝 缎懈 豁丝 如p 毕年 五日| lb 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 1 1 问题的提出 篼一章绪论 近年来,随着w w w 技术的广泛应用,网络上的信息资源飞速膨胀,如何在浩 瀚如海的信息空间里快速查找并获取所需的信息已成为信息时代最根本的问题 之一。搜索引擎在一定程度上解决了网上信息检索的问题;但是,传统的通用搜 索引擎,如g o o g l e 、f a s t 、a 1 t av is t a 和g o t o 等正面l 临巨大的挑战: 1 w e b 信息资源呈几何数级增长,搜索引擎无法索引所有页面。 网上信息的急剧膨胀往往是单个独立搜索引擎的检索能力所难以招架的。据 统计,国内外的一些著名的搜索引擎的搜索结果的最高覆盖率不过是3 0 。通用 搜索引擎返回的网页通常重复太多、信息相关度差、精确度不高。 2 w e b 信息资源的动态变化,搜索引擎无法保证对信息的及时更新。 在目前的硬件条件下,通用综合搜索引擎的网页一般是每月更新卜3 次,对 于瞬间即变的市场信息,特别是证券财经信息等无法进行及时的捕捉,时效性不 强。 3 传统的搜索引擎不能满足人们对个性化信息检索服务的日益增长的需要。 通用搜索引擎由于其涉及领域太广,因此在某些特定领域的查询上则不够深 入和专业化。 针对这种状况,人们提出了基于主题信息发现、针对某一领域的“专业搜索 引擎”( t o p i c s p e c i f i cs e a r c he n g i n e ) ,它可以在某一专门的领域取得比综合 型搜索引擎更满意的结果,满足了某些特定用户的需要。专业搜索引擎通过采用 导向词导引、定点采集、定题采集、网站结构挖掘等特有的方法来提高查全率和 查准率,保证其较高的时效1 生、专业性并提供更好的个性化服务。 同时,w w w 是一个巨大的、分布广泛的全球性信息服务中心,涉及新闻、广 告、消费信息、金融管理、教育、政府、电子商务等信息服务,基于w w w 的w e b 页面除了包含丰富的页面信息外,还包含了丰富和动态的超链接信息、w e b 页面 的访问与使用信息等,这些资源为基于w e b 页面数据挖掘的专业搜索引擎提供了 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 丰富的数据源,可为无论是页面使用者、提供者还是由此产生的衍生产品等的数 据挖掘应用提供了强有力的市场支撑与利益驱动,并日益成为w e b 应用研究热 点。 国外在特定主题的w e b 信息发现方面的研究在近几年才开始,且多处于理论 阶段,应用尚不成熟。19 9 9 年,卡内梅隆大学计算机科学学院的j a s o nr e n n i e , a n d r e wm c c a l l l u m 等学者研究了机器学习技术在特定领域的w e b 信息发现中的 应用,试探性地开发了用于搜索计算机科学领域的研究论文的主题搜索引擎系统 c o r a l l 6 1 。从他们其后的报告和著作来看,整个应用的效果并不是非常理想。在国 内,因为中文语言和荚美语言的差异性,中文搜索引擎的开发相比国外搜索引擎 要复杂得多,涉及到中文信息的智能处理和检索这个跨学科领域。国内中文搜索 引擎技术方面的研究和应用亦较晚,在特定主题的w e b 信息发现技术方面的研究 则刚刚起步,主要以承担了国家9 73 重点基础研究发展规划项目“网络环境下海 量信息组织预处理的理论与方法研究”的北大计算机网络与分布式系统实验室为 代表。他们将面向主题的搜索引擎系统称为第四代搜索引擎,进而将天网主题搜 索引擎纳入其项目计& 2 p s i 2 9 1 。 总之,基于特定主题w e b 信息发现( 挖掘) 技术的专业搜索引擎,无论在理 论研究上,还是在应用上都尚处于不成熟阶段,因此,对这一课题的理论研究和 实践探索具有较高的学术及应用价值,当然,也具有较大的挑战性。 1 2 本文的研究内容 ( 1 ) 研究和分析基于特定主题的w e b 信息发现技术。本文在分析一般搜索 引擎的体系结构和工作原理的基础上,总结和分析了基于w e b 挖掘中文专业搜索 引擎所采用的技术,包括w e b 挖掘技术、基于特定主题爬取方法、网页特征的综 合描述方法、网页分类技术、专业分词词典的构造过程等。 ( 2 ) 通过对网页的按功能分类及超链接分析,研究并建立了一种网站结构 挖掘的模型。 ( 3 ) 在网站结构挖掘模型的基础上提出类别向量的一种特殊的构造方法, 利用改进的v s m 方法将结构挖掘和内容挖掘结合起来实现特定主题的自动分类 算法,为基于w e b 挖掘的中文专业搜索引擎的实现提供一种新的实现方法。 2 基于w e b 挖掘的中文专业搜索 i 擎设计的关键技术研究 ( 4 ) 基于前面的研究,本文以证券信息自动分类为主题背景,提出了基于 w e b 挖掘的中文专业搜索引擎( s t o c k e n g i n e ) 的设计思想,具体包括系统的数据 流程图、系统框架、数据结构等,并进行了初步的原型设计,对( 2 ) 和( 3 ) 提 出的思想进行验证。 1 3 本文的组织 本文内容按如下线索组织: 第一章中,通过对现有通用搜索引擎存在问题的分析,提出了本文的研究内 容及其在理论和实践方面的意义。 第二章和第三章分别讨论了搜索引擎的工作原理并口w e b 挖掘的主要内容,第 四章介绍了网页的特殊结构和分类技术,为后面各章的展开打下基础。 第五章、第六章和第七章是本文的重点。第五章讨论了网站结构挖掘的流程、 超链接分类算法以及页面的按功能分类,这些是w e b 结构挖掘和定点采集技术的 关键技术。第六章提出了类别向量和特征向量的特殊构造方法,这种特殊构造法 将结构挖掘和内容挖掘统一起来;本章利用改进的特征向量模型( v s m ) 实现了网 页的自动分类。第七章介绍了分词技术和专业分类词典的构造,他们是系统的基 础性工作,对系统的性能关系重大。 第八章介绍了s t o c k e n g i n e 系统的系统结构,它是利用上述技术开发的一 个系统模型。第九章是本文的总结和展望。最后是致谢和参考文献。 基于w e b 挖掘的中文专业搜索引擎设计的关键技术酬究 第二章搜索引擎技术概述 2 1 搜索引擎的种类 根据搜索引擎工作原理和提供服务方式的不同,可将搜索引擎分成如下几 种: ( 1 ) 目录式搜索引擎( d ir e c t o r ys e a r c he n g i n e ) 其典型代表是y a h o o ! ,此类搜索引擎通过有专业知识的网页编辑人员对网上 的网页进行精选,建立一个索引目录,来给用户提供服务。其优点是提供的网页 准确率高,可以有效的覆盖所有热门的主题,但它们的缺点是过于主观,而且需 要高昂的代价来建立和维护,更新改进的慢,同时不能很好的覆盖所有深奥m - 主- 题。 ( 2 ) 机器人搜索引擎( c r a w l e r - b a s e ds e a r c he n g i n e ) 该类搜索引擎如g o o g l e 等,它们通过r o b o t 程序自动地从网上搜集和分析 网页,建立索引,为用户服务。这类搜索引擎通过关键词匹配的方式为用户提供 查询服务,其优点是涵盖的网页数量巨大,但通常返回太多的低质量相关性不大 的结果。 ( 3 ) 元搜索引擎( m e t as e a r c he n g i n e ) ( 智能桌面元搜索引擎中个 生化研究) 元搜索引擎的核心思想是,将分布于网络申异构的独立的搜索引擎,采用统 一的用户界面集成起来。当用户向元搜索引擎发出检索请求后,元搜索引擎再将 此查询分发给其下的各个搜索引擎。这些搜索引擎完成了相应的查询后,将检索 结果反馈给元搜索引擎,此时需要对查询结果进行集成,比如剔除重复的u r l 、 根据某一算法进行网页排序等。当前的元搜索引擎的技术得到了迅速的发展,已 有大量的元搜索引擎的实例产生。比如m e t a c r a w l e r 是由华盛顿大学研制的元 搜索引擎,它能够同时调用6 个搜索引擎并行检索,包括l y c o s 、i n f o s e e k 、 w e b c r a w l e r 、e x c i t e 、a 1 t a v is t a 【删。s a v v y s e a r c h 是一个并行的元搜索引擎, 可以同时调用2 1 个独立的搜索引擎【3 “。 ( 4 ) 专业搜索引擎( t o p i c s p e c i f i cs e a r c he n g i n e ) 4 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 随着- 4 r 1 4 言息意识的增强,人们对获取信息的时效性、针对性、多媒体性等 方面有了新的要求,提出了专业搜索引擎的概念。专业搜索引擎有时又称为主题 搜索引擎或垂直网站( v c r t i c a lp o r t a l ) ,它针对某一特定领域,某一特定人群 或某一特定需求,提供内容集中而深入的信息与服务。 2 2 中文搜索引擎的现状及目前存在的问题 2 2 1 中文搜索引擎的现状 我国于1 9 9 4 年4 月正式联入因特网,发展时间较短,加之中文信息的处理 较英文信息更为复杂,因而中文搜索引擎的研制开发,投入使用也是近几年才开 始的。但它的发展却十分迅速,据“中文导航及搜索引擎指南”网页统计,目前 国内较完备的搜索引擎有13 0 多个,其中较好的有搜狐( s o h o o ) 、新浪网( s i n a ) 、 网易( 1 6 3 c o m ) 、天网( h t t p :e p k u e d u c i l ) 等。我国香港地区拥有更为普及 的因特网基础,并有一批著名的搜索引擎,如台湾的蕃薯藤,香港的茉莉之窗等。 近年来随着互联网在中国的迅速发展,国外一些网络企业开始瞄准中国互联网这 一未来的巨大市场,一些西方大型搜索引擎公司也纷纷进入中国市场,如y a h o o 、 g o o g l e 和a 1 t a v is t a 等也先后推出了中文版的搜索引擎。 2 2 2 中文搜索引擎目前存在的问题 中文搜索引擎的分类体系尚不完善。 由于我国搜索引擎发展起步晚速度又快,目前在这方面尚未出现统一的分类 标准,也没有实施和规定规范的网络术语,以致于各搜索引擎在分类和命名时无 据可依。具体表现在:一是中文搜索引擎很多,他们之间没有一个统一的严格的 分类标准,导致类目体系不一,且层次不合理,类目设置不科学,类目之间逻辑 差,类目设置随意,无分类代码,分类体系变动大;二是我国网站许多术语并不 规信息化与网络建设范,类名也不统一,结果造成了混乱,让用户无所适从。 国内的网站所采用的收集资料的技术比较落后。 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 这主要是由于它们绝大多数采用目录式搜索引擎,即通过人工发现信息并依 靠编目员的知识进行分类,从而使搜索引擎收集的范围小、信息少,获得的信息 资料不齐全、不完整。这些问题的实质是搜索引擎缺乏知识理解能力和自然语言 的处理能力。 2 3 搜索引擎体系结构 大部分搜索引擎的工作原理是:通过机器人程序,在全球范围内的w e b 服 务器上定期搜集网页;将搜集到的网页进行分析、整理,提取关键词后,放入搜 索引擎的索引数据库中;用户向搜索引擎的界面输入关键词进行查询。搜索引擎 的组成结构都相似,有如下四大模块组成: r o b o t ( 网络蜘蛛) :按照相应的策略遍历w w w 空间,并进行网页的索引。另 外用户可按照某种模式提交自己网页的关键词或类别及u r l 给搜索引擎建立索 引。 搜索引擎:搜索引擎是搜寻站点的核心,协调各r o b o t 的工作,并寻索引信息 进行组织。 索引数据库:r o b o t 采集到的索引全部存储在数据库中。各检索站点的索引 数据库规模和记录的内容是不同的,数据库的规模直接影响了查询的召回率 ( r e c a l l ) 。 查询服务接口:查询服务软件负责接受用户查询请求,检索数据库并将结果 集按相关度反馈给用户。 2 4 网络蜘蛛的工作原理 搜索引擎搜索w e b 和获取页面的任务是由“智能化”的软件一一网络蜘蛛 ( w e bs p i d e r ,或称爬行者c r a w l e r 、机器人程序r o b o t ) 来完成的。 2 4 1r o b o t 的工作过程 r o b o t 通常从一个“种子集”( u t l 集) 出发,通过h t t p 协议请求并下载w e b 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 页面,分析并提取页面中的链接,然后以循环迭代的方式访问w e b 。即重复执行 如下步骤: 从u r l 前端中取出待爬取的u r l 确定该u r l 的i p 地址: 解析u r l 中包含的协议信息; 根据相应的协议下栽u r l 所指向的页面文件 从下载的文件中抽取所约定的u r l ; 如果抽取的u r l 是相对u r l ,将其绝对化: ( 7 ) 如果该u r l 尚未爬取过,则将其加入u p l 前端( f r o n t e r ) 中; ( 8 ) 如果需要,对下载的文档进行其他的处理。 实现w e bs p i d e r 的这种基本算法需要以下几个功能组件: ( 1 ) 用于存储将要下栽的u r l 列表的组件,即u r l 前端; ( 2 ) 用于解析u r l 主机名对应的i p 地址并根据u r l 中所含的相应协议下 载u r l 所指向页面的组件; ( 3 ) 用于从下载页面中抽取链接u r l 的组件; ( 4 ) 用于确定链接u r l 在以前是否遇到过的组件。 2 4 2r o b o t 的实现方式 目前构造爬行虫这类机器人程序主要有两种方式,分为递归和非递归程序。 1 递归方式:在u r l 爬行过程中,当一个网页所对应的u r l 的链接还没处理 完时,又要处理该u r l 本身的其它链接点,这种情况下就可以使用递归调用方式 来实现爬行过程,是比较方便的。然而当一个u r l 本身的链接点较多时,递归每 次要将本次未完成的代码压进程序代码栈,这样程序在执行的时候就要大量消耗 计算机内存资源,甚至死机。 2 非递归方式:这种方式使用队列来实现爬行过程。在程序实现时要构造3 个队列: 等待队列:爬虫初始u r l 和爬虫程序程序新发现的u r l 的集合。 运行队列:是爬虫程序正在处理的u r l 的集合。当该队列中一个u r l 处 理完成后,等待队列中满足爬虫优先条件的u r l 被加入该队列,同时等待 7 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 队列中相应的u r l 被删除。当一个u r l 爬行完成后,将其移交到完成队列。 完成队列:是已经被爬行完成的u r l 的集合。在等待队列的u r l 向运行 队列移交过程中,首先要与该队列中的u r l 比较,以免重复爬行。 2 4 3 主题搜索的r o b o t 网络蜘蛛的搜索策略与搜索引擎的性质和任务密切相关。为了获得较高的 w e b 覆盖率,通用搜索引擎网络蜘蛛通常采用图的遍历算法( 如广度或深度优先 策略) 搜索w e b 。一个大型搜索引擎需要达到以下几个要求: 1 ) 它必须要有一个好的爬行策略,即决定下一步要爬行那些网页的蓑略,对 于定题搜索引擎,这一点尤其重要。 2 ) 它必须要有一个高度优化的系统结构,且健壮性、可控制 生良好。 专业搜索引擎搜索的内容只限于特定主题或专门领域,因而在搜索过程中 r o b o t 程序无须对整个w e b 进行遍历,只需选择与主题页面相关站点、页面进行 访问,其搜索算法在访问页面之前进行预测分析,能识别出这些页面是否与主题 相关,决定是否采集或者制定采集的优先顺序,节约了网络带宽,提高信息搜索的 效率。 2 5h t t p 协议 r o b o t 在w e b 上的信息采集都是通过h t t p 实现的,现在首先介绍h t t p 的项 主要性质及实现r o b o t 所涉及到的主要方法和信息头格式。 2 5 1h t t p 协议的关键性质 ( 1 ) 客户服务器模式:i t t t p 是一种客户服务器模式通信协议,支持客户 机与服务器间的交互与数据传送。 ( 2 ) 简单:h t t p 语法较为简单,客户与服务器问只需要几个简单的请求方 法和路径信息就可进行数据交换,其中常用的请求方法有g e t 、h e a d 、p o s t 。 ( 3 ) 灵活:h t t p 允许传输任意类型的数据对象。 8 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 ( 4 ) 无连接:h t t p 是一种无连接的协议,既每次连接只能处理一个请求, 一个请求处理完后客户与服务器间的连接会立即断开,待处理下次请求时再进行 一次新的连接。 ( 5 ) 无状态:h t t p 是无状态协议,对每次的事务处理没有记忆能力,若后 续事务需要有关以往的事物信息,这些信息的保存必须在协议外进行。 ( 6 ) 信息头:h t t p 对所有的事物处理都加了描述头,提供了关于每次所传 送数据的信息。h t t p 的信息头可分为:一般信息头、请求头、应答头和实体头 等四类。 2 5 2h t t p 协议的主要方法 方法描述 中最为常用的 ( 1 ) g e t 的是在指定资源上应该执行的动作。h t t p 中定义了多种方法,其 有三种: ( 2 ) h e a d : 改时间等描述信 g e t 方法的目的是取回指定的资源,其格式为:h t t p g e t u r l h e a d 方法的目的是请求服务器传送指定资源的大小,最后修 息,其格式为:h t t p h e a d u r l 2 5 3h t t p 协议的信息头格式 h t t p 协议利用信息头来描述每次事务处理,下面介绍几种主要的信息头及 其主要信息域的定义。 ( 1 ) 请求头( 客户请求的描述) : u s e r a g e n t :客户名及版本号; f r o m :客户使用者信息; a c c e p t :客户端可以接受的数据类型; a c c e p t c h a rs e t :客户端可以接受的字符集; a c c e p t l a n g u a g e :客户端能理解的语言。 ( 2 ) 应答头( 服务器应答的描述) : 9 基于w e b 挖掘的中文专业搜索弓l 擎设计的关键技术研究 e t t p v e r si o n :服务器支持的h t t p 版本号 s t a t u s c o d e :服务器处理本次请求的状态码,常用的有: 2 0 0正常 4 0 0请求错误 4 0 4 请求的资源未找到 5 0 0服务器内部错误 3 0 1 请求的资源已经移动 3 0 2 请求的资源被临时移动 s e r v e r :w e b 服务器软件名及版本号 m i m e - v e r si o f f :所采用的m i m e 版本号 c o n t e n t t y p e :客户请求资源的数据类型 l as t - m o d i f i e d :客户请求的资源最后修改时间 c 。n t e n t l e n g t h :客户请求资源的数据长度 ( 3 ) 实体头( 传送数据的描述) : c o n t e n t l e n g t h :本次传送数据的长度; c o n t e n t t y p e :本次传送数据的类型,由服务器根据文件扩展名决定 c o n t e n t t r a n s f e r e n c o d i n g :表示服务器采用的编码机制; c o n t e n t l a n g u a g e :标识本次传送的数据采用的语言种类。 2 6 搜索引擎的评价指标 一个互联搜索引擎的优劣,与以下几个因素相关: 1 网页覆盖率。一个搜索引擎网页数据库包含的网页越多,它就有可能为提 供更全面的网页检索。 2 网页检索速度。一个搜索引擎网页数据库的检索速度赶快,它就越有可能 为更多用户提供检索查询服务。 3 网页检索质量。描述搜索引擎检索质量指标分别是p r e c is i o n 和r e c a l l , 前者描述检索查询的准确性,即所检索出的相关文档占全部检索出文档的比例; 后者是描述检索结果的完全性,即检索到的相关文档占全部相关文档的比例。 l o 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 4 网页更新率。由于互联网是一个动态的信息源,因此,一个好搜索引擎的 网页数据库内容也应能及时反映这种变化。 由于互联网信息搜索引擎大多是采用基本关键词( 特征) 的信息处理技术, 因而随着搜索引擎覆盖网页数量的急剧增加,也将会导致搜索检索返回结果的急 剧增加,这就使得用户面临着这样的一种尴尬局面:“或许所需要的网页就在检 索结果中,但依然无法将这它们寻找出来”l ”】。 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 第三章w e b 挖掘技术的主要内容 3 1w e b 挖掘技术 虽然各种搜索引擎部分地解决了w e b 上的资源发现问题,但由于搜索引擎存 在着信息相关度差、精确度不高等原因,效果远不能使人满意。同时,搜索引擎 的目的在于发现w e b 上的资源,就w e b 上的知识发现而言,即使检索精确度再高 也无法胜任。为此,我们需要开发比搜索引擎信息检索技术更高层次的新技术, 这就是w e b 挖掘技术。 w e b 挖掘( w e bm i n i n g ) 这个概念时0 e t z i o n i 于1 9 9 6 年最早提出的,他认 为网页是有结构的并且是可以挖掘的【2 1 】。这个观点一经提出,得到了不同学科的 许多学者的积极支持。 w e b 挖掘是指从大量w e b 文档集合中发现蕴涵的、未知的、有潜在应用价值 的、非平凡的模式( p a t t e r n ) 。它所处理的对象包括:静态网页( 文字、多媒体 信息等) 、w e b 数据、w e b 页面的内部结构、w e b 结构、用户使用记录等信息。通 过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。图3 1 为 w e b 挖掘的基本内容。 图3 1w e bm i n i n g 的内容 3 1 1 基于w e b 内容的数据挖掘 w e b 内容挖掘( w e bc o n t e n tm i n i n g ,w e b c m ) 是指对w e b 上大量文档集合的 “内容”进行总结、分类、聚类、关联分析以及利用w e b 文档进行预测等,是从 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 w e b 文档内容或其描述中抽取知识的过程。w e b 上的数据既有文本数据,也有声 音、图像、图形、视频数据等到多媒体数据;既有无结构的自由文本,也有用 h t m l 标记的半结构的数据和来自于数据库的结构化数据。根据处理的内容可以 分为两个部分:文本挖掘和多媒体挖掘。w e b 文本挖掘和通常意义上的平面文本 挖掘的功能和方法相似,但是有其自己的特点。w e b 文本挖掘的对象除了平面的 无结构的自由文本外,还包含有半结构化的h t m l 文本。w e b 内容挖掘的重点是 页面的分类并口聚类。w e b 页面的分类是根据页面的不同特征,将其划分为事先建 立起来的不同的类。w e b 页面的聚类是指在没有给定主题类别的情况下,将w e b 页面集合聚成若干个簇,并且同一簇的页面内容相似性尽可能大,而簇问相似度 尽可能小。 3 1 2 基于w e b 结构的挖掘 w e b 结构挖掘( w e bs t r u c t u r em i n i n g ,w e b s m ) 主要是从w e b 组织结构和 链接关系中推导信息、知识。根据科学引文分析理论,文档之间的互联数据中蕴 涵着丰富有用的信息。挖掘页面的结构和w e b 结构,可以用来指导对页面进行分 类和聚类,找到权威页面( a u t h o r i t y ) 、中心页面( h u b ) ,从而提高检索的性能; 同时还可以用来指导网页采集工作,提高采集效率。w e b 在结构上可以用有向图 表示出来1 2 7 】,页面对应图中的点,超级链接对应图中的边。逻辑上,可以把w e b 看 作是位于物理网络之上的一个有向图g = ( n ,e ) ,如图3 2 所示。其中节点集 n 对应w e b 上的文件,而有向边集e 则对应于网页之间的超链接。节点可划分为 两种:n = n l ,n 。j 。所有非叶节点n 。是h t m l 文件,其中除了包括文本以外, 还包含了标记以指定文件的属性扣内部结构,同时嵌入了超链接以表示文件间的 结构关系。叶节点n l 可以是i i t i d l 文件,也可以是其他格式文件,例如图形、音 频、图像文件。 图3 2w e b 的逻辑结构 m 女j & * 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 3 1 3 基于w e b 使用记录的挖掘 w e b 使用记录挖掘( w e bu s a g em i n i n g ,w e b u m ) 主要是从用户的访问日l - 中抽取感兴趣的模式。分析这些日志数据可以帮助理解用户的行为,从而改进 站点的结构或为用户提供个性化的服务。这方面的研究主要有两个方向:一般 的用户访问模式跟踪( g e n e r a la c c e s sp a t t e r nt r a c k i n g ) 和个 生化的使用记 录跟踪( c u st o m i z e du s a g et r a c k i n g ) 。 3 2h i t s 算法和p a g e r a n k 算法 h i t s 算法、p a g e r a n k 算法以及在链接结构中增加了w e b 内容信息的l i l t s 改进算法等,主要用于模拟w e b 站点的拓扑结构、计算w e b 页面的评分等级和w e b 页面之间的关联度,典型的例子有c l e v e rs y s t e m 和g o o g l e 。将t f t s 算法和 p a g e r a n k 算法应用于专业搜索引擎中,可以用来确定网页主题相关度的高低,实 现网页的排序等1 6 1 。 3 2 1h i t s 算法 假定要搜索某一给定主题的w e b 页面,这时不仅希望得到与之相关的w e b 页, 而且希望所检索到的页面具有高质量,即针对该主题具有权威性( a u t h o r i t y ) 。 w e b 不仅有页面组成,而且还包含了从一个页面指向另一个页面的超链接。超链 接包含了大量人类潜在的注释,它有助于自动推断出权威性概念:当一个w e b 页 面的作者建立指向另一个页面的指针时,这可以看作是作者对另一个页面的认 可。把一个页面的来自不同作者的注解收集起来,就可以反映该页面的重要性, 并可以很自然地用于权威w e b 页面的发现。 但是w e b 链接结构存在着一定的局限性: a 不是每一个超链接都代表对寻找的认可; b 基于商业或竞争的考虑,很少有w e b 页面会指向其竞争领域的权威页面; c 权威页面很少会具有特别的描述。 1 4 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 于是人们提出了另外一种重要的w e b 页面,称为h u b 页面。一个h u b 是指一 个或多个w e b 页面,它提供了指向权威页面的链接集合。 h u b 页面往往指向就某个公共话题而言最为突出的站点链接。通常,好的h u b 指向许多好的权威页面,好的权威页面由许多好的h u b 所指向,两者相互补充、相 互促进。基于以上思想,k l e i n b e r g 于1 9 9 9 年最早提出h i t s ( h y p e r l i n k i n d u c e d t o p i cs e a r c h ) 。 h i t s ( h y p e r l i n k - i n d u c e dt o p i cs e ar c h ) 算法是利用h u b a u t h o r i t y 方法确 定权威网页的典型算法,其步骤如下: ( 1 ) 取从搜索引擎所得到的前n 个页面作为根集s ; ( 2 ) 向s 中加入s 引用的页面和引用s 的页面,将s 扩展为基本集t ; ( 3 ) 对t 中的页面赋初值。 若页面p 的h u b 值记为h ( p ) ,页面q 的a u t h o r i t y 值记为a ( q ) ,则可设: h ( p ) = 1 a ( q ) = 1 ( 4 ) 对所有页面的h u b 值和a u t h o r i t y 值进行迭代修改。 假若各个好的h u b 页到各个好的a u t h o r i t y 页的连接关系( p ,q ) 的集合记 为e ,则: 坳) _ “泓们口:( p ,g ) e e 哟) | 州瀣p ) ( 5 ) 规范化页面修改后的h u b 值和a u t h o r i t y 值。 每次迭代合修改后对h ( p ) 和a ( q ) 的值进行规范化处理,即: 其中p 、o 分别是h u b 页和a u t h o r i t y 页的集合。 基于w e b 挖掘的中文专业控索引擎设计的关键技术研究 ( 6 ) 按h u b 和a u t h o r i t y 的权重的逆序排列h u b 页和a u t h o r i t y 页。 ( 7 ) 输出具有较大权重的h u b 页和a u t h o r i t y 页。 3 2 2 p a g e r a n k 算法 m r h e n z i n g e r 认为目前的w e b 超链接大多基于以下两条基本假i t : 假设1 :从w e b 网页a 指向w e b 网页b 的超链接是网页a 的作者对于网页b 的 推荐。 假设2 :如果一奈超链接把网页a 和网页b 相互连接起来,则网页a 和网页 b 可能有共同的主题( t o p i c ) 。 基于以上两条假设,呵以引伸出以下假设: 假设3 :一个页面被多次引用,即很多网页有指向它的链接,则这个网页可能 很重要。 假设4 :一个页面尽管没有被多次引用,但被一个重要网页引用,则这个网页 也可能很重要。 假设5 :一个页面的重要 生被均匀地分布并传递到它所引用的页面。 基于假设3 至假设5 ,s b r i n 和l p a g e 提出了计算页面权威性算法。计算 公式如下: p r ( a ) ;( 1 一d ) + d ( p r ( t ,) c ( t 。) + p r ( t 2 ) c ( t :) + + p r ( t ) c ( t 。) ) 其中,t ,、t :,t 。为集合中引用网页h 的页面,c ( t 。) 、c ( t :) ,c ( t n ) 为相应网页中的链接数;d 为衰减因子。s b r i n 和l p a g e 认为d 的最佳值为0 8 5 。 1 6 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 第四章网页自动分类技术 4 1 页面特征的描述 页面特征的描述和抽取是实现正确分类的基础。需要对文本进行预处理,筛 选出能代表其特征的元数据( 特征词条) ,并以结构化的形式保存,作为文件的 中间表示形式。 4 1 1 页面特征的简单描述 w e b 网页一般分为两部分,h e a d 部分和b o d y 部分。h e a d 部分中的文字内容, 通常要对整个w e b 网页的内容作一简单介绍( 甚至使用缩写) ;而b o d y 部分则分 两大类,超链文字和非超链文字,其中超链中的文字,通常是对与本网页相链接 的其它网页的简要说明,以下是选择w e b 网页描述特征的3 种简单的方法。 ( 1 ) 纯文本方法 它直接来源于文本归类( t e x tc a t e g o r i z a t i o n ) 方法,它将w e b 网页所有 部分中的文字内容的单词,均作为w e b 网页的描述特征。实际上就是将w e b 网 页仍看作普通文本文件。 ( 2 ) 头部文字方法 它是根据w e b 网页h e a d 部分中的文字内容是对整个w e b 网页内容的最简要 说明这一特点而提出的,它将w e b 网页h e a d 部分中所有文字内容中的单词, 作为w e b 网页的描述特征。此方法较前一种方法更直接、简单而特征空间最小。 ( 3 ) 超链文字方法 它是根据w e b 网页各超链中的文字内容简要描述了本w e b 网页所要说明或 所要包含的内容这一特点而提出的。它将w e b 网页所有超链中文字内容的单词, 作为w e b 网页的描述特征。此方法从某种角度反映了w e b 网页的描述特点。超链 接文本( a n c h o rt e x t ) 包含着网页作者对被链网页的一种概要说明,把这些描述 用于帮助进行网页分类,将有助于分类准确性的提高。研究表明:单独使用链接文 基于w e b 挖掘的中文专业搜索引擎设计的关键技术研究 本代表被链网页进行分类的准确率,比使用网页本身的内容进行分类的准确率低, 而二者结合的分类准确率比两者都高,把超链接文本加入到被链网页的特征抽取 中,能取得良好的效果。 4 1 2 网页特征的综合描述方法 网页与普通文档不同,其所含信息体现在下面这三个部分i ”】:网页正文( 含 标题) 、网页所含的超文本标签、网页间的超链接,如图4 1 所示。根据网页的 构成特点,本文采用综合的特征描述方法,即除了考虑各部分的文字之外,还充 分考虑滤到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论