(计算机系统结构专业论文)web日志挖掘相关技术及算法的研究.pdf_第1页
(计算机系统结构专业论文)web日志挖掘相关技术及算法的研究.pdf_第2页
(计算机系统结构专业论文)web日志挖掘相关技术及算法的研究.pdf_第3页
(计算机系统结构专业论文)web日志挖掘相关技术及算法的研究.pdf_第4页
(计算机系统结构专业论文)web日志挖掘相关技术及算法的研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机系统结构专业论文)web日志挖掘相关技术及算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨t 程大学硕士学位论文 摘要 随着互联网的发展与快速普及,w e b 站点无论在访问量、大小还是在网 站设计的复杂度上都以惊人的速度增长着,在给人们带来丰富信息和极大便 利的同时,也对自身的设计和功能提出了更高的要求。如何了解用户的兴趣 和爱好,分析用户的浏览行为,使站点结构变得更加合理,更好的挖掘站点 潜在的商业价值,解决这些问题的途径之一就是将传统数据挖掘技术应用于 w e b 日志挖掘,并针对w e b 日志的新特性,对传统挖掘方法进行扩展和改 进。目前,w e b 日志挖掘已经成为国际上一个新兴的重要研究领域,其研究 工作具有非常重要的现实意义。 本文系统地阐述了论文的研究背景及w e b 日志挖掘的整个过程。首先, 在日志预处理过程中,结合用户浏览行为和基于内存的挖掘算法提出了一种 新的最大向前引用识别用户访问事务识别方法( i m f r ) ,该方法可以有效避免 用户不感兴趣的导航页面对挖掘结果的干扰。其次,在对频繁模式算法和 f p t r e e 进行了深入研究的基础上,提出了i f p t r e e 构造算法,采用动态节点 插入技术构造频繁模式树,该算法可以有效缩小树的宽度以达到压缩数据空 间的目的,同时提高前缀路径的共享性,使基于此树的挖掘算法具有更高的 效率。再次,本文在i f p - t r e e 结构的基础上对最大频繁模式挖掘算法f p m a x 进一步优化,提出了i f p m a x 算法,利用结点的秩进行子集检测前的预判断, 根据最大频繁模式的性质对已经存在的结点进行标记,有效避免了结点的冗 余遍历,为最大频繁模式挖掘算法提高了时间效率。最后,通过实验证明改 进算法的优越性,结果表明在数据库较大或最小支持度较低时性能提高更加 明显。 关键词:w e b 日志挖掘;数据预处理:频繁模式;f p t r e e ;最大频繁模式 哈尔滨t 程大学硕士学1 :7 = 论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n dp o p u l a r i t yo fi n t e r n e tt e c h n i q u e s ,t h ew e b c o n t i n u e st og r o wa ta l la s t o u n d i n g r a t ei nb o t ht h es h e e rv o l u m eo ft r a f f i ca n dt h e s i z ea n dc o m p l e x i t yo fw e bs i t e sd e s i g n w e bb r i n g sp e o p l er i c hi n f o r m a t i o na n d g r e a tc o n v e n i e n c e ,m e a n w h i l et h eh i g hr e q u i r e m e n ti sd e s i r e do nt h ed e s i g na n d f u n c t i o no fw e b s i t e s i ti si m p o r t a n tf o ru st ol e a r na b o u tt h eu s e r si n t e r e s t sa n d a n a l y z et h eb r o w s i n gp a t t e m ss oa st or a t i o n a l i z et h es t r u c t u r eo fw e b s i t e sa n d m i n ep o t e n t i a l l yc o m m e r c i a lv a l u e o n eo ft h es o l u t i o n st ot h e s eq u e s t i o n si s e m p l o y i n gt r a d i t i o n a ld a t am i n i n gt e c h n i q u e so nw e bl o g s t h a ti st os a y ,b a s i n g o nt h e p r i n c i p l e s a n di d e a so fd a t am i n i n g ,i na c c o r d a n c ew i t ht h en e w c h a r a c t e r i s t i c so fw e bl o g s ,t h et r a d i t i o n a lw a yo fm i n i n gi se x p a n d e da n d i m p r o v e d w e bl o g sm i n i n gh a sb e c o m ea n e wa n di m p o r t a n tr e s e a r c hf i e l di nt h e w o r l da n di t sr e s e a r c hi so fg r e a tr e a l i s t i cs i g n i f i c a n c e t h ee n t i r e p r o c e s so fw e bd a t am i n i n ga n dw e bl o g sd a t am i n i n gi s s y s t e m a t i c a l l yi n t r o d u c e di nt h i st h e s i s f i r s t t y ,i nt h ed a t ap r e - p r o c e s so fw e b l o g s , an e wm a x i m a lf o r w a r dr e f e r e n c et r a n s a c t i o np a r t i t i o nm e t h o di sp r o p o s e d , t h em e t h o dc a ne f f e c t i v e l ya v o i dc o n f u s i o no ft h em i n i n gr e s u l t sb yu n i n t e r e s t i n g n a v i g a t i o np a g e s s e c o n d l y , b ym a k i n gad e 印r e s e a r c ho na l g o r i t h m so ff r e q u e n t p a t t e r nm i n i n ga n df p t r e es t r u c t u r e ,an e wf r e q u e n tp a t t e mm i n i n gc o n s t r u c t a l g o r i t h mi f p t r e ei sp r o p o s e d i f p t r e ec o n s t r u c ta l g o r i t h md i m i n i s h e sb r e a d t h o ff p - t r e es oa st or e d u c em a i nm e m o r ys p a c eo c c u p a t i o nb yu s i n gd y n a m i cn o d e i n s e r tt e c h n i q u e f u r t h e r m o r e ,e f f i c i e n c yo ff r e q u e n tp a t t e r nm i n i n ga l g o r i t h mi s i m p r o v e db ys i m i l a r i t yo fp r e f i xi ni f p - t r e e t h i r d l y , a ni m p r o v e dm a x i m a l f r e q u e n tp a t t e r nm i n i n ga l g o r i t h mi f p m a xi sp r o p o s e db a s e do ni f p t r e e b e f o r e s u b s e t sc h e c k i n g ,t h en e wf l g o r i t h mp r e - j u d g et h en o d ew i t hi t sl e v e la n df l a g t o j i u d g ew h e t h e rt h en o d eh a v eb e e ni nt h ep a t ho fm a x i m a lf r e q u e n tp a t t e r n ,i n o r d e rt or e d u c et h en u m b e ro fn o d en e e dt ob ev i s i t e di nt h ep r o c e s so fs u b s e t s 哈尔滨工程大学:硕士学位论文 墨昌苗l _ 暑i 宣皇_ l e 宣i 暑暑墨 nn l _ i 皇目葺皇i 薯 c h e c k i n ga n di m p r o v ee f f i c i e n c yo ff p m a xm i n i n ga l g o r i t h m f i n a l l y ,t h e p e r f o r m a n c eo fi m p r o v e da l g o r i t h m si si l l u s t r a t e db yt h ee x p e r i m e n t s t h er e s u l t s h o w st h a te f f i c i e n c yo fm i n i n ga l g o r i t h mi si m p r o v e dm o r eo b v i o u s l yg i v e n l a r g e rd a t a b a s eo rl o w e rm i n i m u ms u p p o r t k e yw o r d s :w e bl o g sm i n i n g ;d a t ap r e - p r o c e s s ;f r e q u e n tp a t t e r n s ;f p - t r e e ; m a x i m a l 船q l l e n 套p a t c e 璐? 。; 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用己在 文中指出,并与参考文献相对应,除文中已注呢弓i 用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :西募j 嘉 日期:弘们年弓月,日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后口解 密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 、 、j 毒 作者( 签字) :_ 醣尖谗 导师( 签字) :等翌二 日期:2 嘶年孑月,日2 伽哼年乡月 哈尔滨1 :程大学硕十学1 1 :) = 论文 i 置暑宣宣i 昌i 宣i 宣t i ? , t l 宣置暑i j 宣i i 宣i 暑薯薯暑膏 第1 章绪论 1 1 课题研究的背景和意义 近年来,互联网一直呈现爆炸式的增长,c n n i c ( 中国互联网信息中心) 每半年一次的大规模问卷调查显示:互联网上的用户基本上六个月翻l 番, 而更为深刻的变化在于互联网的应用范围也在迅速扩展。对于高速发展的商 务站点的所有者来说,机遇与挑战并存。如何从使用者的访问行为中更好的 理解使用者的特点习惯已经成为他们越来越关注的问题。更好的了解访问者 的偏好,站点就能够提供更有针对性地服务,从而能提升用户体验和站点的 吸引力。根据发达国家的网站可用性问题调查结果显示:9 0 的企业网站可 用性较差,7 0 的企业对本企业网站设计不够满意,用户在商业网站上找到 所要信息的几率只有4 2 ,由于用户不能从网站找到所需的信息而损失的潜 在商业价值大约为5 0 。 用户在网站上的浏览行为隐含了他们的需求和兴趣,如果对用户的行为 加以分析就可能发现一些潜在的规律,这些规律有助于优化网站的组织结构, 减少设计人员与访问者之间的理念差异。例如:在高度相关的页面或站点之 间提供快速有效的访问途径;根据用户访问模式调整广告位置,改善企业的 营销策略;根据w e b 页面访问的情况将具有相同特征的页面分组,自动地发 现用户的兴趣爱好,为不同的用户提供个性化的服务。解决这些问题的一个 有利工具就是w e b 数据挖掘,它将数据挖掘的思想和方法应用到w e b 上, 挖掘出有用的信息,并将其应用到电子商务等领域。 数据挖掘的概念是在1 9 9 5 年加拿大召开了第一届k d d 和数据挖掘国际 学术会议上提出来的。从此,数据挖掘研究成为计算机领域的一个热门课题, 并且在传统的结构化事务数据挖掘领域已经取得了比较成功的应用。然而, w e b 上的信息不同于常规数据库,它们是半结构化的,因此,在w e b 上的挖 掘应用需要不同于常规数据挖掘的很多技术。 w e b 挖掘就是在大型网络信息和信息的使用记录中挖掘出潜在的、有意 义的和有规律性的知识。可以看出w e b 挖掘的核心是数据挖掘及其技术在 哈尔滨t 程人学硕+ 学位论文 w e b 相关的数据源上的延伸。目前,国内外开始重点研究的是w e b 日志挖掘。 w e b 服务器日志记录了用户与服务器的交互信息,每当用户访问w 曲站点 时,所访问的页面、时间、用户i d 等信息,在l o g 日志中都有相应的记录。 因此,分析w e b 日志,可以构造出用户的行为模式,根据用户的行为模式改 进站点的设计和服务,从丰富和动态的超链接信息中抽取感兴趣的、有用的 模式和隐含f 惝识;并实现w ,e b 信息的准确查询- 总之,w e b 作为目前i n t e m e t 上信息发布的主要渠道,已经显示出巨大 的商业价值和应用潜力,要提高网站的声誉和收益,为用户提供更好的服务, 就应该从研究用户的浏览模式入手,根据用户的浏览特征,改善网站的性能 和服务。 1 2w e b 日志挖掘的研究现状 数据挖掘( d a t am i n i n g ,简称d m ) 就是从大量的、不完全的、有噪声的、 模糊的、随机的原始数据中提取隐含在其中的事先未知的,但又是潜在的有 用信息和知识的过程。1 9 9 7 年,c o o k e yr ,m o b a s h e rb 怛,等人首次给出了 w e b 挖掘的定义,并且给出了一个关于w e b 访问信息挖掘的系统 w e b m i n e r 。s h a h a b i 【3 1 等人提出的日志挖掘系统信赖于客户端的数据收集, 客户端的代理为服务器返回用户请求的页面及时间等数据。1 9 9 8 年,c h e n 町 首先将数据挖掘技术应用于w e b 服务器日志挖掘,发现用户浏览模式,提出 最大向前引用的概念,将用户会话分割成更细粒度的一系列事务。m y r a s p i l i o p o u l o u l 5 ,等人首次提出了一套类似s q l 的挖掘语言m i n t ,允许用户人 为指定感兴趣的频繁路径的特征,提供给用户满足条件的结果。 从研究的角度,现有的基于w e b 服务器同志数据的研究大致可以分为三 个方向旧一: ( 1 ) 以分析w e b 站点性能为目标,主要从统计学的角度,对日志数据 项进行简单的统计,得到用户频繁访问页、单位时间访问数、访问数据随时 间分布图等。绝大多数商用及免费的w e b 日志分析工具都属于此类,这些工 具的用户二般是w e b 服务器的管理者,通过这些统计数据管理员可以对w e b 服务器作相应的调节如缓冲设置、镜像站点设置等。更进一步,如果将w e b 日志视做关系表,利用数据挖掘技术还可以发现许多有价值的信息,如利用 2 哈尔滨 _ 程入学硕士学何论文 - - iii - 一| 关联规则可能发现用户所在地区与被访问页面问的关系。此外,许多数据挖 掘的技术如时间序列分析,多层关联规则和分类技术等亦可用于w e b 日志 的分析,帮助管理员发现用户的访问规律。 ( 2 ) 以改进w e b 站点设计为目标。通过挖掘用户的频繁访问路径和用 户聚类,重构站点的页面之间的连接关系,以更适应用户的访问习惯,同时 为用户提供个性化的信息服务。例如:、沈均毅教授提出的w e b 页面和客户群 体的模糊聚类算法便是此类的典型代表n ,。 ( 3 ) 以理解用户意图为目标。一般是通过算法从w 曲服务器日志中找 出频繁的用户访问路径或访问模式,这些都是为了从大量的w - e b 日志数据中 找出一定的模式和规则。c h e n 等人提出的路径游历模式( p a t ht r a v e r s a l p a t t e r n ) 的发现算法,以及h a r t f ”等人使用数据立方体方法,便是这类的典型 代表。 目前,已陆续有一些w 曲日志分析工具投入使用,而现有w e b 日志分 析工具如e x o d y 公司的w e b s u x e s s 、w e b t r e n d s 公司的l o g a n a l y z e r 等。大 多数分析工具只对w e b 日志中的数据进行简单的统计,很少对日志中隐含的 关系进行分析,更难较好地发现用户的访问模式。 1 3w e b 日志挖掘研究难点 从以上的分析可以看出w e b 日志挖掘的研究难点如下: ( 1 ) 数据收集:高质量的数据源是提高以其为基础的挖掘分析工作质量 的关键因素,这其中用户的参与必不可少,因此隐私成为了一个不可回避的 问题。既要保护用户隐私,又要为网站的w 曲日志挖掘可能多的收集尽个人 信息是矛盾的。同样既要为了提高w e b 服务器的性能而提供页面缓冲机制, 又要使收集到的网站访问日志尽可能完整也是矛盾的。因此需要专门收集数 据的工具或技术。 ( 2 ) 用户会话识别:即如何将日志中的访问记录划分给不同的用户是个 难点。因为w e b 日志中通常不包含用户的标识信息,仅靠i p 地址是难以识 别用户的。同时若用户通过防火墙或代理服务器访闯站点,则不同的用户请 求在日志中则表现为同一d 地址。当然还有许多用户使用同一台远程主机登 录w e b 服务器等的情况。这些都导致用户识别很复杂。目前的解决办法主要 3 哈尔滨丁程大学硕士学位论文 ii_|lii _ 是借助用户的注册和登录信息、c o o k i e s 、站点的拓扑结构以及一些启发式算 法。但是这些方法在某些情况下难以实现或不能保证结果完全正确。因此需 要新的用户会话识别技术。 ( 3 ) 模式发现技术:目前在模式识别过程中所用到的技术中,如关联规 则、序列模式、分类和聚类,算法的有效性和健壮性方面还有所欠缺。如何 根据具体的应用选择合适的算法,。i 是w e bj 日志挖掘过程面临的_ 个重要阿 题。同时,应用w e b 挖掘技术实现w e b 个性化服务,不同系统采用不同的 w e b 挖掘技术,如何评价它们的建模效果以及系统最终的服务质量也是一个 非常重要的问题。 在模式分析方面,需要有能够帮助分析和解释挖掘出来的模式的工具或 技术,使得挖掘结果得到充分利用。同时需要开发更加智能化的分析工具, 对挖掘结果进行更深一层次的解释、分析和评价,它不仅能过滤已经发现的 访问模式、网站拓扑结构或从用户行为模式的基础上开发更加智能化的分析 工具,它可以建议改善网站的拓扑结构。最后还需要建立知识查询语言用于 对挖掘出的知识进行查询,从而更方便地利用挖掘得到的结果。 1 4 论文的主要内容和组织结构 本文在广泛收集整理相关资料的基础上,首先,系统地阐述了w e b 数据 挖掘到w e b 日志数据挖掘的整个过程,研究了传统的数据预处理技术,结合 用户浏览行为和基于内存的挖掘算法提出了一种新的最大向前引用法( i m f r ) 识别用户访问事务方法,该方法可以有效避免用户不感兴趣的导航页面对挖 掘结果的干扰。另外,针对f p t r e e 在挖掘大型数据库时占用内存大、运行速 度慢的问题,对f p - t r e e 构造算法进行改进,采用动态节点插入技术构造 i f p t r e e ,缩减树的宽度以达到节省内存空间的目的,同时提高前了频繁模式 树前缀子树的共享性,使基于此结构的挖掘算法更有效率。再次,本文在 i f p t r e e 结构的基础上对最大频繁模式挖掘算法f p m a x 进一步优化,提出了 i f p m a x 算法,利用结点的秩进行子集检测前的预判断,根据最大频繁模式的 性质对已经存在的结点进行标记,有效避免了结点的冗余遍历,提高了最大 频繁模式挖掘算法的时间效率。最后,通过实验证明这种算法的优越性,结 果表明在大型数据库或最小支持度较低时性能提高更加明显。 4 哈尔滨丁程大学硕七学位论文 具体内容安排如下: 第1 章综述了论文的选题背景和意义,目前国内外w 曲日志挖掘研究现 状以及w e b 日志挖掘的难点,介绍了论文的主要研究内容及组织结构。 第2 章介绍了w e b 数据挖掘的基本概念、w 曲日志挖掘的过程、w 曲 挖掘数据来源、w e b 日志格式、w e b 日志挖掘的应用等基础知识。 ,第3 章介绍了w e b 一日志挖掘韵预处理技术及事务识别方法,在对最大向 前引用法分析研究的基础上,提出了一种新的最大向前引用法i m f r 识别用 户访问事务识别方法。 第4 章介绍了关联规则挖掘算法,在分析现有挖掘算法的基础上,提出 了相应的改进算法i f p t r e e 构造算法和i f p m a x 算法。 第5 章将前两章的技术应用到实际网站日志挖掘中,通过实验分析各改 进算法的性能。 哈尔滨t 程人学硕士学位论文 第2 章w e b 数据挖掘 2 1w e b 挖掘的概述 数据挖掘的对象可以是数据仓库,各种文本数据。? 多媒体信息等,也可 以是w e b 上的数据。在w e b 上进行的数据挖掘,就是w e b 挖掘。w e b 挖掘 是- - 1 7 交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计 学、计算机语言学、计算机网络技术、信息学等多个领域。 w e b 日志挖掘是对用户访问w e b 时在服务器上留下的访问日志进行挖 掘,即对用户访问w e b 站点的存取方式进行挖掘。挖掘的目的是在海量的 w e b 日志数据中自动、快速地发现用户的访问模式,如频繁访问路径、频繁 访问页面组、用户聚类等。 w e b 对有效的资源和知识发现是具有极大的挑战性,并且这些挑战性己 经高效且实际地推动了发现和利用i n t e m e t 网上资源的研究工作。w e b 挖掘 具有以下特点: ( 1 ) w e b 挖掘的对象是海量的、异构的和分布的、动态的文档,对于 数据挖掘而言w e b 服务器上的日志和用户信息等数据似乎太庞大了,而且仍 然在迅速增长,这对于传统的数据挖掘方法是无疑一种挑战。 ( 2 ) w e b 在逻辑上是一个由文档结点和超链接构成的图,因此w e b 的 挖掘所得到的模式可能是关于w e b 内容的,也可能是关于w e b 结构的。 ( 3 ) 由于w 曲文档是半结构或无结构的,且缺乏机器可以理解的语义, 页面复杂性远高于任何传统文本文档,而且传统数据挖掘的对象局限于数据 库中的结构化数据,并可利用关系表格等存储结构来发现知识,因此有些数 据库挖掘技术并不能直接的应用于w e b 数据挖掘,需要对w e b 数据进行预 处理。 ( 4 ) w e b 面对的是一个广泛而且各异的用户群体,各个用户可以有不 同的背景、兴趣和使用目的。 ( 5 ) w e b 上的大量信息相对于多数用户是无用的。用户只关心w e b 上 的很小一部分信息,其余信息对用户来说是不感兴趣的,而且会淹没其所希 6 哈尔滨= 1 j 程大等:硕十学1 : 7 = 论文 | _ i ;i 望得到的搜索结果。 2 2w e b 挖掘的分类 按照挖掘对象的不同,可以将w 曲挖掘分为三大类怕1 :w e b 内容挖掘( w 曲 c o n t e n tm i n i n g ) 、w 曲结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 访问信息挖 掘( w e bu s a g e 。m i n i n g ) := 如图互1 所示: 图2 1w e b 挖掘分类 ( 1 ) w e b 内容挖掘 w e b 内容挖掘是从w e b 文档的内容或其描述中提取知识的过程,这是一 个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程”。w e b 文 档由文本,图像,音频,视频等各种形式的网络资源组成。w e b 内容挖掘的 重点是页面的分类和聚类。w e b 页面的分类是根据页面的不同特征,将其划 归为事先建立起来的不同的类。w e b 页面的聚类是指在没有给定主题类别的 情况下,将w e b 页面集合聚成若干个簇,并且同一簇的页面内容相似性尽可 能大,而簇之间的相似度尽可能小。 目前主要有两种w e b 内容挖掘策略:一种策略是针对w e b 的查询语言 w e b l o g 、w e b s q l “等,对h t m l 页面内容进行挖掘;对页面中的文本进行 文本挖掘;对页面中的多媒体信息进行多媒体信息挖掘。另一种是策略的方 法主要是对搜索引擎的查询结果进行进一步的处理,改进传统的w w w 搜索 7 哈尔滨丁程人学硕十学何论文 引擎,得到更为精确和有用的信息,及对搜索引擎的返回结果进行聚类的技 术等。 ( 2 ) w r e b 访问信息挖掘 w e b 访问信息挖掘是对用户访问w e b 时在服务器方留下的访问记录进行 挖掘,即对用户访阅w e b 站点的存取方式进行挖掘n ”。挖掘的对象是在服务 器上的包括s e r v e rl o g ;d a t a 等在内的。日志文件记录毛这方面的研究主要有鼹 个方向:一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追 踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。 而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同 用户的访问模式,为每个用户提供定制的站点。目前流行的挖掘手段包括: 路径分析、关联规则、序列模式发现、聚类和分类等。 ( 3 ) w e b 结构挖掘 w w w 是由分布在世界各地的w e b 站点组成的全球信息系统,每个w e b 站点又是一个由许多w e b 页面构成的子系统,而且w e b 页面并不是孤立存 在的,相关的文档之间通常由超链接链接。超链接体现了文档之间的逻辑关 系,同时为用户浏览w e b 站点提供了可用的路径。 w e b 结构挖掘“3 1 是对w e b 页面之间的链接结构进行挖掘,从w e b 组织结 构和链接关系中推导信息与知识的过程。在整个w e b 空间里,有用的知识不 仅包含在w e b 页面的内容之中,而且也包含在页面的链接结构之中。例如, 如果我们发现一个论文页面经常被引用,那么,这个页面一定是非常重要的。 发现的这种知识可以被用来改进搜索引擎,如p a g e r a n k 和c l e v e r 方法等。 目前,国内外开始重点研究的是w 曲访问信息挖掘,即通过挖掘w e b 服务器的日志文件等访问信息,来发现用户访问w e b 页面的模式,从而可以 进一步分析和研究日志记录的规律,来改进网站的组织结构及其性能,构造 自适应网站,还可以通过统计和关联分析,增加个性化服务,发现潜在的用 户群体,增强对最终用户的因特网信息服务的质量和交付等。 表2 1 对w e b 内容挖掘、w e b 结构挖掘和w e b 日志挖掘中的数据特征、 表现形式、挖掘方法以及应用领域等方面进行了比较。 8 哈尔滨t 程人学硕十学位论文 表2 1w e b 内容挖掘、结构挖掘和日忐挖掘比较 w e b 挖掘 w e b 内容挖掘w e b 结 信息检索领域数据库领域 构挖掘 w e b 日志挖掘 文本文档链接 w e b l 艮务器日志 数据 超文本文档 p r o x y 日志 超文本文档结构 浏览器日志 数据 非结构化 半结构化 链接 w e b 站点看作是一个交互式数据 特征 半结构化结构 数据库 无序有序的单词集 数据表 合 术语和短语 对象交换模型( o e m ) 图 关系表 示形式 概念实体 关系曲线图 关系曲线 机器学习 t f i d e f 及变形专利算法 专利 统计 方法机器学习 i l p 算法 关联规则及变形 统计( n l p )关联规则及变形聚类 序列模式 分类聚类 站点结构管理 应用 寻找抽取规则发现频繁子结构分类 及优化 领域 寻找文本模式提取w e b 站点大纲聚类 网络销售 用户建模 用户建模 推荐系统 2 3w e b 日志挖掘 w e b 日志挖掘是用挖掘w e b 服务器日志获取的信息来预测用户浏览行为 的技术,指从用户的访问日志中挖掘用户的访问模式。w e b 内容挖掘,w e b 结构挖掘的对象是网上的原始数据,而w e b 日志挖掘的数据来自于用户在使 用网络的过程中,即在用户和网络交互的过程中抽取出来的第二手数据,这 些数据包括:w r e b 服务器的访问记录、代理服务器日志文件、浏览器日志记 录、用户注册信息、用户对话或交易信息等。分析这些数据可以帮助理解用 户的行为,从而改进站点的性能和结构,或为用户提供个性化的服务。 在技术实践过程中,一般先把日志中的数据映像成多种关系信息,对其 进行预处理,包括清除与挖掘不相关的信息等,然后采用相应的挖掘方法对 日志数据信息进行模式发现,发现的模式可以用来了解用户的行为,从而改 进网络服务器系统的性能和结构,为用户提供个性化服务。 9 哈尔滨丁程大学硕十学位论文 2 3 1w e b 日志 1 w 曲日志的类型 w e b 日志挖掘的数据对象主要分布于服务端、客户端和代理服务器中, 因此可以把w r e b 日志分成三类。 ( 1 ) 服务器日志( w e bs e r v e rl o g ) :在w e b 服务器上,服务器日志记 录了多个用户对单个站点的用户访问行为。一些更为复杂的日志记录了多个 用户对单个站点的交易行为,或提交的查询行为。服务器方具有w e b 站点的 完整的结构信息,电子商务交易信息等。 ( 2 ) 客户端日志:在客户端计算机上,客户端的代理记录了单个用户对 单个站点或单个用户对多个站点的用户访问行为。客户端的c a c h e 记录了用 户访问内容。客户端的b o o k m a r k 也记录了单个用户对单个站点的访问偏好。 ( 3 ) 代理服务器日志:在代理服务器上,记录了多个用户对多个站点的 访问行为,同时代理服务器内部的c a c h e 内,也记录了多个用户对多个站点 的访问内容。三种w e b 日志数据有各自的使用范围,应根据挖掘的目的和应 用方向来选择。目前,w e b 日志挖掘的主要数据来源是w e b 服务器日志,因 为它完整且详细地记录了网站访问者们的浏览行为。服务器日志中所记录的 数据反映了一个w e b 站点被多用户访问的模式,并具有良好的结构便于应用 数据挖掘技术。 2 w 曲日志数据格式 当用户浏览w e b l 艮务器时,服务器方将会产生一些日志文件( s e r v e r l o g ) ,这些日志记录用户访问的基本情况包括w - e b 站点的拓扑结构和站点文 件、用户的注册信息、用户调查信息、c o o k i e s ,与站点服务相关的数据库数 据以及其它一些信息等。根据w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 的h t t p 说明,w e b 服务器日志主要包括:u r l 、动作、资源的类型、资源的大小、 请求的时间、在资源上停留的时间、请求者的i n t e m e t 域名、用户、服务器状 态等。w e b l l 艮务器日志记录了用户访问该站点时每个页面的请求信息。根据 不同的需要把日志记录的格式主要分为两种:通用日志格式c l f ( c o m m o n l o gf o r m a t ) 和扩展公共日志格式e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) , 下面是一段通用w e b 服务器访问日志: 1 0 哈尔滨丁程大学硕十学位论文 暑暑皇i 皇i 宣宣昌暑昌昌暑宣暑薯萱葺宣i i 皇i i,i 暑暑i i i 置皇宣i i i 宣宣i j 一 # s o f t w a r e :m i c r o s o f ti n t e m e ti n f o r m a t i o ns e r v i c e s6 0 # v e r s i o n :1 o # d a t e :2 0 0 8 10 310 9 :0 0 :2 9 # f i e l d s :d a t et i m es - i pc s m e t h o d c s u r i - s t e mc s - u r i q u e r y s - p o r tc s t l s e r n a l b e c - i pc s - v e r s i o nc s ( u s e r a g e n t ) c s ( r e f e r e r ) s c - s t a t u s s c s u b s t a t u ss c w i n 3 2 s t a t u st i m e t a k e n 2 0 0 6 1 0 3 10 0 :0 0 :2 91 9 2 1 6 8 1 1 1 2 0 g e t r c z p x q b h t m - 8 0 2 2 1 2 0 8 2 0 1 8 2 h 兀p 1 1m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 ,0 ;+ w i n d o w s + n t + 5 1 ;+ s v1 ) h t t p :w w w a c x y l c o m r c z p r c z p h t m 3 0 40 01 5 2 0 0 8 1 0 310 9 :0 0 :4 9 1 9 2 1 6 8 1 1 1 2 0 g e t r c z p s s y j h t m 8 0 2 2 1 2 0 8 。2 0 1 8 2 h t t p 1 ,1 m o z i u a 4 o + ( c o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 1 ;+ s vi ) h t t p :l l w w w a c x y l c o r n r c z p r c z p h t m 3 0 4001 5 其主要结构如表2 2 所示。 哈尔滨t 程大学硕士学位论文 葺暑i 葺i |1l i i ii 暑暑i i 暑宣置 表2 2 服务器日志文件格式 域 描述 d a t e 页面被访问的日期 t i m e 页面被访问的时间 c l p 客户端主机的i p 地址或d n s 入口 c $ - u s e n l 锄e 客户端的用户名j ( 多为缺省) s - c o m p u t e m a m e 服务器名称 s - l p 服务器的i p 地址 s - p o r t 服务器的端口号 c s m e t h o d 用户请求的方式,例如是g e t 或p o s t c s - u r i s t e m 用户所请求的页面 c s 。t l r l 。q u e r y用户所进行的查询 s c - s t a t u s 返同h t l l p 的状态表示,反映了访问的最后状态 s c - b y t e s服务器发送的字节数 e s - b y t e s 服务器收到的字节数 t i m e t a k e n 用户完成浏览所花费的时间 c s v e r s i o n 传输用的协议版本 c s h o s t 服务器的操作系统 c s ( u s e r - a g e n t ) 服务的提供者,表示客户机的浏览器的类型、版本、 以及所运行的操作系统等 c s ( c o o k i e ) c o o k i e 标识号 c s ( r e f e r e r ) 用户浏览的上一页 在日志文件中,每条记录被称作项或条目。其中: ( 1 ) 客户端地址( c i p ) 是发出请求的客户端的i p 地址,在p r o x y 代理服 务器的环境下为代理服务器的i p 地址。 ( 2 ) 用户标识符域( c s u s e m a m e ) 一般不填写。 ( 3 ) 时间戳( d a t eo rt i m e ) 表示w e b 服务器接受该请求的时间,在整 个日志文件中,每一个项以时问戳递增排列。 ( 4 ) 方式域( c s m e t h o d ) 包括请求方法,有些还记录所采用的协议如 h t t p 或f t p 等,其中请求的方法有:g e t ,p o s t 和h e a d 。g e t 从w e b 服务 器得到对象;p o s t 向w e b 服务器发送信息;h e a d 仅请求一个对象的h t t p 头。请求的u r i 或者为服务器上文件系统上的一个静态的文件,或者为一个 1 2 哈尔滨厂程大学硕十学位论文 响应该请求的将要被调用的可执行程序。 ( 5 ) u r i 查询( c s u r i q u e r y ) 是用户查询所需要的信息时在服务器端产 生的记录。 ( 6 ) 状态域( s c s t a t u s ) 由w e b 服务器设置指示出响应该请求的行为: 从2 0 0 到2 9 9 的代码一般指示成功响应;从3 0 0 到3 9 9 表征某种程度的重定 向;从4 0 0 到4 9 9 指示错误;从5 0 0 到。5 9 9 表示w e b 服务器有问题。常见的 错误代码是4 0 4 ,其指示被请求的文件没有被找到。 ( 7 ) 返回大小域( s i z eo rb y t e s ) 表示返回结果的字节数。 ( 8 ) r e f e r r e r 域表征上次被请求的页面,如果用户通过直接键入地址或 通过书签( b o o k m a r k ) 访问,那么该域为空。 ( 9 ) 代理域( u s e r a g e n t ) 能够指出客户端的操作系统和浏览软件。 ( 1 0 ) c o o k e 是在服务器端产生的,记录用户的状态或访问路径,但是 由于涉及到隐私问题,c o o k e 的使用需要用户配合。其中u r i 查询和c o o k e 不是很常用。 r e f e r r e r 域、代理域和传送字节域等是扩展日志格式中新加入的,扩展日 志格式提供了关于服务器和客户端两方面更为详细丰富的信息,例如客户端 使用的浏览器( u s e r - a g e n t ) 和用户以前访问过的引用页面( r e f e r r e r ) 等, 这些信息对于用户的识别,会话的识别和判定会话之间的界限提供了很大帮 助。 由于c a c h e 的广泛存在( 代理或客户端) 和网络的时延,在服务器的日 志中的信息存在一定的失真,如果一个w e b 页面已存在于本地的c a c h e 中, 那么当用户存取该页面时,实际上访问的是本地被缓存的页面,当然在服务 器方,这种信息不被记录。 3 w e b 日志数据抽象 数据抽象对w e b 日志挖掘相关的一些概念作一个统一表述,以利于在概 念上数据预处理、处理阶段和以后挖掘阶段理论的阐述。w 3 c ( w o r l dw i d e w e bc o n s o r t i u m ) 国际组织已经为w e b 访问信息定义了一些基本概念。在这 些概念的基础上,一些扩展的概念构成开展w e b 日志挖掘的基础。 ,( 1 ) 用户( u s e r ) :用户被定义为一个通过浏览器访问一个或者多个 w e b 服务器的访问者。对服务器而言,即使c o o k e 也很难唯一和重复地识别 1 3 哈尔滨工程大学硕十学位论文 | 皇i i 昌宣暑i 置暑皇| 目_ i _ 宣宣暑暑i i i i i i 昌暑宣;i 宣置i i i l3iiii | - - _ 一个用户。例如一个用户通过几台计算机访问w e b 或在台机器上使用多个 浏览器或几个用户使用一台机器上的一个浏览器进行浏览。 ( 2 ) 页面文件( p a g ef i l e ) :一个页面文件是通过h t t p 请求发给用户 的文件。页面文件一般静态存在于w e b 服务器上。一些动态页面文件源于数 据库或j a v as c r i p t ,p h p ,a s p ,j s p 等技术,由w e b 服务器动态生成响应用户的 请示, ( 3 ) 页面视图( p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论