(计算机软件与理论专业论文)web日志挖掘的研究和实现.pdf_第1页
(计算机软件与理论专业论文)web日志挖掘的研究和实现.pdf_第2页
(计算机软件与理论专业论文)web日志挖掘的研究和实现.pdf_第3页
(计算机软件与理论专业论文)web日志挖掘的研究和实现.pdf_第4页
(计算机软件与理论专业论文)web日志挖掘的研究和实现.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 的迅速发展,人们面对太多的信息无法选择和消化,淹没在繁杂 的信息中,这种现象称为信息过载。i n t e m e t 上信息资源分布的广泛性又给用户寻 找感兴趣的信息增加了困难,用户不知道如何更有效地发现自己所需的信息资源, 即信息迷失。当前我们主要采用搜索引擎来检索w e b 上的信息,但是大多数搜索 引擎缺少主动性,没有考虑用户的兴趣偏好和用户的不同,无法有效地解决信息 过载和信息迷失的问题。 直接或间接解决这个问题的途径之一就是将数据挖掘技术应用于w e b 服务器 日志的挖掘,从用户在w e b 上浏览行为数据中获取用户的浏览模式,根据用户的 行为模式,改进站点的设计和服务,丌展个性化服务和构建智能w e b 站点。 本论文系统地阐述了从数据挖掘、w e b 数据挖掘到w e b 日志数据挖掘整个过 程。在分析目前路径分析算法存在的问题的基石 | ;上,研究和验证了路径挖掘算法 ( p m a ) ,实验表明该算法能准确地反映用户浏览兴趣,而且可扩展性较好。论文还 设计和实现了一个w e b 日志挖掘系统( w l d m s ) ,将w e b 日志挖掘应用到校园网 站,对其w e b 服务器的目志记录进行挖掘,并将挖掘出的模式应用于智能w e b 站 点的构建。 【关键词】数据挖掘,w e b 日志挖掘,智能w e b 站点 a b s t r a c t a st h ei n t e m e tg r o w s ,t h es h e e rv o l u m eo fi n f o r r n a t i o na v a i l a b l eo nt h ei n t e r n e ti s o v e r w h e l m i n g t h i sp h e n o m e n o ni sr e f e r r e da si n f o r m a t i o no v e r l o a d ,t h ei n f o r m a t i o n d i v e r s i t yi nt h ei n t e m e tm a k e si te v e nh a r d e rf o ru s e r st of i n dt h ed e s i r e di n f o r m a t i o n u s e r sa r el a c ko f e f f e c t i v ew a y so f r e t r i e v i n gr e l e v a n ti n f o r m a t i o na n da r ee a s i l yg o tl o s t i nt h ec y b e r s p a c e ,一n a m e l yi n f o r m a t i o nb e w i l d e r m e n t n o w a d a y s ,w ep r i m a r i l yu s e s e a r c he n g i n e sf o ri n f o r m a t i o nr e t r i e v a l m o s ts e a r c he n g i n e s ,h o w e v e lp e r f o r mp a s s i v e s e a r c h i n ga n dr e t u r nr e s u l t sr e g a r d l e s so fu s e rp r e f e r e n c eo ra c c o u n t i n gf o rn ou s e r s p e c i f i ci n t e r e s t s t h e r e f o r e ,s e a r c he n g i n e st h e m s e l v e sc a n n o te f f e c t i v e l ys o l v et h e i n f o r m a t i o no v e r l o a da n di n f o r m a t i o nb e w i l d e r m e n tp r o b l e m s a m o n gm a n yd i r e c ta n di n d i r e c ts o l u t i o n s ,e m p l o y i n gd a t am i n i n gt e c h n i q u e so n w e bl o gi sap r o m i s i n ga p p r o a c h b yi d e n t i l y i n gt h eb r o w s i n gp a t t e mo f u s e r sb a s e do n t h e i rl o g g e db r o w s i n ga c t i v i t i e s ,w ed e s i g nw e bs e r v i c e st h a ti n t e g r a t eu s e rb r o w s i n g p a t t e r ns ot h a tt h ew e b s i t ei sp e r s o n a l i z e d 矗db e c o m e si n t e l l i g e n t i nt h i st h e s i s ,w es y s t e m a t i c a l l yi n t r o d u c et h ee n t i r ep r o c e s so fd a t am i n i n g ,w e b d a t am i n i n ga n dw e bl o gd a t am i n i n g b a s e do nr e v i e w i n gt h ec u r r e n ta p p l i c a t i o n so f p a t ha n a l y s i sa l g o r i t h m sa n dd i s c u s s i n gt h ep r o b l e m st h a tt h e yh a v e ,w e s t u d i e da n d v e r i f i e dap a t hm i n i n ga l g o r i t h m 一( p m a ) e x p e r i m e n t sd e m o n s t r a t e dt h a tt h ep m a a c c o u n t sf o r t h e b r o w s i n gp r e f e r e n c e s o fu s e r s a c c u r a t e l y a n de x h i b i t s g o o d e x t e n d i b i l i t y w ed e s i g n e da n di m p l e m e n t e daw e bl o gd a t am i n i n gs y s t e m ( w l d m 趴 a n da p p l i e di tt oac a m p u sw e b s i t e w ep e r f o r m e dd a t am i n i n go nw e bl o ga n du s e d a c q u i r e du s e rb e h a v i o rp a t t e r n st oc o n s t r u c ta ni n t e l l i g e n tw e b s i t e 【k e y w o r d d a t am i n i n g ,w e bl o gm i n i n g ,i n t e l l i g e n tw e b s i t e 驴7 8 2 2 1 3 郑重声明 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄 袭等违反学术道德、学术规范的侵权行为,否则,本人愿意承担由此产生的一切 法律责任和法律后果,特此郑重声明。 学位论文作者( 签名) :王丽娜 2 0 0 5 年5 月2 0 日 w e b 日志挖掘的研究和实现 第1 章绪论 1 1 研究背景 随着i n t e r n e t 的迅速发展,各种信息以指数级的速度增长,人们面对太多的 信息无法选择和消化,即淹没在繁杂的信息中,这种现象称为信息过载。i n t c m e t 上信息资源分布的广泛性又绘用户寻找感兴趣的信息增加了困难,用户不知道如 何更有效地发现自己所需的信息资源,这就是所谓的信息迷失。当前我们主要采 用搜索引擎来检索w e b 上的信息,而大多数搜索引擎缺少主动性,没有考虑用户 的兴趣偏好和用户的不同,无法有效地解决信息过载和信息迷失的问题。 直接或间接解决这个问题的途径之一就是将数据挖掘技术应用于w e b 服务器 日志,从用户在w e b 上浏览行为数据中获取用户的行为模式,根据用户的行为模 式,改进站点的设计和服务,开展个性化的信息服务( p e r s o n a l i z e da c t i v e i n f o r m a t i o ns e r v i c e :p a i s ) 和有针对性的电子商务活动和构建智能化w e b 站点。 目前已经存在的w e b 智能技术主要有3 种:个性化服务、自适应站点与推荐系 统。 千篇一律的商务站点缺乏传统商业活动中人的情感交流和互动,就如大量的 没有针对性的印刷广告,难以吸引顾客。有针对性地开展个性化服务,才能使商 务站点吸引更多的用户。个性化服务包括: 1 、个性化操作与显示。用户可以根据其个人爱好,选定特定的操作与显示方 式。新一代的w e b 文档中,显示格式不再是内嵌在文档数据内部,而是存放在与 文档的数据稍分离的样式文件中,文档可根据不同的样式文件因人而异地控制显 示方式,使显示具有多样性和灵活性。 2 、个性化问询与导航。每当用户登录,网站会根据各个用户的特定情况给出 有针对性的问题。 3 、个性化信息报送。网站根据用户自定义或自动分析用户最可能需要的信息, 在用户预订或进行一定操作后,自动把信息推荐给用户。 自适应站点与推荐系统的创建过程比较相似,但是两者处理的数据以及结果 的表现形式不同,例如,自适应站点是从w e b 服务器的日志中挖掘用户聚类,而 推荐系统根据用户的评分寻找用户聚类。相对而言,推荐系统加重了用户的负担。 对于结果的表示,自适应站点根据与用户聚类将w e b 页面变形后返回给用户,用 户可能并不知道该页面是w e b 服务器根据其访问特征为其定制的。而推荐系统返 回给用户的页面中通常包含两部分:w e b 服务器本来的页面内容和服务器为用户 推荐的内容,用户可以明显区分这两部分。对于自适应站点而言,如果服务器判 断失误,则可能导致用户看到的内容不是自己感兴趣的,就不可避免的出现用户 w e b 日志挖掘的研究和实现 流失现象。 本论文结合了个性化服务和推荐系统的技术,主要是为个性化服务提供数据 分析基础,通过收集关于用户的信息和用户访问的网站的信息,运用w e b 日志挖 掘技术,挖掘出用户的浏览访问路径。从而得出用户的访问规律,在用户下一次 访问网站时,使用推荐技术将用户感兴趣的网页推荐给用户。使用户感觉到该网 站就象是为自己定制的一样。 1 2 研究现状 w e b 日志挖掘是对用户访问w e b 时在服务器上留下的访问日志进行挖掘,即 对用户访闯w e b 站点约存取方式进行挖握。挖掘的目的是在海量的w e b 日恚数据 中自动、快速地发现用户的访问模式,如频繁访问路径、频繁访问页组、用户聚 类【1 1 等。 w e b 日志挖掘可以分为两种方法【2 j 。种是先将w e b 服务器上的数据映射到 关系数据库,然后选择合适的数据挖掘技术处理。另一种是利用特殊的预处理技 术直接处理月志数据,然后采用标准的数据挖掘技术来进行访闯数据的挖掘。 目前国内外基于w e b 服务器日志数据的用户访问信息挖掘研究工作大致可分 为以下3 类【3 】: 1 、以分析w 曲站点性能为目标 主要从统计学的角度,对日志数据进行简单的统计,得到用户频繁访问页面、 单位时间访问数、访闯数量随对间分布图等。绝大多数商用及免费的w e b 日志分 析工具都属于此类。 2 、以理解用户意图为目标 c h e n 等提出的路径游历模式( p a t ht r a v e r s a lp a t t e r n ) 的发现算法,以及j i a w e i h a n 等使用的数据立方体方法,便是此类的典型代表。 3 、以改进w e b 站点设计为目标 通过挖掘用户的频繁访问路径和用户聚类,重构站点的页面之间的链接关系, 以更适应用户的访问习惯,同时为用户提供个性化的信息服务。c o o l e yi lm o b a s h e r b 4 1 等人首次给出w 曲挖掘的定义,并且给出一个关于w 曲访问信息挖掘的系统 w e b m i n e r 。文献【4 】中提到的思路是,通过对w e b 站点的日志进行处理,将数据 组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统的数据挖掘 方法( 如关联规则发现算法) 进行处理,所得出的挖掘结果也是传统的数据挖掘结 果。 c h e n l 5 1 等首先将数据挖掘技术应用于w 曲服务器日志挖掘,发现用户的浏览 模式。提出最大前向引用( m f ) 序列的概念,将用户会话分割成一系列的事务, 然后采用与关联规则相似的方法挖掘频繁的浏览路径。 w e b 日志挖掘的研究和实现 h a i l 【6 1 等人将w 曲服务器臼志保存为数据立方体( d a t ac u b e ) ,然后在其上执行 0 l 镭的各种操作,如提升、钴取等,用于发现用户的访问模式。 s h a h a b i 【7 】等人提出的f t 志挖掘系统依赖于客户端的数据收集,客户端的代理 为服务器返回用户请求的页面及时间等数据。 国内的学者在w e b 用户访问信息挖掘方面主要侧重于理论研究。 沈均毅等人提出:首先以w e b 站点的u r l 为行,以u s e , r i d 为列,建立 u r lu s e r l d 关联矩阵,元素值为用户的访问次数,然后,对列向量进行相似性分 析得到相似客户群体,对行向量进行相似性分析获得相关w e b 页面,对相关页面 再进行进一步处理,则可以发现频繁访问路径。并提出了w e b 页面和用户群体的 模糊聚类算法。 吴泉源等人提出:基于e o e m 模型,综合考虑服务器的应用逻辑设计、页面 拓扑结构及用户浏览路径等多个数据源的用户访问模式及电子商务中潜在顾客群 的挖掘算法。另外他们还提出了基于b a y e s 概率的用户访问路径及其发现算法。 陆丽娜等人采用基于事务的方法,研究w e b 日志挖掘预处理及用户访问序列 模式挖掘方法,提出了一种基于扩展有向树模型进行用户浏览模式识别的w e b 日 志挖掘方法。 胡和平等人提出了应用多维立方体挖掘w e b 日志的多维关联规则的方法。 王熙法等人提出基于神经网络的w e b 用户行为聚类分析方法,即首先对w e b 服务器的日志文件进行分析,再进行会话分析,从会话向量中找出频繁数据集, 进行规一化处理后,生成模式向量,采用s o f m 模型进行聚类,最后生成用户聚 类。 高文等人采用w e b 站点的访问日志进行事物识别后,根据群体用户对w e b 站 点的访问顺序进行路径聚类,最终每一个聚类集就反映出该聚类集中的全体用户 的访问兴趣,为了得到这种根据用户访问兴趣而对用户的化分,提出了k - p a t h 路 径聚类方法。 周龙镶等人分析了w e b 用户浏览活动规律,提出了有关w w w 浏览路径的一 些基本概念,设计了基于用户访问模式的浏览路径优化算法。 马少平等人提出一种利用w e b 服务器t q 志文件,运用n 元m g r a m ) 预测模型, 对用户未来可能进行的w e b 访问请求进行预测。 尤晋元等人引入w e b 页面的内容链接比和页组的组内链接度,修改了频繁访 问页组支持度的计算公式,提出了基于页面内容和站点结构的页面聚类挖掘改进 算法等。 1 3 论文研究的内容 论文系统地阐述了从数据挖掘、w e b 数据挖掘到w e b 日志数据挖掘整个过程, w e b 日志挖掘的研究和实现 重点研究了w e b 日志挖掘过程中各环节的关键技术,从数据准备到模式发现再到 模式分析。本文重点研究和验证了路径分析算法p m a ,并将该算法应用到本文设 计和实现的w e b 日志挖掘系统w l d m s ,还将挖掘出来的模式应用于智能w e b 站 点的构建。 根据论文研究的目的,本人主要做了以下几个方面的工作: 1 、介绍了w e b 日志挖掘技术当前国内外的研究现状和研究意义。 2 、探讨了数据挖掘技术与w e b 挖掘的思想、方法和策略。 3 、重点讨论了w 曲日志挖掘中的关键步骤数据准备,详细地分析了预处 理阶段的各项任务。 4 、详细研究了模式发现中常用的发现算法,将传统数据挖掘算法引入到w e b 日志挖掘中。 5 、探讨了w e b 使用模式分析的常用方法。 6 、分析了常用路径分析算法的缺陷,研究了路径分析算法p m a ,并进行实验 说明了该算法的有效性。 7 、将数据挖掘技术集成并引入到w e b 日志挖掘中,设计并实现了一种结合关 系数据库特点的w e b 日志挖掘系统w l d m s 。 8 、探讨了智能站点技术的原理,并提出一个智能w 曲站点的模型。 1 4 论文的组织 全文组织如下: 第l 章绪论 概述了本论文的研究背景和研究现状,介绍了论文的研究内容和意义。 第2 章数据挖掘与w z b 挖掘 对数据挖掘、w e b 挖掘的理论做了简要的论述。 第3 章w e b 日志挖掘 详细地讨论了w e b 日志挖掘预处理的步骤和模式发现的常用算法,并探 讨了模式分析的方法。 第4 章路径挖掘算法p m a 分析和研究了路径挖掘算法p m a ,然后进行了实验验证。 第5 章日志挖掘系统w l d m s 的设计和实现 设计实现了一个w e b 日志挖掘的系统w l d m s ,并将挖掘结果应用于智 能站点的构建。 第6 啬结束语 总结,并提出进一步研究的方向。 w e b 日志挖掘的研究和实现 第2 章数据挖掘与w e b 挖掘 2 1 数据挖掘 2 1 1 数据挖掘定义 随着数据库技术的迅速发展和数据库管理系统的广泛应用,人们积累的数据 越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高 层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据 的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现 有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数 据爆炸但知识贫乏”的现象。 计算机技术的另一领域 、工智能自1 9 5 6 年诞生之后取得了重大进展。经 历了博弈时期、自然语言理解、知识工程等阶段,目前的研究热点是机器学习。 机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗 传算法等。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数 据背后的知识,这两者的结合促成了数据挖掘和知识发现技术的产生。 数据挖掘( d a t a m i n i n g ) ,就是从大量的、不完全的、有噪声的、模糊的、随机 的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程【8 】。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原 始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、 图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数 学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以 被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维 护。 因此,数据挖掘是一门交叉性学科,涉及到机器学习、模式识别、统计学、 智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。从数 据库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策支持等许 多方面。 2 1 2 数据挖掘的过程 数据挖掘也称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s : k d d ) ,过程是指挖掘中的步骤,通常知识发现的过程可以有以下步骤组成( 参看 图2 1 ) 。 l 、问题定义 数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种 w e b 日志挖掘的研究和实现 知识就成为整个过程中第一个也是最重要的一个阶段。在问题定义过程中,数据 挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实际工作对数据挖 掘的要求;另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续 的学习算法选择和数据准备都是在此基础上进行的。 图2 1k d d 过程示意图 2 、数据收集和数据预处理 数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。 数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需 要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺 值数据、消除重复记录、完成数据类型转换( 如把连续值数据转换为离散型的数 据,以便于符号归纳,或是把离散型的转换为连续值型的,以便于神经网络) 等。 当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时 完成了。数据变换的主要目的是消减数据维数,即从初始特征中找出真正有用的 特征以减少数据挖掘时要考虑的特征或变量个数。 3 、数据挖掘 数据挖掘阶段首先根据对问题的定义明确挖掘的任务或目的是什么,如分类、 聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么 样的挖掘算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点, 因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户 可能希望获取描述型的、容易理解的知识,而有的用户只是希望获取预测准确度 尽可能高的预测型知识,并不在意获取的知识是否易于理解。 6 w e b 日志挖掘的研究和实现 4 、结果解释和评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这 时需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程退回 到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至 换一种算法等。另外,k d d 由于最终是面向用户的,因此可能要对发现的模式进 行可视化,或者把结果转换为用户易懂的表现形式( 如把分类决策树转换为 “i f 一t h e n ”规则) 。 影响数据挖掘质量的好坏有两个要素:一是所采用的数据挖掘技术的有效性, 二是用于挖掘数据的质量和数量( 数据量的大小) 。如果选择了错误的数据或不适 当的属性,或对数据进行了不适当的转换,则有可能取到不正确的挖掘结果。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数 据不太好,或使用的挖掘技术产生不了期望的结果时,需要重复以前的过程,甚 至从头重新开始。 可视化在数据挖掘的各个阶段都起着非常重要的作用。在数据准各阶段,用 户可能要使用散点图、直方图等可视化统计技术来显示有关数据,以期对数据有 一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段,用户则要使用 与领域问题有关的可视化工具。在表示结果阶段,则可能要用到可视化技术。 2 1 3 数据挖掘的技术 目前应用在数据挖掘上的技术有很多,比较流行的有人工神经网络、决策树、 遗传算法、信号分析方法等。 1 、人工神经网络 仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。人工神 经网络模拟人类部分形象思维的能力,是模拟人工智能的条途径。特别是可以 利用人工神经网络解决人工智能研究中所遇到的一些难题。人工神经网络理论的 应用已经渗透到多个领域,在计算机视觉、模式识别、智能控制、非线性优化、 自适应滤波信息处理、机器人等方面部取得了可喜的进展。 尽管神经网络的模型很多,但在数据挖掘中最为广泛使用的是有导师学习的 反向传播网络( b a c kp r o p a g a t i o n ) ,它通过重复在网络中前后传递样本记录的方式 进行学习。 2 、决策树 是代表着决策集的树形结构。方法是乖j 用信息论中的信息增益寻找数据库中 具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树 的分枝:在每个分枝子集中重复建树的下层结点和分枝的过程,即建立决策树。 最有影响和最早的决策树方法是q u i u l a n 研制的i d 3 方法,数据库越大,其处理效 w e b 日志挖掘的研究和实现 果越好。在i d 3 方法的基础上,后人又发展了c 4 5 等决策树改进的方法。 3 、遗传算法 是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的 优化技术。生物的进化是一个奇妙的优化过程,它通过选择淘汰,突然变异,基 因遗传等规律产生适应环境变化的优良物种。遗传算法是根据生物进化思想而启 发得出的一种全局优化算法。 4 、信号分析 利用信号分析的方法和原理,将数据看成是由多个通道采样组成的信号,对 数据进行信号分析。通常信号分析的方法有小波分析方法、傅立叶分析方法、加 窗的傅立叶分析方法等。这类方法的特点是将输入的数据经过变换并进行频率域 上的分析。由于在频率域上的信号通常表现为低频和高频信号的叠加,因此可以 对不同的频率信号进行处理,以达到特定的目的。 2 2w e b 挖掘 2 2 ,1w e b 挖掘概述 近年来,i n t e m e t 正以令人难以置信的速度在飞速发展,越来越多的机构、团 体和个人在i n t e m e t 上发布信息,查找信息。虽然i n t e m e t 上有海量的数据,但由 于w e b 是无结构的、动态的,并且w e b 页面的复杂程度远远超过了文本文档,人 们想要找到自己感兴趣的数据犹如大海捞针一般。许多搜索引擎被开发出来,但 其覆盖率有限,因此查全率低,而且一般的搜索引擎是基于关键字的查询,命中 率较低,另外不能针对特定的用户给出的特定的服务,因为每个人感兴趣的东西 并不一样,所以不具有个性化。 解决这一问题的途径就是将传统的数据挖掘技术和w e b 结合起来,进行w e b 挖掘。 文献 9 】将w e b 挖掘定义为;针对包括w e b 页面内容、页面之间的结构、用户 访问信息、电子商务信息等在内的各种w e b 数据,应用数据挖掘方法以发现有用 的知识来帮助人们从中提取知识,改进站点设计,更好地开展电子商务。我们这 里采用一个更一般的定义:w e b 挖掘是指从与w w w 相关的资源和行为中抽取感 兴趣的、有用的模式和隐含信息。 w e b 挖掘可以在很多方面发挥作用,如确定权威页面,w e b 文档分类,w e b l o g 挖掘,智能页面推荐等等。 传统的数据挖掘技术处理的数据对象主要是结构化数据,很少处理w e b 上的 异质、非结构化信息,因此,对w 曲上的数据进行挖掘具有极大的挑战性1 0 】。 1 、w e b 数据挖掘的对象是大量、异质、分布的文档。 对数据挖掘而言,w e b 似乎太庞大了。w e b 的数据量目前以兆兆字节计算, w e b 日志挖掘的研究和实现 而且仍然在迅速增长。 2 、w 曲是半结构化或非结构化的。 w 曲页面的复杂性高于任何传统的文本文档。w e b 页面缺乏统一的结构, 它包含了远比任何一组书籍或其它文本文档多得多的风格和内容。 3 、数据源具有很强的动态性。 w e b 是一个动态性极强的信息源,其中的数据增长迅速,以每4 到6 个月 的速度翻一番,而且信息在不断地发生更新。 4 、w e b 面对的是一个形形色色的用户群体,各个用户有着不同的兴趣和使用 目的。 5 、w e b 上的信息只有很小的一部分是相关的或有用的。 上述挑战推动了w e b 挖掘的研究工作,w e b 挖掘成为数据挖掘的一个新主题, 引起了人们的极大兴趣。 2 2 2w e b 挖掘的分类 按照挖掘对象的不同,一般将w e b 挖掘分为3 大类【1 1 】:w e b 内容挖掘( w e b c o n t e n t m i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r e m i n i n g ) 和w e b 日志挖掘( w e b l o g m i n i n g ) ,如图2 2 所示。 图2 2w e b 挖掘分类 1 、w e b 内容挖掘 w e b 内容挖掘是指从w e b 页面内容及其描述信息中获取潜在的、有价值的知 识或模式的过程。 w e b 内容挖掘分为文本挖掘和多媒体挖掘两大类。对于文本文档( 包括d 汀, p o s t s c r i p t ,p d f , h t m l 等) 的挖掘称为文本挖掘。w e b 文本挖掘的数据对象既可以 是结构化的,也可以是非结构化和半结构化的。w e b 文本挖掘的结果既可以是对 某个文本内容的概括,也可以是对整个文本集合的分类结果或聚类结果,还可以 9 w e b 日志挖掘的研究和实现 利用w e b 文档进行趋势预测等 1 2 】【1 3 l 。多媒体信息挖掘,主要是指通过对w e b 上的 音频、视频数据和图像进行预处理,应用存储和搜索技术与标准的数据挖掘方法 的集成,对其中潜在的、有意义的信息和模式进行发掘的过程。多媒体信息挖掘 可以应用于语音识别、图形和图像处理等研究领域。 2 、w e b 结构挖掘 w e b 结构挖掘是从w w w 的组织结构和链接关系中推导知识【l “。主要是通过 对w e b 站点的结构进行分析、变形和归纳,将w e b 页面进行分类,以利于信息的 搜索。因为超文本网页之间的相互连接,网页显示的信息远比文档内容多。 w e b 结构挖掘所得到的模式,可以揭示许多蕴涵在w e b 内容之外的有用信息。 如通过文档之间的超链接,可以挖掘出文档之间的引用关系,从而帮助我们找到 与用户请求相关的权威页面。通过分析w e b 网页内部树形结构,可以发现与给定 页面集合相关的其它页面。w e b 页面的u r l 同样可以反映页面的类型以及页面之 间的从属关系,通过分析页面的u r l 信息,可以找到改变了位置的w e b 页面的新 位置。 3 、w e b 日志挖掘 w e b 内容挖掘和w e b 结构挖掘的挖掘对象是网上的原始数据,而w e b 日志挖 掘( 也称为w e b 使用记录挖掘) 面对的则是在用户和w e b 交互的过程中抽取出来 的第二手数据,主要包括:w e b 服务器日志( 包括服务器日志、引用日志和代理日 志) 、用户简介、注册信息、用户对话或交易信息、用户提问方式等。 w e b 日志挖掘的一般过程如下所述: ( 1 ) 、数据的预处理:就是将来自于不同数据源的数据,如使用模式等信息重 新组织成为模式发现所必需的数据结构。 ( 2 ) 、模式发现:对数据预处理所形成的文件,利用数据挖掘的一些有效算法 ( 如关联规则、聚类、分类、序列模式等) 来发现隐藏的模式和规则。 ( 3 ) 、模式分析:主要是对挖掘出来的模式、规则进行分析,找出用户感兴趣 的模式,提供可视化的结果输出。 w e b 日志挖掘得到的结果,可以用于重构w e b 站点的页面之间的链接关系, 及重构w e b 站点的拓扑结构、发现相似的客户群体,开展个性化的信息服务和有 针对性的电子商务活动,应用信息推拉技术构建智能化w e b 站点。 本课题主要讨论w e b 日志挖掘,它是个性化服务和智能站点技术的基础。 1 0 w e b 日志挖掘的研究和实现 3 1 前言 第3 章w e be l 志挖掘 随着互联网技术的快速发展,大量的数据囤积在互联网上,在数据背后隐含 着重要的知识。如何从互联网数据中提取出有用的信息,己成为当今计算机技术 研究的一个热点课题。 i n t e m e t 上大量杂乱无章的信息是以非结构化或半结构化的形式表现出来的, 而数据挖掘涉及到结构化的数据,然而w e b 服务器日志记录具有很完整的数据结 构,有利于数据挖掘的进行。w 曲日志挖掘通过分析w e b 日志记录发现用户访问 规律,进而应用到个性化推荐、系统改进以及商业智能等方面。 3 1 1 定义 所谓w e b 日志,是指在服务器上有关w e b 访问的各种日志文件,包括访问日 志、引用日志、代理日志、错误日志等文件【15 1 。这些文件里包含了大量的用户访 问信息,如用户的i p 地址、所访问的u r l 、访问日期和时间、访问方法( g e t 或 p o s t ) 、访问结果( 成功、失败、错误) 、访问的信息大小等。 w e b 日志挖掘是通过对w e b 日志记录的挖掘,发现用户浏览w e b 页面的模式。 它可用于分析网站流量模式,发现系统性能瓶颈,优化站点结构、提高站点效率, 提高用户访问的有效性,发现用户的需要和兴趣等。 3 1 2 日志挖掘的过程 w 曲日志挖掘的具体过程如下图3 1 所示: 原始日志预处理过规则、模式和 的数据统计 图3 1w e b 日志挖掘的过程 有用的规则 模式和统计 结果 w e b 日志挖掘的研究和实现 日志文件是用户测览w e b 服务器时记录下来用户访问网站的情况,被记录在 w e b 服务器中,由于每天的日志访问量比较大,可以将日志文件保存在数据库服 务器中。w e b 日志挖掘就是对原始的日志文件进行预处理转变成适合挖掘的数据 形式,然后用传统的数据挖掘方法( 如关联规则、聚类等) 对w e b 数据进行挖掘, 最后将挖掘出的结果进行汇总,从而应用到实际当中去。 3 2 数据收集 数据收集可以从服务器端数据、客户端数据、代理服务器端数据收集【1 6 1 。这 些数据不仅意味着存放的位置不同,其中还包含了w e b 世界中不同的浏览模式。 通常,用户端的日志包含了单用户多站点的浏览模式,服务器上的日志则意味着 多用户单站点模式,代理服务器上的日志则是多用户多站点模式。 1 、服务器端数据 通过w 曲服务器记录用户访问日志,在服务器中记录了用户每次访问网站进 行的每一次网页请求的信息。这种方法是比较有效的,能够很全面的记录用户登 录页面的详细信息,比如:时间、日期、i p 地址、页面等等,并可通过记录c o o k i e 和c g i 的查询参数来描述各个不同用户的行为。所以,这种数据收集方法有利于 数据挖掘的进行,易于分析出用户的浏览行为。 2 、客户端数据 用户端的数据收集可以使用j a v a s c r i p t s 或者j a v aa p p l e t s 这样的远程代理来实 现,a p p l e t 能记录用户所有的行为但有效率问题,j a v a s e r i t p s 虽然对效率影响不大, 但不能记录用户所有的动作。也可以修改用户的浏览器软件,使之具有数据收集 的能力。 用户端的数据收集特别需要用户的合作,因为直接从用户端取得数据需要考 虑用户的隐私和占用用户的机器和网络资源。从用户端收集数据最大的优点是可 以直接取得用户的各种真实信息,这些信息的完整性和真实性都要好于服务器上 的。例如目前服务器上的任何方法都难以取得用户的点击信息,特别是点击后退 和利新按钮。 3 、代理服务器端数据 通常在网络中基于安全和效率的考虑,需要使用代理服务器技术。代理服务 器在用户端和服务器端扮演着中间传递的角色,而且代理服务器可以是多级级联 的i 。代理服务器通常为多个用户服务,这样从代理服务器上就可以得到多个匿 名用户的浏览信息。代理服务器上保存着一个最近访问过的页面集合。如果这些 页面是静态的,那么用户通过代理服务器访问该页面时,就不需要从w e b 服务器 上取得数据,可以将该静态页面直接发给用户。但是对于电子商务中经常使用的 动态页面就要到w e b 服务器上取得所需数据。通过代理服务器不仅可以收集多个 w e b 目志挖掘的研究和实现 用户的行为,还可以收集对多个网站的行为。 3 3 数据预处理 w e b 日志挖掘在使用挖掘算法之前要执行一系列的数据预处理过程,它是w e b 日志挖掘的重要阶段,也是工作量较大的一部分,直接影响着挖掘结果的准确性、 可信性【l8 。包括数据净化、用户识别、会话识别、路径补充和事务识别1 9 】哪! 五个 步骤。其中为了克服因为缓存、代理服务器等造成的日志不完整的问题,在预处 理阶段要结合网站的拓扑结构,使用统计数据等进行处理。 3 3 1 w e b 服务器日志文件格式 日志有着不同的格式,例如通用日志格式c l f ( c o m m o n l o g f o r m a t ) 和扩展 通用日志格式e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) ,其他还有n c s a , c e r n , a p a c h e 日志格式1 2 ”。下面是一段w 曲服务器日志( m i c r o s o f t i i s 日志文件) : s o f t w a r e :m i c r o s o f ti n t e r n e ti n f o r m a t i o ns e r v i c e s6 0 t ;v e r s i o n :1 0 # f i e l d s :d a t et i m e s i p c s - m e t h o dc s - u r i - s t e m c s - u r i q u e r ys p o r t c s u s e r n a m ec i pc s ( u s e r a g e n t ) s c s t a t u ss c s u b s t a t u ss c w i n 3 2 一s t a t u s 2 0 0 4 一1 0 1 90 8 :5 7 :4 42 0 2 1 9 6 3 2 2 5g e t d e f a u l t a s p 一8 0 2 0 2 1 9 6 4 1 2 5 1 m o z i l l a 4 0 + ( c o m p a t i b l e :+ m s i e + 6 0 :+ w i n d o w s + n t + 5 0 :+ n e t + c l r + i 1 4 3 2 2 ) 2 0 00 0 一个扩展通用曰志格式口习中的数据包括以下信息: l 、d a t e 、t i m e :时间戳。 2 、c i p :客户主机的碑地址。 3 、c s u s e r n a m e :即用户i d ,是在被访问页面需要进行用户注册是才有的, 若没有对任何一个页面进行注册则为空。 4 、s i p :被访问服务器的口地址。 5 、s p o r t :被访问服务器的端口。 6 、c s - m e t h o d :是指客户访问的方式,例如是g e t 还是p o s t :有些还记录 所采用的协议如h t t p 或如等。 7 、c s u r i s t e m :指请求文档的u r l ,即所访问的页面。 8 、s c s t a t u s :返回码( 即请求的状态:成功或错误码) ,即访问的最后状态( 结 果) ,典型的有,2 0 0 代表成功,4 0 4 代表找不到所请求的页面。 9 、s i z e :传输的比特数。 1 0 、r e f e r e r :引用w e b 页的u r l 。 l l 、c s ( u s e r a g e n t ) :表示客户机的浏览器的类型、版本、及所运行的操作 系统。 w e b 日志挖掘的研究和实现 访问l o g 文件中一般没有用户i d ,这是因为用户经常利用代理服务器实现请 求检索。此外,商业网关采用防火墙技术也会出现这种情况。这时,访问l o g 文件 中实际记录的是代理服务器或防火墙的i p ,因此,产生了访问l o g 文件的模糊性。 另一方面,为了减少网络流量,一些w e b 服务器和客户端浏览器采用c a c h i n g 技 术,结果访问l o g 文件丢失了访问存储在c a c h e 中的w e b 页的记录,使得l o g 文件 记录不完全。这些都是数据净化所必须考虑的问题。 3 3 2 数据净化 数据净化是指删除w e b 服务器日志中与挖掘算法无关的数据。通常,只有用 户请求的h t m l 页面才真正代表了用户的意图,用户一般不会显式地请求页面上 的图形文件,它们是根据h t m l 的超文本引用标记自动下载的。w e b 日志挖掘的 目的是获得用户的行为模式,并不关心那些用户没有显式请求的文件,所以通过 检查u r l 的后缀删除认为不相关的数据。例如:将日志中文件的后缀名为g i f 、 j p e g 和j p g 删除。另外,后缀名为c g i 的脚本文件也应被删除。具体到实际的系 统就使用一个缺省的后缀名列表帮助删除文件。列表可以根据正在分析的站点类 型进行修改,例如:对一个主要包含图形文档的站点,日志中g i f 和j p e g 文件可 能代表了用户的显式请求,此时就不能将图形文件删除。 上述这些是记录删减,此外还要对属性进行删减。w e b 日志记录包括多项属 性,而与数据挖掘相关的只有用户i p 地址、用户d 、用户请求访问的u r l 页面 及访问时间,其他属性可以去掉。 进行数据预处理的还有一个方面,如:一些网站的页面用户在提出请求时, w e b 服务器拒绝该页面的请求,那么应该过滤掉非法请求的页面,对正常的页面 进行数据处理是很有价值的。但是如果考虑的是网络安全方面的问题,那就只考 虑非法请求的页面的情况。 3 3 3 用户识别 识别用户对于会话识别特别对提供个性化的服务非常重要,目前由于本地缓 存、代理服务器和防火墙的存在,为用户动态的分配口地蛙,想要识别出每一个 用户变得很复杂。 服务器端最常用的用户和会话识别技术是c o o k i e ,而在用户端识别用户则不 需要任何特别的技术。用户端的最大问题在于对用户行为的跟踪侵犯了用户的隐

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论