




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)对于web用户分类与个性化浏览模式提取的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 摘要 w e b 日志挖掘的研究目的在于发现浏览网站的行为规律,改善站点的结构和页 面间超链接结构,提高站点服务质量以及在电子商务中的客户关系管理方面的决 策支持。 本文对w e b 日志挖掘的研究背景、研究现状、挖掘步骤和各个技术环节以及 应用领域做了全面阐述,并在此基础上重点深入研究了其中的一个关键领域:个 性化服务。个性化服务一般包括两个方面:离线信息提取,在线信息推荐。本文 的工作主要集中在研究离线信息提取这一步。 在离线信息提取中,本文在以下方面展开深入研究和讨论: 提出了三种依据用户上网浏览网页行为对用户进行聚类的方法,并通过实 验对这三种方法进行了对比。本文提出了旨在解决因为人的浏览行为经常变化而 很难将其归类的有效方法,为进一步进行个性化模式提取及提高个性化服务质量 打下了坚实的基础。 针对聚类方法工作量大,效率较低,每次都要对聚类结果进行解释和评价 的缺点,本文在对用户聚类工作的基础上又提出了基于支持向量机的用户分类方 法,实验证明了方法的准确性和高效性。该方法主要应用于w e b 日志中不断变化 和新增的用户。 在对用户聚类和分类的基础上,本文针对每类用户浏览行为相近的特点提 出了一遍扫描数据库的模式提取方法,实验证明了方法的准确性和高效性。 本文通过以上三方面的研究形成了完整且准确高效的用户个性化信息提取模 型。 关键词:w e b 日志挖掘;用户聚类;用户分类;模式提取;浏览兴趣;支持向量 机; b q - t e 对于w 曲用户分类与个性化浏览模式提取的研究 a b s t r a c t w 曲l o gm i n i n ga i m sa tt h er u l ed i s c o v e r yo fb r o w s i n gb e h a v i o r s0 fs i t e s v i s i t o r s , t h ei m p r o v e m e n to fs i t e s s t r u c t u r ea n dl i n k a g es t r u c t u r ea m o n gp a g e sa n dt h e e n h a n c e m e n to nt h eq u a l i t yo fw e bs e r v i e sa n dt h ed e c i s i o ns u p p o r to nc l i e n t f e l a t i o n s h i pm a n a g e m e n t o ft h ee - c o m m e r c e w e bl o gm i n i n gi sd e s c r i b e di nt h i s p a p e ri n c l u d i n gb a c k g r o u n d ,s t a t u s i n n o w d a y s ,t h et e c h n o l o g yo fe v e r ys t e pa n da p p l i c a t i o ni nf i i t u r e t h em a i nr e s e a r c h i s s u eo ft h i sp a p e ri sp e r s o n a l i z e ds e r v i c ew h i c hi so n eo fa r e a s0 fw e bl o gm i n i n g i n g e n e r a l ,p e r s o n a l i z e ds e r v i c ei n c l u d ei n f o r m a t i o nm i n i n go f f - l i n e a n dc o m m e n d o n l i n e o u rw o r kf o c u so ni n f o r m a t i o nm i n i n go f f l i n e t h em a i nw o r ka n d m a i nn o v e li d e a so ft h et h e s i sa r es h o w e da sf o l l o w i n g : t h r e ec u s t o m e rc i u s t e r i n gm e t h o d sb a s e do nb r o w s i n gb e h a v i o ro fu s e r sa r e p r o p o s e di nt h i sp a p e r ,t h ee f f e c to ft h et h r e em e t h o d sa r ec o m p a r e db ye x p e f i m e n t i ti s h a r dt oc l a s s i f y i n gt h eu s e r sd u et ot h eu s e r s b r o w s i n gb e h a v i o ri sv a r i o u s ,t h e s e m e t h o d so ft h i sp a p e rr e s o l v et h ed i f f i c u l t yp e r f e c t l ya n da r ei m p o r t a n tt om i n i n g p e r s o n a l i z e db r o w s i n gp a t t e r n s t h em e t h o do fu s e r s c l a s s i f y i n gb a s e do ns v mi sp r o p o s e dd u et o i ti s u n e f f i c i e n tt oc l u s t e r i n gu s e r sa n dw eh a v et oe x p l a i na n de v a l u a t ec l u s t e r i n gr e s u l ti f a d o p tc l u s t e r i n g m e t h o d t h e e x p e r i m e n tp r 0 v et h e m e t h o di s a c c u r a c y a n d e f f i c i e n t t h i sc l s s s i f y i n gm e t h o di sa p p l i e dt ot h er e n e wu s e r so fw e b l o g l an o v e lp a t t e r nm i n i n gm e t h o db a s e do nt h er e s u l to fu s e r sc l u s t e r i n ga n du s e r s c l a s s i f y i n gi sp r o p o s e d t h em e t h o di s e f h c i e n tb e c a u s ei tn e e do n l yo n c et os c a n d a t a b a s ea n di sa c c u r a c yb e c a u s et h eb r o w s i n gb e h a v i o ro fu s e r so fe a c hc l a s si s s i m i l a r t h ee x p e f i m e n tp r o v et h em e t h o di se f f e c t i v e am o d e lo fu s e r sp e r s o n a l i z e di n f o r m a t i o nm i n i n gi sp r o p o s e di nt h i sp a p e r ,w h i c h i sb a s e do nt h er e s e a r c ho ft h r e ei s s u em e n t i o n e da b o v ea n di sa c c u r a c ya n de f f i c i e n t k e yw o r d s :w c bl o gm i n i n g ;u s e r s c l u s t e r i n g ;u s e r s c l a s s i f y i n g ;p a t t e m sm i n i n g ; i n t e r e s t i n go f b r o w s i n g ;s v m ;b q t r e e 硕士学位论文 插图索引 2 1w e b 日志挖掘过程5 2 2w e b 使用数据的基本e r 模型一6 2 3w e b 交互环境6 2 4w e b 日志挖掘数据预处理具体过程8 2 5w e b 日志挖掘的主要应用领域1 3 4 1 决策二叉树3 0 5 1b q t r e e 树节点结构3 7 5 2b q t r e e 树挖掘3 9 5 3 实验结果比较( 二) 4 0 图图图图图图图图图 对于w | e b 用户分类与个性化浏览模式提取的研究 附表索引 表1 1w 曲数据挖掘研究相目一览表4 表2 1 与使用数据相关的概念5 表2 2w e b 服务器日志7 表3 1 聚类实验结果比较2 4 表4 1 实验比较( 一) 3 0 表4 2 实验比较( 二) 3 1 表5 1 会话实例3 8 表5 2 实验结果比较( 一) 。3 9 兰州理工大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果 由本人承担。 作者签名: 寻乏1 日期:如d 年r 月) z 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学 校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中 国学位论文全文数据库,并通过网络向社会公众提供信息服务。 作者签名: 毒如, 一 导师签名:矽必孚 日期: ,o 考年r 月) 乙日 日期:i 夕年,月2 2 ,日 硕+ 学位论文 1 1 课题背景及意义 第1 章绪论 随着i n t e r n e t 的发展,w w w 的应用越来越广泛,w e b 站点如雨后春笋般不断 涌现。在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。 所有客户行为的电子化,使得大量收集每个用户的每一个行为数据、深入研究 用户行为成为可能。如何利用这个机会,从这些“无意义 的繁琐数据中得到 大家都看得懂的、有价值的信息和知识是我们面临的问题。所以,出现了数据 挖掘在w e b 站点分析中的应用,即w e b 挖掘。 目前w w w 的数据挖掘应用有很大一部分集中在w e b 站点的日志上。w e b 站点 的日志记录了w e b 站点的浏览者的所有动作,对这些记录进行挖掘,找出浏览者 喜爱的浏览路线,对w e b 站点的经营者和管理者有现实意义。一方面,不同层次、 不同爱好和使用目的的浏览者需要个性化的信息服务;另一方面,w e b 站点的经 营者和管理者为提高网站的声誉和效益,需要了解用户需要什么和想做什么。 其中包括大多数用户的共同兴趣,开展针对性服务,以及对特定的用户开展个 性化的信息服务和电子商务活动。因此在当今这个信息社会,w e b 站点管理人员 如何能够更加了解客户,提供更加个性化的内容来满足不同客户的需求以吸引 客户,就成为一项十分重要而紧迫的研究课题。同时,分析w e b 站点服务器数据 发现有意义的隐藏访问模式规则,对于分析和改善站点的使用情况及资源配置 也具有重要的意义。w e b 使用挖掘的目的就在于此,它通过研究w e b 服务器的日 志文件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于w e b 站点 改进或可以带来经济效益的信息,w e b 日志数据挖掘,已经成为现在的一个研究 热点。 1 2 国内外研究现状 w e b 挖掘正在成为高效的、智能的w e b 应用的前提条件之一,而与用户的 喜好和期望等紧密联系的w e b 使用模式构成了w e b 服务的基础。这些w e b 服 务通常能够达到个性化、对用户友好以及能不断优化等标准。目前,国内外 w e b 使用挖掘的研究不仅仅局限于对w e b 日志的挖掘,从更广泛意义上说是从 多方面对用户使用w e b 的行为规律的分析和研究。 w e b 使用挖掘主要有两个研究发展方向:一般化的w e b 使用模式分析【1 2 ,3 】 和个性化的w e b 使用模式分析l 引。 一般化的w e b 使用模式是从w e b 日志中挖掘用户的访问模式和预测用户 对丁w 曲用户分类与个性化浏览模式提取的研究 的访问模式。这些挖掘出来的模式和规则对w e b 站点的改进包括p j : a 使用户所关心的页面更加容易访问; b 使用户所关心的超链接更加醒目; c 链接相关的页面; d 聚合相似的页面; e 增加缓冲预取机制、改善服务器响应时间; f 合理设置广告; 个性化的w e b 使用模式是挖掘某一类或某几类用户( 甚至某个用户) 访问 网站的行为规律,这使得网站能够动态地为用户提供个性化的服务以极大的满 足用户的需求。所谓的个性化服务是指w e b 站点为适应某一类或某一个特定的 用户需要而实时地调整数据的组织和显示。一种实现个性化服务的方法是允许 用户手工定制w e b 站点显示选项,系统将记住每个用户的定制,并在该用户再 次进入该网站时进行相应调整。例如微软的m s n 站点允许用户只看用户自己 选择的新闻栏目。 当前国内外许多大学和研究机构对w e b 使用挖掘的两个发展方向,将理论 研究和实际应用结合起来开展了大量的研究工作并且开发了许多具有代表性 的w e b 使用挖掘的实际原形系统。 1 国外主要系统 ( 1 ) w u m 系统 w u m ( w e bu t i l i z a t i o nm i n e r ) 是一个序列模式挖掘系统【引。它的主要目 标是分析访问网站的用户们的浏览行为。w u m 发现的模式不一定是由相邻的 浏览事件组成的,同时这些模式也要满足用户的某种兴趣度标准。用户的兴趣 度标准能够通过w u m 使用的挖掘语言m l n t 提供的谓词逻辑动态的表达。作 为一种挖掘语言,m i n t 是用户和系统之间的接口。w u m 是一个可用于日志 预处理、查询和可视化的集成环境。它主要包括两个模块:聚合服务 ( a g g r e g a t i o ns e r v i c e ) 和m i n t 处理器( m i n t - p r o c e s s o r ) 。聚合服务模块的 功能是准备用于挖掘的w e b 日志数据。它从用户访问网站的活动中抽取信息, 并把同一用户的连续活动分组成一个事务,然后将这些事务转化成序列。聚合 服务模块最主要的任务就是把各种序列合并成树结构,并且把聚集的统计信息 保留在树结构中。m i n t 处理器模块是w u m 的核心部分,它的功能是根据专 家的指示从聚合服务模块产生的聚合数据中抽取有用的信息,发现各种不同的 浏览模式。 ( 2 ) 、k b w a t c h e r 系统 w 曲w a t c h e r 【7 ,8 ,9 1 是由美国奈基梅隆大学研制的一个w e b 浏览向导智能体 ( w 曲t o u rg u i d ea g e n t ) 。一旦你告诉它要搜寻的信息范围,它将在你浏览 w e b 时一直陪伴你,帮助你查看或搜寻那些它认为你感兴趣的w e b 页面和超链 2 硕士学位论文 接。它的学习策略主要是根据用户感兴趣的内容和用户浏览历史中反馈信息, 逐步地改进访问者的访问模式,从而动态地提供用户感兴趣的内容。 ( 3 ) w e b m i n e r 系统 w e b m i n e r 【1 0 】主要贡献是: a 提出了一种灵活的w e b 挖掘体系结构; b 提出一种由多个w e b 日志条目组成的用户事务模型; c 运用聚类算法将w e b 日志条目划分成事务; d 采用关联规则和时间序列发现算法进行模式发现。 ( 4 ) w e b l o g m i n e f 系统 w c b l o g m i n e r 是用于挖掘w e b 日志文件的知识发现工具【1 1 】。在 w 曲l o g m i n e r 系统中,知识发现总共分为四个步骤: 第一阶段:根据w e b 服务器同志文件构建数据库。在此阶段中,从w e b 日志数据中过滤掉不相关的信息,将剩下的有意义信息经过数据转换后构造成 一个关系型数据库。这个数据库将有利于下一个阶段的信息抽取和数据总结: 第二阶段:多维w e b 日志数据立方体的构造; 第三阶段:基于数据立方体的联机分析处理( o l a p ) 。在第二阶段构造 的数据立方体上利用卷( r o l l u p ) 、下钻( d r i l l d o w n ) 、切片( s l i c e ) 和切块 ( d i c e ) 操作来进行联机分析处理; 第四阶段:知识发现和表示。通过联机分析处理发现的潜在知识通过数 据特征化、类别比较、关联规则、预测分类和时间序列分析等形式表示出来。 2 国内主要系统 ( 1 ) w e b i a m 系统 网站智能分析、e b i a m ( w e bi n t e l l i g e n ta n a l y s i sa n dm a n a g e m e n t ) ,是一 个对w e b 工作情况进行全面分析、测试与管理的软件系统【1 2 】。通过使用 w 曲i a m ,用户可以全面了解和掌握网站的客户访问情况、内容设置情况和技 术设备工作情况。 w e b i a m 是一个基于系统模型技术设计的软件,通过w e b i a m 多维的信 息挖掘技术与系统模型技术,管理者可以发现用一般的统计分析方法不能够得 到的、规律性的w e b 运行特性,深入地分析网站的各级管理者详细地、定量地、 科学地了解和掌握被管理对象w e b 的工作状态,提高经营和管理水平。 w 曲1 a m 在w e b 分析功能上具有如下特点:分析指标体系、汇总分析、管 理等级与权限、访问行为分析、频道分析、地区分析、注册用户分析、同期比 较、安全审计、指定日期分析、介入分析、运营商分析、外部压力测试; w 曲i a m 在w e b 分析技术上具有以下特点:实时监测系统资源、多线程技 术、服务器集群分析和超大规模日志分析等。 ( 2 ) s w l m s 系统 3 对于w 曲用户分类与个性化浏览模式提取的研究 s w l m s ( as i m p l ew e bl 0 9m i n i n gs y s t e m ) 是西安交通大学研制的一个小 型w e b 日志挖掘试验系统【”l 。它的目标是从w e b 日志中进行序列模式的分析, 解决访问序列回路问题,从而改进网站结构,提高用户访问效率。 以上介绍的系统是具有代表性的一些w e b 日志挖掘工具。表1 1 对目前的 w e b 日志挖掘工具作了一个概括性总结。 表1 1w e b 数据挖掘研究项目一览表 项目应用领域 项目应用领域 w e b s l f t 普通s h a h a b j 普通 w u m 普通w e bl o g m i n e r 商业 s i t eh e l p e f 个性化服务 p a g e g a t h e r 网站结构设计 l e t i z i a 个性化服务m a n l e y 用户分类 w e bw a t c h e r 个性化服务 a r l i t t 用户分类 l o i s h n a p u r a m 个性化服务 p i t k o w用户分类 a n a l o g 个性化服务 a l m e i d a 用户分类 t u z h i l i n 商业 r e x f o r d 提高系统效率 b u c h n e r 商业 s h e c h t e r 提高系统效率 w e bt r e n d s 商业 a g g a r w a l 提高系统效率 1 3 论文的主要研究工作 1 收集有关w e b 挖掘及w e b 日志挖掘研究的国内外论文,了解w e b 日志 挖掘研究的最新动态,引导研究工作的进行。 2 对w e b 日志挖掘整个过程中涉及到的每个步骤进行研究,包括数据收 集、数据预处理、分类聚类、模式发现、模式分析、在线服务等等。 3 对于用户聚类提出了三种从不同角度出发的方法,提出了不同以往的 兴趣度的概念,并构造数学模型通过模拟实验验证。 4 提出了基于支持向量机的新的用户分类方法,并通过实验验证。 5 提出了快速频繁浏览模式提取方法,并通过实验验证。 6 构建了完整的w e b 用户个性化信息提取模型框架。 1 4 论文内容安排 论文其余各章的安排如下: 第2 章:w e b 日志挖掘概述 第3 章:基于浏览行为的用户聚类研究 第4 章:基于浏览行为的用户分类研究 第5 章:分类用户的w e b 频繁浏览模式提取 4 硕士学位论文 2 1 挖掘过程 第2 章w e b 日志挖掘概述 图2 - 1w e b 日志挖掘过程 图2 1 是w e b 使用挖掘的过程模型【1 4 l ,为了实现数据收集在整个过程中的 重要性,在原过程模型上添加了数据收集这个前端任务。图中椭圆表示过程的 四个任务:数据收集、数据预处理、模式发现和模式分析。各个任务有不同的 输出,图中还显示了可使用的辅助数据。 2 2 数据收集 2 2 1 基本概念和数据类型 w 3 c 组织为描述用户在w e b 上的使用行为定义了若干概念【1 5 l ,虽然召不 是_ 个标准,但是其中的一些概念还是得到了广泛接受。虽然这些概念在w e b 使用挖掘领域内的解释变化,但它们依旧是理解w e b 使用数据特性的基础。表 2 1 是经常使用的一些概念在本文中的定义【1 4 】: 表2 1 与使用数据相关的概念 概念英文解释 w 曲服务器 w e bs e r v e r 能够处理h 1 1 p 请求的服务器端软件 浏览器 b r o w s e r 向w e b 服务器发送h t t p 请求并显示其内容的客户端软件 应用服务器 a p p l i c a t i o n 构建和运行在w e b 服务上的能够动态地提供页面内容的任 s e r v e r 何应用系统,负责根据h t t p 请求动态地生成页面文件 用户 u s e r 使用浏览器访问w e b 的单个人 页面文件 p a g ef i l e w e b 服务器通过h t t p 协议发送给浏览器的w e b 数据文件 页面视图 p a g ev i e w 同时显示在浏览器窗口内的页面文件集合 服务器会话 s e r v e rs e s s i o n单个w e b 用户访问单个w e b 服务器产生页面视图序列 用户会话 u s e rs e s s i o n 单个w e b 用户访问w e b 产生的页面视图序列 5 对于w 曲用户分类与个性化浏览模式提取的研究 图2 2 是w e b 使用数据的基本数据模型的e r 图。图中的关系都是一对多 的组成关系。图中只标出了实体的几个常见的关键属性,省略号”表示 还有其他属性。各种数据实体都有特定的属性。用户和页面文件是w e b 使用数 据与其他辅助数据集成的“连接点”。类似页面文件关联着内容数据和站点的 结构数据。常用的w e b 使用数据模型是图的子集或者变体。 图2 2w e b 使用数据的基本e r 模型 2 2 2 数据收集 用户的访问行为会衍生许多包含行为信息的数据,它们流经w e b 环境中 的不同软硬件实体。数据收集研究的主要方向是如何有效地从这些实体上可 截取使用数据。 1 浏览器交互数据3 h t t p 协议数据 2 应用交互数据 费 用户 4 t c p ,i p 协议数据 图2 3w e b 交互环境 图2 3 是整个w e b 交互环境的概要描述。如图所示,常见的收集地点有浏 览器、网络层( t c p i p 协议层) 、h t t p 代理服务器、w e b 服务器和应用服务 器。常见原始数据分四类:应用交互数据、h t t p 协议数据、t c p i p 协议数据 和浏览器交互数据。四者容纳的行为信息量和类型是不同的,它们包含的行为 信息基本上有一个递增关系:应用交互使用h t t p 协议,h t t p 协议依赖于 6 硕士学位论文 t c p i p 协议层传输数据包,所有使用数据又都是用户从浏览器端点击输入超 链接而触发。为了提高数据传输速度,w e b 上由各种页面缓冲环节( 浏览器或 者h t t p 代理等) ,这造成除了浏览器交互数据,其他原始使用数据均面临行 为信息缺失的问题,除非采用特殊技术来阻止缓冲( 例如的u r l 动态修改法 【1 6 】、 o 2 2 3 数据特性 因为w e b 使用数据具有和传统数据挖掘领域不同的数据特性,所以如何 针对这些特性设计和扩展各种数据挖掘方法是一个研究的重点。具体来讲有以 下特性: 1 时序性 从图2 2 可看出用户拥有多个有序的用户会话,而后者又可包含多个有序 的服务器会话,服务器会话又由页面视图的访问组成。 2 属性丰富 各种数据实体都有其特定属性,其中用户和页面文件是使用数据和其他辅 助数据集成的“连接点”。用户关联着商业数据,页面文件关联着内容数据和 站点的结构数据。通过页面文件甚至可以关联到商品的属性。 3 数量巨大 w e b 站点的访问基本不受时空限制,所以产生的使用数据会变得十分巨大。 例如根据y a h 0 0 2 0 0 1 年第一季度报告【17 1 ,它当时已有用户1 9 2 亿( u n i q u e u s e r ) ,每日有逾1 1 亿的页面访问。这对传统的挖掘方法和系统都是一个巨大 的挑战。 2 3 数据预处理 表2 2 是服务器上部分w e b 日志,从中我们可以看到有关用户的一些登陆 信息,包括:登陆时间,i p 地址,浏览页面和所使用的浏览器及代理服务器等 信息。 表2 2w e b 服务器日志 l p 地址时间方法、u r l 、协议引用代理 页面 16 1 1 1 6 6 5 1 1 1 2 o c t 2 0 0 2 :0 3 :0 5 :0 9 0 5 0 0 g e ta h t m lh 1 t p 1 0m o z i l l a 4 0 i e s 26 1 11 6 6 5 1 11 2 o c t 2 0 0 2 :0 3 :0 5 :4 2 一0 5 0 0g e tb h l m lh r i p 1 ,oa h t m lm o z j l l a 4 o i e s 36 1 1 1 6 6 5 1 11 2 0 c t 2 0 0 2 :0 3 :0 6 :3 8 - 0 5 0 0g e tl h t m lh t t p 1 om o z i a 4 0 i e s 46 1 1 1 6 6 5 1 11 2 ,o c t ,2 0 0 2 :0 3 :0 8 :0 2 一0 5 0 0g e tf t m lh t t p ,1 ob i h t m lm o z i l i a ,4 o l e s 56 1 11 6 6 5 111 2 0 c t 2 0 0 2 :0 3 :1 5 :2 6 一0 5 0 0g e tr h t m lh t t p ,1 ol h t m l x i l ,i ,i r l x 6 ,i p 2 2 66 1 1 1 6 。6 5 1 11 2 o c t 2 0 0 2 :0 3 :1 8 :3 1 0 5 0 0g e tc h t m lh t t p 1 ,oa h t m l x i i ,l ,i r l x 6 ,i p 2 2 7 对于w 曲用户分类与个性化浏览模式提取的研究 数据预处理就是对w e b 日志中的数据进行处理,包括站点识别、数据净化、 用户识别、会话识别、路径补全等步骤,图2 4 描述了预处理的具体过程: 图2 - 4w e b 日志挖掘数据预处理具体过程 2 3 1 站点识别 站点识别过程主要产生网站结构图,该图对于预处理过程和其后的模式分 析过程都具有重要的参考价值。预处理过程需要结合网站结构图来抽取和过滤 浏览页面,以助于最终识别会话。同样模式分析过程也需要参照网站结构图来 分析已产生的模式,过滤掉无意义的模式,并将最终结果反馈给用户。 2 3 2 网页编码 为了便于描述和分析通常根据网站结构将相关主题页面放在一起编号,每 个页面被赋予一个特定的数字p ,p 1 ,2 ,n ) ,n 为网站现有的网页数。 2 3 3 数据净化 1 数据选择应考虑的几个方面:1 ) 区分不同的使用者需要什么信息;2 ) 通 过何种信息识别使用者会话;3 ) 与浏览模式发现和分析有关的数据项有哪些; 4 ) 对网站应用进行其它方面的统计需要哪些数据( 如浏览器类型,地区分布等) ; 5 ) 在会话识别之后如何过滤w e br o b o t 浏览记录。 2 过滤日志记录:包括出错记录、图像文件请求记录( 如j p g ,j p e g ,g i f 等) 、 除g e t 方法外的所有请求记录。如果日志记录来自于多个服务器还要进行融合。 含有链接的图像文件也过滤掉,因为如果用户浏览了其链接,则其内容已在日 志中。 8 硕士学位论文 3 清除w e br o b o t 的浏览日志记录:感情是人的天性,而r o b o t 的浏览是不 带任何感情色彩的,因此必须将其过滤。检查代理是否与通常的浏览器一样或 检查对“r o b o t s t x t 文件的访问。通常的r o b o t 会检查文件“r o b o t s t x t ”是否存 在,从而从中得知哪些页文件对其没有限制的信息。对于不遵守以上规定的r o b o t 记录,可采用如下方式:1 ) 由同一客户机发出的对某页的定时重复请求;2 ) 对网 站进行深度优先的浏览;3 ) 相对于网页内容来说的浏览时间异常短的访问请求; 4 ) 来自于同一客户机,并且参考栏都为空的请求。 2 3 4 用户识别 在w e b 数据挖掘预处理过程中,区分使用者是一件非常重要的工作。因为其 错误会传递到会话识别,从而影响整个预处理结果。而在已有的研究工作中以 使用者i p 和浏览器代理区分使用者,遇到以下情况就无能为力了:1 ) 单i p 地址 使用者会话活动;2 ) 多i p 地址单服务器会话;3 ) 多i p 地址单使用者;4 ) 多服务 器会话单个使用者;5 ) 单客户机多使用者;6 ) 单用户多浏览器。下面给出一 般的解决办法: 1 采用c o o k i e 来区分使用者【1 8 】:c o o k i e 不是代码块,虽然唯一但不可查对, 只用来区别使用者,不涉及隐私。这样情况1 ) 、2 ) 、3 ) 、4 ) 都可避免,但遇到5 ) 、 6 ) 就无能为力。为避免因用户更新操作系统使原来的c o o k i e 丢失的问题,日志数 据的时间跨度要小一些。 2 使用不允许缓冲的h t t p 1 1 协议避免客户方缓冲带来的会话识别路径不 全的问题:由于当前的网站越来越趋向于动态的信息服务,因而缓冲问题对于 采用动态技术的网站来说并不需考虑。虽然如此静态的h t m l 页面仍大量运用在 网站实践中,因而缓冲问题的处理仍是一个对会话识别来说有着重要意义的问 题。也可采用在h t m l 文件头加过期标识去缓冲。 2 3 5 会话识别 用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面,我 们可以获得他在网站中的访问行为和浏览兴趣。日志文件中不同用户访问的页 面当然属于不同的会话。当某个用户的页面请求在时间上跨度比较大时,就有 可能是该用户多次访问同一个网站,我们可以将用户的访问记录分成多个会话 来处理。最简单的方法就是设置一个t i m e o u t 值,如果用户访问页面的时间差超 过了这个值,则认为用户开始了一个新的会话。许多商业产品都采用3 0 分钟作 为缺省的t i m e o u t 值,但是l c a t l e d g e 和j p i t k o w 由实验得出t i m e 伽t 值设为 2 5 5 分钟更好一点【”,2 0 1 。在识别用户会话的过程中,也要删除那些只有一个访问 事务的用户,因为我们要挖掘用户的序列访问模式,这部分用户是无序列可言 的。这一过程可能会损失一些用户的访问信息,比如用户在分析期间里前后两 9 对于w 曲用户分类与个性化浏览模式提取的研究 次访问页面都一样,因此只有前一次用户访问记入了序列。 2 4 聚类与分类 2 4 1 分类 在w e b 使用挖掘中,分类技术可以发现如下关系:“从教育网发出的用户请 求5 0 会访问c o m p a n y p r o d u c t s b o o k h t m l ”或“在线下订单购买计算机游戏的 用户中,3 0 处于1 8 2 5 岁之间,并且家住北京”。分类算法首先建立一个模型, 通过对训练数据的分析,给出预定数据类集或概念集的特征描述,然后抽取未 知数据对象的自身特性,根据模型中的定义,将其划分到相对应的类别中1 2 1 1 。 典型的分类方法将在下面章节详细介绍。 2 4 2 聚类 聚类技术将数据对象按特征相近的原则划分为多个类或簇。在w e b 使用挖 掘领域有两种有趣的聚类:使用聚类和页面聚类。使用聚类就是将那些经常访 问相同页面的用户群划分出来,他们具有相同的使用习惯和网上行为,可以对 他们开展特定的广告策略或是个性化定制。页面聚类则发现内容相关的页面组, 为搜索引擎和w e b 服务商提供有用信息。在w e b 使用挖掘中,聚类算法将用户浏 览页面的总和视为数据空间,构造一个稀疏图。首先,根据每个页面的内容相 似性和路径互联性,将数据对象分割为若干个k 最近邻居子图( 簇) ,图中的每 个点都代表一个页,子图的密度作为边的权重被记录下来。如果发现两个子图 间的互联性和相似性与子图内部页面的互联性和相似性高度相关的话,则将二 者合并为个簇。 2 5 模式发现与分析 2 5 1 模式发现 1 统计分析 统计方法是从w e b 中提取有用信息最常用的一种技术。通过对s e s s i o n 文件 的分析,可以对感兴趣的信息进行统计,一般的包括各种统计数据,如最频繁 访问的n 个页面、每页平均浏览时间、网址路径平均访问长度等,也可能涉及一 些关于限制的错误分析,如统计非法i p 、无效u r l 和未授权访问等。这些信息对 于提高系统性能,加强网站安全起到辅助决策作用。 2 关联规则 在w e b 使用挖掘中,关联规则主要用于发现用户之间、页面之间以及用户 浏览页面和网上行为之间存在的潜在关系。比如挖掘可能得出“浏览 c o m p a n y p r o d u c t s e l e c t r o n i c p r o d u c t h t m l 的用户 6 8 都会浏览 1 0 硕十学位论文 c o m p a n y 佃r o d u c t s s o f t w a r e h t m l ”,并且“浏览c o m p a n y p r o d u c t s s o f t w a r e h t m l 的用户5 9 都会在线下订单”的规则,那么显然,网络管理员应该在电子商品目 录页面提供进入计算机软件目录页面的直接途径。关联规则的发现都遵循两个 步骤:第1 步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用 户设定的最小支持度;第2 步是从频繁项目集中构造可信度不低于用户设定的最 小置信度。 3 序列模式 序列模式挖掘目的是发现含有时间戳的事务间的关联关系【2 2 ,2 3 1 。在w e b 服务 器事务日志中记录的是一段时间内的用户访问行为,那么在数据预处理阶段, 每个事务都会附带一个时间片,称为时间戳。w e b 使用数据的序列挖掘,可以帮 助研究人员预测用户访问行为。基于挖掘出的序列模式,例如“如果计算机和 打印机的销售上升的话,一个星期内p d a 的销售也会随之上升”或是“在线购买 商品a 的用户6 0 在1 5 天内也会购买商品b ”,可以对不同的用户组开展有针对 性的广告宣传。 2 5 2 模式分析 如果没有合适的工具和机制来辅助分析人员的理解,采用各种技术挖掘出 来的模式,数目庞大,表达晦涩,从而得不到很好的利用。因此,模式分析技 术和工具也是近年来研究w e b 使用挖掘的一个新热点。这些技术包括:统计、 图形可视化、可用性分析和智能查询等。 1 可视化技术 可视化良好的系统用图形和图像表示抽象网络中错综复杂的关系;用文字 描述解释和阐述模式之间相互的作用,帮助人们更好地理解我w e b 中海量数据 各部分之间的关系,指导和加速查找的过程。i d l ( i n t e r a c t i v ed a t al a n g u a g e ) 交互式数据语言是面向矩阵、语法简单的第四代可视化语言,它支持o p e n g l 图 形加速、量化可视化表现、集成数学与统计学算法、方便的数据输入输出方式、 跨平台图形用户界面工具包、连接o d b c 兼容数据库及多种程序连接工具等, 是目前科学数据可视化方面较好工具。 2 联机分析处理工具o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 在基于多维数据模型的数据仓库或数据集市上使用,目标是满足决策支持 或者满足在多维环境下特定的查询和报表需求,它将传统数据以多维数据模型 重新组织,然后通过上卷、下钻、切片和切块、旋转等操作实现对多个抽象层 上的知识发现。w e b 服务器上的访问数据随时间呈海量增长趋势,而且用户信 息的数据存储也呈现分布的趋势,这两个特性表明了w e b 使用数据的分析通常 需要大型数据仓库的支持,o l a p 技术就是在其上发展出的技术。它整理信息 的结构,允许基于主题对数据进行查询和分析,快速完成报表和数据分析功能, 对于w 曲用户分类与个性化浏览模式提取的研究 使分析人员或管理人员能够从多角度对信息进行快速、一致、交互地存取,这 些与可视化工具一起,将大大增强探测式w e b 使用挖掘的能力和灵活性。这一 新兴领域的问题,已引起研究人员的广泛关注,有待进一步的讨论和发展。 3 知识查询机制 知识查询机制首先分析查询目的,然后自动搜索相关的规则模式以及其它 的知识,可以帮助分析用户目的,用智能的方式回答查询。这样,它不仅可以 直接列出用户所指定属性的项目列表,还可以向用户提供辅助决策的附加信息。 另外,模式的大量聚集常常使用户不知所措。有必要定义一些机制,使用户可 以将焦点聚集在某些感兴趣的细节上。达到这一目的的途径有两个:一是在挖 掘之前,在数据库上设置约束,使挖掘只在一部分数据中进行;二是挖掘过程 中执行查询语句,不断筛选出需要的信息,将无用的数据过滤掉。研究人员已 经在s q l 语言的基础上提出几种适合在数据挖掘过程中使用的查询语言,如 d m q l ;也有专门为w e b 挖掘而定义的w c b s s q l ,w c b l q m 和s q u e a l 等。 2 6w e b 日志挖掘的应用 w e b 使用挖掘的结果可以客观反映w e b 的组成、内容和访问频度等重要信 息,也能帮助理解用户的网上访问行为。利用这些信息,研究人员和网站开发 者都建立了一系列的应用。图2 5 是w e b 日志挖掘的主要应用领域。 1 推荐系统 w e b 推荐系统通过收集和分析用户信息来学习用户的兴趣和行为,对用户可 能访问的网页进行预测,从而实现主动推荐的目的,也称为个性化服务 ( p e r s o n a l i z a t i o n ) 【2 4 1 。这项应用的主要原理是将与用户行为无关的信息过滤掉, 使用户只关注那些可能感兴趣的资源。信息过滤技术分为基于内容的过滤 ( c 0 n t e n t - b a s e df i l t e r i n g ) 和协作过滤( c o l l a b o r a t i v e f i l t e r i n g ) 。 2 w e b 系统改善 对于网络服务提供商来说,用户满意度将是重要的指标;而对于用户来说, 服务质量和服务器性能是关键。w e b 使用挖掘向网站建立者提供了各种关于网站 架构的信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- LED屏幕采购安装合同范本
- 小学数学北师大版六年级上册1 搭积木比赛教案
- 国际商务合同图鉴
- 电机在视频游戏控制设备中的应用评估考核试卷
- 地理信息系统在环境风险评估中的应用考核试卷
- 滚动轴承的表面强化技术考核试卷
- 电池行业供应链管理考核试卷
- 输血后护理操作流程
- GBT 1346-2011 水泥标准稠度用水量、凝结时间、安定性检验方法
- 盾构机施工中的隧道工程地质模型重构考核试卷
- 农庄合作协议书范本
- 2025年职教高考《机械制图》考试复习题库(含答案)
- 2025年中共中国华电集团有限公司招聘笔试参考题库含答案解析
- 2025年江苏省南通启东市江海产业园招聘1人历年高频重点提升(共500题)附带答案详解
- 2025年中考语文二轮复习:字词积累 练习题(含答案)
- 大学美育知到智慧树章节测试课后答案2024年秋长春工业大学
- 《大型商务酒店网络规划与设计》8800字
- GB/T 45077-2024国家公园项目建设指南
- DB51T 1511-2022建设项目对自然保护区自然资源、自然生态
- 治安 课件教学课件
- 中韩文化对比
评论
0/150
提交评论