web日记挖掘数据预处理研究_第1页
web日记挖掘数据预处理研究_第2页
web日记挖掘数据预处理研究_第3页
web日记挖掘数据预处理研究_第4页
web日记挖掘数据预处理研究_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

web日记挖掘数据预处理研究

1web测量方法随着网络技术的快速发展,网络信息的急剧扩张,其中包含的知识尚未得到充分利用。因此,web数据结构已成为研究数据技术的热点。web数据主要分为三种类型:网络内容挖掘(web内容获取)web结构挖掘(web结构提升)和web动态挖掘(web应用)。Web日志挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式.当前,Web日志挖掘领域的研究已取得了很大的进展,但是目前的研究重点大多集中在Web日志挖掘系统和算法的设计、分析与改进,对于Web日志挖掘预处理研究较少,对其中的关键算法研究更少.然而,由于本地缓存、代理服务器和防火墙的存在,使得WebLog中的数据并不精确,直接在其上进行挖掘非常困难.因此,数据预处理是Web日志挖掘的基础,正确有效地对Log文件进行预处理,对于挖掘出准确可靠的模式和其他隐含的知识极为重要.文中研究了Web日志挖掘数据预处理的主要步骤,重点设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.2web纪事数据的预处理过程2.1基于平台的信息,用户的需求,以及请求的过程是由客户主机的信典型的访问Log文件中记录的是用户访问信息,不同的服务器的Web日志记录是不同的,但其中都包含有用户访问的基本信息.典型的Log文件包含信息有:客户主机的IP;时间戳;请求的方法(GET、POST等);请求文档的URL;HTTP版本号;返回码(即请求的状态:成功或错误码);传输的比特数;引用Web页的URL(该页面可链接到当前访问的URL,命名为Re_URL);代理服务器(如proxy或客户端浏览器)AgentID.2.2数据预处理流程一般来讲,Web日志挖掘数据预处理阶段的输入为服务器的Log文件、站点文件和统计数据等,输出为用户访问操作文件、用户模式文件和站点拓扑结构.Web日志挖掘数据预处理流程图如图1所示.2.3web纪事数据提取和预处理步骤Web日志挖掘数据预处理步骤主要包括:数据净化、用户识别、访问操作识别、路径完善和用户模式识别等.2.3.1过滤条件表的建立数据净化是指删除Web服务器日志中与挖掘算法无关的数据.要实现数据净化,关键是利用一些启发式规则建立过滤条件表,根据过滤条件表过滤无关的数据.主要的规则有:2.3.2实现服务器的cache技术数据净化完成以后,下一个步骤是用户识别.由于客户端和服务器端往往使用了cache技术,Web服务器的Log文件无法记录访问存储在cache中的Web页的操作.2.3.3多次访问的时间间隔特性对于跨度很长时间的Log文件,可能包含了一个用户多次访问同一个Web站点的访问操作记录.识别用户的每一次访问操作,最有效的方法是利用每一次访问操作的时间戳的时间间隔特性.2.3.4推广路径可靠识别不同用户的访问操作的另一个关键就是确定访问日志中是否有重要的请求没有被记录.这一问题我们称之为路径完善.2.3.5用户模式和时间窗法经过前面的各个数据预处理步骤,可以得到用户访问操作序列集合.但是这对于Web日志挖掘来讲,仍不够精确.因此,需要进一步进行用户模式的识别.所谓用户模式,就是对用户的每一次访问操作序列进行语义分组后得到的页面序列.用户模式识别方法主要有三种:引用时长法、最大向前访问路径法(MFP)和时间窗法.经过以上几个步骤,可以获得多个用户模式,并且可以生成每一个用户的模式文件,每一个用户的模式文件包含了若干个用户模式.用户模式如定义1所示.设L为用户访问操作集合,每一条访问记录l∈L包括:用户主机地址l.ip,用户ID号l.uid,被访问Web页的URL地址l.url,访问时间戳l.time和访问Web页的时长l.timelength.定义1用户模式定义为三元组,形式化表示如下:t=<ipt,uidt,URLt>;URLt={(ltllt.url,ltllt.time,ltllt.timelength),…,(ltmmt.url,ltmmt.time,ltmmt.timelength)}其中,ltkkt∈L,ipt=ltkkt.ip,uidt=ltkkt.uid,l≤k≤m;ltkkt.timelength=ltk+1k+1t.time-ltkkt.time,l≤k≤m-1.3数据预处理关键算法用户识别、访问操作识别和路径完善是Web日志挖掘数据预处理的三个关键步骤,但是当前对这三个步骤的关键算法研究较少.针对这三个关键步骤,文中设计了相应的关键算法.3.1gllog采用文中采用一些启发式规则来识别不同的用户,用户识别启发式算法如下:算法1从数据净化的Log文件记录中识别用户的启发式算法输入:数据净化的Log文件GL_LogFile,站点的拓扑结构文件;输出:用户的访问操作序列集合USER[i].对于GL_LogFile中的每一条记录{i=1;while(i<=m)/*m为当前已经判别出的用户数*/{if(USER[i]序列为空){将该次用户的访问操作添加到USER[i]序列中;对GL_LogFile中下一条记录进行操作;/*本记录操作完成,跳出while循环*/}elseif((USER[i].IP==IP)&&(USER[i].Agent==Agent.ID))/*IP为当前记录的用户IP地址,Agent.ID为当前记录的的Agent值*/{if(当前记录的URL被USER[i]的已访问的URL链接){将该次用户的访问操作合并到USER[i]序列的最后;对GL_LogFile中的下一条记录进行操作;/*跳出while循环*/}}elsei=i+1;/*endif*/}/*endwhile*/if(当前记录的URL没有添加到任何用户的访问操作序列){m=m+1;/*增加一个新的用户*/将该次用户的访问操作添加到新增加用户的访问操作序列中;}}3.2生成访问操作序列为了识别用户的每一次访问操作,文中设计了用户访问操作识别算法,主要利用访问操作的时间戳的时间间隔特性来确定.用户访问操作识别算法如下:算法2用户访问操作序列中识别用户每一次访问操作序列的算法输入:用户的访问操作序列集合USER[i],连续两次访问操作的时间间隔interval_time;输出:用户的访问操作序列集合USER_URL[i,j],i为用户序号,j为第i个用户的访问操作序列序号.对于用户的每一访问操作序列USER[i]{i=1;while(i<=m)/*m为用户数*/{j=1;将URL对应的访问操作添加到USER_URL[i,j]序列中;/*URL为USER[i]中的第一步访问操作*/k=2;while(k<=mi)/*mi为第i个用户的访问操作序列长度*/{if((URL[k].time-URL[k-1].time)<=interval_time)/*URL[k]为USER[i]中的某步访问操作*/{将该步用户的访问操作添加到USER_URL[i,j]序列的最后;k=k+1;}else{j=j+1;/*增加访问操作序列*/将该步用户的访问操作添加到新增加的访问操作序列中;k=k+1;}}/*endwhile*/i=i+1;}/*endwhile*/}3.3生成文件2/循环,把访问者打造成网络空间历史上的错误访问,将对方下载到了创建一个错误的机制路径完善的任务是完善没有被记录在Log文件中的访问操作.文中采用启发式规则来进行路径完善.该算法的基本思想是利用站点的拓扑结构实现用户访问操作的路径完善.路径完善启发式算法如下:算法3路径完善启发式算法输入:用户的访问操作序列集合USER_URL[i,j],站点拓扑结构文件;输出:用户的每一次访问操作序列集合USER_URLt[i,j],i为用户序号,j为每一次访问操作序列序号.对于用户的每一访问操作序列USER_URL[i,j]{i=1;while(i<=m)/*m为用户数*/{while(j<=ni)/*ni为第i个用户的访问操作序列总数*/{j=1;将URL对应的访问操作直接添加到USER_URLt[i,j]序列中;/*URL为USER_URL[i,j]中的第一步访问操作*/for(k=2;k<=mij;k++)/*mij为第i个用户第j次访问操作序列长度*/{if(URL[k-1].URL∉URL[k].Re_URL)/*URL[k].Re_URL为URL[k].URL的引用,即URL[k].Re_URL可链接到当前访问的URL[k].URL*//*URL[k]为USER_URL[i,j]中的某步访问操作*/{if(URL[k].URL可由已经访问过的Web页的URL直达)/*通过引用日志判断*/添加相应的返回操作到USER_URLt[i,j]序列中;else通过分析站点结构文件确定;/*通过站点的拓扑结构判断*/}else将该步用户的访问操作直接添加到USER_URLt[i,j]序列的最后;}/*endfor*/j=j+1;}/*endwhile(j<=ni)*/i=i+1;}/*endwhile(i<=m)*/}4实验结果与分析文中利用C++builder6.0实现了上述三个算法和用户模式识别的最大向前访问路径法(MFP),采用SQLServer2005作为数据库管理系统,实验数据来源于自建站点的访问Log文件,总的数据量是4个月的访问记录.经过实验,针对Log文件中第1个月数据生成的用户模式数为56

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论