基于web日记的数据预处理方法研究_第1页
基于web日记的数据预处理方法研究_第2页
基于web日记的数据预处理方法研究_第3页
基于web日记的数据预处理方法研究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于web日记的数据预处理方法研究

web挖掘是指通过大量用户点击并操作web网站生成的大量信息来执行相关挖掘,以真正有效地反映用户的兴趣和期望获得的信息。根据数据挖掘的数据来源不同,可以将Web数据挖掘分为三种挖掘类型,一种是Web内容挖掘,一种是Web结构挖掘,一种是Web使用挖掘,而Web使用挖掘是对大量用户对Web页面操作产生的日志信息进行数据挖掘,从而获得用户的访问行为,从中发现有效信息的过程。从原始数据库到挖掘数据库之间,对数据进行的操作称为数据预处理。Web日志挖掘与传统数据挖掘的区别在于数据源不同,Web日志挖掘的对象通常是服务器的日志信息,而传统的数据挖掘的对象多数为数据库。数据预处理的结果作为日志挖掘算法的输入,直接影响挖掘的质量,因此改进Web日志数据预处理技术可以有效地提高Web日志挖掘结果的质量。1web服务器绿色规定数据的预处理Web日志是指用户对Web页面进行操作过程中,用户端与服务器交互信息产生的日志,用户在客户端请求Web服务过程中,可能会经过代理服务器,防火墙,Web服务器然后到达Web应用服务器,有些情况下,Web服务器和Web应用服务器是在一起的。一般进行数据挖掘的日志类型主要是客户端日志、代理服务器日志和Web服务器日志。其中客户端日志记录的是单个用户对多个Web页面进行操作的信息;代理服务器日志记录的是多个用户对多个Web页面进行操作的信息;而Web服务器日志完整记录了用户对其网站操作请求的完整过程。一般网站的管理者最关心的是其网站的Web服务器记录的信息,这些信息是多个用户对其Web网站进行操作的记录。本文使用的Web日志就是CSDN论坛提供的某Web服务器端记录的日志。对Web日志进行数据挖掘过程中最基础的是对Web日志数据进行数据预处理,这是因为从服务器端获得的Web日志多数是不完整的、包含噪声的、非结构化或者是半结构化的数据,对这样的数据进行操作在模式识别中将会有一定的困难。典型的访问Log文件中记录的是用户访问信息,不同服务器的Web日志记录是不同的,但其中都包含有用户访问的基本信息。如表1所示,Web服务器日志的格式一般包括date,time,c-ip,cs-username,s-ip,s-port,cs-method,cs-uri-stem,cs-uri-query,sc-status,cs(User-Agent)等信息。表2是作者从互联网获取的部分日志信息示例。2数据预处理流程和方法Web日志数据预处理的过程一般包括数据清洗、用户识别、会话识别和路径补充四个重要步骤。2.1非成功的请求数据清理是指对原始数据采取填充、纠正、删除等操作清除掉冗余数据。例如网页上的图片也记录为一个单独的请求,但这对于用户请求是毫无意义的,只是网页打开时附带的自动操作,应该删去;非成功的请求,这主要是指sc-status中提示出错的状态码,包括403,404等状态码;用户请求方法中不是GET的请求;由于该日志是对某指定网站的信息记录,所以服务器端的地址和端口号也可以删掉。经数据清洗之后的日志片段如表3所示。2.2引用页的识别一般采用以下启发式规则对日志中的用户进行识别:(1)不同的ip地址代表不同的用户;(2)如果ip地址相同,则不同用户代理代表不同的用户;(3)如果ip地址和用户代理都相同,则根据引用页进行判断,若引用页为空,代表不同的用户。但在日常的互联网访问过程中,一般会出现以下几种情况对用户识别造成困难:(1)多个用户使用同一台计算机对同一网站进行访问;(2)单个用户使用多个浏览器对网站进行访问;(3)单个用户使用同一浏览器的多个页面对网站进行访问;(4)单个用户使用同一浏览器,采用直接输入url和引用页对同一网站进行访问。以上情况使用启发式规则均无法准确识别用户。由于本文采用的Web日志数据未提供引用页信息,故只能使用启发式规则的前两条进行判断。识别结果如表4所示。最终用户识别数与IP地址识别数相同的原因,经分析是由于数据集中多个IP地址使用同一客户端代理导致第二条启发式规则在该数据集中并不适用。2.3用户访问控制方法会话识别是将用户的访问活动分解成多个的会话过程,每个会话代表1次对站点的访问过程集合。一般关于会话识别的启发式方法有以下四种:(1)假设用户在网站的停留时间为t,设定时间阈值为t0,如果t>t0,则第一个超出t0的访问请求视为新的会话开始。(2)假设用户对网站的两次访问时间间隔为t,设定时间间隔阈值为t0,如果t>t0,则第二次访问请求视为新的会话开始。(3)假设用户的该次访问无法从当次记录的参引页中得出,则将该次访问请求视为新的会话开始。(4)假设用户的该次访问出现在用户的访问历史中,则将该次访问视为新的会话开始。2.4系统集成访问路径路径补充的目的是补全用户在访问过程中完整的访问路径,正确合理的补充未记录的用户的访问请求。例如,从A页面到B页面,然后用户按下“后退”,继续从A页面访问C页面,日志不会记录后退请求,完整的访问路径应该是A-B-A-C,但是日志记录的路径则是A-B-C。目前大多数的路径补充方法都是利用网站的拓扑结构来完成的,主要思想如下所述:(1)如果用户当前访问页面与之前访问页面存在超链接的关系,则认为当前访问与前访问之间的路径是不完整的。(2)如果用户当前访问页面的referlog中有多个页面和当前页面存在超链接关系,则认为用户通过多个页面中最近被访问的页面链接到当前页面。3会话集合sset在会话识别的四种方法中,基于时间考虑的前两种方法一般情况下可以很好地识别出新的会话,如果将基于时间考虑的两种方法结合在会话识别的算法中,应该可以更加准确的提高会话识别的准确性,下面对新的启发式规则的主要思想予以描述:设定第一种算法的停留时间阈值为t0=20min,第二种算法中的时间间隔阈值为t=3min,用户在网站停留超过20min的新的访问请求,视为新的会话,但后续情况除外,若第一个超过20min的访问请求与最后一个20min之内的访问请求时间间隔不超过时间间隔阈值为t=1min,则认为该访问请求仍然属于上一个会话,直到出现新的访问请求与前一访问请求时间间隔超过时间间隔阈值t=1min。以下是用数学语言对新的启发式规则进行严格描述:定义1一个Web服务器日志文件LSET可以看成是按时间顺序排列的一连串的单个日志记录L的集合,即LSET={L1,L2,L3,…,Li,…,Ln}(其中1<i<n),n代表日志记录的个数,Li=(Li.time,Li.cs-uriquery,Li.cs(User-Agent)),此处假设日志记录都在同一天,不存在跨天记录的情况(此处假设只是为了简便计算,无其他特殊含义)。定义2会话集合SSET可以看成是包含多个会话的集合,即SSET={S1,S2,S3,…,Sj,…,Sm}(1<j<m),其中m代表会话个数,SJ=(Lx,Lx+1,Lx+2,…,Ly)。定义3初始判断是指首先使用停留时间判断法进行判断,停留时间阈值t0,表示初始判断时会话中最后一个访问请求与会话的第一个访问请求的时间间隔最大不超过t0,边缘访问请求Led表示初始判断时会话中最后一个访问请求;下一访问请求Lnext表示按照时间顺序排在Led之后的第一个访问请求。定义4再次判断是指经初始判断之后对下一访问请求使用时间间隔判断法进行判断,时间间隔阈值是指被下一访问请求视为新的会话开始时,下一访问请求与边缘访问请求之间的最小时间间隔。新的启发式规则的伪代码描述如下所示:算法:生成会话集合PSET(LSET,SSET);输入:日志文件LSET,停留时间阈值20min,时间间隔阈值1min;输出:会话集合SSET;以客户端地址为172.16.62.62的用户的日志记录为例,测试改进算法的效果,该用户的部分日志记录如表5所示。经该算法测试,识别出来的该用户的会话如表6所示。只利用停留时间判断法测试,识别出来的该用户的会话如表7所示。由表6和表7可知,经改进的算法测试结果和原先的停留时间判断法的测试结果相比,区别在于8:25至8:32的5条记录,根据改进算法对停留时间边缘的访问请求的处理,改进算法将这5条记录归于第一次会话中,而根据停留时间判断算法,这5条记录归于第二次会话中,基于实际考虑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论