下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
web用户访问会话识别方法
1web用户访问记录由于网络传输协议http的状态、客户端和代理服务器缓慢,用户访问协议的状态状态分别存在于服务器、代理服务器和客户端。同时,这分布在不同地方的访问日志数据集也分别记载了用户使用网络资源的不同模式,比如,客户端浏览器日志记录了单个用户访问多个网站的模式;Web服务器的日志则记录了多个用户访问一个网站的模式;代理服务器日志跟踪记录了多个用户访问多个网站的情况。从Web用户访问日志中探究用户访问规律前必须要把这些日志收集整理,进行预处理,形成多个用户一次次对同一服务器的会话。这中间主要涉及到对用户的确定,确定用户浏览Web页面的时间,确定用户访问服务器会话期间和用户访问服务器会话期间页面几个步骤。本文在分析国际上Web数据挖掘数据预处理方面研究状况的基础上,经过对用户浏览行为的合理假定,提出了基于时间窗口模型和最大前向参引模型的用户访问会话识别方法。2web日志数据预处理方法分析2.1现有技术的优缺点我们知道,用户访问和服务器资源不是一对一的关系,比如,服务器端日志可能记载了一个用户在多个客户端提交请求的情况,也可能是多个用户在一个客户端提交请求的情况。同时,由于存在缓存、防火墙和代理服务器等的存在,准确确定出每个用户很困难。除非通过在客户端跟踪用户的行踪得到第一手的访问资料,否则,很难准确确定用户。即使能做到这一点,在客户端跟踪用户的访问行为因为要涉及到用户的个人隐私,必须用户自己要配合才行。在这种情况下有关学者也设计了种种启发式推断用户的方法,表1归纳了目前常用的为确定用户及其行为所使用的方法及其优缺点。表1中根据IP和代理识别用户是最简单易行的,不过,误差也最大。嵌入SessionID技术一般在电子商务记录用户购物篮内物品时最常用,对每一次用户访问都嵌入一个SessionID,也就是把一段时间内同一用户的请求都标记上相同的SessionID号。但是,嵌入SessionID只在动态网站上适用,而且是以时间间隔来判别当前SessionID是否失效,超过一定的时间段就需要分配新SessionID,因此没有考虑短时间内重复访问的情况。注册的方法只有在用户登录进站以后才能跟踪用户访问行为,方法准确性稍高一些,但是并不是所有的用户都愿意注册,且每一次访问时都愿意登录,可操作性不强。在客户端写入Cookie标志,可以跟踪用户的重复访问情况,精确性较高,但是用户如果不打开浏览器Cookie开关,就无法实施。目前有一种折中的方法把用户注册登录与写Cookie技术结合起来,用户可以选择本次登录以后与下次登录的时间间隔,利用代理软件,精确性高,可以得到用户精确的访问情况,但是可操作性也不强,用户可能认为侵犯了个人隐私,拒绝使用代理软件。修改了的浏览器可得到用户对广域网范围内的访问情况,对用户隐私涉及程度也最深,几乎不能实施,可操作性很差。如果不使用表1的方法收集客户在客户端浏览行为的数据,用户访问日志数据挖掘中,只根据服务器端日志数据确定用户是有误差的。确定用户的误差会导致对用户访问服务器会话期间的划分出现偏差,从而引起数据挖掘结果也出现偏差。因此,如何准确确定用户而又不涉及用户隐私在研究领域内一直很受关注。2.2服务器记载的时间由于网络拥塞情况不同,Web页面大小不同,服务器记载用户请求页面的时刻,浏览页面时间也有较大的偏差。根据服务器端记载的用户浏览页面时间明显要比客户端实际的浏览时间长。服务器记载的时间是从服务器响应用户请求时开始,在服务器收到用户发出的下一次请求时结束。其中,包括了Web页面传递向客户浏览器的时间、用户浏览页面实际使用的时间、用户下一次请求传到服务器的时间。受客户端连接处理速度、页面大小和网络拥挤程度的影响,服务器记载的用户浏览页面时间误差大小甚至可以达到几分钟,因此,无法准确确定用户访问时间。实际应用中一般都把服务器记载的用户访问时间当作用户浏览时间。2.3确定用户访问行为并进行时间窗口评估一般地,Web服务器都要并发处理多个用户的请求,因此,要从多个相互交织的用户访问会话期间中正确区分出所有用户访问会话期间也是有一定困难的。一般都是对用户在客户端浏览行为做合理的假定,然后在此基础上确定用户访问服务器会话期间。因此,也不能保证完全精确。目前最常做的假设有:用户访问过程中只有在改变访问主题时,才会访问前面访问过的页面以跳转到另外的页面;用户一次访问的时间都不会超过一个最大的限制——时间窗口(TimeWindow)。与之相对应也就出现了两种确定用户访问行为及访问服务器会话期间的模型:最大前向参引模型(MaximalForwardReferenceModel)、时间窗口模型(TimeWindowModel)。最大前向参引模型中所谓前向,指的是某页面不在目前的访问服务器会话期间页面集里。后向指的是某页面已在目前的访问服务器会话期间集里。比如,一个用户在一次浏览过程中请求了ABCBCDE页面,根据最大前向参引模型,用户访问过的访问服务器会话期间应该是ABC和BCDE。时间窗口模型,以用户访问会话历时来作为用户访问服务器会话期间的分界,如式(1)所示。当然也可能用户离开了,却长时间开着浏览器,如果出现这种情况,也可以使用间隔时间来区分访问服务器会话期间。时间窗口是可以调整的。ltmmt.time-lt11t.time≤W(1)不过,在实际用户访问中经常用户在时间窗口内同时在进行着两个以上的访问服务器会话期间,比如同时打开几个浏览器窗口,在一个窗口内容下载过程中,浏览另外的窗口内容。因此,我们提出把时间窗口模型和最大参引模型结合起来,对访问服务器会话期间进行推断的方法。3基于最大前向参引模型的时间窗口模型前面介绍了根据不同的用户浏览行为假设确定用户访问服务器会话期间的两种方法,实际使用过程中都存在不完善的地方。假如某网站具有以下的链接结构:假如某用户访问序列是ABCDBEGF,访问A页面的时刻为0时刻。根据服务器记载,T1=5,T2=10,T3=16,T4=20,T5=28,T6=56,T7=60。而第T5=28分钟访问到E页面,此刻用户接了一个电话,在第T6=56分钟时请求了E页面,在第60分钟又请求了G页面。这种情形下,根据最大前向参引模型,可以划分为两个会话期间—ABCD和CEFG。根据时间窗口模型,取时间窗口长度为15分钟,那么,可以划分为三个会话期间分别是ABC,DCE和FG。可见,单纯使用最大前向参引模型,无法区分一个用户沿时间轴访问的准确转折点,比如说用户前后两次访问间隔了有可能把一个用户的若干次访问全都分配到一个访问服务器会话期间中。而时间窗口模型仅按照用户浏览时间长短区分,如果用户在短时间(时间窗口)里进行了两次访问,用时间窗口模型就无法区分,同时,如果时间窗口设置不合适,又会把不属于一次访问会话的页面放在一起。因此,我们提出综合以上两种方法优点的会话期间确定方法:①根据最大前向参引模型生成用户访问服务器会话期间。②把根据最大前向参引模型划分的除了第一个会话期间的其他会话期间按照时间窗口约束进行划分。在上述中把BEFG,再根据时间窗口约束W=15进行划分,就得到了ABCD,BE,FG三个会话期间。4不同页面的参引关系由于客户端缓存的存在,用户访问过程中会不断访问到缓存中间已经存在的页面,前面的方法只是从服务器日志中区分出了一个个用户访问服务器会话期间,其中没有完全包含所有用户访问过的页面。需要推断完善用户访问服务器会话期间。这里给出了一种推断的算法。总体思路是判断两个相邻的页面之间是否存在参引关系,所谓参引关系,就是指从一个页面上的链接可以访问到另一个页面。若没有参引关系,就有需要推断。假定相邻页面中间,后一个页面为当前页面。这里就有两种可能性:①需要推理的页面在该用户访问会话期间以前面页面为参引页面的页面集中间;②需要推理的页面在前面页面的参引页面中间。因此,问题就转换为在以前面页面为参引页面的页面集与后一个页面的参引页面集之间的交集,或者前面页面的参引页面集和后一个页面的参引页面集中间寻找服务器日志中没有记载的用户访问页面。通过这种方法就可以补上用户从客户端缓存中访问的页面。根据图1和图2,我们知道E,C页面之间不存在直接参引关系,通过寻找E,C页面参引页面的交集—B,可以推断出用户在访问C与E页面之间,可能通过客户端的缓存访问到了B页面,由B页面上的链接转到了E页面。同样道理,我们可以推断出用户在访问F页面之前可能通过客户端的缓存访问到了B和A页面,由A页面上的链接转到了F页面。5服务器信息整理通过对用户访问日志分析,确定用户访问会话期间、推断和完善用户访问会话期间,我们可以比较清楚地了解用户访问的情况,为进一步的Web用户访问数据挖掘做好准备。本文在上述假设基础上只给出了如何把服务器端日志整理成用户访问会话期间并完善会话期间的方法。综合了最大化前向访问模型和时间窗口模型确定用户访问服务器会话期间的方法。其次,由于一个完整的Web是由一个个图片和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 楼房加固施工方案(3篇)
- 2025年山西省职教高考《语文》核心考点必刷必练试题库(含答案)
- 《国防动员法》考试题库100题(含答案)
- 2025年池州职业技术学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 2025年武威职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年枣庄科技职业学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 专题05 名句名篇默写(第3期)
- 消防工程维修合同书
- 广西二手房买卖合同
- 建材购销合同格式范本
- 2025年度院感管理工作计划(后附表格版)
- 励志课件-如何做好本职工作
- 2024年山东省济南市中考英语试题卷(含答案解析)
- 2024年社区警务规范考试题库
- 暑假作业 10 高二英语完形填空20篇(原卷版)-【暑假分层作业】2024年高二英语暑假培优练(人教版2019)
- 武强县华浩数控设备科技有限公司年产9000把(只)提琴、吉他、萨克斯等乐器及80台(套)数控雕刻设备项目环评报告
- 安全生产法律法规汇编(2024年4月)
- DB11∕T 882-2023 房屋建筑安全评估技术规程
- 华为员工股权激励方案
- 卫生院安全生产知识培训课件
- 儿童尿道黏膜脱垂介绍演示培训课件
评论
0/150
提交评论