Web数据挖掘中频繁访问页组有趣性的研究_第1页
Web数据挖掘中频繁访问页组有趣性的研究_第2页
Web数据挖掘中频繁访问页组有趣性的研究_第3页
Web数据挖掘中频繁访问页组有趣性的研究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Web数据挖掘中频繁访问页组有趣性的研究摘要关联规则挖掘是eb使用挖掘的一个重要研究课题,而其中重要的一个问题就是挖掘出的规则的兴趣度评估。在实际的应用中,一般的关联规则算法往往很容易从eb数据源中挖掘出大量的规则,而这些规则中,大部分对于用户来说是不感兴趣的。本文结合网络站点拓扑结构,提出了有趣关联规则的算法(ir)。利用页面之间的关联概率对所产生的频繁访问页组的有趣度进行评价,得到有趣度高的频繁访问页组。实验显示,ir算法提高了规则的利用率,有效的改善网站拓扑结构。关键词有趣关联规则;页面关联概率;频繁访问页组1引言随着互联网技术的快速发展,如何在/p/计算机技术研究的一个热点课题。eb挖

2、掘是数据挖掘技术在互联网上的重要应用。它主要包含两大范畴:eb内容挖掘和eb使用挖掘。关联规则挖掘是eb使用挖掘的一个重要研究课题。它的目的是找到网站资源访问记录中隐含的相互关系,能够发现隐藏的用户访问模式。本文着重讨论了有趣关联规则的挖掘。通过分析日志文件,我们可以寻找到那些经常被用户访问的页面及他们之间的关联规则(即频繁访问页组)。但是,这些挖掘的结果应该考虑到规则的有趣度。兴趣度低的规则对于网站的结构调整和整体设计无重大意义。在本文中我们认为一个兴趣度高的用户频繁访问页组满足三点:(1)页组内页面本身之间链接程度低。(2)页组内尽可能包含多的页面。(3)经常被用户在一次浏览过程中访问。2

3、关联规则关联规则的问题描述如下:设r=i1,i2,i是一组物品集,是一组事务集。中的每个事务t是一组物品,tr。假设有一个物品集a,一个事务t,如果at,则称事务t支持物品集a。关联规则就是如下形式的一种蕴含:ab,其中a,b是两组物品,ai,bi,且ab为空。则可用两个参数可信度和支持度来描述关联规则的属性,其定义如下:(1)可信度(nfidene)。设中支持物品集a的事务中,有%的事务同时也支持物品集b,则称%为关联规则ab的可信度。(2)支持度(supprt)。设中有s%的事务同时支持物品集a和b,则称s%为关联规则ab的支持度。显然可信度是对关联规则准确度的衡量,支持度则是对关联规则重

4、要性的衡量。关联规则的挖掘问题就是在事务数据库d中找出具有用户给定的最小支持度insup和最小可信度innf的关联规则。他可以分解为两个子问题:(1)找出存在于事务数据库中的所有大物品集。物品集x的支持度supprt(x)不小于用户给定的最小支持度insup,则称x为大物品集。(2)利用大项集生成关联规则。对于每个大项集a,若ba,b不为空,且nfidene(b(a-b)innf,则构成关联规则b(a-b)。网站资源可以是网页、数据、图片、声音和文档。设x1、x2、x;y1、y2、y均为网站资源,x=y(sup,nf)表示资源集的关联规则,其中x=x1、x2x,y=y1、y2、y,xy=空,这

5、条规则的含义是如果资源集x被访问,那么资源集y也会被访问。规则的支持度为sup,置信度为nf,关联规则挖掘算法的目的就是要推导出所有达到一定支持度和置信度的规则。但是,只使用支持度和置信度来描述关联规则是明显不足的,规则过多,用户不感兴趣,规则很难为用户服务和利用。这样的关联规则意义就不是很大。所以,结合网站的拓扑结构提出了ir算法来增加挖掘规则的有趣性。3有趣关联规则ir算法3.1页面之间的关联概率在这里,假定超文本系统仅仅包含有一些基本的页面。除此外我们还假设:指向一个页面的连接是将这个页面作为一个整体来对待的,而不是指向页面内容的一部分;在超文本系统中不存在环路;在任何源节点和目标节点间

6、最多只有一条链路。基于以上的假设,我们可以为超文本系统建立一个有向网络拓扑图,如图1所示:图1网络拓扑图在这里,有向图g=(n,e),其中n是节点的集合,e是边的集合。一个节点a(an)和一个页面相对应,一条边是一个元组(a,b)e,和页面间的一个连接相对应;对于给定的连接(a,b)称a是源节点,b是目的节点。在这里并不假定图是连接的。如果两个页面在网络拓扑中相距较远,则表明它们之间的关联性较低,如果我们从日志信息中挖掘出它们之间有较高的访问可信度的规则,则这样的规则是用户感兴趣的。如图1的页面和e在拓扑结构中,显示关联度较低。如果,在eb日志中发现了=e这样的关联规则,则兴趣度是较高的。通过

7、这样兴趣度高的关联规则,有利于网站结构的调整。在介绍算法前,我们首先引入几种资源链接情况的关联概率。(1)如果在资源a、b之间不存在任何有向边或者链接序列,则p(a|b)=0。(2)如果资源之间存在有向边链接,假定b中存在li个链接(li=1),则用户可能从b访问a的概率为p(a|b)=1/(li+1)(包括后退的情况)。如图1中p(|b)=1/3。(3)如果a,b之间存在有向序列(a,k1,k2,b),则p(a|b)=p(k1|b)p(k2|k1)p(a|kn)。3.2规则的有趣度确定eb关联规则挖掘可以利用网络拓扑的特点进行改善。网络拓扑是一个由链接连接起来的资源集。在网络拓扑中直接或间接

8、相连的资源集在用户访问时同时出现的可能性较高,显然他们的关联规则对于网络拓扑设计者是不大感兴趣的。而在拓扑中不相连或相距较远的资源集在用户访问时同时出现的可能性较低,他们的关联规则恰好是网络设计者所期望取得的。在这里,我们定义有趣度公式如下:interest(a|b)=1-p(a|b)(1)在拓扑结构中,关联度越高则兴趣度越低。如果页面间没有任何链接,则其interest为1。当然,我们可以考虑页面内容及访问该页面时间长短和访问频率等多种因素来考虑兴趣度,但是这样实现的时候pu花费的时间比较多,在这里我们考虑了比较简单实用的方法确定的规则有趣度。3.3有趣关联规则算法(ir)挖掘频繁访问页组的

9、算法类似于关联规则算法中发现最大项目集,我们预先设定支持度的阀值t,在频繁访问页组中都是支持度大于t的页面,在传统的页面聚类算法中,支持度指包含页组中所有页面的用户会话的个数。在ir算法中,我们除了设定支持度,同时根据网站的拓扑结构计算每个规则的有趣度interest(a|b)。挖掘出来的页组的有趣度还需要满足用户指定的最小兴趣度in-interest。在算法中,我们先用flyd算法求得a到b的最短有向路径,然后利用上面讨论的公式计算p(a|b),进行页面间关联概率的计算。ir算法预先计算任意页面之间的最短路径,存储在邻接矩阵中,提高算法的运行效率。构造最短路径的算法描述如下:queue=en

10、queue(index)/从第一个页面开始p=nende();/新建一个节点hilentepty(queue)i=dequeue();/从队列中取出一个页面freahj=i.link/对于该页面的每个链接ifntvisitedjthen/判断页面j在图g中是否已有结点s=s+1;q=nende();enqueue(q);visitedj=true;elseq=getndej;/获取页j在图g中的结点endifp(j|i)=1/(s+1);/根据公式计算关联概率p.addedge(q,p(j|i);/从p节点增加有向边到q,概率为p(j|i)nextend有趣规则算法:输入:支持度大于最小支持度

11、t的频繁访问页组a=b,最小有趣度in-interest;输出:有趣频繁访问页组;利用上面的算法构造了一个含有任意页面最短路径的邻接矩阵freaha=b利用式(1)和计算interest(b|a);ifinterest(b|a)in-interestthen输出”a=b”endnext4实验和结论ir算法已经在学校网站中的一个星期的日志数据中进行了验证,试验环境是在pu为piv1.3g,内存为256的p机上,运行平台为inds2003server。实验数据长度为6b的长度,其中包含7万条记录。日志数据中312个不同的页面。经过预处理后转为1703条会话记录。我们用一般的页面聚类算法(支持度大于

12、t)和ir算法都对实验数据进行挖掘,得到的频繁项目集fgi列表如表1所示。表1算法实验比较说明:|fgi|频繁项目集的数目。,:这三个页组包含了我们感兴趣的页组。通过实验可以发现通过ir算法设定最小兴趣度0.8,对一般算法产生的关联规则进行兴趣度过滤,将兴趣度低的关联规则排除,这样得到规则的兴趣度比较高,在实验中图1的网络拓扑结构产生了如abd=f和ae=这样的有趣频繁访问页组。我们可以根据这样兴趣度高的规则来调整和改善网络的拓扑结构。网络拓扑修改后如图2所示:图2改善的网络拓扑结构实验结果表明:ir算法在规则的有趣度方面有较大的改善,大大提高规则的利用率,可以很好的用于网络拓扑结构的改善。参

13、考文献1ragraal,tiielinskiandasai.iningassiatinrulesbeteensetsfitesinlargedatabases.ashingtn,d.sigdp93,207-2162ragraalandrsrikant.fastalgrithsfriningassiatinrules.inj.b.ba,.jarke,and.zanil,editrs,preedings20thinternatinalnferenenverylargedatabas2es,rgankaufann,1994.487-4993gliu,hlu,yxu,jx.yu.asendingfrequenyrderedprefix-tree:effiientiningffrequentpatterns.pr.2003int.nf.ndatabasesystesfradvanedappliatins(dasfaap03),kyt,japan,arh20034haadel-hajjandsarrza?ane,fi-treeining.aneapprahtpatterngrthithreduedandida2ygeneratin,inrkshpnfrequentitesetiningiple2entatins(fiip

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论