工商管理Web数据挖掘在电子商务系统中的应用_第1页
工商管理Web数据挖掘在电子商务系统中的应用_第2页
工商管理Web数据挖掘在电子商务系统中的应用_第3页
工商管理Web数据挖掘在电子商务系统中的应用_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘在电子商务系统中的应用 数据挖掘在电子商务系统中的应用是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,数据挖掘在电子商务系统中的应用是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,数据挖掘在电子商务系统中的应用的论文版权归原作者所有,因网络整理,有些文章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。 摘要 web服务器日志中保存了大量的用户访问电子商务系统的记录,我们从中提取所需的数据,运用数据挖掘技术对所提取的数据进行处理和分析,从而得到用户购物的兴趣和习惯,使电子

2、商务系统更能满足用户的需求。关键词 数据挖掘 电子商务 频繁访问路径在电子商务网站模式下,用户购买商品的过程就是在电子商务网站页面中跳转的过程,用户的每个活动其实也就是对网站上的一个页面对象的点击操作,而这些点击操作都被记录在网站的系统日志中,通过对日志文件的分析挖掘,可以找出用户行为模式;在另一方面,电子商务网站的结构组织是不是符合客户购买商品的规律,通过对网站日志的分析也可以得到。所有这些都离不开数据挖掘技术,本文就是通过对电子商务网站服务器日志文件进行分析,从而进一步指导电子商务网站建设。在web中使用数据挖掘,数据最直接的来源是web服务器日志,它非常明确地记录了访问者的浏览行为,在w

3、eb使用记录挖掘中有很重要的地位。每当有获取资源的请求到来时,服务器方将会产生server1095,error1095和cookie1095三种类型的日志文件,记录用户访问和交互的基本信息web日志文件是由一条条的记录组成,记录了用户对web页面的一次访问,尽管不同web服务器的记录格式不尽相同,但都包含用户访问的基本信息。web服务器文件的记录格式:一、提取数据客户在浏览网站时,是以点击超链接方式访问电子商务网站,客户的所有的点击行为可以抽象的点击流来表示,客户的操作轨迹都被记录在服务器日志里,因此我们可以大量收集每个客户的行为数据、深入研究,从这些看似“无意义”的数据中得到有价值的信息和知

4、识。我们可以收集并分析客户的浏览行为,使用数据挖掘方法发现客户的使用模式,向客户提供个性化页面的推荐服务。同时可以删除web日志中与挖掘算法无关的记录,本文中所需要的数据主要是用户名、请求的页面的时间和页面的地址,其它的数据项不需要,因此都可以删除。二、用户识别用户识别是点击流数据预处理过程中一项比较困难的任务,但目前已出现了不少来精确识别一个用户的方法,其中最简单但是误差也最大的一种方法就是根据ip进行识别,此外还有一些嵌入sessionid、让用户进行注册、在客户端写入cookie标识以及使用嵌入代理的方法每种方法都有其自身的优缺点。在web日志挖掘中,如果只根据服务器端日志确定用户往往会

5、有一定的误差,确定用户的误差会导致对用户访问事务的划分出现不准确,从而使得数据挖掘的结果也出现偏差。可以根据结果所要的精确度,选择不同的方法进行识别,我们一般选择在客户端写入cookie的方法即可达到比较好效果。三、会话事务识别用户会话的数学表示:用户会话s是一个二元组。userid是用户号,rs是用户在一段时间内请求的web页面的集合。rs包含用户请求的页面标识符pid、访问时间。访问时间长度(是指用户访问一个页面所经历的时间)。s=公式1服务器要并发处理多个用户的请求,要从多个相互交织的用户访问事务中正确区分出所有用户访问事务比较困难。一般都是对用户在客户端浏览行为做不同的假设,然后再在此

6、基础上确定用户访问事务。因此确定的用户访问事务并不能保证完全精确。根据对用户访问行为的不同假设,有四种确定用户访问行为及访问事务的模型:页面类型模型(pagetypemodel)、参引长度模型(referencelengthmodel)、最大向前参引模型(maximalforwardrefereneemodel)、时间窗口模型(timewindowmodel)。我们采用时间窗口模型对用户访问事务进行识别。时间窗口模型中,对用户浏览行为假定的方法是认为用户一次访问的时间都有一个最大的限制。我们采用时间间隔来区分用户访问事务,即如果相邻两个页面请求的间隔时间超过一定的界限,就认为是开始了一次新的用

7、户会话。此时,公式1要满足式公式2:timei-timet-1w,1ik公式2在时间窗口模型中划分用户访问事务。其中关键的一步是如何确定时间窗口大小即超时阀值。因为超时阀值的确定直接影响到点击流数据预处理结果的输出,不同的超时阀值会产生不同的用户会话文件。对于超时阀值,我们采用对实际日志进行实验,观察超时阀值与平均用户会话长度及用户会话个数之间的关系来确定。实验证明,当超时阀值到达60分钟时,会话长度增长于平稳,并且会话个数减少的趋势也趋于平稳,因而在我们的系统中将超时阀设为60分钟。目前,许多商业产品将缺省超时值确定为30分钟,超时的界限以根据站点的使用统计反馈的结果进行调节,直到可以更准确

8、地识别会话。四、频繁路径的挖掘用户频繁访问路径是用户在一定时期内多次浏览的连续页面序列,它最能反映在这个时期里用户的浏览兴趣。因此,用户频繁访问路径的挖掘对于了解用户当前兴趣,为用户提供个性化的服务有着非常重要的意义。用户频繁访问路径挖掘算法输入数据为事务识别的结果:用户的mfp集合。输出的是用户的频繁访问路径集合和相应的支持度。据此结论,可以得到用户的兴趣模式。相关定义和概念。定义1:给定路径p=x1,x2,xn,任意的p=xi,xi+1,xi+j(i=1,i.+j=n)均为p的子路径(sub一path),且称p包含p。定义2:如果一个web访问路径p=x1,x2,xn,满足以下条件:则称路

9、径p为频繁路径。其中,smin为预先定义的最小支持度。频繁访问路径就是mfp中满足一定支持度的连续页面序列。定义3:支持度指包含频繁访问路径的用户会话的数目。定义频繁访问路径的长度为其包含的页面数。设长度为k的频繁遍历路径的集合为fpk,其中最频繁的m个访问路径的集合为fpk_m=pk_1,pk_m。定义4候选路径:若两个连续的k-1长的子路径xj, xj+k-2和xj+1,xj+k-1都是fpk-1的元素,即它们的支持度都不小于pk-1_.m。的支持度,那就称xj,xj+k-1为fkk的候选路径。如会话s包含两个mfp:a,b,c,d,e和f,g,寻找fp3的候选路径需要考虑3个子路径a,b

10、,cb,c,dc,d,e,如果a,bb,c是即fp2中的频繁访问路径,那么a,b,c就是一个fp3的候选路径。用户频繁访问路径挖掘算法,挖掘长度为k的用户频繁访问路径就是设法构造fpk。算法的主要思想是基于候选路径的概念,从mfp中找出长度为k的候选路径xj,xj+k-1,然后计算它在用户所有会话中的支持度。支持度最大的m个路径的集合就是fkk_m。构造fpk(k1)的算法如下:输入:一个用户的mfp的集合fi。输出:一个用户的频繁遍历路径集合fpk(kl)。for每个fi. for fi中的每个x1, x2, , xmif (k=m)for (j =l;j m-k+l;j+)if x j,

11、xj+k-1己经在fpk中xj,xj+k-1的支持度加1else if x j,xj+k-2的支持度=sk-1andxj+l,xj+k-1的支持度=sk-1将xj, xj+k-1插入fpk; 在调用发现频繁遍历路径的算法之前,先要计算每一页在用户会话中的支持度,也就是路径长度为1的情况,然后从2直到k循环调用发现频繁遍历路径的算法,每一次循环都可以利用上一次循环结果中的支持度。 使用该算法分析每个用户会话,得到每个用户频繁遍历路径表,用户频繁遍历路径表:在电子商务系统的推荐模块里。就可以根据用户的id号和及其相应的频繁访问路径向用户提供最可能的访问链接,从而达到向用户推荐其最可能需要产品的目的

12、。五、小结本文通过对web服务器的日志文件的数据进行处理和分析,使用数据挖掘的方法,从中得到用户的频繁访问路径,来了解用户的购物特性和习惯,从而达到向每个用户推荐产品的目的。web挖掘是一个十分复杂,但是有广泛应用前景的技术,很多方面都值得我们去探究。参考文献:1华广颖张慧颖等:关联规则挖掘在企业运作策略调查问卷中的应用j.工业工程, 2004,(02)2辛燕:基于点击流分析的电子商务智能决策支持系统d. 江苏大学,20033周世东:web数据挖掘在电子商务中应用与研究d.北方交通大学,20084朱明著:数据挖掘.中国科学技术大学出版社,2002.2其他参考文献baker, sheridan.

13、 the practical stylist. 6th ed. new york: harper & row, 1985.flesch, rudolf. the art of plain talk. new york: harper & brothers, 1946.gowers, ernest. the complete plain words. london: penguin books, 1987.snell-hornby, mary. translation studies: an integrated approach. amsterdam: john benjamins, 1987

14、.hu, zhuanglin. 胡壮麟, 语言学教程 m. 北京: 北京大学出版社, 2006.jespersen, otto. the philosophy of grammar. london: routledge, 1951.leech, geoffrey, and jan svartvik. a communicative grammar of english. london: longman, 1974.li, qingxue, and peng jianwu. 李庆学、彭建武, 英汉翻译理论与技巧 m. 北京: 北京航空航天大学出版社, 2009.lian, shuneng. 连淑

15、能, 英汉对比研究 m. 北京: 高等教育出版社, 1993.ma, huijuan, and miao ju. 马会娟、苗菊, 当代西方翻译理论选读 m. 北京: 外语教学与研究出版社, 2009.newmark, peter. approaches to translation. london: pergmon p, 1981.quirk, randolph, et al. a grammar of contemporary english. london: longman, 1973.wang, li. 王力, 中国语法理论 m. 济南: 山东教育出版社, 1984.xu, jianping. 许建平, 英汉互译实践与技巧 m.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论