全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
挖掘在电子商务系统中的应用 挖掘在电子商务系统中的应用是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,挖掘在电子商务系统中的应用是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,挖掘在电子商务系统中的应用的论文版权归原作者所有,因网络整理,有些文章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。 摘要 本文阐述了在电子商务应用中,利用web挖掘技术,有效地将用户访问过程中的数据记录到日志文件中,并对日志文件进行有效地分析和挖掘;利用apriori改进算法ft树增长算法,找出对电子商务系统有指导作用的关联规律。关键词 电子商务 数据挖掘 日志挖掘 知识发现 人工智能随着电子商务的发展,企业的数据越来越多,而当其数据积累到一定程度时,必然会反映出一定规律性的东西,也就是说,企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此,人们迫切希望使用一种技术,从中挖掘出具有价值的规律来,形成对企业的技术和经营的指导。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。web中包含的丰富和动态的超链接信息,以及web页面的访问和使用信息,为数据挖掘提供了丰富的资源。如何对web中的数据进行有效的资源和知识发现,是web挖掘需要解决的问题。一、web信息数据的特征传统数据挖掘的信息局限于数据库中的结构化数据,而web信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。web及其数据的更新、增长速度极快, web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户ip地址等这些潜在的访问信息。二、数据挖掘及web挖掘技术1.数据挖掘数据挖掘,又称数据库中的知识发现,近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上,从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现(kdd)是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。2.web挖掘web挖掘是对数据挖掘的一种新的发展和应用,但不同于传统的数据挖掘,其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识,而web挖掘的对象是半结构化或非结构化特征。web挖掘就是从大量的web文档和web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术,并将传统的数据挖掘技术与web结合起来。web挖掘分为:web内容挖掘、web结构挖掘和web使用记录挖掘,如下图所示。图 web挖掘的分类三、基于web日志挖掘的算法web日志记录了用户访问的信息,包括用户的访问方式、访问时间、访问人数、用户ip地址、被请求文件的url http版本号、传输字节数、引用页的url等。1.符号与定义web日志文件是由一条记录组成的,一条记录实际上记录的是用户对web页面的一次访问。定义1关联规则:设i是web日志的一条记录,即i=i1,i2,im,其中ij(1jm)是某用户访问一种商品的数据,每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户ip地址等数据,称此类数据为数据项。tii为i的一个子集。d=t1,t2,tn是关于ti的集合,且xi,yi,xy =,则记录x=y为在集合d中x与y相互关联的规则。定义2支持度:如果x=y在t中的s%成立,则称xy的支持度为s%,即s% =(|t|t中含有x,y|/|t|)100%支持度s%表示x=y中出现的普遍程度。定义3置信度c%c%=(|t|t中含有x,y|/|t|t中含有x|)100%置信度表征的是规则的强度。定义4频繁模式:大于给定的支持度的模式x=y称为频繁模式,并将它看成是t中一条有意义的关联规则。2.算法描述根据fp增长或频繁模式增长(frequent-pattern growth)算法,将关联规则的挖掘分为两个步骤实施:根据所提供的最小支持度和最小置信度找出所有的频繁项集;利用所产生的频繁项集,产生合理的关联规则。(1)fp增长算法的具体算法描述如下:输入事务数据库d,最小支持度阈值min_sup输出d中的所有频繁项集方法1按以下步骤扫描构造fp树:扫描事务数据库d一次。收集频繁项的集合f和其支持度。对f按支持度降序排序,结果为频繁项表l。创建fp树的根节点,以“null”标记。对d中每个trans,执行:选择trans中的频繁项,按l中的次序排序。设排序后的频繁项表为pp,其中p是第一个元素,p是剩余的元素表。调用insert_tree(pp ,t)。即:如果t有子女n使得n.itemname = p.itemname,则n的记数增加1,否则创建一个新节点n,并将其计数设置为1,链接到它的父节点t,并通过节点链接结构将其链接到具有相同itemname的节点。如果p非空,递归调用insert_tree(p,n)。方法2procedure ft_growth(tree,)if tree含单个路径p thenfor p中节点的每个组合(记作)产生模式,其支持度support=中节点最小支持度;else for each i在tree的头部产生一个模式=i,其支持度support =isupport;构造的条件模式基,然后构造的条件fp树tree;if treethen调用fp_growth(tree,);(2)产生频繁项集。本文主要介绍如何产生所有频繁项集。假设有一个两维的web日志数据文件。一维是商品号,共有三种商品,分别标志为t1,t2,t3;另一维包括商品的访问次数,为简化处理,分别标志为interview1,interview2,interview3,interview4,interview5。另假设min_sup=0.3,minconf =0.5,表1给出了两维的事务数据库,表2给出的是一维频繁项集,表3给出的是二维频繁项集。表1 事务数据库表2 一维频繁项集表3 二维频繁项集四、结束语本文提出了一种基于日志的web数据挖掘方法,对电子商务系统具有较强的现实指导意义。web日志挖掘所得到的结果既有利于提高网站的性能和安全性,也可以作为优化站点拓扑结构和页面之间的超链接关系的依据,也是在web上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化web站点的依据。本文中所涉及到的图表、注解、公式等内容请以pdf格式阅读原文。其他参考文献baker, sheridan. the practical stylist. 6th ed. new york: harper & row, 1985.flesch, rudolf. the art of plain talk. new york: harper & brothers, 1946.gowers, ernest. the complete plain words. london: penguin books, 1987.snell-hornby, mary. translation studies: an integrated approach. amsterdam: john benjamins, 1987.hu, zhuanglin. 胡壮麟, 语言学教程 m. 北京: 北京大学出版社, 2006.jespersen, otto. the philosophy of grammar. london: routledge, 1951.leech, geoffrey, and jan svartvik. a communicative grammar of english. london: longman, 1974.li, qingxue, and peng jianwu. 李庆学、彭建武, 英汉翻译理论与技巧 m. 北京: 北京航空航天大学出版社, 2009.lian, shuneng. 连淑能, 英汉对比研究 m. 北京: 高等教育出版社, 1993.ma, huijuan, and miao ju. 马会娟、苗菊, 当代西方翻译理论选读 m. 北京: 外语教学与研究出版社, 2009.newmark, peter. approaches to translation. london: pergmon p, 1981.quirk, randolph, et al. a grammar of contemporary english. london: longman, 1973.wang, li. 王力, 中国语法理论 m. 济南: 山东教育出版社, 1984.xu, jianping. 许建平, 英汉互译实践与技巧 m. 北京: 清华大学出版社, 2003.yan, qigang
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 押金合同范本应用指南
- 通信槽探施工合同
- 电力设施建设招投标诚信承诺书
- 产业园环境卫生管理协议
- 环保工程设备安全评估工程队合同
- 环保工程建设项目合同样本
- 市场代理权转让合同
- 垃圾处理灰工施工合同
- 商务租车服务合同
- 建筑装饰电焊工程协议
- 人体衰老和抗衰老研究 课件
- 新城吾悦广场商业封顶仪式策划方案
- 《故都的秋》《荷塘月色》《我与地坛(节选)》群文阅读 导学案 统编版高中语文必修上册
- 小学数学北师大三年级上册五周长围篱笆
- 25吨吊车参数表75734
- 中职学生学习困难课件
- 外研版五年级上册说课标说教材课件
- 被巡察单位组织人事工作汇报集合5篇
- 青少年科技创新大赛培训课件
- 新闻编辑学--新闻稿件的选择与编辑-54新闻差错的“更正”-课件
- 中学田径基础校本课程教材
评论
0/150
提交评论