Web挖掘在电子商务系统中的应用_第1页
Web挖掘在电子商务系统中的应用_第2页
Web挖掘在电子商务系统中的应用_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Web挖掘在电子商务系统中的应用[内容摘要]本文论述了在电子商务应用中,利用web发掘技术,有效地将用户访问经过中的数据记录到日志文件中,并对日志文件进行有效地分析和发掘;利用apriori改良算法ft-树增加算法,找出对电子商务系统有指点作用的关联规律。[本文关键词语]电子商务数据发掘日志发掘知识发现人工智能随着电子商务的发展,企业的数据越来越多,而当其数据积累到一定水平时,必定会反映出一定规律性的东西,也就是说,企业的海量、分布、动态、复杂、非构造化的数据中蕴含有能够为其利用的规律。因而,人们迫切希望使用一种技术,从中发掘出具有价值的规律来,构成对企业的技术和经营的指点。数据发掘技术是能够用来发掘这些规律的一种有效工具。web中包括的丰富和动态的超链接信息,以及web页面的访问和使用信息,为数据发掘提供了丰富的资源。怎样对web中的数据进行有效的资源和知识发现,是web发掘需要解决的问题。一、web信息数据的特征传统数据发掘的信息局限于数据库中的构造化数据,而web信息数据是半构造化或非构造化的,具有如下特征:一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。web及其数据的更新、增加速度极快,web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有牵涉各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户ip地址等这些潜在的访问信息。二、数据发掘及web发掘技术1.数据发掘数据发掘,又称数据库中的知识发现,最近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上,从大量的、模糊的、随机的数据中提取出数据间主要的但容易被人工分析忽略的知识和信息。数据发掘技术牵涉数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现〔kdd〕是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的形式的高级处理经过。形式能够看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包括的信息更抽象的描绘叙述。发掘web发掘是对数据发掘的一种新的发展和应用,但不同于传统的数据发掘,其重要区别在于传统的数据发掘的对象局限于数据库中的构造化数据,并利用关系表等存储构造来发掘知识,而web发掘的对象是半构造化或非构造化特征。web发掘就是从大量的web文档和web活动中发现、抽取感兴趣的、潜在的有用形式和隐含的、事先未知的、潜在的信息。它以数据发掘、文本发掘、多媒体发掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、天然语言理解等多个领域的技术,并将传统的数据发掘技术与web结合起来。web发掘分为:web内容发掘、web构造发掘和web使用记录发掘,如以下图所示。图web发掘的分类三、基于web日志发掘的算法web日志记录了用户访问的信息,包含用户的访问方式、访问时间、访问人数、用户ip地址、被恳求文件的urlhttp版本号、传输字节数、引用页的url等。1.符号与定义web日志文件是由一条记录构成的,一条记录实际上记录的是用户对web页面的一次访问。定义1关联规则:设i是web日志的一条记录,即i={i1,i2,…,im},其中ij(1≤j≤m)是某用户访问一种商品的数据,每次访问一种商品都包括有如商品编号、访问时间、访问次数、客户号、客户ip地址等数据,称此类数据为数据项。ti∈i为i的一个子集。d={t1,t2,…,tn}是关于ti的集合,且x∈i,y∈i,x∩y=ф,则记录x=y为在集合d中x与y互相关联的规则。定义2支持度:假如x=y在t中的s%成立,则称x=y的支持度为s%,即s%=(|{t|t中含有x,y}|/|t|)·100%支持度s%表示x=y中出现的普遍水平。定义3置信度c%c%=(|{t|t中含有x,y}|/|{t|t中含有x}|)·100%置信度表征的是规则的强度。定义4频繁形式:大于给定的支持度的形式x=y称为频繁形式,并将它看成是t中一条有意义的关联规则。2.算法描绘叙述根据fp-增加或频繁形式增加〔frequent-patterngrowth〕算法,将关联规则的发掘分为两个步骤施行:根据所提供的最小支持度和最小置信度找出所有的频繁项集;利用所产生的频繁项集,产生合理的关联规则。〔1〕fp-增加算法的详细算法描绘叙述如下:输入事务数据库d,最小支持度阈值min_sup输出d中的所有频繁项集方法1按下面步骤扫描构造fp-树:①扫描事务数据库d一次。采集频繁项的集合f和其支持度。对f按支持度降序排序,结果为频繁项表l。②开创建立fp-树的根节点,以“null〞标记。对d中每个trans,履行:选择trans中的频繁项,按l中的顺序排序。设排序后的频繁项表为[p│p],其中p是第一个元素,p是剩余的元素表。调用insert_tree([p│p],t)。即:假如t有后代n使得-name=-name,则n的记数增长1,否则开创建立一个新节点n,并将其计数设置为1,链接到它的父节点t,并通过节点链接构造将其链接到具有一样item–name的节点。假如p非空,递归调用insert_tree〔p,n〕。方法2procedureft_growth(tree,α)iftree含单个路径pthenforp中节点的每个组合〔记作β〕产生形式β∪α,其支持度support=β中节点最小支持度;elseforeachαi在tree的头部{产生一个形式β=αi∪α,其支持度support=αi·support;构造β的条件形式基,然后构造β的条件fp-树treeβ;iftreeβ≠φthen调用fp_growth(treeβ,β);}〔2〕产生频繁项集。本文重要介绍怎样产生所有频繁项集。假设有一个两维的web日志数据文件。一维是商品号,共有三种商品,分别标记为t1,t2,t3;另一维包含商品的访问次数,为简化处理,分别标记为interview1,interview2,interview3,interview4,interview5。另假设min_sup=0.3,minconf=0.5,表1给出了两维的事务数据库,表2给出的是一维频繁项集,表3给出的是二维频繁项集。四、结束语本文提出了一种基于日志的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论