web数据挖掘在电子商务中的应用研究报告_第1页
web数据挖掘在电子商务中的应用研究报告_第2页
web数据挖掘在电子商务中的应用研究报告_第3页
web数据挖掘在电子商务中的应用研究报告_第4页
web数据挖掘在电子商务中的应用研究报告_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-.zWeb数据挖掘在电子商务中的应用研究[摘要]当今互联网拥有海量的数据,如何对这些Web上的数据进展挖掘提取有用的模式,辅助企业获得成功,是一个刻不容缓的题目。本文对Web数据挖掘在电子商务中的应用进展了研究,主要做了以下工作:1.总结了数据挖掘研究现状及最新进展.提出了数据挖掘逻辑模型及存在的一些问题.2.描述了Web数据挖掘技术,Web数据挖掘的用途,以及*ML在数据挖掘中的应用.3.讨论了在电子商务中如何有效地利用几种可行的数据挖掘技术,如路陉分析、关联规则分析、序列模式分析、分类分析和聚类分析等挖掘出用户的购置模式及浏览模式,并就其中的路陉分析和序列模式分析提出了实现的方法.[关键字]Web数据挖掘、电子商务1引言电子商务是利用计算机技术、网络技术和远程通信技术,实现整个商务(买卖)过程中的电子化、数字化和网络化。在全球*围内,基于Internet的电子商务迅猛开展,促使各企业经营者必须及时搜集大量的数据,并且将这些数据转换成有用的信息,为企业创造更多潜在的利润。利用Web数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率效劳。同时Internet是一个巨大、分布广泛、全球性的信息资源储藏库。随着上网人数的急剧增加,电子商务的蓬勃开展,各种基于互联网的商业Web站点也面临越来越剧烈的竞争。Web包含了丰富和动态的超信息,以及Web页面的和使用信息,这也为数据挖掘提供了大量丰富的资源。[1][2]2Web数据挖掘简介Web数据挖掘(WebDataMining)是利用数据挖掘从Web文档及Web效劳中自动发现并提取用户感兴趣的、潜在的、有用的模式和隐藏信息。Web数据挖掘的主要目标就是从Web的记录中抽取用户感兴趣的模式,效劳器中的日志,记录了关于用户和交互的信息,通过Web数据挖掘,就可以根据用户的兴趣、频度、时间动态地调整页面构造,改进效劳,开展有针对性的电子商务活动,以更好地满足客户的需求。Web数据挖掘就是解决上述题目的一个途径。当数据挖掘技术应用于网络环境下的Web中就成为Web数据挖掘。Web数据挖掘就是从Web文档和Web活动中抽取感爱好的潜伏的有用模式和隐躲的信息。

Web挖掘可以分为三类:Web内容挖掘、Web构造挖掘和Web使用挖掘[6]。Web内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息;Web构造挖掘是用来提取网络的拓扑信息,即网页之间的衔接的信息;Web使用挖掘是用来提取关于客户如何运用浏览器浏览和使用这些衔接的信息。3Web挖掘的过程和方法3.1Web挖掘的过程电子商务中的Web挖掘过程一般由3个主要阶段组成:数据准备、挖掘操作、结果表达和解释。(1)数据准备:这个阶段又可分成3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进展合并处理,解决语义模糊准备,这个阶段又可分成为处理数据中的遗漏等。数据选择的目的是区分出需要分析的数据集合,缩小处理*围,提高数据挖掘的质量。预处理是为了抑制数据挖掘工具的局限性。(2)数据挖掘:这个阶段进展实际的挖掘操作,包括的要点有:决定如何产生假设;选择适宜的工具;开掘知识的操作;证实发现的知识。〔3〕结果表述和解释:根据最终用户的决策目的对提取的信息进展分析,把最有价值的信息区分开来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来,还要对信息进展过滤处理,如果不能令决策者满意,需要重复上述过程。3.2Web数据挖掘的方法(1)协同过滤:协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。(2)关联规则:关联规则是寻找在同一个事件中出现的不同项的相关性,用数学模型来描述关联规则发现的问题:*=>y的蕴含式,其中*,y为属性——值对集(或称为工程集),且*∩Y空集。在数据库中假设S%的包含属性——值对集*的事务也包含属性——值集Y,则关联规则*=>Y的置信度为C%。(3)Web日志的聚类算法:聚类分析是把具有相似特征的用户或数据项归类,在管理中通过聚类具有相似浏览行为的用户。基于模糊理论的Web页面聚类算法与客户群体聚类算法的模糊聚类定义一样,客户情况可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客户Ci和URL(Uj)间的关联度:式中m为客户的数量,hits(Ci)表示客户CiURL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵,再根据相似类[*i]R的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关Web页面。(4)序列分析:序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序关系。它能发现数据库中如“在*一段时间内,客户购置商品A,接着会购置商品B,此后又购置商品C,即序列A→B→C出现的频率高〞之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数据库中高频率出现有序列。3.3Web数据挖掘的技术从电子商务的角度出发,进展Web上的数据挖掘,主要就是进展客户信息的挖掘,得到客户端浏览行为和模式,从而找到有用的市场信息。在Web数据挖掘的模式发现中,常有以下几种数据挖掘技术的使用:

(1)路径分析:使用路径分析技术进展Web使用模式挖掘,最常用的就是构造图。它可以被用于判定在一个web站点中最频繁的路径,还有一些其他的有关路径的信息通过路径分析可以得出,比方:70%的用户端在/class/book2时,是从/class开场,经过/class/new,/class/book,/class/book1,最后才到的/class/book2。这条规则说明在/class/book2页面上有有用的信息,但由于客户对站点进展的是迂缭绕行的,所以这个有用信息并不明显。假设这个页面对来说比较重要,可以通过此路径分析改进页面及构造的设计,从使客户更轻易的/class/book2。

(2)关联规则:关联规则主要关注事物内的关系。在Web使用挖掘中,关联规则挖掘就是挖掘出用户在一个期间从效劳器上的页面/文件之间的关系,找出在*一次效劳器会话中最经常一起出现的相关画面。例如,40%的客户再购置了CD之后又购置了CD清洁剂。利用挖掘出来的这些相关性,我们可以更好的组织站点,实施有效的市场策略。

(3)序列模式:序列模式挖掘就是挖掘出交易集之间有时间序列关系的模式,在Web日志中发现所有满足用户规定的最小支持度的大序列模式。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项〞的内部事务模式。例如:在/class/book1上进展过在线定购的顾客,有60%的人在过往15天内也在/class/bag1处下过订单。发现序列模式能够便于进展电子商务的组织猜测客户的模式,对客户开展有针对性的广告效劳。通过系列模式的发现,能够在效劳器方选取有针对性的页面,以满足者的特定要求。

〔4〕分类规则:分类技术主要是根据用户群的特征挖掘用户群的特征。在Web数据挖掘中,分类规则的发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项,例如:在/class/book2进展过在线定购的顾客中有55%是20-30岁生活在南方的年轻人。得到这一分类后,就可以进展适合这一类客户的商务活动。〔5〕聚类:聚类技术是对符合*一规律特征的用户进展用户特征挖掘。聚类分析可以从Web信息数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场战略。这种市场战略包括:自动给一个特定的顾客聚类发送销售,为一个顾客聚类动态地改变一个特殊的站点等。[3]4电子商务中Web数据挖掘的数据对象

(1)效劳器日志数据。客户站点时会在Web效劳器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在效劳器上,一般包括severlogs、errorlogs、cookielogs等。

(2)代理效劳器数据。效劳器日志只记录用户对*个的,而代理效劳器日志记录用户对所有的。代理效劳器相当于在客户浏览器和Web效劳器之间提供了缓存功能的中介效劳器。它的缓存功能减少了Web效劳器的网络流量,加快了网页的运行速度。同时将大量的用户信息通过代理日志的形式保存起来。

(3)Web页面。它主要是指HTLM和*ML页面的内容,包括本文、图片、语音、图像等。

(4)Web页面超级关系。它主要是指页面之间存在的超级关系。

(5)客户登记信息。它是指客户通过Web页输入的,要提交给效劳器的相关用户信息。这些信息通常是关于用户的人口特征。客户登记信息需要和日志集成,才能提高数据挖掘的准确度,使之能更进一步的了解客户。

(6)异构数据源。由于电子商务交易是在Internet网上进展,数据库的构造各异,但其中涵盖着许多价值很高的信息资料,如果用Agent智能手段捕获这些信息源,对提高电子商务挖掘信息价值是很有益的。5电子商务中Web数据挖掘的过程

(1)数据预处理。它包括数据清理、用户识别、用户会话识别、路径补充和事务识别等步骤。

数据清洗的目的是删除Web日志中与数据不相关的冗余项,缩小被挖掘数据对象的*围。

在数据净化后就必须确定单一的用户,用户识别的目的就是对用户惟一性的识别。用户识别可以借助于cookie技术、用户登记技术和启发性规则来实现。

用户会话识别的目的是将每个用户的信息划分成假设干个独立的会话进程。最简单的方法是采用超时估计的方法,即当对页面之间的请求时间间隔超出所给定值时,即可以认为用户已经开场了一次新的会话。[4]

因为页面缓存技术和代理效劳器的广泛使用,使得Web效劳器日志中所记录的可能不是用户完整的路径。不完整的日志不能准确地反映用户的模式,所以有必要进展路径的补充。进展路径补充可以利用Web站点的拓扑构造,对页面进展分析。

事务识别是建立在用户会话识别的根底上的,其目的是依据数据挖掘任务的需求将事务做分割或合并处理,使其适合于数据挖掘需求的分析。

(2)模式识别。对预处理之后的数据进展处理得到相应的事务数据库。在事务数据库根底上进展数据挖掘,需要进展两个方面的工作:一是将事务数据库整理变换成与一定挖掘技术相适应的数据存储形式;二是利用数据挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等。

(3)模式分析。该阶段的主要任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式,发现有趣模式。最常见的模式分析方法是SQL语言知识查询机制,也可以利用存储Web使用数据的数据库进展数据导入,再利用OLAP方法发现数据中的特定模式结果。

(4)可视化。主要是采用可视化的技术以图形界面的方式表示挖掘的成果。[6电子商务中的应用

尽管Web挖掘的形式和研究方向层出不穷,但随着电子商务的兴起和迅猛开展,未来Web挖掘的一个重要应用方向将是电子商务系统。而与电子商务关系最为密切的是Web信息挖掘。下面是Web信息挖掘在电子商务中的几点具体的应用。

〔1〕发现潜伏客户:在对Web的客户信息的挖掘中,利用分类技术可以在Internet上找到未来的潜伏客户。通常的策略是先对己经存在的者进展分类,对于一个新的者,通过在Web上的分类发现,识别出这个客户与己经分类的老客户的一些公共的描述,从而对这个新客户进展正确的分类。然后从它的分类判定这个新客户是属于有利可图的客户群,还是属于无利可图的客户群,决定是否要把这个新客户作为潜伏的客户来对待。客户的类型确定后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和效劳之间的关联。

〔2〕提供优质个性化效劳:对客户来说,传统客户与销售商之问的空间间隔在电子商务中己经不存在了。在网上,每一个销售商对于客户来说都是一样的,则如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战。为了到达这一目的,就应该了解客户的浏览行为,知道客户的爱好及需求所在,动态地调整Web页面,以满足客户的需要。通过对客户信息的挖掘,就能知道客户的浏览行为,从而了解客户的爱好及需求。

〔3〕改进站点设计:对Web站点的构造的优化可从三方面来考虑:(1)通过对WebLog的挖掘,发现用户页面的相关性,从而对密切联系的网页之间增加,方便用户使用。(2)利用路径分析技术判定在一个Web站点中最频繁的路径,可以考虑把重要的商品信息放在这些页面中,改进页面和构造的设计,增强对客户的吸引力,进步销售量。(3)通过对WebLog的挖掘,发现用户的期看位置。假设在期看位置的频率高于对实际位置的频率,可考虑在期看位置和实际位置之间建立导航,从而实现对Web站点构造的优化。

〔4〕聚类客户:通过把具有相似浏览行为的客户分为一组,并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,向客户提供更适合、更面向客户的效劳。如有一些客户都花了一段时间浏览“房屋装修〞,“家具〞页面,经过分析这些客户被聚类成为一组。销售商根据分析出来的聚类信息,就可以知道这是一组“新购房族〞客户,对他们所进展的业务活动当然也就不可能等同于其他被聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论