第15章数据挖掘在电子商务中的应用要点课件_第1页
第15章数据挖掘在电子商务中的应用要点课件_第2页
第15章数据挖掘在电子商务中的应用要点课件_第3页
第15章数据挖掘在电子商务中的应用要点课件_第4页
第15章数据挖掘在电子商务中的应用要点课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据挖掘与应用案例分析第15章数据挖掘在电子商务中的应用

15.1应用概述>>

15.2主要应用领域>>

15.3案例1:基于关联分析的淘宝网推荐>>

15.4案例2:协同过滤技术在电影推荐上的简单应用>>15.1应用概述电子商务(E-Commerce,简称EC)是指在互联网(Internet)、企业内部网(Intranet)和增值网(ValueAddedNetwork,简称VAN)上以电子交易方式进行交易及其它相关服务活动,它是传统商业活动各环节的电子化和网络化。电子商务包括电子货币交换、供应链管理、电子交易市场、网络营销、在线事务处理、电子数据交换、存货管理和自动数据收集系统等方面。随着互联网的迅速普及,电子商务已如雨后春笋般地迅速发展壮大起来。目前很多大型企业都拥有自己的商务网站。但是,电子商务在给人们带来方便快捷的同时,也给人们带来了不少的难题和挑战。对企业来说,需要从海量的交易信息中找出有用的、有潜在价值的信息,制定更好的经营策略;对消费者来说,需要花费大量的时间和精力来浏览网上海量的商品信息,并从中比较和选购商品。数据挖掘技术可以从海量的数据中抽取出潜在的、有价值的知识、模型或规则,从而为企业或消费者提供决策支持。例如,企业可以采用数据挖掘技术进行客户细分、高价值客户挖掘和客户流失预测,还可以进行个性化推荐以改善用户体验,从而提升用户从点击到购买的转化率。15.2主要应用领域15.2.1网络客户关系管理15.2.2网站设计优化15.2.3推荐系统15.2.1网络客户关系管理网络客户关系管理(ElectronicCustomerRelationshipManagement,简称E-CRM)是企业在信息化中基于Internet平台的客户关系管理,其核心思想是在电子商务环境中,CRM具有在企业与客户、供应商及业务伙伴之间建立无缝的协作能力,通过包括Web在内的多种渠道来跟踪和管理与客户进行的交流和交易,从而实现企业与每位客户的最大程度与最大自由的互动。数据挖掘可在客户获取、客户细分和客户保留三方面优化网络客户关系管理质量。15.2.2网络设计优化从网站的用户浏览日志文件中挖掘客户访问页面的使用模式,可以为改良网站的内容布局提供良好的建议。对Web站点的优化可以从两方面来考虑:一是发现客户访问页面的相关性,在密切相关的网页之间增加互通链接;二是发现用户的期望位置,如果在期望位置的访问频率高于对实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接。以著名的电子商务平台亚马逊为例,其Web站点优化主要体现在以下几方面:(1)产品搜索和在线采购(2)相关产品展示(3)基于历史行为的产品推荐(4)可定制的推荐记录(5)全面的导航条15.2.3推荐系统(1)电子商务推荐系统是将数据挖掘中的推荐技术应用到电子商务领域的范例。随着电子商务活动的开展,电子商务平台可以收集到大量用户相关数据,如用户交易数据、用户注册数据、用户评分数据、用户咨询数据等。这些数据中蕴含着丰富的用户偏好信息,推荐系统可以对用户行为和个人信息进行分析处理,从中获取用户兴趣信息并进行推荐。协同过滤推荐是目前研究最多应用最广泛的推荐算法,包括基于内容的协同过滤方法、基于模型的协同过滤。其他推荐方法还包括基于效用的推荐和基于知识的推荐等。协同过滤在电子商务中多用于在线动态推荐,而关联分析则常用于离线静态推荐。目前,大型电子商务系统,如Amazon、eBay和Dangdang,都不同程度地使用了电子商务推荐系统。以著名的电子商务网站淘宝网为例,其推荐功能体现在以下几方面:15.2.3推荐系统(2)图15-3“掌柜热卖”推荐示例图15-4“基于浏览记录的推荐”示例图15-5“猜你喜欢的”推荐示例15.3案例1:

基于关联分析的淘宝网推荐15.2.1商业理解15.2.2数据理解阶段15.2.3数据准备阶段15.2.4建模阶段15.2.1商业理解面对电子商务网站上海量和纷繁多样的商品,很多用户感到无所适从,他们需要花费大量时间来挑选自己需要或者感兴趣的商品。网上销售与传统的店面销售不同,没有售货员提供现场咨询服务。但是,网上销售可以利用互联网的优势,为用户提供更优质的服务。由于服务器会记录用户在浏览电子商务网站时的所有行为,因此,企业很容易收集用户的浏览记录、交易信息及偏好数据。在个性化推荐技术的关联规则分析中,最典型的例子是购物篮分析,其目标是发现交易数据库中不同商品之间的联系强度,挖掘用户潜在购买模式,并将这些模式所对应的服务或产品展示给用户,为其提供参考,从而提高用户的满意度及购买率。15.2.2数据理解阶段属性名属性意义交易号ID唯一标识每一次用户的交易商品名购买的商品名数量购买的每一样商品的数量单价购买商品的单价表15-1数据集属性信息ID商品名数量单价商品名数量单价商品名数量单价商品名数量单价1女装T恤279短裙2118休闲男装199连衣裙1352女装T恤179短裙1118伞115

3女装T恤179短裙255高跟鞋163连衣裙1354女装T恤1119短裙155高跟鞋163

5女装T恤2119短裙145高跟鞋163

6女装T恤1119短裙145高跟鞋263洗发水285表15-2部分数据实例本案例采用淘宝网的用户交易数据进行分析,每条交易记录包括记录号和顾客购买的商品,表15-1给出了数据集中各属性名及意义,表15-2为部分交易实例数据示例。15.2.3数据准备阶段(1)交易号商品1商品2商品名3商品名41女装T恤短裙休闲男装连衣裙2女装T恤短裙伞

3女装T恤短裙高跟鞋连衣裙4女装T恤短裙高跟鞋

5女装T恤短裙高跟鞋

6女装T恤短裙高跟鞋洗发水表15-3

部分预处理后的数据原始数据集可能包含了一些冗余的数据、空值和零值等,这种格式不能作为关联规则分析算法的输入,需要对数据进行预处理。本案例的预处理中包括过滤掉原始数据集中的商品数量和单价这两个属性。同时为了保护顾客的隐私,过滤了用户名属性,并且用交易号来唯一表示顾客的每一次交易。处理后的数据集如表15-3所示。15.2.3数据准备阶段(2)交易号女装T恤短裙电脑配件男装牛仔裤休闲男装1TTFFT2TTFFF3TTFFF表15-4

布尔矩阵格式数据集交易号女装T恤1女装T恤1短裙1休闲男装2女装T恤2短裙3女装T恤3短裙表15-5

事务处理格式数据集在Clementine软件进行关联规则挖掘时,必须把数据格式转换成Clementine软件能处理的格式。通常有两种格式:一种是布尔矩阵形式,即每行表示一条交易记录,列中的T/F值表示该商品是否有在相应的交易记录中出现,T表示有出现,F表示没有出现(表15-4列出转换后的前3条记录信息);一种是事务处理格式,即每行对应一个交易号和一个商品项(表15-5列出了前3个事务对应的事务处理格式)15.2.4建模阶段Consequent规则后件Antecedent规则前件Support%支持度Confidence%置信度Lift提升度高跟鞋=T洗发水=T1.172.72715.474童装=T玩具=T文具=T1.573.33312.865家具=T地毯=T2.050.011.364玩具=T童装=T文具=T2.250.010.638童装=T玩具=T4.759.57410.452女装T恤=T短裙=T高跟鞋=T1.250.010.417表15-6Apriori算法运行结果利用Clementine中的Apriori算法进行关联规则分析,设定最小支持度1%,最小置信度50%,输入为布尔矩阵格式的交易数据(如表15-4),输出商品的关联规则及相应的支持度、置信度和提升度信息(如表15-6)。表中显示“高跟鞋”和“洗发水”、“童装”和“玩具”、“文具”经常被一起购买。15.3案例2:

协同过滤技术在电影推荐上的简单应用15.3.1商业理解15.3.2数据理解与准备15.3.3建模阶段15.3.4模型评估与部署15.3.1商业理解在本案例中,关联规则分析主要是从大量的电影评论记录中提取出稳定的电影间的关联规则,它表示对应的电影经常被同时评价,这个组合通常是稳定的,一般可用于捆绑推荐等静态推荐。而协同过滤则是结合当前用户及其他用户的交易或打分记录进行推荐。例如,对于指定用户的电影评分记录,可找到与其评分相似的其他用户,并根据这些用户对其他电影的评分来预测该用户的评分,以此对该用户进行推荐评分较高的电影。而电影推荐网站积累的电影记录数据量巨大,不同用户的评分也时刻更新变化,因此电影推荐网站适合采用协同过滤技术来进行此类更新频率较快的动态推荐,以满足用户对获取最新电影推荐的需求。15.3.2数据理解与准备UserIDItemIDRatingTimestamp1962423881250949186302389171774222118788871162443288060692316651886397596表15-8MovieLens的u.data表部分数据本案例使用GroupLensResearch的经典数据集MovieLens,该数据集包含3个重要的数据表,分别是u.data、u.item和u.user,其中u.data记录了943个用户对1682部电影的100000个评分,u.item记录了1682部电影的信息,u.user描述了943个用户的相关信息。我们主要用到u.data表的UserID、ItemID和Rating属性,表15-7给出了u.data部分数据示例。15.3.3建模阶段(1)采用开源的ApacheMahout项目中的协同过滤软件包cf来对MovieLens数据集进行分析预测。主要有以下4个步骤:(1)构建模型针对电影评分数据,构建适合分析的数据模型,用于存储用户,电影和评分。这里我们用的是文件u.data,去掉Timestamp属性,建立FileDataModel。(2)计算用户相似度为了确定所分析用户的相邻用户集,要先经过用户相似度的计算。这里采用夹角余弦的相似度计算方法来计算相似度。(3)查找K个相邻用户经过用户相似度计算,接着要确定选取哪些用户为最相似用户。通常相似度较高的用户,都归到相邻用户集。这里K值的设定依赖于实际数据特点或主观经验。为简单起见,我们取最相似的5个用户作为相邻用户集。(4)构建推荐引擎15.3.3建模阶段(2)表15-9

前6个用户预测评分最高的5部电影推荐通过以上4个步骤,借助ApacheMahout项目的cf包,我们可以简单地构建一个基于用户协同过滤的推荐引擎,并为每个用户提供电影推荐。推荐结果如表15-8所示。UserID(Top5)ItemID&&Rating1881,5.00880,4.00292,4.00301,4.00315,4.002116,5.0083,5.00179,5.008,5.00172,5.003172,4.67174,4.6722,4.6789,4.6750,4.50489,5.0098,4.50318,4.5079,4.50474,4.055347,5.00329,4.50242,4.50310,4.00299,4.006292,4.50313,4.50328,4.33

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论