版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘技术对电子商务平台的作用以京东为例的数据挖掘应用分析作者:史俊禺班级:12计1指导老师:郑琪完成时间:2015.1.3第一章绪论1.1背景资料分析 31.2数据挖掘应用对电子商务领域的意义 41.3数据挖掘过程 41.4数据挖掘主要方法 51.5数据挖掘系统体系结构 71.6数据挖掘在电子商务中的应用流程 8第二章以京东为例的数据挖掘应用分析2.1数据挖掘在电子商务中的应用分析一一客户获得 92.11 客户获得的定义 92.12 数据挖掘可以对客户获得产生的作用 92.13客户获得的步骤 92.2数据挖掘在电子商务中的应用分析一一客户流失预测 112.21客户细分的定义 112.22客
2、户流失预测步骤 132.3数据挖掘在电子商务中的应用分析一一客户消费特征 142.31客户消费特征定义及背景 142.32京东建立客户消费特征的过程 142.33 RSS技术在电子商务平台的应用 162.34建立客户消费特征之后可应用的数据模块 17结语 18摘要:在电子商务平台日益发展的今天,数据分析作为一种科学的手 段,可以起到规范市场、节约成本、保护在线交易安全,而数据挖掘 这门技术可以从大量繁杂数据中提取有用的信息,并发现特定的规 律,为商家对客户的需求信息和行为预测提供可能性。本篇报告是作者在对数据挖掘课本学习的前提下,以京东商城为例,从互联网上搜集各类数据并进行分析,从客户获得、客
3、户流失预 测、客户消费特征这三个方面进行分析,最后归纳出数据挖掘在电子 商务应用上的必然性和重要性。第一章绪论1.1背景资料分析电子商务是指个人或企业通过In ter net网络,采用数字化电子 方式进行商务数据交换和开展商务业务活动。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信 息和知识,为公司创造更多潜在的利润。数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是 从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含 在其中的、人们事先不知道的,但又是潜在有用的
4、信息和知识的过程。 数据挖掘涉及的科学领域和方法很多,其核心技术经历了数十年的发 展其中包括统计,近邻,聚类,决策树,神经网络和规则等1.2数据挖掘应用对电子商务领域的意义数据挖掘有助于发现电子商务业务发展的趋势, 帮助电子商务 企业做出正确的决策,使企业处于更有利的竞争位置。 商业电子化的 趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一, 将为正确的商业决策提 供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。数据挖掘有助于客户关系管理,特别是对电子商务客户关系管 理起着决
5、定性的作用。数据挖掘主要是找寻隐藏在数据中的信息, 例 如发现趋势、特征及相关性的过程,也就是从数据中发掘出信息或知 识。以此对客户需求进行深入分析以满足企业对个体细分市场的客户 关系管理需求。从发现客户到客户分类再到客户管理, 数据挖掘通过 各种针对性技术为企业客户关系管理提供了强有力的保证。将数据挖掘技术应用于客户关系管理,能够帮助企业深入理解客户,得到更加 准确的客户模型,从而改进营销决策和客户服务。数据挖掘可以促进电子商务平台的发展,加强企业电子商务 平台应用的普及度。采用数据挖掘技术将电子商务中丰富的数据源信 息进行有效组织利用对电子商务的具有巨大的应用价值。同时数据挖掘对于电子商务
6、平台信息的挖掘分析可以帮助检验电子商务平台的 性能,促进电子商务平台的智能化,帮助企业打造更具可操作性及吸 引力的消费平台,为消费者提供更便利的消费环境。数据挖掘有利于企业资源优化,合理分配资源以实现资源价值 最大化。数据挖掘进行有效的统计分析挖掘,可以指导营销的组织和 分配,让企业在市场竞争中处于有利位置抢占先机。 通过数据挖掘可 以发现消费者的消费特性,从而帮助制定个性化服务,极大地吸引顾 客,既避免资源浪费,又为企业带来巨大的价值。1.3数据挖掘过程挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式 分析。A. 数据预处理实际系统中的数据一般都具有不完全性、 冗余性和模糊性。因此,
7、 数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁 的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多 个数据库中的数据进行合并处理; 选择数据,提取出适合分析的数据 集合;数据清洗、过滤,易9除一些无关记录,将文件、图形、图像及 多媒体等文件转换成可便于数据挖掘的格式等。B. 模式发现模式发现阶段就是利用挖掘算法挖掘出有效的、 新颖的、潜在的、 有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路 径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等C.模式分析 模式分析是从模式发现阶段获得的模式、 规则中过滤掉不感兴趣的规 则和模式。通过技术手段,对
8、得到的模式进行数据分析,得出有意义 的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。14数据挖掘主要方法a. 数据统计方法使用这些方法一般首先建立一个数据模型或统计模型,然后根据 这种模型提取有关的知识。例如,可由训练数据建立一个 Bayesian 网,然后,根据该网的一些参数及联系权重提取出相关的知识。b. 关联规则方法关联规则是描述数据之间存在关系的规则,形式为“A1 A A2 A ?An - B1 A B2 A ?Bn”。一般分为两个步骤:第一步,求出大数据 项集。第二步,用大数据项集产生关联规则数据库一组。 运用关联规 则的数据项往往存在某种潜在关联关系的规则。一找出所有类
9、似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面 是有价值的。c. 人工神经网络方法人工神经网络是由大量的简单神经元,通过极其丰富和完善的连 接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大 规模并行处理、自组织、自学习、自适应等功能。人工神经网络是一 种有效地预测模型,在聚类分析、奇异点分析、特征提取中可以得到。 通过模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据 进行调整、计算,最后得到结果,用于分类和回归。d. 决策树方法决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近 离散值函数的方法。它是以实例为基础的归纳学习算法,通常用来形 成分类器
10、和预测模型,着眼于从一组无次序、无规则的事例中推理出 决策树表示形成的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向 下的分支,最后在决策树的叶结点得到结论。因此从根到叶结点的一 条路径就对应着一条合取规则,而整棵决策树就对应着一组析取表达 式规则。决策树可能是现在最流行的有指导数据挖掘结构。e. 聚类方法聚类分析是对群体及成员进行分类的递归过程。一个簇是一组数据对象的集合,在同一簇的对象彼此类似,而不同簇中的对象彼此相 异。将一组物理或抽象对象分组成为由类似对象组成的多个簇的过程 被称为聚类。聚类是将数据对象分组成为多个类或簇,在同一个
11、簇中的对象具有较高的相似度,而不同簇中的对象差别较大。f. 可视化技术数据与结果被转化和表达成可视化形式,如图形、图像等,使用 户对数据的剖析更清楚。1.5数据挖掘系统体系结构(见下图)用户界面销支f ffin 场策户业 市决喀商 子务台 电IW:平 一模 规式 则樓 图型表识 知16数据挖掘在电子商务中的应用流程(见下图)第二章以京东为例的数据挖掘应用分析2.1数据挖掘在电子商务中的应用分析一一客户获得2.11客户获得的定义客户获得是指企业在吸引潜在客户转变为实际购买者这一过程中所运用的策略和方法。客户获得的最佳值取决于企业保留客户的能 力、客户重复购买的频次以及与保留客户相比获得客户的相对
12、机遇。2.12数据挖掘可以对客户获得产生的作用由于现代线上交易的特点,即:客户数量庞大,需求多种多样,特征分类较多,用传统方式如问卷调查等已经不能全面科学的对客户 获得产生作用,而利用数据挖掘可以根据客户的市场活动数据,在一定时间内分析其历史数据,总结出一个预测模型,从而可以针对不同 的客户、不同的需求提供个性化服务信息,如广告投放、喜好预测等, 来锁定重点客户,其中典型的方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。2.13客户获得的步骤1. 建立关系阶段。是卖方确立客户,买卖双方建立互信的阶段, 买方对你的产品和服务并没有真正的使用经验。 这个阶段是客户营
13、销 中最为关键的,也是需要消耗最多资源的。以京东为例:截止今年4月份,京东商城已经有4千万注册用户,2014年3、4 月份订单量达到每月40万。【数据来源:驱动之家http:/news.mydrivers.eom/1/225/225167.htm建立关系的方法如增加广告投入、seo优化、优惠信息提示等2. 稳定关系阶段。与客户关系进入稳定期以后,工作重点和关键 就发生了转移,这个时候工作重点应该放在防止意外情况发生和积极 进行危机管理。进入稳定阶段以后,沟通在客户管理中起着非常重要 的作用。3. 加强关系阶段。随着买卖双方信任和了解的加固, 卖方应该对 自己满足客户的能力进一步地加强和要求,
14、应该更加深入分析客户的 需求潜力。这也是增加销售内容和加固关系的最佳时期。在加强阶段 要和客户建立一个互利互惠的关系。以京东为例:会员划分标准明细表等级注册扶牌铜牌银牌金牌钻取钻三钻四帖五钻申请 条件免费 注册100200050001 /J3万10万30万60 A100年内完咸10亍以上不同日期的订单保级条件1000以下10002500250050005000仁5万1.5万3万3万15万5万3Q万30万50/j50万以上注:K邯年消樹超过定额度,即可申请成为相应等级的会员,2, 会员身份有效期为年,年期满后,京东将根据客户年内消费辄度重新确认 会员等级.3、京东的保级条件为 年内完成10个以上
15、不同口期妁订单,且达到拍应的 消费额*所墓求的消機额为申啬条件的消费额减半(3)商品评价使用商品评价功能.如评价有价值,将给弓相应的积分奖励。项目产品价格铜牌及以下银牌会员金牌会员.钻会员双钻会员会场四钻 会/五钻 会员非图祜评价送分规则10-200元610121416161616200-1000止10143040505050501000 元以上142440508080呂080商品评价 送分 规则10元3456888810-30 元5681012121212230元68101215151515注:图片来源一客户客户关系的建立与维护(第 3版)同时,京东还建立了积分制度,由购买商品和评价商品获得
16、,此处不再赘述规则。优点:层次清晰,关键客户明确,会员制度提高客户忠诚度,积分制度的补充很充分。缺点:等级划分过多,会员的优惠有水分无法刺激客户的升级欲望,等级升级制度如五钻过于苛刻2.2数据挖掘在电子商务中的应用分析一一客户流失预测2.21 客户流失定义及背景由于企业各种营销手段的实施而导致客户和企业中止合作的现象就是客户流失而在互联网购物高度发展的今天,流失率不再是购物平台生存的决定性因素,而如何使用独特的销售手段和对客户购买行为的分析以及访问量和站内搜索量保持并增加客户数量成为各大购物平台竞争的主要目标传统的客户流失预测采用时间阈值法和 RFM法,但效果不佳, 自1994年David C
17、 Schmittlein等人提出的SMC模型,可以科学的 预测客户流失问题,这是首个真正意义上的客户行为预测模型。而在数据挖掘技术中对客户行为的预测, 多采用回归分析、决策树和神经 网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预 测建模。本段着重介绍最常规的两种方法:决策树和贝叶斯分类。 决策树决策树是一种流行的分类算法,具有学习快速块、分类准确率 高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训 练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进 行分类时,从树根节点开始对样本进行测试,根据测试结果确定下一 个节点,直至到达也节点,叶节点所属类别就是新节点
18、的预测类别。 决策树算法有ID3,C4.5,C5.0,CART等。由于基于C4.5算法的决策树有良好的性能并且能够自动产生分类 规则,应用C4.5算法对保险客户基本信息进行了分类,分析出了客 户流失的特征,通过此模型,保险公司提高了客户挽留率。Kitayama 通过基于决策树的方法对客户档案进行了分类,首先把客户群体划分为首选客户(Preferred customers)和一般客户,首选客户指那些对公 司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值 客户,以达到挽留高价值客户的目的。为了克服决策树固有的缺点, 提高客户流失预测模型的精确度和可解释性,结合了AD Tree模型 与L
19、ogistic回归方程的优点,提出了 TreeLogit模型。贝叶斯分类法贝叶斯分类是一种典型的统计学分类方法,用于预测样本属于特定类的概率,主要分为朴素贝叶斯(Na?ve Bayes)分类和贝叶斯网络 (Bayes network)。朴素贝叶斯是机器学习中常用的概率统计方法, 基本思想是基于概率论的贝叶斯公式和简化假设,根据属性和类别的联合概率来估计新样本的基本类别。应用朴素贝叶斯提的前提条件是 类条件独立,而贝叶斯网络则用于非独立的联合条件的概率分布,训练后的贝叶斯网络可以用于分类。客户流失预测技术的对比研究表明,朴素贝叶斯的预测效果可以 与决策树和神经网络相媲美。首先对引起电商客户流失的
20、客户心理、 服务质量等因素进行分析,确定先验知识,根据先验知识选取特征和 训练样本,通过贝叶斯网络的结构学习和参数学习,建立客户流失模型,通过实验证明了贝叶斯网络是分析客户流失等不确定性问题的有 效工具。2.22 客户流失预测步骤以京东为例的电商平台统计并预测客户流失量时,需要使用的数据属性太过复杂,所以一般情况下专业人员首先需要对数据进行采 集,来源即是客户的搜索信息、购买信息、基本资料,客服回执等。 在京东客户的历史行为中,隐含了大量与流失相关的行为模式,数据必须围绕市场分析得到的与相关的信息来组建。专业人员从数据库中抽取基本客户群、客户的缴费资料、客户基本资料、客户投诉资料、 客户帐单、
21、客户消费习惯等信息形成信息表,然后根据用户号和帐务 年月进行连接,即为原始数据。同时在原始数据的基础上,根据业务 专家的意见,进一步衍生有可能与流失相关的属性。在一般的流失预测中,多采用分类建模和聚类建模的方法进行数 据的归纳和模型的优化。建立分类预测模型2.3数据挖掘在电子商务中的应用分析一一客户消费特征2.31客户消费特征定义及背景一定的客户群体在某一消费行为上有相似性或可聚性,便由单独 的消费行为变为一种群体消费特征。从电子商务应用的角度讲,数据 挖掘技术可以提取客户消费特征,并以数据研究为前提对客户的消费 行为分析,得出客户的消费习惯、消费能力、心理特征,从而对客户 进行分群,做到精准
22、广告投放、vip客户重点关注等。2.32京东建立客户消费特征的过程首先进行数据收集:网络日志数据(访问数据)、用户行为数据(收藏、购买、浏览等)、网站交易数据。初步建立用户画像,如图(数据来源:199IT网站)行为建模方法有文/archives/281800.html 本挖掘、自然语言处理。机器学习、贝叶斯算法、聚类算法等根据数据建模进行用户分群,界定不同消费特征的人群,如图(数 据来源:199IT 网站 /archives/281800.html2.33 RSS技术在电子商务平台的应用经过对客户消费特征的分析之后。京
23、东网等电商平台就可以运用最新的RSS技术构建个性化服务。RSS的英文全称是“ RichSiteSu-mmary ” 丰富站点摘要)或者是 RDFSiteSummary (RDF 站点摘要)。京东可以根据客户的喜好建立不同格式的频道,由客户 根据自己的需求定制频道。客户根据自己的需求对接收的所有频道进 行定制,挑选出对自己有用的频道。定制完成后,当客户再次进入该网 站时就会只显示其定制的频道。通过定制,客户就拥有一个完全属于 自己的个性化网站。RSS具有及时、全面、有序、高效等特点,能及时传递客户需要 的最新信息;全面报道客户感兴趣的网站内容;能够按照内容的重要 性进行排序,并且将最新和最重要的
24、内容置于顶端;客户可以根据自 己的兴趣对商品进行定制,并且能够随时掌握最新的标价等信息。打 开京东的首页,可以发现几乎所有种类的商品都已打包成相应的 “RSS 频道”,向客户的个人主页定期发送。通过RSS这个新渠道,京东有新 商品上市、新促销信息时,都能快速地将这些信息传送给其客户,不仅 给客户提供了方便,而且大大提高了这些信息的普及率、针对性和实 效性。2.34 建立客户消费特征之后可应用的数据模块问题分析模块:分析客户信息,根据客户特点将用户进行分类,实现客户信息库记录的建立、更新及客户信息的获取。同时还为客户 兴趣模型的建立提供客户基本信息。1.用户接口模块:客户和系统进行交互的接口,其可以接受客户注册 及其请求信息、反馈信息,在这个过程中可以学习并记录客户的兴趣 和习惯。同时,该模块还负责将最终结果输出给对应客户及获取本地 客户信息库的内容。2信息收集模块:根据客户需求,主动跟踪本地信息库和网络相关信 息,收集客户所需信息。3.客户兴趣模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度工作计划
- 长方体和正方体的表面积教学反思15篇
- 幼儿园卫生保健工作计划3篇
- 教学设计方案模板锦集五篇
- 小学安全保证书合集七篇
- DB45T 2666-2023 预制混凝土梁静载试验方法及评定规程
- 2024年管理模式保密合同2篇
- 2024年科研项目申请合同的研究内容与经费分配
- 外贸业务实习报告集合九篇
- 中国银行实习报告锦集四篇
- 线性代数(上海电力大学)智慧树知到答案2024年上海电力大学
- 2024年人教版小学四年级信息技术(上册)期末试卷及答案
- 2024年全国烟花爆竹经营单位安全生产考试题库(含答案)
- 《病梅馆记》解析版(分层作业)
- 婴幼儿发展引导员理论考试题库资料500题(含答案)
- 《预防和减少未成年人犯罪》专题讲座(经典)
- 2024-2030年中国激光陀螺仪行业市场发展趋势与前景展望战略分析报告
- DL∕ T 1195-2012 火电厂高压变频器运行与维护规范
- 大数据分析导论智慧树知到期末考试答案章节答案2024年南京工业大学
- 内审员培训班考核试题
- 新疆维吾尔自治区桶装饮用水生产企业质量安全风险清单
评论
0/150
提交评论