电子商务网站用户行为分析_第1页
电子商务网站用户行为分析_第2页
电子商务网站用户行为分析_第3页
电子商务网站用户行为分析_第4页
电子商务网站用户行为分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子商务网站用户行为分析Analysisofuserbehaviorofe-commercewebsites小组成员:吴严刚肖卓任方坡贡梦亭栾秋东前言Introduction2018年天猫双11再创历史新高,当天15点49分39秒,成交总额突破1682亿,轻松超越去年双11全天的成交总额,仅用时15小时49分39秒,创造了双11十年来的又一成交纪录。截止到2018年12月10日,淘宝卖家店铺有10181876家,天猫店铺有219086家。无论是大的品类还是小的品类都有许多经营多年的商家。为了从市场里脱颖而出,提高店铺的销量和利润,商家应做到知己知彼。电子商务活动每天产生大量的数据,这些数据包含了各类商业活动,主要有:卖家的经营数据、竞争对手的经营数据、买家的数据、市场的趋势数据等。在获得这些数据的前提下,有针对性地运营店铺,推销商品才能提高效率和销量。总的来说,大数据运营就是利用大量的数据来分析和指导淘宝电子商务卖家的生产,销售。数据反映出来的问题是直观的,商家可以通过观察数据,来找到背后的原因是什么,通过有针对性的优化,使得店铺销售额稳步增长。2数据预处理1研究背景3数据挖掘5推荐系统目录PAGEDIRECTORY6构建模型与评估7

结论4客户价值分析(RFM)研究背景011.11.21.3问题确立大数据时代来临使企业营销点从产品转化为客户为中心,客户关系管理成为核心问题。对客户分类,可以帮助企业解决客户流失,资源利用不足等问题。

研究意义本项目,数据为2013年1月至2013年5月共2万6千多条电商交易记录,通过对用户的行为分析,实现客户细分精准营销。研究目标1、通过时序图找到产品季节过渡期2、建立客户价值模型,提出有利方案3、根据产品的特点以及用户消费的行为特点建立推荐系统,总体提升客户忠诚度以及消费水平。研究背景数据预处理02数据预处理缺失值处理数据转换共有26803个记录,21个特征,其中“买家支付宝账号”“订单付款时间”,“物流公司”存在缺失值数据挖掘03用户收货地址分布左图只显示了用户收货地址频数最高的前10个省份,大都分布在沿海省份,需求量最大的是北京,并且表明业务主战场定位在沿海城市,右图内地市场空白大,尤其是西北部地区用户购买数量最少,所以应加大对内地市场以及西北部市场的开发。购买次数时序图从2013年1月20左右进入换季期,产品销量日下降幅度大,到2月初下降幅度趋于平稳,之后到2013年2月23过后,换季期产品销量日增幅度大。所以在下一年时,结合环境气温,关注好1月到2月的时间点,尽量做到在换季前开始小幅度实行促销,在过渡期做好新产品的库存,以及发掘爆款产品。下单数时点分布从每日下单的时点数量可以看出,下单量集中在下午的一点到四点,以及夜晚的九点到十点。在这段时间请将机器客服转为人工客服,以及对店铺产品实时更新。产品下单数量左图显示的13点-16点不同产品销售数量分布,右图是20点-21点不同产品销售数量分布。产品编号3990下单量比较多,所以平台应对该产品多加推送。消费金额分布图从这两幅图中得出:总体用户消费能力在1000以内,其占比为73%。商品描述词云图RFM04客户价值模型根据RMF三个字段通过聚类发现将客户分为四类是最好的。客户群一:流失率高,满意度低,价值也低将其定位为不好的客户。客户群二:流失率小,满意度高,但是消费低。客户群三:流失率小,满意度高,消费能力也高。客户群四:流失率小,满意度高,消费能力属于中等水平。推荐系统05商品关联规则推荐按照提升度降序排列商品关联规则推荐通过产品与产品之间的关系建立关联规则,给店铺提供套餐设置和捆绑销售。基于物品协同过滤通过IBCF根据用户过去的购买商品,找到商品相似的物品群,根据用户的喜好实行精准推荐。基于物品协同过滤基于物品协同过滤历史:蝙蝠松垮T恤,蕾丝无袖背心,9分女裤,泡泡袖雪纺衫,小脚女裤子推荐:连体女裤子,针织连衣裙,刺绣蕾丝套衫,圆领T恤,纯棉女T恤构建模型与评估06筛选特征变量原始数据有21个变量,构建分类模型,把“订单状态”当做Y变量(0--交易失败1--交易成功)“订单创建时间”,“订单付款时间”对“是否购买”无影响其中“订单编号”、“买家会员名”,“买家支付宝账号”没有实际的意义“买家支付积分”、“返点积分”、“买家实际支付积分”、数值全部为0假设“物流公司”、“收货地址”、“运送方式”、“宝贝标题”无影响此步骤初步筛选去除了12个变量,此时还剩下8个自变量与1个因变量筛选特征变量图5-1-1方差膨胀因子从业务出发,VIF大于2则可能存在共线性,从输出图中得出“买家应付货款”存在共线性,应予以剔除。此时“总金额”的VIF为4.423,考虑排除。筛选特征变量图5-1-2方差膨胀因子剔除“买家应付货款”与“总金额”后,VIF全部小于2。筛选特征变量图5-2相关系数图还可以看出有三对变量之间的相关性大于0.8,可能存在共线性。分别是“总金额”与“买家应付货款”的相关性为1;“宝贝种类”与“买家应付货款”的相关性为0.82;“宝贝种类”与“总金额”的相关性为0.81。也进一步验证了上步VIF的检验。从图中可以得知,存在1个强影响点(买家实际支付金额),为了建模的稳定性,强影响点需要剔除。此步骤再次筛选去除了3个变量,最终还剩下5个自变量与1个因变量。下一步开始进行建模。逻辑回归与SGD从上面的输出可看出,LogisticRegression的Accuracy为0.780778988210SGDClassifier的Accuracy为0.780629756527所以LogisticRegressiom比起SGDClassifier略高,有更好的预测效果LogisticRegression与SGDClassifier相比,前者对参数的计算采用精确解析的方式,计算时间长但是模型性能略高。后者采用随机梯度上升的算法估计模型参数,计算时间段但是性能略低。10万级以上的数据使用后者通过使用逻辑函数估计概率来度量分类因变量与自变量之间的关系。逻辑回归与SGD利用classification_report中获得precision,recall和非f1-score三个指标。但是这三个指标在LogisticRegression和SGDClassifier上面没有区别,因为广义上两者仅仅是在选取样本集上有所差别支持向量机SVM支持向量机是具有关联学习算法的监督学习模型。考虑如何最大限度地为未知分布的数据提供足够的待预测空间。在解决小样本、非线性及中表现出较佳。支持向量机的Accuracy为0.7806297,Precision为0.83,Recall为1,f1-score为0.69K近邻近朱者赤近墨者黑K近邻的Accuracy为0.76391583345,Precision为0.89,Recall为0.76,f1-score为0.81。该模型没有参数训练过程,也就是说,我们并没有通过任何学习算法分析训练数据,而只是根据测试样本在训练数据的分布直接作出分类决策。该模型每处理一个测试样本,都需要对所有训练样本进行遍历,逐一计算相似度,排序并且选取K个最近邻训练样本的标记,进而作出分类决策。数据为平方级别。决策树描述非线性关系,分段函数决策树的Accuracy为0.76809431428,Precision为0.89,Recall为0.77,f1-score为0.82项目一随机森林随机森林的Accuracy为0.7786897477,Precision为0.92,Recall为0.78,f1-score为0.84在相同训练数据上同时搭建多棵决策树目一梯度提升决策树按照一定次序搭建多个分类模型GradientTreeBoosting的Accuracy为0.78719594,Precision为0.99,Recall为0.79,f1-score为0.86目一集成学习“hard”对应的就是少数服从多数的投票方式votingclassifier方法一个篱笆三个桩,一个好汉三个帮总结综合考虑:集成学习>梯度提升决策树>随机森林>决策树>梯度下降>支持向量机>逻辑回归>>>K近邻所以最终选择支持向量机,决策树,梯度决策树构成的集成算法,最终模型的得分为78.78%结论07项目总结本项目是基于一个近半年的电子商务的购物数据。提供了半年年内在电子商务平台上购买的详细信息。数据集中的每个条目描述了一个产品的情况,一个特定的客户和一个给定的日期。对这些数据,我们得出了以下结论:第一部分进行数据挖掘,发现13点-16点、20点-21点9分女裤子的下单量最高;第二部分建立RFM将客户分为4类,从而精确营销。再由推荐系统找到商品相似的物品群,根据用户的喜好实行精准推荐;第三部分建模,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论