第2章数据分析_第1页
第2章数据分析_第2页
第2章数据分析_第3页
第2章数据分析_第4页
第2章数据分析_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据分析苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。这使得史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药。乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。大数据与乔布斯癌症治疗主要内容数据的重要性电子商务中可获得的数据数据处理和分析1948年辽沈战役开始之后,在东北野战军前线指挥所里面,每天深夜都要进行例常的“每日军情汇报”:由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。司令员林彪的要求很细,俘虏要分清军官和士兵,缴获的枪支,要统计出机枪、长枪、短枪;击毁和缴获尚能使用的汽车,也要分出大小和类别。一天深夜,值班参谋正在读着下面某师上报的其下属部队的战报。说他们下面的部队碰到了一个不大的遭遇战,歼敌部分、其余逃走。与其它之前所读的战报看上去并无明显异样,值班参谋就这样读着读着,林彪突然叫了一声“停!”他的眼里闪出了光芒,问:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家带着睡意的脸上出现了茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高”?“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高”?“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高”?结论:赶紧追击,发现并打掉了精悍野战司令部,活抓了廖耀湘2.1从数据分析专家林彪说起王永庆(台塑集团创始人)卖米Target和怀孕指数预测美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。”店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。Target能够通过分析女性客户购买记录,“猜出”哪些是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。比如他们发现女性会在怀孕四个月左右,大量购买无香味乳液。几个月后,她们会买一些养品,比如镁、钙锌。以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。让数据说话网页加载速度对网站到达率有重大的作用。>3秒,57%客户放弃>5秒,74%客户放弃网页加载速度到底多少合适可以分析更多的数据,有时候甚至可以处理与某个特别现象相关的所有数据,不再依赖采样;数据多,不再追求精度;不再追求因果,而是相关关系。目前,银行可以根据求职网站的岗位数量,推断失业率大数据时代Ebay:1995年建立拍卖的第一件物品:坏掉的雷射指示器,成交价是14.83美元http:///comm/new_entry/index_2.html7月14日,两名温哥华妇女用一支鱼形笔换了他的红色曲别针。不久,西雅图的一名女画家用一个画着笑脸的陶瓷门把换了他的鱼形笔。7月25日,美国麻省的斯帕克斯用一个野营炉换了把手。9月24日,一名加拿大人用一台旧发电机换取了野营炉。11月16日,一个纽约年轻人用一个啤酒广告霓虹灯、一桶啤酒换取了他的旧发电机。12月1日,麦克唐纳用这些东西换取了蒙特利尔市一名电台主持人的雪地车。不久,一家雪地车杂志社用一个免费度假安排交换那辆雪地车;免费度假安排又换来一辆旧货车。随后的物物交换包括录音合同,在美国凤凰城免费租用一年的双层公寓,与著名摇滚歌星艾丽斯·库珀一起喝下午茶,电视演员科尔宾·伯恩森在新片中提供的一个演员角色。最后,加拿大仅有1140个居民的基普岭小镇,决定提供该镇的一套房子来换取麦克唐纳得到的这个电影新片角色。网络中凡事皆有可能2012年美国大选(结果却一边倒)数据运营过程中存在的问题领导的决断性实际性真实性数据相关性数据的稀疏性数据的时效性数据不是万能的2.2电子商务中的数据卖什么产品利润高卖什么产品销量大什么时候卖产品最合适怎么样搭配地卖卖给谁最合适什么样的客户会买什么样的客户买得最多到哪里去找这样的客户如何廉价地找到这样的客户如何留住这些客户。。。。电子商务中的数据表示来自网站的调查数据是否为男性是否月收入超过5000元是否来自一线城市年龄是否大于35岁本周访问次数是否大于一次最大购买金额是否大于100元购买次数是否大于两次是否曾经访问过企业的官方网站是否写过产品的点评是否介绍过其他人来购买过商品每个用户会有一个10维的数据点,以0或1表示,1为是,0为否可以计算任意用户之间的距离如果不是0与1,展示的信息会更多用户,性别,居住地,收入,购买次数,本月购买次数,最大购买金额,平均购买金额流量数据浏览量、访客数、登录时间、在线时长、登录IP等营销数据营销费用、到达用户数、打开或点击用户数会员数据姓名、出生日期、真实性别、网络性别、地址、手机号、微博号、登录记录、交易记录等交易及服务数据交易金额、交易数量、交易人数、交易商品、交易场所、交易时间、服务链服务等数据行业数据关键字搜索、店铺排名、销售、会员等数据查询2.3电子商务中的可获取数据数据解释平均收入网站在一定时间内的收入UV独立访客数平均每天的独立访问人数客户获取成本获得一个新客户所付出的成本利润率

转化率访问的客户中成功完成购买的人数占比客单价每一个顾客平均购买商品的交易金额重复购买率消费者对该品牌产品或者服务的有重复购买次数的比例运营成本电子商务企业销售客服和数据运营的成本活跃用户数在一定时间内活跃的用户数字活跃客户率活跃用户占整体用户的比例参与指数用户的平均会话次数电商中重要的数据访客数如何提升访客数转化率增加网站视觉效果:店铺装修

商品内容的介绍和包装(图片)商品的选款、设计合适的价格提升好评率和客户评价提升老客户回访率服务质量服务策略客单价促销和限销关联销售活动电商中的核心数据数据需要对比分析如何面对铺面而来的数据客单价显著上升,但人均成交件数并没有相应幅度的提高,即该店铺销售的商品的单价变高。查看该店铺的宝贝销售排行并与T1天对比,发现该店铺在周一时上新了一款高价单品,带来了大量销售,另外有一款低价商品,也贡献了很高的转化率

2.4常见的数据处理技巧数据的抽取要正确反映业务需求数据抽样分析数据的规模有哪些具体的要求如何处理缺失值和异常值数据转换筛选有效的输入变量共线性问题数据的抽取要正确反映业务需求某业务需求是找出因为使用店铺装修工具而带来显著销售收入提升的用户群体特征如何寻找这些人?有些用户除了使用装修工具,还使用了其他方式如竞价排名等方式要保证找出的用户不包含使用了竞价排名等主要的提升流量和销售收入等手段的用户,尽可能使得这个用户群仅仅因为店面装修工具而带来的销售收入的提升。要求熟悉业务背景确保抽取的用户所对应的当时业务背景,与现在的业务需求即将对应的业务背景没有明显的重要改变数据转换产生衍生变量改变变量分布特征的转换区间型变量的分箱转换针对分箱变量进行的标准化操作生成衍生变量通过原始数据进行适当的数学推导,产生更有商业意义的新变量如:年龄、用户在特定商品上消费的产品占其总消费额的比例、消费次数等等改变变量分布的转换大多数变量原始分布状态偏差大,这种不对称出现在自变量中会干扰模型的拟合,影响模型的效果和效率。缺点如不好解释把消费者在线消费金额取对数的商业含义如工资分箱转换把区间型变量转换成次序型变量主要目的降低变量的复杂性,如年龄提升自变量的预测能力数据的标准化筛选有效的输入变量为什么要筛选如何筛选用线性相关性指标进行初步筛选相关系数检验是否相关,这是通过如下样本数据得到的计算结果,来自样本的统计结果需要通过显著性检验才能知道其是否适用于针对总体数据的相关性。R平方R平方,该方法借鉴多元线性回归的分析算法来判断和选择对目标变量有重要意义及价值的自变量。R平方表示模型输入的各自变量在多大程度上可以解释目标变量的可变性。取值在[0,1]之间。共线性问题相关系数的方法主成分分析方法根据业务经验对变量进行聚类关联分析基础和你爱好合得来的人喜好的,你也很有可能喜好;喜好一件器材

A,而另一件器材

B

与这件十分类似,就很有可能喜好

B;收集用户的偏好信息显性数据隐形数据点击、搜索、购买寻找相似的商品或者用户产生推荐协同过滤算法给定用户评分数据矩阵R计算用户之间的相似度根据评分数据和相似矩阵计算推荐结果基于用户的协同过滤用户商品1商品2商品3商品4A3?35B?54?C542?D24?3E345?电商网站评分数据集

——请计算C对商品4评分相似性度量

Slopeone算法Slopeone算法在本例中,项目2和1之间的平均评分差值为(2+(-1))/2=0.5.因此,item1的评分平均比item2高0.5。同样的,项目3和1之间的平均评分差值为3。因此,如果我们试图根据Lucy对项目2的评分来预测她对项目1的评分的时候,我们可以得到2+0.5=2.5。同样,如果我们想要根据她对项目3的评分来预测她对项目1的评分的话,我们得到5+3=8.如果一个用户已经评价了一些项目,可以这样做出预测:简单地把各个项目的预测通过加权平均值结合起来。当用户两个项目都评价过的时候,权值就高。在上面的例子中,项目1和项目2都评价了的用户数为2,项目1和项目3都评价了的用户数为1,因此权重分别为2和1.我们可以这样预测Lucy对项目1的评价:于是,对“n”个项目,想要实现SlopeOne,只需要计算并存储“n”对评分间的平均差值和评价数目即可。根据Pearson相关系数来计算相似度。R

u,i

是用户u对商品i的评分,i和j是商品用户u预测商品i,计算用户u对相似于商品i的物品的评分权值和。将相似度s

i,j

作为权值加权在评分上,则基于项目的协同过滤文章阅读数据分析就是仔细推敲证据数据分析的分类探索性数据分析:发现新的特征,如客户90%来自南方,购买金额大体。。。;验证性数据分析:在假设的基础上进行验证电子商务数据数值数据(访客数,成交额,成交笔数,停留时间。。。)分类型数据(电子类产品可以是手机、电脑、相机中的一种)性质性数据(主观性判断:打分)

2.5数据分析的基本概念和工具问题分解评估决策百度统计()2.5数据分析的基本概念和工具Crazyegg热力图:对页面热点进行追踪分析的热力图2.5数据分析的基本概念和工具CrazyEgg的热力图可以准确地告诉你,访客在你的网页上的哪些部位进行了鼠标点击,无论那里有没有链接。使用heatmaps,如果你发现访客经常点击的地方没有链接,或许你该考虑在那里添加一个链接。例如,你发现访客总是点击某个产品图片,你能想到的是,他们也许是想看大图,或是想了解更多的产品信息。同样,他们可能也会错误地认为,这是一个特定的图片导航。网站流量分析网页结构布局策略广告投放策略目标客户的特征分析目标客户的预测模型分析用户路径分析用户分层模型如何提高转化率如何提高客户客单价卖家交易模型交易漏斗分析交易路径设计信息质量模型商品销售分析商品推荐模型商品推荐介绍关联规则协同过滤算法2.6有哪些数据分析需要做流量及转化的漏斗图分析(细分和溯源的过程)

用户购买过程的漏斗图2.6流量及会员数据分析2.6流量及会员数据分析(续)100%总访问数访客属性老访客数(40%)新访客数(60%)购物车流失(25%)15%10%流失(50%)订单支付流失(30%)流失(32%)10%8%5%流失(55%)3%流失(57%)漏斗的对比分析X轴、Y轴、分析对象可以根据不同目的进行转换2.6流量及会员数据分析(续)如何解读数据知道该指标的实际值和行业参考值优先注意数据奇异点和数据拐点,突然变大或变小一定是受外力的作用。如:给客户发短信数据要有对比,可以是同比,也可以是环比选取合适的数据呈现形式数据解读如果收藏人数多但成交人数少?回头率低是什么原因造成的?网站平均停留时间越长说明了什么?客户沉睡周期如何划分最有效?如何发放优惠券?何时发放?如果对历史数据进行分析后发现,周六晚上8点钟左右的转化率是最高的,其次是周三上午10点和下午1点。那么如何安排商品的上架工作。数据分析如果对历史数据进行分析后发现,周六晚上8点钟左右的转化率是最高的,其次是周三上午10点和下午1点。那么如何安排商品的上架工作。50%商品上架时间是周六晚上8点30%商品上架时间是周三上午10点20%商品上架时间是周三下午1点数据分析2.7看图说话:数据新闻让英国撤军2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。折线图饼图柱状图转化率用漏斗图表现最直观雷达图变现产品特性2.7看图说话(续)数据分析案例一目标:如何进行数据分析及如何基于数据分析来优化业务业务:以短信或者其他媒体催付款步骤1:确定催付款的客户群体通过调查得知,加入购物车没有付款的主要原因如下遗忘冲动消费不想买了货币三家发现性价比更高的产品跟客服索要小礼物未遂,心里不平衡支付发生故障。。。步骤2:确定在哪天付款在等待付款状态的订单中,随着时间的推移,付款的人会越来越少,快速锐减研究表明:人类的记忆保留比例与时间有一定关系理论上,第3天催付比较合理,但考虑到客户尤其是女性往往在购买消费品时容易冲动型购物,所以第2天比较合适。步骤3,:催付时刻的确定分析一天内的每个时段的转化率,下午和晚上比较高。步骤4:催付内容的确定在不影响客户体验的基础上促进客户付款从而产生增量销售额例子:主人,那家伙又来电话啦,说我是您昨天在XX店购买的“宝贝”,今天付款,我就能跟您回家了。退订回复[XX]咖啡店现实数据分析实例二——星巴仕咖啡店销量时间目标实际星巴仕董事会将在三个月内召开,必须拿出方案思考入手点会见首席执行官,弄清楚星巴仕是如何运行的会见董事长进行一次客户调查,弄清楚客户的想法给自己泡一大杯热气腾腾的星巴仕咖啡弄清楚目标销售量是如何计算出来的

日期星巴仕咖啡店编号1表示完全不同意5表示完全同意星巴仕咖啡店的选址对我很方便2345端上来的咖啡总是冷热合适2345星巴仕员工彬彬有礼,咖啡上得很快2345我认为星巴仕咖啡非常值12345星巴仕咖啡店是我偏爱去的去处12345市场部每个月都有随机抽查的调查表如何分析这些调查数据08年8月9月10月11月12月09年1月选址方便咖啡温度员工热情咖啡价值3.53.02.1偏爱去处比较法问题:1.注意到某种规律了吗?2.有什么信息能说明销量下降的原因?解释:没有给人物超所值的感受;经济环境让人们钱包变瘪了,因此对价格更敏感。问题:怎么知道价值下降确实导致咖啡销量下降?会不会有其他因素的作用?会不会正是销量下降让人们认为咖啡没有价值?如何看出是谁导致谁呢?Soho区域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论