Excel电商数据分析与应用 课件 2.数据分析方法论2_第1页
Excel电商数据分析与应用 课件 2.数据分析方法论2_第2页
Excel电商数据分析与应用 课件 2.数据分析方法论2_第3页
Excel电商数据分析与应用 课件 2.数据分析方法论2_第4页
Excel电商数据分析与应用 课件 2.数据分析方法论2_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析方法论2.1基本方法&2.2高级方法熵值法CONTENTS漏斗分析法矩阵分析法多维分析法相关性分析法杜邦分析法时间序列分析法18131415161719熵值法PARTThirteen熵值法源自信息学科,广泛应用于对数据集的离散程度评估,也可用于估算权重从而计算综合得分。1.原理

在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性就越大,熵也就越大。根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。因此,可根据各项指标的变异程度,利用信息熵计算各指标的权重,为多指标综合评价提供依据。2.计算例2-25:表2-25是3个产品测试时的数据,使用熵值法对产品的表现进行综合评估并排名。解:本例有3个款式的产品可供选择,每个款式的产品有3个属性,由于3个属性的量纲不同,因此需要用熵值法求出各属性的权重以及在产品中的贡献度。设产品总量为m,得分为x,产品序号为i,属性序号为j。

将表2-25转变成p矩阵,如表2-26所示,p为数值与各列之和的商,pij=xij÷∑xij。将p值乘以ln(p)得到各个评分的贡献度,Eij=pij×ln(pij),得到表2-27所示的E矩阵。根据k=1÷ln(m),其中m为产品总量,此例m=3,计算得k=0.910239。根据以下3个公式,计算出的结果如表2-28所示。贡献总量E=k×∑p一致性程度D=1-E权重W=D÷∑D由于得分的量纲不同,先使用Min-Max标准化方法,将值转换成[0,1]区间的数值,再用每个属性的得分乘以权重值W后相加得到综合得分,综合得分落在[0,1]区间,如表2-29所示。漏斗分析法PARTFourteen漏斗分析法是结合了流程分析的方法,更强调事件的发展过程,按照事件发展的过程分析问题,属于数据分析中的方法。它能够科学地反映用户行为状态,以及从起点到终点各阶段用户转化率的情况,是数据分析中重要的分析模型。

目前,漏斗分析法已经广泛应用于网站用户行为分析和App用户行为分析的流量监控、产品目标转化等日常数据运营与数据分析工作中。图2-10所示为淘宝生意参谋的交易漏斗图,从访客到下单,再到支付,可运用漏斗分析法在这个过程中洞察问题。漏斗分析法分析步骤漏斗分析法的一般操作步骤如下。①确定业务流程,各个环节的量纲必须一致。②确定数据。③画图。例2-26:现有用户交易过程的数据如图2-11所示,使用Excel画出数据集的漏斗图。解:设置各环节数据表格,注意量纲必须一致。选中数据,在【插入】选项卡中选择【漏斗图】选项,如图2-12所示。创建漏斗图并设置好图表标题后的效果如图2-13所示。右击漏斗图,在弹出的快捷菜单中选择【设置数据系列格式(F)】命令,在【设置数据系列】窗格中,将间隙宽度设置为50%,如图2-14所示。在【插入】选项卡中选择【形状】选项,如图2-15所示,选择【下箭头】。图2-16所示为在漏斗图中添加下箭头后的效果。在【插入】选项卡中选择【文本框】选项,如图2-17所示,在箭头旁插入文本框。【格式】选项卡中,将文本框的形状和边框都设置为无填充,如图2-18所示。设置好的漏斗图如图2-19所示。添加从浏览商品到完成交易的转化率,最终效果如图2-20所示。通过图2-20可以发现,整个流程中最大的问题出现在“加入购物车”这个环节,运营人员可重点优化这个环节。矩阵分析法PARTFifteen矩阵分析法是从交叉法演变而来的,和交叉法最大的区别是矩阵法的两个轴是维度,不是度量。在低维(二维~三维)时可以使用该方法,它属于数据分析方法。其原理是在矩阵图的基础上,把各因素分别放在行和列中,然后在行和列的交叉点用数量来描述这些因素之间的对比,再进行数量计算,并进行定量分析,从而确定哪些因素比较重要。矩阵分析思维矩阵分析思维是指通过对原始感性材料进行矩阵般的分析与规整,形成全面、系统、严谨、专业并具有很强逻辑性和关联性的理性思想,从而有助于形成正确思考、研究、决策等高层次思维的思想方法,这是一种纵横交叉的逻辑研究方法。此思维被广泛应用,比如在工程管理上将各种任务分为重要并紧急、重要不紧急、不重要紧急和不重要不紧急这4类,4类任务分别在矩阵图的4个象限。SWOT分析法,也是矩阵分析思维的一种应用。创建矩阵创建矩阵至少需要两个维度,每个维度有N个交点,因此两个维度形成(N+1)×(N+1)的二维平面图。以N=1为例,形成2×2=4的二维平面图,也称为四象限分析法。例2-27:表2-30所示为某店铺5个产品的表现数据,用矩阵分析法分析数据。解:用矩阵分析法分析数据的步骤如下。①在Excel中选中支付金额和访客平均价值,创建散点图。②根据两个指标的平均值设置x轴和y轴的交点。③基于(20262.62,15.14)划分4个坐标区域,每个数据点代表一个产品,分布在4个区域内,如图2-21所示。定义矩阵绘制矩阵图需根据画图的两个维度对矩阵进行定义,因此理解指标背后所代表的业务意义,是矩阵分析法的关键。支付金额代表产品的市场份额,访客平均价值代表流量价值。添加定义后的矩阵如图2-22所示,定义如下。(1)右上角的区域市场份额和流量价值都较高,可定义该区域的产品为企业的核心产品。可将资源重点放在B产品上,通过市场推广和营销提高B产品的市场份额。(2)右下角的区域市场份额较高,但流量价值较低,可定义该区域的产品为企业的引流产品。需要维持A产品的市场份额,在其生命周期内保持引流能力。(3)左上角的区域流量价值较高,但市场份额较低,可定义该区域的产品为企业的重点发展产品或利润产品。需要为C产品引入更多的流量,以测试市场对该产品的反馈。(4)左下角的区域市场份额和流量价值都较低,可定义该区域的产品为企业的问题产品。可下线E产品和D产品或对E产品和D产品进行重新定位。矩阵具有运动的特性,分布在不同区间的点会随着时间的推移而移动,而这种移动是有规律可循的,如图2-23所示。随着需求的增长,低市场份额、高流量价值的市场就会转变成高市场份额、高流量价值的市场;随着竞争的加剧,高市场份额、高流量价值的市场就会转变成高市场份额、低流量价值的市场;随着产品生命周期的结束,高市场份额、低流量价值的市场就会转变成低市场份额、低流量价值的市场;此时需要对市场进行重新定位,重新定位后会重新转变成低市场份额、高流量价值的市场。一个优秀的产品必然具有高流量价值,随着时间的推移市场份额会越来越大,市场份额大到一定程度,市场的竞争对手会急剧增加,此时流量价值会逐渐下降,随着产品生命周期的结束,最终产品将会退市多维分析法PARTSixteen多维分析法多维分析法是分析多个指标的方法。在许多复杂的业务场景下,降维后仍存在多个指标,对多个维度进行分析的方法就是多维分析法。多维分析法同样局限于四维空间,一般采用二维平面图进行展示。1.三维气泡图三维气泡图并非真正的三维图形,而是在二维平面图上展示3个维度,比一般的二维图形展现更多的信息。例2-28:表2-31所示为某店铺产品数据,用气泡图展现数据。解:在Excel中选中访客数、支付转化率和客单价,创建气泡图。x轴为访客数,y轴为支付转化率,气泡大小为客单价,如图2-24所示。2.雷达图雷达图是以从同一点开始的轴上表示的3个或更多个定量、变量的,以二维图表的形式显示多变量数据的图形方法,其轴的相对位置和角度通常是无信息的。雷达图也称为网络图、蜘蛛网图、星图、不规则多边形、极坐标图或Kiviat图。它相当于平行坐标图,坐标轴径向排列。例2-29:表2-31所示为某店铺产品数据,用雷达图展现数据。解:使用Min-Max标准化方法将表2-31的数据标准化,绘制出表2-32。在Excel中选中表2-32的产品、访客数、支付转化率和客单价,创建雷达图。选中雷达图,在【图表工具】的【设计】选项卡中,选择【切换行/列】选项,效果如图2-25所示。时间序列分析法PARTSeventeen时间序列分析法,强调的是通过对某个事物或事件进行一定时间段内的连续观测,并对数据进行统计。采用时间序列分析法研究数据的变化和发展规模,广泛应用于数据挖掘领域1.移动平均法移动平均法是用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量、公司产能等的常用方法。移动平均法适用于近期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动。移动平均法根据预测时使用的各元素的权重不同,可以分为简单移动平均法和加权移动平均法。(1)简单移动平均法。简单移动平均法的各元素的权重都相等。简单移动平均法的计算公式为:Ft=[(At-1)+(At-2)+(At-3)+…+(At-n)]/n其中:Ft——对下一期的预测值;n——移动平均的时期个数;At-1——前期实际值;At-2、At-3和At-n分别表示前两期、前3期直至前n期的实际值。例2-30:表2-33是某店铺2022年10月26日—2022年11月4日的店铺访客数真实数据,采用简单移动平均法预测2022年11月2日—2022年11月4日的访客数据。其中表2-33的第8行到第10行为验证数据,用于验证预测结果。解:在电商的数据体系中,存在一些常用的时间范围节点,如近3天、近7天、近14天、近30天等。在正常的流量(非活动)下,当天的流量主要受当天前n个小时、近3天、近7天数据的影响。在以天为单位预测数据时,可选择近3天或近7天的数据,本例以近7天为例。将数据对应填入Excel中,在D9单元格输入公式“=AVERAGE(C2:C8)”,然后将公式填充到D10和D11。2022年11月2日和2022年11月3日的预测结果与真实数值较为接近,如图2-26所示。(2)加权移动平均法。加权移动平均法给固定跨越期限内的每个变量值以不同的权重。其原理是:历史各期产品需求的数据信息对预测未来期内需求量的作用是不一样的。除了以n为周期的周期性变化外,远离目标期的变量值的影响力相对较低,故应给予较低的权重。加权移动平均法的计算公式为:其中:w1——第t-1期实际销售额的权重;w2——第t-2期实际销售额的权重;wn——第t-n期实际销售额的权重;n——预测的时期数,w1+w2+…+wn=1。在运用加权移动平均法时,权重的选择是一个值得注意的问题。经验法和试算法是选择权重较为简单的两种方法。一般而言,离日期最近的数据最能准确预测未来的情况,因而权重应大些。例如,前一个月的利润和生产能力比前几个月的数据能更好地估测下个月的利润和生产能力。但是,如果数据是季节性的,则权重也应是季节性的。例2-31:使用加权移动平均法预测表2-33所示的数据。解:根据业务经验,虽然近7天是一个整体,但也可以分成近3天和3天之前,近3天的数据权重相对较大,系数可设为0.6;3天之前的数据权重相对较低,系数可设为0.4。将表2-33中数据填至一个新的Excel表格中,在D9单元格输入公式“=0.4×AVERAGE(C2:C5)+0.6×AVERAGE(C6:C8)”。在D10单元格输入公式“=0.4×AVERAGE(C3:C6)+0.6×AVERAGE(C7:C8,D9)”。在D11单元格输入公式“=0.4×AVERAGE(C4:C7)+0.6×AVERAGE(C8,D9:D10)”。预测结果如图2-27所示,预测结果的误差并没有明显提高,说明访客数受影响的因素较多。除了使用时间序列分析法之外,还可以通过其他方法预测并进行修正。2.指数平滑法指数平滑法实际上是一种特殊的加权移动平均法。指数平滑法进一步加强了观察期内近期观察值对预测值的作用,对不同时间的观察值所赋予的权重不同,加大了近期观察值的权重,使预测值能够迅速反映市场实际的变化。根据平滑次数的不同,指数平滑法可以分为一次指数平滑法、二次指数平滑法、高次指数平滑法。(1)一次指数平滑法当时间序列无明显的变化趋势时,可用一次指数平滑法。其公式为:其中:指数平滑法初始值的确定需要从时间序列的项数来考虑:若时间序列的观察期n大于15,初始值对预测结果的影响很小,可以以第一期观测值作为初始值;若观察期n等于15,初始值对预测结果影响较大,则取最初几期观测值的平均数作为初始值,通常取前3期。一次指数平滑法的局限性:一次指数平滑法只适用于水平型历史数据的预测,不适用于呈斜坡型线性趋势历史数据的预测。(2)二次指数平滑法二次指数平滑法是在一次指数平滑的基础上再进行一次平滑。它不能单独进行预测,必须与一次指数平滑法配合,建立预测的数学模型,然后运用数学模型确定预测值。预测公式为:(3)高次指数平滑预测法高次指数平滑预测法是一种使用多个指数平滑系数进行预测的方法,通常使用二次指数平滑或者三次指数平滑。这种方法在预测时考虑了更多的历史数据,能够更准确地捕捉到趋势和季节性的变化。若时间序列的变动呈现二次曲线趋势,则需采用三次指数平滑法进行预测。三次指数平滑法是在二次指数平滑的基础上再进行一次平滑。预测公式为:例2-32:使用指数平滑法预测表2-33中的数据。解:预测的期数为3,观察值为7,由于观察值过少,故使用一次指数平滑法。将表2-33的数填入一个新的Excel表格中,阻尼系数先设定为0.3,如图2-28所示。初始值为前3个观测值的平均值,即在C4单元格输入公式“=AVERAGE(B2:B4)”。从第4个观测值开始预测,即在C5单元格输入公式“=$B$2×C2+(1-$B$2)×D4”。将公式一直填充到C11单元格,如图2-29所示。可以将预测的值跟真实值进行对比,算出误差并通过调整阻尼系数对比误差的大小,从而确定阻尼系数。相关性分析法PARTEighteen相关性分析是对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量元素的相关密切程度,属于统计分析方法。相关性的元素之间需要存在一定的联系才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化。相关性所涵盖的范围和领域几乎覆盖了人们所能见到的方方面面,其在不同的学科中的定义也有很大的差异。相关性可以研究数值和数值之间的关系,可以研究数值和分类之间的关系,可以研究分类和分类之间的关系,不同类型的数据之间的相关系数计算方法不同。相关系数公式如表2-34所示。1.相关系数相关系数最早是由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。相关图可反映两个变量(,)xy之间的相互关系及相关方向,但无法确切地表明两个变量相关的程度。相关系数是用以反映变量相关关系密切程度的统计指标,其公式为:相关系数的值域为[-1,1],相关系数为正数表示正相关,变量向相同方向变化;相关系数为负数表示负相关,变量向相反方向变化。相关系数的几何意义如图2-30所示。相关系数的定义如表2-35所示。由于实践过程中,数据的干扰因素较大,强相关的关系极难在实际的业务数据中发现,因此在应用过程中需要调整定义,调整后的相关系数定义如表2-36所示。例2-33:表2-37是某店铺7天的支付金额和直通车消耗(广告费用),分析两者的关系。解:两个变量都是数值型字段,可通过计算相关系数来研究二者的关系。在Excel中使用函数CORREL计算相关系数,如图2-31所示,在C9单元格中输入公式“=CORREL(B2:B8,C2:C8)”,计算的相关系数约为0.67,为中正相关,表示两者之间存在一定的关系,但不是绝对关系,可能还存在其他因素的影响。2.相关矩阵相关矩阵也叫相关系数矩阵,是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。例2-34:表2-38是某店铺的经营数据,在Excel中计算表2-38中各字段间的相关系数。解:在Excel的【数据选项卡】中,选择【数据分析】选项,如图2-32所示。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论