数据分析常用6种分析思路_第1页
数据分析常用6种分析思路_第2页
数据分析常用6种分析思路_第3页
数据分析常用6种分析思路_第4页
数据分析常用6种分析思路_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析常用6种分析思路

作为数据分析师,你是否常因为缺乏分析思路,而被以下问题

影响到幸福感(甚至怀疑人生)?

1.新上线某个产品,需要监控转化率效果,既要看总体情况,

也要看细分渠道;

2.策划营销活动,预算有限,要看看选择哪些目标用户群、

采用哪种方案带来的销量更高(更能拉动KPI);

3.KPI又出现较大波动,待会领导估计要问起来,赶紧分析数

据找原因;

一个问题就是从天上随机掉落的食材,分析思维就是将这些奇

形怪状的食材加工成“看得国’的美味佳肴。既然要做菜,有哪些

值得借鉴的'万金油”菜谱呢?本篇会为你慢慢道来。

01

完成一项任务,通常需要一系列操作,比如做菜,得先想好吃

啥,然后买菜、洗菜、切菜、炒菜。

1.1

行动步骤

行动步骤就是先确定起点、终点(目标),然后将起点和终点的

距离拆分成一个个小步骤,知道先做什么,后做什么。

steplstep2step3

4

起点目标

注:图中小黑点表示该步骤下可以选择的行动方案

e.g.常见的数据分析路径之一是SAS公司提出的SEMMA范

式:

1.Sample,数据抽样,保证数据的效度和信度;

效度是指数据的准确性,也指选择的数据和分析目标及业务目

标是吻合的;

信度是指数据的稳定性,要保证样本数据有代表性,且在一定

周期内不能有过大的波动(否则模型不稳定);

2.Explore,数据特征探索及预处理,e.g.看数据的分布情况、

对数据进行标准化等;

3.Modefy,明确问题、模型选择、方案调整;

4.Model,执行建模方案;

5.Assess,结果评估(准确性、稳定性、是否符合业务预期、

效益如何);

另一个常用的数据分析范式是CRISP-DM,分为6个步骤:

1.商业理解:确定业务目标,评估现有资源,确定分析目标,

制定解决方案;

2.:理解:数据采集,探索分析,数据质量验证;

3.;准备:筛选数据,数据清洗,整合数据,变量衍生;

4.建立模型:模型选择,检验设计,模型建立,结果评估;

5.模型评估:分析结果和业务目标匹配度确认,检查1-4步的

执行过程,确定下一步行动;

6.结果部署:规划部署方案、监控和维护方案,输出项目报告,

项目复盘;

e.g.一个报表上线的基本步骤如下:

需求登记-->方案规划->需求排期数据ETL->代码

编写->数据验证->报表上线

1.2

分步转化

要连续完成多个步骤,有的人“浅尝辄止”,有的人“半途而废”,

有的人则是“善始善终”。

产品转化的每个步骤都会有用户流失,好比100个人参加有

9个关卡的淘汰游戏,每个关卡会淘汰10个人,整个游戏最终会

剩下10个获胜者,把这个游戏看作产品,那么该产品的全流程转

化率就是10%(游戏获胜率)O

注:电商APP一般的转化漏斗

e.g.常见的电商流程如下:

注册-->登录-->浏览商品-〉加购物车-->支付-->售后

将上述步骤整理成鱼骨图,每个大步骤下还可以拆分更细的小

步骤;

比如“支付环节”可以拆分为:

收货地址确认选择优惠->选择支付方式输入短信验

证码返回支付结果(成功或失败)

e.g.在用户运营理念中有这样一个转化公式:路人-,用户

粉丝员工,先把围观的感兴趣的路人转化为用户,轻度用户是

产品的使用者,中度用户是产品的“追随者”,重度用户则会主动

参与产品的功能反馈和改进建议,在这个转化过程中用户的参与

度逐步提高。

1.3

闭环迭代

一般的闭环臃包括3部分:事前方案题划,事中执行强,

事后复盘总结。

e.g.营销活动

事前:确定目标,选定用户,制定方案,确定检验标准等;

事中:实时数据监控(是否达到预期),不同方案赛马,备用方

案启用等;

事后:对整个流程复盘,总结经验,CSS归类(Continue做先

前已验证的正确的事,Stop做错误的事,Start做新的正确的事)

常用的闭环迭代框架是PDCA,通过计划(P)、实施(D)、检查

(C)、总结(A)4个步骤,循环迭代,螺旋上升。

Plan计戈IJ

Do实施

Check检查

另外还要注意,在使用流程化思维时,除了常见的正向思考,

也要逆向思考。

02

分类

互联网时代最核心的经营理念是深耕客群,通过差异化运营提

升ARPU值(AverageRevenuePerUser,每用户平均收入),而

分类无疑是开展这项工作的重要前提。

主要有4种分类方法:

二分法,非此即彼,e.g.网站新客、老客,贷款审批结果分为

通过申请、拒绝申请等;

并列分类,多个分类(子集)构成一个全集,e.g.用户地域可以

按省份划分,按年龄可以将用户分为70后、80后、90后、00

后等,女性用户群体可以分为时尚丽人、都市白领、家庭主妇等;

攀盼类,e.g.会员等级一铁牌、铜牌、银牌、金牌、钻石、

皇冠,城市等级——一线、二线、三线、四线;

矩限,e.g.波士顿矩阵,RFM象限

一般价值客户

一般保持客尸

注:图片来自网络

分类的规则大致有两类:

按主体分类,

e.g.按社会关系模型,用户角色可以是父母、配偶、子女、朋

友等;

eg按照群体划分,可以分为一般情宓口特殊情况、二八原则

等;

按属性分类,依据主体(比如用户)的属性进行类别划分。

e.g.用户画像时可以考虑以下属性:

1.社会属性:收入水平、学历、职业、婚姻情况等

2.位置属性:居住地、工作地、从手机端还是PC端登录等

3.生物属性:年龄、性别、种族等

4.心理属性:品牌偏好、购买行为、优惠偏好等

03

对比

“痛苦来自比较之中”(没有比较就没有伤害),其实幸福也来自

比较之中,痛苦还是幸福,取决于选择的参照点是高于还是低于

你。

对比就是找一个参照点,来发现两个数据间的差异量△大小

如何。

对比可以分为两类:横向对比、纵向对比。

3.1

横向对比

和同类(竞品)匕维,e.g.对比不同品牌的女装的销售情况,不

同销售渠道(地区)的交易情况;

实验对比,设置实验组和对比组,对比两组或多组之间的差异,

以确定人为干预(实验、方案)的效应。

eg比较不同的产品或运营方案的效果差异时,常采用AB

Test,需要确保对比的两组或者多组在数量和结构上要具有可比

性(e.g.用户的来源、等级等需要匹配);

和整体匕儆,e.g.华东地区的销售情况和全国总体销售I:戢;

做组间比较时,一定要确保样本的可比性(无论是在数量级还

是在群体结构上),e.g.对比两个时间段的交易情况,建议剔除掉

大促和节假日(这些交易日的数据波动很大)O

有两类不易察觉的样本错误尤其要提防:

“辛普森悖论”,即两个样本单独得到的结麻口样本合并后得到

的结论相反。

e.g.如下表所示,单独看APP端和PC端,新客的转化率都

是低于老客的,但是,整体新客的转化率却高于老客。

新客老客

来源访客数下单人数转化率访客数下单人数转化率

APP端2,0001005%8,00080010%

PC端80040050%20012060%

总体2,80050018%8,20092011%

注:以上数据仅作为说明概念使用,不代表真实场景

“幸存者偏差”,即样本已经被容易忽略的因素筛选过。

e.g.问卷调查中,那些愿意填写问卷的用户本身就是对产品有

高认可度;

e.g.产品漏斗转化流程中,处在不同环节的用户一般不能进行

对比

3.2

纵向对比

横向是和其他对象比较,纵向则是和自己的历史数据对比。

常见的纵向对比有同I:5口环比,对比的周期根据实际情况可以

按日、周、月、季、年等。

注:一个常用的多组对比柱状图

对比的时候,除了比较相对量,也要看绝对量,以合理地评估

数据差异的大小。

e.g.0.5%的波动是大还是小,需要找参考点,如果历史波动

最高也就0.1%,那么这个波动就很大。

e.g.公众号关注人数昨日环比增长20%(看着还不错),实际上

才增加4个人,截止前天也就20个人。

04

看数据指标不要只看一个“点”,还要看一条“线”上的前后连接

的环节,进而从“面”或“体”的角度去看整个大环境中都有哪些因素

相互作用。

对现象的分析可以参考简单的调节模型:

M

Y

其中:X是自变量,丫是因变量,M是调节变量。

寻找关联关系时,不仅仅要找出对丫有直接影响的X(一个或

者多个),还要找出影响X对Y作用的调节因素M。

关联也可以分为同时关联和延时关联两类。

4.1

同时关联

即多个因素(X)同时发生作用一起促成了现象(Y)的发生。

e.g.电商网站销售的变化可能考虑的因素:

用户:用户结构是否发生变化,是否有新的注册渠道,新渠道

导流进来的用户质量如何;

商品:品类结构是否有变化,e.g.随着四季变化,服装类的种

类也会发生变化;

产品:多少用户使用旧版本或者新版本,产品某个环节有没有

改版,产品的策略(商品推荐策略等)是否有变化;

运营:前期的线上或者线下预热,商城的优惠力度,优惠涉及

的人群等;

4.2

延时关联

现象的产生可能存在延迟效应,要考虑当前现象(环节)的前置

的“因”和后置的“果”O

e.g.今天上线的营销方案可能在几天甚至几十天后才会有显

著的效应,今天交易量上出现的波动也可能是因为一段时间前产

品或者运营策略上有改动。

05

层级

要有结构化、系统化的思维,对影响因素自上而下的拆解和自

F而上的组合。

5.1

自上而下的拆解

可以理解为“分级钻取”,如同金字塔结构一样,先从总体看到

二级分支,然后再看更细的分支。

e.g.支付成功率的影响,可以对新老客、订单来源、支付方式、

银行通道一层一层拆解,细化各个分支对整体变化的贡献率;

e.g.销售额=下单人数*客单价⑻

从登录到下单是层层转化后的,所以

下单人数=访客人数*浏览转化率*购物车转化率*支付转化率

(b)

公式(b)代入公式(a),得到:

销售额=访客人数*浏览转化率*购物车转化率*支付转化率*客

单价

5.2

自下而上的组合

就是将个体组成群体,将小的指标组合成f综合指标。

eg用户的标签分为基础标签和复合标签,基础标签就是单个

用户属性来定义的(例如性别、婚否等),复合标签则是考虑多个

基础标签的组合(例如,某个典型的用户群体画像是:女性+单身+

白领+一线城市);

e.g.规划用户标签时,先用头脑风暴想出一批指标,然后进行

归类、筛选、组合;

e.g.风控业务中累计坏账计提的计算,是将不同的逾期资金规

定不同的风险计提比例,最后再把所有类别的风险计提资金汇总

起来,作为公司所有贷出款项的风险计提资金,从而对公司贷款

业务风险进行评估;

举个形象的例子,自上而下好比国家财政拨款,从中央到省会

再到各市县区;自下而上则像是国家征税,就是从各市县区、各

企业层层汇总,直到报送国库。

06

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论