数据分析方法培训幻灯片_第1页
数据分析方法培训幻灯片_第2页
数据分析方法培训幻灯片_第3页
数据分析方法培训幻灯片_第4页
数据分析方法培训幻灯片_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析方法培训目录数据分析前的思考案例分享深层次数据分析数据分析前,我们需要思考3

>《孙子兵法〃谋攻篇》:故上兵伐谋,其次伐交,其次伐兵,其下攻城;攻城之法为不得已。像一场战役的总指挥影响着整个战役的胜败一样,数据分析师的思想对于整体分析思路,甚至分析结果都有着关键性的作用。问题分析结果呈现分析思路与方

法数据选取数据分析前,我们怎么去思考?

每一个步骤可能面临的问题以及需要准备的东西???4

>

选取的分析软件以及分析方法(统计学相关方法)。分析问题和解决问题的思路5

>定义问题第一步

首先,要搞清

问题的实质,

准确、完整、

真实地表达问

题。

其次,弄清楚

为什么要解决

这个问题?

最后,解决这

个问题的意义

何在?是必须

解决还是无关

紧要,或是需

要马上解决还

是不太着急。第二步收集整理

信息

搜集、整理

关于要解决

问题的历史

资料、类似

情况和现状。第三步选取分析

方法

分析涉及到

的主要维度,

为后面提取

数据需求作

准备;第四步数据提取

整理

根据分析内

容以及分析

方法,提出

分析所需的

数据需求;

对于反馈回

来的数据,

需要进行部

分加工,以

便更能反应

所要分析的

问题。第五步分析结果

及结论

根据分析的

结果,得出

一些当前问

题产生的一

些结论。这

里注意分析

的方法以及

维度,结果

的展示方式

等。

结论需要求

足够的数据

做支撑。第六步实施及建

议措施

针对数据分

析结论,给

出当前问题

的解决建议

措施。

一方面从业

务层面进行

建议措施,

另一方面,

可以就问题

点进行更深

层次分析,

给出数据挖

掘层面的解

决措施。第七步

实施效果评估及报告整理

根据措施实

施效果进行

实际评估,

将完成的分

析过程,结

果以及评估

整理报告,

为以后出现

问题提供经

验教训。

对于本次没

有完全解决

的问题,进

行说明。例如,从现有的报表数据中就能够看到当前问题点的数据情况或者一段时间的趋势;

两个重点步骤问题展现方式问题现状

直接原因最终原因问题的结构如同这座冰山

初步的问题分析深层次的问题分析

问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的叫初步

问题分析,针对最终原因进行分析的叫深层次问题分析。7

>治标治本定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理问题分解8

>问题陈述问题/假设1问题/假设2问题/假设3分支问题分支问题分支问题分支问题分支问题分支问题为什么使用逻辑树?1.将问题分成几个部分使

•解决问题的工作可以分成智力上能够解

决的几个部分

•不同部分可按轻重缓急区分

•工作责任能分派到各人2.保证问题获得完整地解决

•将问题的各个部分解决好,即可解决整

个问题

•所分问题的各个部分各不相同,而且包

括了各个方面(即没有重叠没有遗漏)3.使项目小组共同了解解决问题的框架4.协助重点使用组织框架及理论定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理分析方法统计方法的三大特性,用三句话来简单概括一下:反应客观现象

的数据

描述性统计(包括统计数据的收集、整理、显示和分

析)实用性:除了实情,数据能证明一切;丰富性:统计就像比基尼,露出来的部分固然诱人,没露出来的部分才是最要命的;公平性:我们相信上帝,其它人请用数据说话。

概率论

(包括分布理论、

大数定律和中心极

限定理)

推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)

总体内在的数量

规律性9

>样本数据总体数据定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理描述性统计分析

“五点法”:最小值,1/4分位数,均值,3/4分位数,最大值

“两度”:峰度,偏度

六西格玛:

检验统计量的取值空间

6

∑10

>定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理2120y-1y-2-2-101-1-20221y0y468负相关相关但非线性相关推断统计分析11

>回归分析是统计分析思想中最基础、最集中的一个领域。

高斯、高尔顿相关分析&回归分析-3-212(a)-212(b)x-2-1012x-3-2-10123x

-1

0不相

x

(c)

-1

0正相关

(d)变量的选取;预测推断;P值:回归分析就是放“P”,放得好,就合格。定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理变量分析方法选取对象变量的关系类型因变量-自变量预测和解释变量的个数变量的相互关系变量的结构关系多因变量与自变量多因变量与自变量单一变量存在多存在多重关系存在单一关系重关系变量样本因变量测量尺度结构方程式模式

型数量型非数量型自变量尺度测量典型相关分析多元方差分析因变量尺度测量

多元回归

分析结合分析

型多元判别分析Logistic回归离散选择模型

CHAID因子分析/主成分析聚类分析变量测量尺度数量型非数量型多维尺度分析对应分析

一张简单的图胜过千言万语!!!!12

>定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理数据挖掘分析13

>按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,

其中:统计方法可分为:判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分析(系统聚类、动态聚类等),探索性分析(主成分分析等)等。

机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗传算法等。神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特征映射、竞争学习等)。数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。关联规则

关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事

物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其

他事物预测到。Ps:

多元统计分析中的聚类分析有个阈值,用于确定分类的一个临界值,平时会遇到把它读成fá,误以为它是“阀”字。正确的应该是阈(念yù)值,而不是阀值.定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理•

网管中心数据•

CRM数据

一经数据

第三方调查数据

……14

>海量的数据eg数据提取时注意的几点问题。

经分数据

BOSS数据定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理选取分析所需的相关数据制定数据提取需求15

>

人口统计

性别

年龄

户藉

职业

婚姻状况

教育程度

收入

……客户

办理时间地点

办理的渠道

办理的业务种类

生效和失效时间

购买行为

消费行为

沟通记录

销售概率

帐单信息

分群特征

离网概率

离网原因

客户价值

高利润率

中等利润率

低利润率

负利润率

服务与产品

使用的产品

使用的服务功能

接受的营销offer

享受的客户服务

态度形象价值观生活方式心理因素…

客户偏好

渠道偏好

联络时间偏好

服务内容偏好帐户信息

高级资料

性格和爱好

反感的业务

家庭情况

缴费方式

使用清单

缴费记录行为信息

基本资料地址、电话、email、籍贯等语言、行业手机相关信息网络状况业务办理信息

行为方式通话时段繁忙和非繁忙通话

量漫游服务方便程度行为方式的变化…

客户交互信息

客户交互概况

整合的投诉历史

整合的咨询历史

主动联络客户历史

客户分析信息注意数据提取粒度定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理数据质量的评估•

在现实社会中,存在着大量的“脏”数

>

不完整性(数据结构的设计人员、数据采集

设备和数据录入人员)

缺少感兴趣的属性

感兴趣的属性缺少部分属性值

仅仅包含聚合数据,没有详细数据

>

噪音数据(采集数据的设备、数据录入人员、

数据传输)

数据中包含错误的信息

存在着部分偏离期望值的孤立点

>

不一致性(数据结构的设计人员、数据录入人

员)

数据结构的不一致性

Label的不一致性

数据值的不一致性

业务角度对于数据质量进行

初步评估!!!16

>>

数据类型冲突

性别:string(Male、Female)、Char(M、

F)、Interger(0、1)

日期:Date、DateTime、String>

数据标签冲突:解决同名异义、异名同

学生成绩、分数>

度量单位冲突

学生成绩

百分制:100

~

0

五分制:

A

、B、C、D、E

字符表示:优、良、及格、不及格>

概念不清

最近交易额:前一个小时、昨天、本周、本

月?>

聚集冲突:根源在于表结构的设计定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理数据质量的评估

技术角度进行数据质量评估17

>定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理数据的清洗处理主要任务:

补充缺失数据

识别孤立点,平滑噪音数据处理不一致的数据处理方法:

分箱(Binning)的方法:

聚类方法:

检测并消除异常点

线性回归:

对不符合回归的数据进行平滑处理

人机结合共同检测:

由计算机检测可疑的点,然后由用户确认

…18

>定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理•

指标分析与政策分析并重;•

反应重点问题、实事求是;•

材料、数据要真实,论据要有说服力。切记……分析角度:缺乏分析中心思想或主干线

文字表达:“一图二表三文字”

逻辑结构:论点、论据、论证19

>收集整理

定义问题

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理怎样将分析的结果呈现出来?定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理分析结果呈现基本原则20

>确定表达的主题

使用图形的目的:

将思想和观点形

象化的表达,加

深读者或听众的

印象。

使用图表时,必

须明确通过图表

要表达的信息是

什么。

确定对比关系

同一类别不同项目间

的对比

不同类别不同项目间

的对比

时间对比:把时间作

为项目分类的标准

频率对比:以部分占

整体的百分比为项目

分类的标准

相关性对比:按照项

目之间的函数关系作

为项目分类的标准

其他对比:逻辑关系

的对比(因果,时间序

列……)

选择图形饼图柱状图百分比柱状图堆积柱状图线形图雷达图面积图点图气泡图矩阵图逻辑图数据分析结果呈现准备工作:如何用图来表示数据?定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理定量数据的图表示对于一个定量变量;用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理x

10000定性数据的图表示定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。

丌同页面内容访问量和累计访问量大众化网页•单类网页访问次数占比大于10%;•累积网页访问次数占比达81.05%;•单类网页访问次数占比5~10%;•累积网页访问次数占比达15.41%;•单类网页访问次数占比小于5%;•累积网页访问次数占比丌足10%;个性化网页小众化网页44.60%81.05%96.42%20%0%40%80%60%100%10

03020504060博客娱乐体育游戏女性星座金融笑话音乐彩票搜索微博视频页面访问量累计占比定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理常见的分析模式

内容决定形式,形式服务于内容,当形式经过实践考验被

普遍接受后就固化成一种模式。

分析报告的模式主要包括:

金字塔式;

综合式;

三步曲;

专题式;

通报;

简报式;

工作汇报式.24

>定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理针对问题1建议措施针对问题2建议措施

针对问题3

建议措施

现状及问题

总结

数据分析

分析总结25

>建议措施分类

业务层面

数据挖掘定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理分析总结及建议措施定义问题收集整理

信息选取分析

方法数据提取

整理分析结果

及结论实施及建

议措施

实施效果评估及报告整理实施效果评估及报告整理

营销活动效果反馈数据,分析对于问题的解决程度;

活动历史响应数据的积累;

活动流程固化;

业务模型优化提升;

对比组,显示模型本身的优越性;

营销活动数据对于模型的提升情况;

…26

>回顾一下27

>分析前的思考????目录数据分析前的思考案例分享深层次数据分析29四大套餐沉默率高非沉默用户人均流量低占套餐用户总人数80.55%的5元套餐沉默率为39.44%,高于当前套餐沉默率指标30%。其它套餐虽然沉默率低,但总人数也低,故降低5元套餐沉默率是当前急需解决的问题。四大套餐非沉默用户人均流量均远低于套餐包含的标准流量,而人数最多的5元套餐(含30MGPRS流量)人均流量也只有10.72M,是套餐可使用量的35.73%。怎样降低套餐沉默率怎样提升套餐均流量

手机上网当前遇到的问题——“一高两低”按沉默用户和非沉默用户分析沉默用户注:沉默用户指套餐沉默用户,由于2元、5元、10元、20元这四大套餐用户占总套餐用户的85%(5月数据),故取四大套餐为研究对象。各套餐人数占比=套餐用户数/四大套餐用户总数;套餐使用率=人均套餐使用量/套餐包含的标准流量。非沉默用户手机上网问题分解及用户定义

普及率偏低,提升缓慢

套餐沉默率偏高

套餐流量利用率偏低

部分用户套餐需要升级30

查找潜在用户查找可激发的套餐沉

默用户查找可提升流量用户

寻找到超量用户

扩大手机上网用户规

模,提升普及率激活沉默用户,降低套

餐沉默率增强营销,提升手机上

网流量

套餐升级相关分析数据字段提取

定制手机报类型

彩铃主动下载次数

是否使用手机搜索31

>

基本属性手机号码

品牌

付费类型imei号终端是否支GPRS入网时间年龄性别ARPU

数据业务点对点短信上行条数

梦网短信条数点对点彩信上行量短信计费量新业务费用是否是转转赢用户是否是大赢家用户是否飞信用户是否无线音乐高级会员

GPRSGPRS套餐类型GPRS流量GPRS费用CMWAP流量CMNET流量cmwap登陆次数cmnet登陆次数

语音业务语音业务费用

本地通话时长本地通话次数总打入号码数总打出号码数32查找潜在用户(略去)沉默用户流量提升分析总结及建议措施

分析总结

手机上网整体普及率较低,仅33%;

近半年多来手机上网普及率提升较

慢;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论