大数据技术及数据分析课程培训-师伟_第1页
大数据技术及数据分析课程培训-师伟_第2页
大数据技术及数据分析课程培训-师伟_第3页
大数据技术及数据分析课程培训-师伟_第4页
大数据技术及数据分析课程培训-师伟_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据技术及数据分析,主讲人:师伟,2,课程收益,学习数理统计的理念 熟悉常见的处理套路 掌握常用软件的使用 解决学员的具体问题,3,目录,数理统计常识 数理统计技术,4,目录,数理统计常识 量化的重要性 统计基础知识 数据挖掘简介 数理统计技术,5,案例,6,案例,记者在短时间内发生这么多起跳楼的事件,如果站在理论角度上,发生率算不算高? 樊富珉按卫生部统计,目前中国自杀率大概是十万分之十六左右。而富士康40多万人,约十万分之二三左右,大学生我们也做过统计,大概十万分之二到三左右。如果从全国的自杀率来比的话,应该还是低的,7,案例,世界银行发展委员会25日通过了发达国家向发展中国家转移投票权

2、的改革方案,这一改革从一个侧面反映了世界经济版图的变化 本次改革中,发达国家向发展中国家共转移了3.13个百分点的投票权。中国在世行的投票权从目前的2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本 世界银行规则:任何重要的决议必须由85%以上的表决权决定,8,案例,在一次海难中,统计数据为 头等舱乘客319人,200人幸存 二等舱乘客269人,117人幸存 三等舱乘客699人,172人幸存 从以上数据你可以发现什么?,9,目录,数理统计常识 量化的重要性 统计基础知识 数据挖掘简介 数理统计技术,10,误差(波动),偶然误差 可减小但不可消除 系统误差 可消除,11,抽样

3、,12,连续数据和离散数据,连续数据 定量 信息含量大 离散数据 定性 信息含量小,13,判断数据属性,销售订单准确度 数据输入准确度 销售地区 用通规测量得到的孔径 用卡尺测量得到的孔径 客户热线对话时间 空调制冷剂的重量 一批顾客中不满意的人数 一批顾客中不满意的比例,14,数据的居中程度和离散程度,主要的居中指标 平均值数据集的平均值 中位数数据排序后得到的中间数 众数数据集中最频繁出现的值 主要的离散指标 极差数据集中最大值与最小值的差值 方差与平均值间距的平方和的平均值 标准偏差方差的平方根,15,正态曲线,大多数(但不是所有)数据符合正态分布,16,目录,数理统计常识 量化的重要性

4、 统计基础知识 数据挖掘简介 数理统计技术,17,数据挖掘简介,数据挖掘(Data Mining)的概念 从数据库数据中揭示出隐含的、未知的并有潜在价值的信息 决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助做出正确的决策,18,数据挖掘主要动作,分类 估值 预测 关联 聚集 可视化描述,19,案例,第一次战役1950年10月26日1950年11月02日 第二次战役1950年11月25日1950年12月02日 第三次战役1950年12月31日1951年01月08日,20,案例,丰田大规模召回事件引

5、起全球强烈反响,引发丰田信誉危机,21,目录,数理统计常识 数理统计技术 基础动作 图表操作 典型工具和应用,22,基础动作,搜集 整理 分析 评估 展示,23,目录,数理统计常识 数理统计技术 基础动作 图表操作 典型工具和应用,24,图表类型,数字型 逻辑型,25,图表的注意事项,选取适当的图表类型 数量图表应写清单位 引用资料应说明出处 不要妄图表达过多的信息 图例一般控制在五个以下 尽量简单明了、利于理解,26,动态图表,27,报告制作原则,提案型报告 说明型报告,28,文档制作原则,逻辑清晰 方案多选 文字精炼 内容可视 恰当修饰 体积小巧 制作迅速,29,报告的需求管理,报告的客户

6、 谁在看报告? 希望看什么? 希望的频率? 希望的详略?,相关的技巧 买点和卖点 金字塔原理,30,报告的素材准则,中肯 可比 准确 时效 可靠 清晰,31,素材组织的FAB技巧,Feature特点 Advantage优点 Benefit利益,Benefit,Advantage,Feature,32,目录,数理统计常识 数理统计技术 基础动作 图表操作 典型工具和应用,33,规范处理数据和数据有效性,数据处理的良好习惯 Excel数据有效性,34,层别法、聚类和表格维度,层别法、聚类 一维表和二维表,35,数据透视表,36,将数据按顺序等距分组,体现各组内频数的柱状图 轮廓符合正态分布曲线说明

7、处于稳定状态 通过异常轮廓形状分析可定位异常的原因,直方图,37,案例,174 185 189 196 208 190 178 184 190 205 184 185 194 191,205 205 207 207 207 206 210 209 217 214 214 206 209 210,38,表现各项目频度降序排列及累积比例 二八原则 大问题优先,柏拉图,39,ABC分析法,A类 070%,主要影响因素 B类 7090%,次要影响因素 C类 90100%,一般影响因素,ABC的划分不是绝对的,40,练习,张女士结婚五年以来与丈夫发生纠纷如下 不做家务28次 深夜不归5次 不良嗜好5次

8、没送礼物1次 胡乱花钱3次 婆媳关系50次 异性交往8次 请制作柏拉图并用ABC法分析,41,散布图、关联规则和预测,研究两个特性之的内在关系 坐标轴分别表示结果特性和原因特性 使得解决问题时找出强相关的原因,42,常见类型,散布图,正相关强 X的增加导致Y的明显增加,正相关弱 X的增加导致Y的略微增加,43,常见类型,负相关强 X的增加导致Y的明显减少,负相关弱 X的增加导致Y的略微减少,散布图,44,常见类型,散布图,无相关 Y的变化与X的变化毫无关系,曲线关系 X与Y之间无线性关系但符合某种曲线变化规律,45,预测,Forecast法 趋势线法,46,单变量求解,47,规划求解,48,矩阵数据分析法,矩阵数据分析法(Matrix Data Analysis Chart) 用于排定优先级、做多目标决策 量化表示各元素的关系,更准确地整理和分析结果,49,案例,50,练

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论