大数据技术及数据分析课程培训-师伟ppt课件_第1页
大数据技术及数据分析课程培训-师伟ppt课件_第2页
大数据技术及数据分析课程培训-师伟ppt课件_第3页
大数据技术及数据分析课程培训-师伟ppt课件_第4页
大数据技术及数据分析课程培训-师伟ppt课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术及数据分析,主讲人:师伟,.,2,课程收益,学习数理统计的理念熟悉常见的处理套路掌握常用软件的使用解决学员的具体问题,.,3,目录,数理统计常识数理统计技术,.,4,目录,数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术,.,5,案例,.,6,案例,记者在短时间内发生这么多起跳楼的事件,如果站在理论角度上,发生率算不算高?樊富珉按卫生部统计,目前中国自杀率大概是十万分之十六左右。而富士康40多万人,约十万分之二三左右,大学生我们也做过统计,大概十万分之二到三左右。如果从全国的自杀率来比的话,应该还是低的,.,7,案例,世界银行发展委员会25日通过了发达国家向发展中国家转移投票权的改革方案,这一改革从一个侧面反映了世界经济版图的变化本次改革中,发达国家向发展中国家共转移了3.13个百分点的投票权。中国在世行的投票权从目前的2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本世界银行规则:任何重要的决议必须由85%以上的表决权决定,.,8,案例,在一次海难中,统计数据为头等舱乘客319人,200人幸存二等舱乘客269人,117人幸存三等舱乘客699人,172人幸存从以上数据你可以发现什么?,.,9,目录,数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术,.,10,误差(波动),偶然误差可减小但不可消除系统误差可消除,.,11,抽样,.,12,连续数据和离散数据,连续数据定量信息含量大离散数据定性信息含量小,.,13,判断数据属性,销售订单准确度数据输入准确度销售地区用通规测量得到的孔径用卡尺测量得到的孔径客户热线对话时间空调制冷剂的重量一批顾客中不满意的人数一批顾客中不满意的比例,.,14,数据的居中程度和离散程度,主要的居中指标平均值数据集的平均值中位数数据排序后得到的中间数众数数据集中最频繁出现的值主要的离散指标极差数据集中最大值与最小值的差值方差与平均值间距的平方和的平均值标准偏差方差的平方根,.,15,正态曲线,大多数(但不是所有)数据符合正态分布,.,16,目录,数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术,.,17,数据挖掘简介,数据挖掘(DataMining)的概念从数据库数据中揭示出隐含的、未知的并有潜在价值的信息决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助做出正确的决策,.,18,数据挖掘主要动作,分类估值预测关联聚集可视化描述,.,19,案例,第一次战役1950年10月26日1950年11月02日第二次战役1950年11月25日1950年12月02日第三次战役1950年12月31日1951年01月08日,.,20,案例,丰田大规模召回事件引起全球强烈反响,引发丰田信誉危机,.,21,目录,数理统计常识数理统计技术基础动作图表操作典型工具和应用,.,22,基础动作,搜集整理分析评估展示,.,23,目录,数理统计常识数理统计技术基础动作图表操作典型工具和应用,.,24,图表类型,数字型逻辑型,.,25,图表的注意事项,选取适当的图表类型数量图表应写清单位引用资料应说明出处不要妄图表达过多的信息图例一般控制在五个以下尽量简单明了、利于理解,.,26,动态图表,.,27,报告制作原则,提案型报告说明型报告,.,28,文档制作原则,逻辑清晰方案多选文字精炼内容可视恰当修饰体积小巧制作迅速,.,29,报告的需求管理,报告的客户谁在看报告?希望看什么?希望的频率?希望的详略?,相关的技巧买点和卖点金字塔原理,.,30,报告的素材准则,中肯可比准确时效可靠清晰,.,31,素材组织的FAB技巧,Feature特点Advantage优点Benefit利益,Benefit,Advantage,Feature,.,32,目录,数理统计常识数理统计技术基础动作图表操作典型工具和应用,.,33,规范处理数据和数据有效性,数据处理的良好习惯Excel数据有效性,.,34,层别法、聚类和表格维度,层别法、聚类一维表和二维表,.,35,数据透视表,.,36,将数据按顺序等距分组,体现各组内频数的柱状图轮廓符合正态分布曲线说明处于稳定状态通过异常轮廓形状分析可定位异常的原因,直方图,.,37,案例,174185189196208190178184190205184185194191,205205207207207206210209217214214206209210,.,38,表现各项目频度降序排列及累积比例二八原则大问题优先,柏拉图,.,39,ABC分析法,A类070%,主要影响因素B类7090%,次要影响因素C类90100%,一般影响因素,ABC的划分不是绝对的,.,40,练习,张女士结婚五年以来与丈夫发生纠纷如下不做家务28次深夜不归5次不良嗜好5次没送礼物1次胡乱花钱3次婆媳关系50次异性交往8次请制作柏拉图并用ABC法分析,.,41,散布图、关联规则和预测,研究两个特性之的内在关系坐标轴分别表示结果特性和原因特性使得解决问题时找出强相关的原因,.,42,常见类型,散布图,正相关强X的增加导致Y的明显增加,正相关弱X的增加导致Y的略微增加,.,43,常见类型,负相关强X的增加导致Y的明显减少,负相关弱X的增加导致Y的略微减少,散布图,.,44,常见类型,散布图,无相关Y的变化与X的变化毫无关系,曲线关系X与Y之间无线性关系但符合某种曲线变化规律,.,45,预测,Forecast法趋势线法,.,46,单变量求解,.,47,规划求解,.,48,矩阵数据分析法,矩阵数据分析法(MatrixDataAnalysisChart)用于排定优先级、做多目标决策量化表示各元素的关系,更准确地整理和分析结果,.,49,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论