大数据技术及数据分析课程培训演示_第1页
大数据技术及数据分析课程培训演示_第2页
大数据技术及数据分析课程培训演示_第3页
大数据技术及数据分析课程培训演示_第4页
大数据技术及数据分析课程培训演示_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术及数据分析当前第1页\共有50页\编于星期六\4点2课程收益学习数理统计的理念熟悉常见的处理套路掌握常用软件的使用解决学员的具体问题当前第2页\共有50页\编于星期六\4点3目录数理统计常识数理统计技术当前第3页\共有50页\编于星期六\4点4目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术当前第4页\共有50页\编于星期六\4点5案例当前第5页\共有50页\编于星期六\4点6案例记者 在短时间内发生这么多起跳楼的事件,如果站在理论 角度上,发生率算不算高?樊富珉 按卫生部统计,目前中国自杀率大概是十万分之十六 左右。而富士康40多万人,约十万分之二三左右,大 学生我们也做过统计,大概十万分之二到三左右。如 果从全国的自杀率来比的话,应该还是低的当前第6页\共有50页\编于星期六\4点7案例世界银行发展委员会25日通过了发达国家向发展中国家转移投票权的改革方案,这一改革从一个侧面反映了世界经济版图的变化本次改革中,发达国家向发展中国家共转移了3.13个百分点的投票权。中国在世行的投票权从目前的2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本世界银行规则:任何重要的决议必须由85%以上的表决权决定名次国家改革后投票权改革前投票权1美国15.85%15.85%2日本6.84%7.62%3中国4.42%2.77%4德国4.00%4.35%5法国3.75%4.17%5英国3.75%4.17%7印度2.91%2.77%8俄罗斯2.77%2.77%8沙特2.77%2.77%10意大利2.64%2.71%当前第7页\共有50页\编于星期六\4点8案例在一次海难中,统计数据为头等舱乘客319人,200人幸存二等舱乘客269人,117人幸存三等舱乘客699人,172人幸存从以上数据你可以发现什么?当前第8页\共有50页\编于星期六\4点9目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术当前第9页\共有50页\编于星期六\4点10误差(波动)偶然误差可减小但不可消除系统误差可消除当前第10页\共有50页\编于星期六\4点11抽样样本大小AQL0.0100.0150.0250.0400.0650.10.150.250.400.651.01.52.54.06.510抽样数收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退1~820/19~1530/116~2550/11/226~5080/11/22/351~90130/11/22/33/491~150200/11/22/33/45/6151~280320/11/22/33/45/67/8281~500500/11/22/33/45/67/810/11501~1200800/11/22/33/45/67/810/1114/151201~32001250/11/22/33/45/67/810/1114/1521/223201~100002000/11/22/33/45/67/810/1114/1521/2210001~350003150/11/22/33/45/67/810/1114/1521/2235001~1500005000/11/22/33/45/67/810/1114/1521/22150001~5000008000/11/22/33/45/67/810/1114/1521/22≥50000112500/11/22/33/45/67/810/1114/1521/22当前第11页\共有50页\编于星期六\4点12连续数据和离散数据连续数据定量信息含量大离散数据定性信息含量小当前第12页\共有50页\编于星期六\4点13判断数据属性销售订单准确度数据输入准确度销售地区用通规测量得到的孔径用卡尺测量得到的孔径客户热线对话时间空调制冷剂的重量一批顾客中不满意的人数一批顾客中不满意的比例当前第13页\共有50页\编于星期六\4点14数据的居中程度和离散程度主要的居中指标平均值 数据集的平均值中位数 数据排序后得到的中间数众数 数据集中最频繁出现的值主要的离散指标极差 数据集中最大值与最小值的差值方差 与平均值间距的平方和的平均值标准偏差 方差的平方根当前第14页\共有50页\编于星期六\4点15正态曲线大多数(但不是所有)数据符合正态分布当前第15页\共有50页\编于星期六\4点16目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术当前第16页\共有50页\编于星期六\4点17数据挖掘简介数据挖掘(DataMining)的概念从数据库数据中揭示出隐含的、未知的并有潜在价值的信息决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助做出正确的决策当前第17页\共有50页\编于星期六\4点18数据挖掘主要动作分类估值预测关联聚集可视化描述当前第18页\共有50页\编于星期六\4点19案例第一次战役 1950年10月26日 1950年11月02日第二次战役 1950年11月25日 1950年12月02日第三次战役 1950年12月31日 1951年01月08日当前第19页\共有50页\编于星期六\4点20案例丰田大规模召回事件引起全球强烈反响,引发丰田信誉危机当前第20页\共有50页\编于星期六\4点21目录数理统计常识数理统计技术基础动作图表操作典型工具和应用当前第21页\共有50页\编于星期六\4点22基础动作搜集整理分析评估展示当前第22页\共有50页\编于星期六\4点23目录数理统计常识数理统计技术基础动作图表操作典型工具和应用当前第23页\共有50页\编于星期六\4点24图表类型数字型逻辑型当前第24页\共有50页\编于星期六\4点25图表的注意事项选取适当的图表类型数量图表应写清单位引用资料应说明出处不要妄图表达过多的信息图例一般控制在五个以下尽量简单明了、利于理解当前第25页\共有50页\编于星期六\4点26动态图表当前第26页\共有50页\编于星期六\4点27报告制作原则提案型报告说明型报告当前第27页\共有50页\编于星期六\4点28文档制作原则逻辑清晰方案多选文字精炼内容可视恰当修饰体积小巧制作迅速当前第28页\共有50页\编于星期六\4点29报告的需求管理报告的客户谁在看报告?希望看什么?希望的频率?希望的详略?相关的技巧买点和卖点金字塔原理当前第29页\共有50页\编于星期六\4点30报告的素材准则中肯可比准确时效可靠清晰当前第30页\共有50页\编于星期六\4点31素材组织的FAB技巧Feature 特点Advantage 优点Benefit 利益BenefitAdvantageFeature客户关注点当前第31页\共有50页\编于星期六\4点32目录数理统计常识数理统计技术基础动作图表操作典型工具和应用当前第32页\共有50页\编于星期六\4点33规范处理数据和数据有效性数据处理的良好习惯Excel数据有效性当前第33页\共有50页\编于星期六\4点34层别法、聚类和表格维度层别法、聚类一维表和二维表当前第34页\共有50页\编于星期六\4点35数据透视表当前第35页\共有50页\编于星期六\4点36将数据按顺序等距分组,体现各组内频数的柱状图轮廓符合正态分布曲线说明处于稳定状态通过异常轮廓形状分析可定位异常的原因直方图当前第36页\共有50页\编于星期六\4点37案例174185189196208190178184190205184185194191205205207207207206210209217214214206209210当前第37页\共有50页\编于星期六\4点38表现各项目频度降序排列及累积比例二八原则大问题优先柏拉图当前第38页\共有50页\编于星期六\4点39ABC分析法A类0~70%,主要影响因素B类70~90%,次要影响因素C类90~100%,一般影响因素ABC的划分不是绝对的当前第39页\共有50页\编于星期六\4点40练习张女士结婚五年以来与丈夫发生纠纷如下不做家务 28次深夜不归 5次不良嗜好 5次没送礼物 1次胡乱花钱 3次婆媳关系 50次异性交往 8次请制作柏拉图并用ABC法分析当前第40页\共有50页\编于星期六\4点41散布图、关联规则和预测研究两个特性之的内在关系坐标轴分别表示结果特性和原因特性使得解决问题时找出强相关的原因当前第41页\共有50页\编于星期六\4点42常见类型散布图正相关强X的增加导致Y的明显增加正相关弱X的增加导致Y的略微增加因变量自变量强正相关弱正相关因变量自变量当前第42页\共有50页\编于星期六\4点43常见类型负相关强X的增加导致Y的明显减少负相关弱X的增加导致Y的略微减少散布图因变量自变量强负相关自变量弱负相关因变量当前第43页\共有50页\编于星期六\4点44常见类型散布图无相关Y的变化与X的变化毫无关系曲线关系X与Y之间无线性关系但符合某种曲线变化规律曲线相关因变量自变量不相关自变量因变量当前第44页\共有50页\编于星期六\4点45预测Forecast法趋势线法当前第45页\共有50页\编于星期六\4点46单变量求解当前第46页\共有50页\编于星期六\4点47规划求解当前第47页\共有50页\编于星期六\4点48矩阵数据分析法矩阵数据分析法(MatrixDataAnalysisChart)用于排定优先级、做多目标决策量化表示各元素的关系,更准确地整理和分析结果当前第48页\共有50页\编于星期六\4点49案例

易于控制易于使用网络性能软件兼容便于维护总分权重易于控制041319.002

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论