版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术及数据分析1课程收益学习数理统计的理念熟悉常见的处理套路掌握常用软件的使用解决学员的具体问题2目录数理统计常识数理统计技术3目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术4案例5案例记者 在短时间内发生这么多起跳楼的事件,如果站在理论 角度上,发生率算不算高?樊富珉 按卫生部统计,目前中国自杀率大概是十万分之十六 左右。而富士康40多万人,约十万分之二三左右,大 学生我们也做过统计,大概十万分之二到三左右。如 果从全国的自杀率来比的话,应该还是低的6案例世界银行发展委员会25日通过了发达国家向发展中国家转移投票权的改革方案,这一改革从一个侧面反映了世界经济版图的变化本次改革中,发达国家向发展中国家共转移了3.13个百分点的投票权。中国在世行的投票权从目前的2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本世界银行规则:任何重要的决议必须由85%以上的表决权决定名次国家改革后投票权改革前投票权1美国15.85%15.85%2日本6.84%7.62%3中国4.42%2.77%4德国4.00%4.35%5法国3.75%4.17%5英国3.75%4.17%7印度2.91%2.77%8俄罗斯2.77%2.77%8沙特2.77%2.77%10意大利2.64%2.71%7案例在一次海难中,统计数据为头等舱乘客319人,200人幸存二等舱乘客269人,117人幸存三等舱乘客699人,172人幸存从以上数据你可以发现什么?8目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术9误差(波动)偶然误差可减小但不可消除系统误差可消除10抽样样本大小AQL0.0100.0150.0250.0400.0650.10.150.250.400.651.01.52.54.06.510抽样数收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退1~820/19~1530/116~2550/11/226~5080/11/22/351~90130/11/22/33/491~150200/11/22/33/45/6151~280320/11/22/33/45/67/8281~500500/11/22/33/45/67/810/11501~1200800/11/22/33/45/67/810/1114/151201~32001250/11/22/33/45/67/810/1114/1521/223201~100002000/11/22/33/45/67/810/1114/1521/2210001~350003150/11/22/33/45/67/810/1114/1521/2235001~1500005000/11/22/33/45/67/810/1114/1521/22150001~5000008000/11/22/33/45/67/810/1114/1521/22≥50000112500/11/22/33/45/67/810/1114/1521/2211连续数据和离散数据连续数据定量信息含量大离散数据定性信息含量小12判断数据属性销售订单准确度数据输入准确度销售地区用通规测量得到的孔径用卡尺测量得到的孔径客户热线对话时间空调制冷剂的重量一批顾客中不满意的人数一批顾客中不满意的比例13数据的居中程度和离散程度主要的居中指标平均值 数据集的平均值中位数 数据排序后得到的中间数众数 数据集中最频繁出现的值主要的离散指标极差 数据集中最大值与最小值的差值方差 与平均值间距的平方和的平均值标准偏差 方差的平方根14正态曲线大多数(但不是所有)数据符合正态分布15目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术16数据挖掘简介数据挖掘(DataMining)的概念从数据库数据中揭示出隐含的、未知的并有潜在价值的信息决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助做出正确的决策17数据挖掘主要动作分类估值预测关联聚集可视化描述18案例第一次战役 1950年10月26日 1950年11月02日第二次战役 1950年11月25日 1950年12月02日第三次战役 1950年12月31日 1951年01月08日19案例丰田大规模召回事件引起全球强烈反响,引发丰田信誉危机20目录数理统计常识数理统计技术基础动作图表操作典型工具和应用21基础动作搜集整理分析评估展示22目录数理统计常识数理统计技术基础动作图表操作典型工具和应用23图表类型数字型逻辑型24图表的注意事项选取适当的图表类型数量图表应写清单位引用资料应说明出处不要妄图表达过多的信息图例一般控制在五个以下尽量简单明了、利于理解25动态图表26报告制作原则提案型报告说明型报告27文档制作原则逻辑清晰方案多选文字精炼内容可视恰当修饰体积小巧制作迅速28报告的需求管理报告的客户谁在看报告?希望看什么?希望的频率?希望的详略?相关的技巧买点和卖点金字塔原理29报告的素材准则中肯可比准确时效可靠清晰30素材组织的FAB技巧Feature 特点Advantage 优点Benefit 利益BenefitAdvantageFeature客户关注点31目录数理统计常识数理统计技术基础动作图表操作典型工具和应用32规范处理数据和数据有效性数据处理的良好习惯Excel数据有效性33层别法、聚类和表格维度层别法、聚类一维表和二维表34数据透视表35将数据按顺序等距分组,体现各组内频数的柱状图轮廓符合正态分布曲线说明处于稳定状态通过异常轮廓形状分析可定位异常的原因直方图36案例17418518919620819017818419020518418519419120520520720720720621020921721421420620921037表现各项目频度降序排列及累积比例二八原则大问题优先柏拉图38ABC分析法A类0~70%,主要影响因素B类70~90%,次要影响因素C类90~100%,一般影响因素ABC的划分不是绝对的39练习张女士结婚五年以来与丈夫发生纠纷如下不做家务 28次深夜不归 5次不良嗜好 5次没送礼物 1次胡乱花钱 3次婆媳关系 50次异性交往 8次请制作柏拉图并用ABC法分析40散布图、关联规则和预测研究两个特性之的内在关系坐标轴分别表示结果特性和原因特性使得解决问题时找出强相关的原因41常见类型散布图正相关强X的增加导致Y的明显增加正相关弱X的增加导致Y的略微增加因变量自变量强正相关弱正相关因变量自变量42常见类型负相关强X的增加导致Y的明显减少负相关弱X的增加导致Y的略微减少散布图因变量自变量强负相关自变量弱负相关因变量43常见类型散布图无相关Y的变化与X的变化毫无关系曲线关系X与Y之间无线性关系但符合某种曲线变化规律曲线相关因变量自变量不相关自变量因变量44预测Forecast法趋势线法45单变量求解46规划求解47矩阵数据分析法矩阵数据分析法(MatrixDataA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年简化版车辆租赁合同一
- 2024年SET协议安全承诺3篇
- 青少年压力应对
- 2024年特色餐馆服务员与雇主人工劳务合同
- 2024年度投标担保合同制定与实施合同3篇
- 《经典常谈》整本书阅读导读课教学实录-2023-2024学年统编版语文八年级下册
- 《呋喃基聚合物结构调控及光伏性能研究》
- 《武汉市4~36个月婴幼儿气质特征及其影响因素研究》
- 2024年牛羊肉食材批量采购协议
- 2023年齐齐哈尔拜泉县大学生乡村医生专项计划招聘的笔试真题
- 公司理财《公司理财》
- 计算机组成智慧树知到期末考试答案2024年
- 宏观经济学(山东联盟-山东财经大学)智慧树知到期末考试答案2024年
- 冶金装备制造行业产业链协同与生态构建
- GB/T 19964-2024光伏发电站接入电力系统技术规定
- 篮球比赛记录表
- 2022-2023学年北京市朝阳区初一(上)期末考试英语试卷(含详细答案解析)
- 《初中班会课件:如何正确对待网络暴力》
- 保险金信托培训课件
- 芒果干行业标准
- 常用家庭园养植物课件
评论
0/150
提交评论