版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
BasicStatistic基本统计学2/5/2023数据的分类2/5/2023什么是数据数据是来自观察的,由一个过程所搜集得来的数据可让我们描绘过程,了解过程,改善过程甚至控制过程.Data数据驱动决策和行动2/5/2023数据在过程改善中的重要性InGodwetrust我们只相信上帝所有其他人请拿出数据来2/5/2023两种主要数据类型(类项数据)(测量数据)(名目型)(连续型)(顺序型)(计数型)离散数据变量数据2/5/2023练习一请标出下列数据的类型,A代表计数型数据,V代表计量型数据
顾客平均消费,电话待机时间
产品是否合格职员-Tom,Nancy,Howard.
支出与预算相符
输入支出费用的时间2/5/2023答案
顾客平均消费,电话待机时间
v
产品是否合格A
职员-Tom,Nancy,Howard.A
4)支出与预算相符A5)输入支出费用的时间v数据类型(VorA)2/5/2023小组讨论(练习二)计量型数据
计量型数据的益处?
计量型数据的缺点?计数型数据计数型数据的益处?计数型数据的缺点?2/5/2023小组讨论–答案计量型数据益处:1.能够为使用相对小范围抽样的过程提供详细的信息2.适用于低缺陷率3.能够预估发展趋势和情况缺点:1.通常较难得到数据2.分析更为复杂2/5/2023小组讨论–答案计量型数据益处:容易得到数据,并且计算方法简单2.数据容易理解3.数据随时可得缺点:1.无法显示缺陷怎样发生及过程如何变化2.不适合低缺陷率(需要大量的抽样)3.不能预测发展趋势和情况2/5/2023数据类型比较计量型数据计数型数据连续数据计数数据通常为正态分布通常为二项式分布或泊松分布实际数值合格/不合格实际定义严谨数据定义较差需少量抽样需大量抽样2/5/2023
知识水平1.没有数据,也没有经验–只有观点2.没有数据–只有经验3.收集了数据-但只是看数字有多少4.分组的数据-图表5.描述性统计数据–中数、标准差等等6.推理性统计–预测过程绩效:能力分析,回归和实验计划法2/5/2023转化计数型数据如可以,将计数型数据转换为计量型数据能增加它的功能。计数型数据计量型数据转换为2/5/2023VariableData计量型数据2/5/2023计量型数据–学习目的完成此阶段学习后,学员能够Ⅰ利用数据的分布形状,中央趋势和变异大小进行特性化Ⅱ
如果数据是正态分布的,计算z数值,利用Z数值表确定超出某一数值的比例2/5/2023离散数据与连续数据连续数据的优点:离散=稀少的信息连续=丰富的信息2/5/2023统计学基本术语Population总体
想要测量对象的全部Parameter参数用总体的所有数据计算出的数值(如均值,
标准差),称为总体的参数x参数总体平均值总体标准差总体σ2/5/2023统计学基本术语Sample样本从总体抽出的部分数据Statistics统计量用样本的所有数据计算出的数值(如均值,
标准差),称为样本的统计量x统计量样本平均值样本标准差s总体样本2/5/2023统计学基本术语Population总体已制造或将要制造对象的全体集合,用所关注的特性描述我们究竟能否知道真正的整体参数?Sample样本
统计研究中实际测量的目标组样本通常是整体的子集Σ=整体标准差S=样本标准差Population整体sample样本2/5/2023描述计量型数据集“报告上司:河水深度1.6M,士兵平均高度1.7M,过河没有问题”,但是..至于我们不能只看平均值,还需要利用其他统计量来分析……2/5/2023描述计量型数据集一组计量型数据能显示以下3个特性:CentralTendency(Mean,Median,Mode)中央趋势(均值,中值,众数)Variable(range,StandardDeviation,Variance)变异(全距,标准差,方差)Shape形状2/5/2023参数和统计量符号Mean均值Variance方差StandardDeviation标准差Proportion比例总体(参数)μσσπ样本(统计量)
хs2sp2/5/2023位置测量(CentralTendency)中心趋势Mean均值Median中值Mode众数Quartiles四分值2/5/2023样本均值若样本(样本量为n)的观测值为x1,x2,…xn,则样本均值为:
类似地,一个有着大量但限个(N个)观测值的总体,其总体均值为:Mean均值2/5/2023Mean均值练习三10个连接线的拉拔强度为:
230240236248252278265262拉拔强度的均值是多少?10个观测值的均值为:2/5/2023Mean均值练习四199X年一个行动中,战机进行了3000次战斗,总共用时6900小时。那末每次战斗平均用时多少?每次战斗平均用时为:注意所使用的符号2/5/2023
均值的特性均值的计算使用了每个观测值;每个观测值对均值都有影响。所有观测值对均值的偏差的总和为零。均值对极端的观测值很敏感,极端值会导致均值向他偏移。Xxxxxxx6351274△6△2△42/5/2023Median中值
将一组观测值按大小顺序排列,位于中心的数值即为中值
若观测值的个数为偶数,则中值为中间2个数值的平均若观测值的个数为奇数,则位于中心的数值即中值2/5/2023Median中值样本中值
假如x(1),x(2),…,x(n))是按大小排序的样本值,则样本中值为:中值的优点是不受极端大或极端小的观测值的影响。2/5/2023Median中值练习五假设一个样本观测值为:
3124786
样本均值和样本中值是多少?这2个值是测量数据中心趋势的合理指标吗?2/5/2023Median中值(b)假如最后一个数值改变为:
3124782680
则样本平均值和样本中值是多少?
据此你有何结论?2/5/2023Median中值MedianvsMean中值与均值
因为中值不象均值对极端值敏感,因此,当有极端大或极端小值时,中值比均值更能代表数据的位置典型的例子是一个城市居民的收入中位值2/5/2023中值有时会有欺骗性50%-50%Rule?一半一半准则?
以下一组数据的中值是多少?
2,2,2,2,2,2,90可以用一半一半准则吗?2/5/2023Mode众数众数是样本中出现次数最多的观测值。众数可以是唯一的,也可以有不止一个,有时并不存在众数。2/5/2023Mode众数练习六如果样本观测值为:(a)691358134613110136913581346131106256134372681众数是什么?具有一个众数,两个众数或多于两个众数分布的数据分布叫什么?(单峰分布…)2/5/2023Mode众数为何使用众数?
当观测值为分类式(如名义数据,序列数据)时.众数是描述数据位置的最好的指标.典型的例子是,一个公司内员工收入的众数众数的重要信息当众数不止1个时,从中抽取样本的总体通常是多个总体的混合2/5/2023均值、中值、众数的比较MOMeMeMO正态分布偏上分布偏下分布MOMe≥≥MOMe==MOMe≤≤2/5/2023Quartiles四分值
将一组按大小顺序排列的数据平均分为四部分,分界点即四分值.
第一四分值(低四分值),约25%的观测值小于它.第二四分值,约50%的观测值小于它,即中值.第三四分值(高分值),约75%的观测值小于它.2/5/2023Quartiles四分值练习七
以下为20个电灯泡失效期间的观测值,已按递增顺序排列.2102162523003664546247208169241216129613921488154224802856319235283710请确定三个四分值.计算方法:先确定位置再计算四分值Q1的位置:(n+1)/4Q2的位置:2(n+1)/4=(n+1)/2Q3的位置:3(n+1)/42/5/2023Quartiles四分值答案
Q1的位置:(n+1)/4=(20+1)/4=21/4=5.25Q2的位置:2(n+1)/4=2(20+1)/4=2*21/4=10.5Q3的位置:3(n+1)/4=3(20+1)/4=3*21/4=15.75则:Q1=366+(454-366)*0.25=388Q2=924+(1216-924)*0.5=1070Q3=1542=(2480-1542)*0.75=2245.52/5/2023Quartiles四分值2/5/2023散布的测量(变异)Range极差Variance方差StandardDeviation标准差Inter-QuartileRange四分植极差2/5/2023Range极差样本极差为样本中最大和最小观测值之间的差别,即:极差是测量数据散布或变异的最简单的方法但它忽略了最大和最小值之间的所有信息r=xmax-xmin2/5/2023Range极差试考虑以下的2个样本:{102050607090}and{10,40,40,40,90}具有相同的极差(r=80)但是,第二个样本的变异只是2个极端数值的变异,而在第1个样本,中间的数值也有相当大的变异.当样本量较小(n≤10)时,极差丢失信息的问题不是很严重2/5/2023方差与标准差若x1,x2,…,xn是一个具有N个观测值的样本,则样本方差为:样本标准差是样本方差的算术平方根,即:2/5/2023方差计算练习八:计算下列观测值的方差和标准差.305070901101302/5/2023方差计算ixixi-x(xi-x)2130-502500250-30900370-101004901010051103090061305025002/5/2023方差与标准差再考虑以下2个样本.SampleA:102050607090SampleB:104040
40
4090
SampleASampleBRange极差8080Variance方差????StandardDeviation标准差????2/5/2023方差与标准差类似于样本方差S2,用总体的所数据计算出总体变异—总体方差(σ2)总体的标准差(σ)是总体方差的算术平方根
对于包含N个数值的有限总体,其方差为:
σ2=2/5/2023方差特性
方差计算使用了所有观测值,每个观测值对方差都有影响
方差对极端值很敏感,因平方的缘故,极端大的观测值会严重的放大方差。2/5/2023四分值极差
四分值极差是测量散布的另一指标:IQR=Q3-Q1
四分值极差不如极差对极端值敏感当分布显著不对称时,用它衡量散布会更好样本(10,20,50,60,90)和(10,40,40,40,90)的四分值极差分别是40和0.2/5/2023TheNormalDistribution正态分布正态分布是一种具有特定的、非常有用的特性的数据分布
这些特性对我们理解所研究之过程的特性十分有用大部分自然现象和人造过程是正态分布或可有正态分布描述2/5/2023TheNormalDistribution正态分布特性1
:只需知道下述两项参数就可完整描述正态分布均值标准差分布1分布2分布3此三项正态分布有何区别?2/5/2023正态曲线和概率特性2
:曲线下面的面积可用来估算某一特定事件发生的累积概率得到在两个值之间的某个价值的累积概率99.73%95%68%离均值的标准差数目样本值的概率40%-30%-20%-10%-0%-2/5/2023标准差的经验规则
当一组数据不是最理想正态分布时,前述累积概率规则仍可应用比较理论(理想)正态分布和经验(现实)分布NumberofStandardDeviations标准差数目TheoreticalNormal理论正态EmpiricalNormal经验正态+/-1σ68%60-75%+/-2σ95%90-98%+/-3σ99.7%99-100%2/5/2023正态分布特点-3σ-2σ-1σ1σ2σ3σ68%95%99.73%StandardDeviation标准差σAverage标准差2/5/2023长期和短期能力(Z-偏差)ZLT=ZST-1.5
Sigma水平短期DPMO长期DPMO1158655.3691462.52
22750.1308537.53
1350.0
66807.24
31.7
6209.75
0.3
232.76
0.0018
3.42/5/2023正态分布鉴于许多过程输出都是呈正态分布,所以可以用正态曲线的特点预测过程对象总体.即使非正态数据也能转化为正态数据,所以正态曲线的特点仍然可以用来做预测2/5/2023正态曲线下的区域分析过程能力时,我们运用正态曲线下的区域预测超过规格界限的产品所占的比例.5%5%规格上限USL规格下限LSL2/5/2023标准正态分布标准正态分布,也叫Z分布,有下列参数:Z代表距离均值的标准差的数量μ=0
σ=1
-4σ
-3σ
-2σ
-1σ
μ
1σ2σ
3σ
4σ
2/5/2023Z代表从均值到能在达到(容纳)多少个标准差
-4σ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幻灯片照相产品供应链分析
- β受体阻断药产品供应链分析
- 维生素泡腾片市场分析及投资价值研究报告
- 为残障人士提供服务行业市场调研分析报告
- 保险经纪服务行业市场调研分析报告
- 自行车脚踏车车轮项目运营指导方案
- 农业碳汇经济行业市场调研分析报告
- 云航空服务行业经营分析报告
- 团队协作培训-企业培训与咨询师
- 乐器背带产业链招商引资的调研报告
- 西师大版六年级数学上册期中测试卷(附答案)
- 岗位价值评估方法(共15页)
- 202X年妇联赴外出学习考察心得体会.doc
- suzuki偶联反应(课堂PPT)
- 《平均分的认识》说课稿青岛版
- 悬臂式挡土墙计算37623
- 现有或拟新增加的放射源和射线装置明细表
- 三年级上册数学教师家长会PPT
- 经济犯罪案件中的查账技巧
- 成都市院士(专家)创新工作站管理办法
- XX员工职业发展通道管理制度
评论
0/150
提交评论