六西格玛内训课件基础统计_第1页
六西格玛内训课件基础统计_第2页
六西格玛内训课件基础统计_第3页
六西格玛内训课件基础统计_第4页
六西格玛内训课件基础统计_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

六西格玛内训课件基础统计六西格玛内训课件基础统计理论目录4

1235

统计目的数据分类统计概述基本图表六西格玛度量的种类基础统计理论目录41235统计目的数据分类统计第一部分统计目的第一部分你看到了什么?你看到了什么?你需要整个图片!你需要整个图片!数据的重要性数据是来自观察的,由一个过程所搜集得来的数据可让我们描绘过程,了解过程,改善过程甚至控制过程.Data数据驱动决策和行动数据的重要性数据是来自观察的,由一个过程所搜集得来的数据可让数据对六西格玛很重要使用统计学来解决真实的问题真实的解决方案统计学解决方案统计学问题真实的问题把问题转换为数字(Y)定义Y的规格(可接受范围)理解(xi)与流程输出(Y)的关系 Y=f(x1,x2,x3...)影响流程表现的关键因子是什么?找到因子(xi)的水平和操作窗口,保证输出(Y)是在可接受范围内控制输入(xi)避免输出/缺陷数据对六西格玛很重要使用统计学来解决真实的问题真实的统计学统统计思想所有作业是相互关联的工序的系统例)线路板作业过程原料投入贴插装清洗喷胶所有工序中都存在散布可避免原因不可避免原因同样原料同样生产工艺同样作业者同样方法发生散布统计思想是

遵守以下四种根本原则的学习,思考和实践的一种哲学。统计思想所有作业是相互关联的工序的系统例)线路板作业过程原

调查散布和减少散布的活动减少工序散布的活动减少产品质量散布顾客满足费用降低考虑判断失误的错误注意从样本数据的结果判断时发生错误统计思想不是单纯的数字组合或计算,而是为质量革新而思考的方法,也是思考的过程。统计思想不是统计知识或工具,更不是软件的具体操作,而是学会用统计思维看待和分析问题,避免只看到表面层次的现象就去下结论作决策。统计思想举例:去年公司的顾客满意率为80%,今年调查了100位顾客,有85位顾客表示满意,满意率达到85%。能否说今年的顾客满意率比去年提高了5%?调查散布和减少散布的活动减少工序散减少产品质量顾客满足费用当重复测量时,经常产生不同的结果,这就是偏差偏差的类型:通常原因的偏差:测量中的差异是被期望的并可以预测的特殊原因的偏差(随机):测量中的差异是不可预测的偏差当重复测量时,经常产生不同的结果,这就是偏差偏差的类型:偏差我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题如果所有的区域的产品的销售量完全相同,我们将怀疑数据的真实性.偏差的存在使我们的工作更有挑战性我们通常不相信来源于单个数据的结果,通常收集多个数据并注意收集的方法以减少偏差结论:偏差是自然存在的,被期望的并是统计的基础偏差我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题偏差的统计领域用下列方法处理偏差

描述型统计--用图表或总结性的数字(中心值,方差,标准偏差)来描述一系列数据的特征.

统计推论--当结果的差异可能因为随机偏差或不能归属为随机偏差时所作的决定。(置信区间和假设检验)

试验设计(DOE)--收集并分析数据,以估计过程并改变效果.

统计领域中偏差的处理统计领域用下列方法处理偏差描述型统计--用图表或总结性的数过程偏差确定过程是否稳定

如果过程不稳定,鉴别并消除不稳定的要因

确定过程的平均值的位置

-它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以达到目标值

估计总散布的幅度

-与顾客的要求(规格限)比起来,是可接受的吗?

如果不是,确定散布源,而后消除或减少他们对过程的影响。

过程偏差确定过程是否稳定第二部分数据分类第二部分数据的种类不间断的总是可以以更小的单位来测量经常与测量系统一起出现不可以以更小的单位来测量只能选择几个有限的数值连续型的离散型的举例时间,重量,金额,长度举例二元的:男/女,好/坏,Yes/no分类的:周一-周日,地点(Paris,London,Beijing,...)计数:一张发票上的错误数目,一个月内发生意外的次数数据的种类不间断的不可以以更小的单位来测量连续型的离散型的举连续型数据

益处:1.能够为使用相对小范围抽样的过程提供详细的信息2.适用于低缺陷率3.能够预估发展趋势和情况

缺点:1.通常较难得到数据2.分析更为复杂连续型数据益处:缺点:离散型数据

益处:容易得到数据,并且计算方法简单2.数据容易理解3.数据随时可得

缺点:1.无法显示缺陷怎样发生及过程如何变化2.不适合低缺陷率(需要大量的抽样)3.不能预测发展趋势和情况离散型数据益处:缺点:数据类型比较连续型数据离散型数据连续数据计数数据通常为正态分布通常为二项式分布或泊松分布实际数值合格/不合格实际定义严谨数据定义较差需少量抽样需大量抽样数据类型比较连续型数据离散型数据连续数据计数数据通常为正态分练习:这是什么种类的数据?申请贷款所需要的时间每张发票上的错误数目每张发票上的缺陷百分比一天内销售酒的数量导线的长度办公室的地点申请贷款所需要的时间(天)销售人员一天内拜访的客户数量赢得招标的百分比销售人员的销售额销售人员的名字练习:这是什么种类的数据?申请贷款所需要的时间第三部分统计概述第三部分总体想要测量对象的全部参数用总体的所有数据计算出的数值(如均值,

标准差),称为总体的参数x参数总体平均值总体标准差总体σ统计学基本术语总体x参数总体σ统计学基本术语统计学基本术语样本从总体抽出的部分数据统计量用样本的所有数据计算出的数值(如均值,

标准差),称为样本的统计量x统计量样本平均值样本标准差s总体样本统计学基本术语x统计量s总体样本描述计量型数据集一组计量型数据能显示以下3个特性:中央趋势(均值,中值,众数)变异(全距,标准差,方差)形状描述计量型数据集一组计量型数据能显示以下3个特性:参数和统计量符号Mean均值Variance方差StandardDeviation标准差Proportion比例总体(参数)μσσπ样本(统计量)

хs2sp参数和统计量符号Mean均值总体(参数)样本(统计量)数据位置测量中心趋势均值中值众数四分值数据位置测量中心趋势样本均值若样本(样本量为n)的观测值为x1,x2,…xn,则样本均值为:类似地,一个有着大量但限个(N个)观测值的总体,其总体均值为:均值样本均值均值练习三10个连接线的拉拔强度为:

230240236248252278265262拉拔强度的均值是多少?10个观测值的均值为:均值练习三均值练习四199X年一个行动中,战机进行了3000次战斗,总共用时6900小时。那末每次战斗平均用时多少?每次战斗平均用时为:注意所使用的符号均值练习四注意所使用的符号均值均值的计算使用了每个观测值;每个观测值对均值都有影响。所有观测值对均值的偏差的总和为零。均值对极端的观测值很敏感,极端值会导致均值向他偏移。Xxxxxxx6351274△6△2△4均值的特性均值的计算使用了每个观测值;每个观测值对均值都有影响。X

将一组观测值按大小顺序排列,位于中心的数值即为中值若观测值的个数为偶数,则中值为中间2个数值的平均若观测值的个数为奇数,则位于中心的数值即中值中值将一组观测值按大小顺序排列,位于中心的样本中值

假如x(1),x(2),…,x(n))是按大小排序的样本值,则样本中值为:中值的优点是不受极端大或极端小的观测值的影响。中值样本中值中值练习五假设一个样本观测值为:

3124786

样本均值和样本中值是多少?这2个值是测量数据中心趋势的合理指标吗?中值练习五中值(b)假如最后一个数值改变为:

3124782680

则样本平均值和样本中值是多少?据此你有何结论?中值(b)假如最后一个数值改变为:中值MedianvsMean中值与均值因为中值不象均值对极端值敏感,因此,当有极端大或极端小值时,中值比均值更能代表数据的位置典型的例子是一个城市居民的收入中位值中值MedianvsMean中值与均值中值中值有时会有欺骗性50%-50%Rule?一半一半准则?以下一组数据的中值是多少?

2,2,2,2,2,2,90可以用一半一半准则吗?中值有时会有欺骗性50%-50%Rule?一半一半准众数是样本中出现次数最多的观测值。众数可以是唯一的,也可以有不止一个,有时并不存在众数。众数众数是样本中出现次数最多的观测值。众数练习六如果样本观测值为:(a)691358134613110136913581346131106256134372681众数是什么?具有一个众数,两个众数或多于两个众数分布的数据分布叫什么?(单峰分布…)众数练习六众数为何使用众数?

当观测值为分类式(如名义数据,序列数据)时.众数是描述数据位置的最好的指标.典型的例子是,一个公司内员工收入的众数众数的重要信息当众数不止1个时,从中抽取样本的总体通常是多个总体的混合众数为何使用众数?众数的重要信息众数均值、中值、众数的比较MOMeMeMO正态分布偏上分布偏下分布MOMe≥≥MOMe==MOMe≤≤均值、中值、众数的比较MOMeMeMO正态分布偏上分布偏下分四分值

将一组按大小顺序排列的数据平均分为四部分,分界点即四分值.

第一四分值(低四分值),约25%的观测值小于它.第二四分值,约50%的观测值小于它,即中值.第三四分值(高分值),约75%的观测值小于它.四分值将一组按大小顺序排列的数据平均分为四部分,分界点练习七

以下为20个电灯泡失效期间的观测值,已按递增顺序排列.2102162523003664546247208169241216129613921488154224802856319235283710请确定三个四分值.计算方法:先确定位置再计算四分值Q1的位置:(n+1)/4Q2的位置:2(n+1)/4=(n+1)/2Q3的位置:3(n+1)/4四分值练习七计算方法:先确定位置再计算四分值四分值答案

Q1的位置:(n+1)/4=(20+1)/4=21/4=5.25Q2的位置:2(n+1)/4=2(20+1)/4=2*21/4=10.5Q3的位置:3(n+1)/4=3(20+1)/4=3*21/4=15.75则:Q1=366+(454-366)*0.25=388Q2=924+(1216-924)*0.5=1070Q3=1542=(2480-1542)*0.75=2245.5四分值答案四分值数据散布的测量(变异)Range极差Variance方差StandardDeviation标准差Inter-QuartileRange四分植极差数据散布的测量(变异)Range极差样本极差为样本中最大和最小观测值之间的差别,即:极差是测量数据散布或变异的最简单的方法但它忽略了最大和最小值之间的所有信息r=xmax-xmin极差样本极差为样本中最大和最小观测值之间的差别,即:r=x试考虑以下的2个样本:{102050607090}and{10,40,40,40,90}具有相同的极差(r=80)但是,第二个样本的变异只是2个极端数值的变异,而在第1个样本,中间的数值也有相当大的变异.当样本量较小(n≤10)时,极差丢失信息的问题不是很严重极差试考虑以下的2个样本:极差方差与标准差若x1,x2,…,xn是一个具有N个观测值的样本,则样本方差为:样本标准差是样本方差的算术平方根,即:方差与标准差若x1,x2,…,xn是一个具有N个观测值方差计算练习八:计算下列观测值的方差和标准差.30507090110130方差计算ixixi-x(xi-x)2130-502500250-30900370-10100490101005110309006130502500方差计算ixi方差与标准差再考虑以下2个样本.SampleA:102050607090SampleB:104040404090

SampleASampleBRange极差8080Variance方差????StandardDeviation标准差????方差与标准差再考虑以下2个样本.类似于样本方差S2,用总体的所数据计算出总体变异—总体方差(σ2)总体的标准差(σ)是总体方差的算术平方根对于包含N个数值的有限总体,其方差为:

σ2=方差与标准差类似于样本方差S2,用总体的所数据计算出总体变异—总体方差(方差特性

方差计算使用了所有观测值,每个观测值对方差都有影响

方差对极端值很敏感,因平方的缘故,极端大的观测值会严重的放大方差。方差特性方差计算使用了所有观测值,每个观测值对方差都有四分值极差

四分值极差是测量散布的另一指标:IQR=Q3-Q1

四分值极差不如极差对极端值敏感当分布显著不对称时,用它衡量散布会更好样本(10,20,50,60,90)和(10,40,40,40,90)的四分值极差分别是40和0.四分值极差四分值极差是测量散布的另一指标:IQR=Q3正态分布正态分布是一种具有特定的、非常有用的特性的数据分布这些特性对我们理解所研究之过程的特性十分有用大部分自然现象和人造过程是正态分布或可有正态分布描述正态分布正态分布是一种具有特定的、非常有用的特性的数据分布标准正态分布标准正态分布,也叫Z分布,有下列参数:Z代表距离均值的标准差的数量μ=0

σ=1-4σ

-3σ

-2σ

-1σ

μ

1σ2σ3σ4σ

标准正态分布标准正态分布,也叫Z分布,μ=0-4σ特性1

:只需知道下述两项参数就可完整描述正态分布均值标准差分布1分布2分布3此三项正态分布有何区别?正态分布特性1:只需知道下述两项参数就可完整描述正态分布分布正态曲线和概率特性2

:曲线下面的面积可用来估算某一特定事件发生的累积概率得到在两个值之间的某个价值的累积概率99.73%95%68%离均值的标准差数目样本值的概率40%-30%-20%-10%-0%-正态曲线和概率特性2:曲线下面的面积可用来估算某一特定事正态分布特点-3σ-2σ-1σ1σ2σ3σ68%95%99.73%StandardDeviation标准差σAverage标准差正态分布特点-3σ-2σ-1σ1σ2σ3σ68%95%99.正态曲线下的区域分析过程能力时,我们运用正态曲线下的区域预测超过规格界限的产品所占的比例.5%5%规格上限USL规格下限LSL正态曲线下的区域分析过程能力时,我们运用正态曲线下的区域预测标准差的经验规则

当一组数据不是最理想正态分布时,前述累积概率规则仍可应用比较理论(理想)正态分布和经验(现实)分布NumberofStandardDeviations标准差数目TheoreticalNormal理论正态EmpiricalNormal经验正态+/-1σ68%60-75%+/-2σ95%90-98%+/-3σ99.7%99-100%标准差的经验规则当一组数据不是最理想正态分布时,前述累积概长期和短期能力(Z-偏差)ZLT=ZST-1.5Sigma水平

短期DPMO

长期DPMO1158655.3691462.5222750.1308537.531350.066807.2431.76209.750.3232.760.00183.4长期和短期能力(Z-偏差)ZLT=ZST-1.5Sigma第四部分基本图表第四部分这是什么?4.53.91.45.63.36.04.04.66.77.95.03.65.63.56.85.66.05.46.66.60.05.03.73.65.84.33.05.45.38.54.54.12.53.64.24.23.04.37.05.63.63.95.34.55.73.24.13.94.97.26.83.73.74.95.93.94.22.23.76.72.63.72.23.82.24.64.46.04.57.54.23.83.04.94.74.48.34.96.87.65.73.73.65.64.04.73.92.95.06.84.25.36.52.93.13.23.95.77.67.0顾客等待时间例如:你是PizzaHut的一个门店的经理.你要求你的助理记录每个顾客的等待时间,今天你已经有了100个数据.

这是什么?4.53.91.45.63.36.0观察顾客等待时间(Rate)打开PUMPING.MPJ

RATE转换为变量.时间序列图观察顾客等待时间(Rate)时间序列图时间序列图垂直轴(Y)显示被测变量的规模每个点代表一个实际的价值点是用一条线连接帮助视觉分析运行秩序等待时间(分钟)水平轴(X)反映了一段时间或序列顾客等待时间时间序列图垂直轴(Y)显示被测变量的规模每个点代表一个实际的观察顾客等待时间(Rate)打开PUMPING.MPJ

RATE转换为变量.直方图观察顾客等待时间(Rate)直方图等待时间(分钟)一个类别或等待的时间间隔Class“j”Class“k”Class“l”频率直方图等待时间(分钟)一个类别或等待的时间间隔Class“j”C产生具有正态曲线的直方图直方图产生具有正态曲线的直方图直方图频率最高频率(数量的点)等待时间(分钟)顾客等待时间的直方图水平轴(x)显示测量范围的变量钟形曲线纵轴(y)显示的频率直方图频率最高频率(数量的点)等待时间(分钟)顾客等待时间的直方图观察顾客等待时间(Rate)

打开PUMPING.MPJ文件RATE

作为变量.点图观察顾客等待时间(Rate)点图Minitab结果采集100位顾客实际的等待时间,作图如上。每一个点代表一个具有给定值输出的“事件”。随着点的积累,顾客等待时间的实际表现的特性可被看作一个“分布”。

点图Minitab结果采集100位顾客实际的等待时间,作图如上是各分布差异容易把握的数据调查方法.

让我们顾客等待时间打开文件PUMPING.MPJ用列RATE作为变量箱线图是各分布差异容易把握的数据调查方法.让我们顾客等待时间箱线Minitab结果90%75%50%25%10%Outlier箱线图可以体现数据扩散性及中心.

注意!箱线图中的中心线不是

平均

而是

中心值.箱线图Minitab结果90%75%50%25%10%Outli第五部分六西格玛度量的种类第五部分

Defect缺陷

Unit单位

Opportunity机会

DPU(DefectsPerUnit)单位的缺陷数

DPO(DefectsPerOpportunities)单位缺陷机会数

DPMO(DefectsPerMillionOpportunities)百万单位缺陷机会

RTY(RolledThroughputYield)过程通过率(受率)

SigmaLevel(Z值)

Z值的转换方法

Cp&Cpk(工程能力指数)6Sigma度量的种类Defect缺陷6Sigma度量的种类

Defect(缺陷):-所有诱发顾客不满足的

-所有与规定基准不一样的

-所有导致产品和服务质量下降的

Unit(单位)-产品和服务等流程过程中的对象或传递给顾客的最终产品和服务(一块单板,一批原材料,一个合同,一笔贷款,一份报表等)

Opportunity(机会)-一个产品和服务可能脱离基准的机会数

-是可测量的用语的意思Defect(缺陷):用语的意思

DPU(DefectsPerUnit):-单位缺陷数

-例如:一个数据报表上有100个数据,其中有5个数据错误-DPU=Defects/Unit=5/1=5

DPO(DefectsPerOpportunities)-机会缺陷数(每个机会出现缺陷的概率)-例如:一个数据报表上有100个数据,其中有5个数据错误

-DPO=Defects/(Unit数*Opportunity)=5/(1*100)=0.05

DPMO(DefectsPerMillionOpportunities)-百万机会缺陷(PPM)-DPMO=DPO*1,000,000=50000PPM用语的意思DPU(DefectsPerUnit):用语的意思注意:机会只有在被评价时才计算为机会例)

ZXJ10交换机中的一种单板在生产过程中缺陷发生的机会数为100,000次.但是在正常生产过程中只对其中1,000次机会进行评价,且在一个单板中发现了10个缺点.下列计算中哪一个正确?DPO=10/100,000DPO=10/1,000例题注意:机会只有在被评价时才计算为机会例)ZXJ10交换机中下面单板例子中计算DPU与DPMO.圆圈表示评价元器件的个数,黑色表示功能失效元器件.例题下面单板例子中计算DPU与DPMO.圆圈表示评价元器件的个数一个单位发生的总缺点机会数1,000,000xDPU=DPMO

一般说6SIGMA水平时把不良率说成3.4DPMO比3.4PPM更恰当

适于互相不同的Process或产品间,制造范筹和非制造范筹间的比较

DPMO的计算例题一个单位发生的总缺点机会数1,000,000xDPU=D总缺点数=DPU总生产单位数DPU的计算例题总缺点数=DPU总生产单位数DPU的计算例题例题:为了掌握固定资产申购过程的现况,整理了今年1月份到6月份的固定资产申购单,总共有678份,每份申购单要求事业部填写12项内容的信息,经过整理发现共有124项填写不完整,68项填写有错误。请问填写固定资产申购单过程的DPU、DPO、DPMO为多少?过程能力为多少Sigma?例题例题:为了掌握固定资产申购过程的现况,整理了今年1月份到6月DPMO计算例适用连续性的数据不良率=0.02275Probabilityof良品率=0.97725规格上限DPMO=0.02275*1,000,000=22,750适用离散性的数据缺点数某一PCB有800个熔接点与200个部品此PCB中发现6个焊接不良点与2个不良部品DPMO=(6+2)/(800+200)

*百万 =8,000例题DPMO计算例适用连续性的数据不良率ProbabilityRTY:一个产品或服务过程提供无缺陷的概率

例题2.某一投诉处理由

A,B,C,D,E五个作业构成,各作业的通过率为0.99,0.95,0.90,0.90,0.95.ABCDE0.990.950.900.900.95计算投诉处理的通过率?直通率RTY:一个产品或服务过程提供无缺陷的概率例题2.数据种类的确认离散型数据Unit的确认计算DPU计算DPO计算DPMO连续型数据正态性验证数据转换(必要时)工程能力分析(利用MINITAB)引出DPMODPMO值在

SigmaChart转换为Z值,掌握SIGMA水平大家是否记得Z值是怎么来的?SIGMA水平(Z值)的计算程序数据种类的确认离散型数据Unit的确认计算DPU计算DP1)离散型数据的SIGMA水平缺陷数据(泊松分布)的情况求DPMO从SIGMA表读对应于DPMO的

Z.st值过程通过率数据的情况计算过程每一个步骤的通过率求出整个过程的通过率从SIGMA表读百万个=(收率)*1,000,000相对应的Z.st值不良率(二项分布)数据的情况从不良率计算PPMPPM=(不良率)*1,000,000从SIGMA表读与PPM值一样的DPMO值相应的Z.st值.SIGMA水平(Z值)的计算程序1)离散型数据的SIGMA水平缺陷数据(泊松分布)的情况不2)连续型数据的SIGMA水平USLZ.st.stLSL规格中心规格中心和规格上限或下限间的距离是标准偏差的多少倍?SIGMA水平(Z值)的计算程序2)连续型数据的SIGMA水平USLZ.st.stLSCP:产品的品质特性的分布没有向两面规格倾斜的情况下的工程能力指数-----理论工程能力指数

Cp=(USL-LSL)/6Cpk:产品的品质特性的分布没有位于规格的中央,而是向一面倾斜时,考虑倾斜度的工程能力指数----实际的工程能力指数.Cpk=(USL-X)/3或(X-LSL)/3中的小值工程(过程)能力CP:产品的品质特性的分布没有向两面规格倾斜的情况Cpk:产六西格玛内训课件基础统计六西格玛内训课件基础统计理论目录4

1235

统计目的数据分类统计概述基本图表六西格玛度量的种类基础统计理论目录41235统计目的数据分类统计第一部分统计目的第一部分你看到了什么?你看到了什么?你需要整个图片!你需要整个图片!数据的重要性数据是来自观察的,由一个过程所搜集得来的数据可让我们描绘过程,了解过程,改善过程甚至控制过程.Data数据驱动决策和行动数据的重要性数据是来自观察的,由一个过程所搜集得来的数据可让数据对六西格玛很重要使用统计学来解决真实的问题真实的解决方案统计学解决方案统计学问题真实的问题把问题转换为数字(Y)定义Y的规格(可接受范围)理解(xi)与流程输出(Y)的关系 Y=f(x1,x2,x3...)影响流程表现的关键因子是什么?找到因子(xi)的水平和操作窗口,保证输出(Y)是在可接受范围内控制输入(xi)避免输出/缺陷数据对六西格玛很重要使用统计学来解决真实的问题真实的统计学统统计思想所有作业是相互关联的工序的系统例)线路板作业过程原料投入贴插装清洗喷胶所有工序中都存在散布可避免原因不可避免原因同样原料同样生产工艺同样作业者同样方法发生散布统计思想是

遵守以下四种根本原则的学习,思考和实践的一种哲学。统计思想所有作业是相互关联的工序的系统例)线路板作业过程原

调查散布和减少散布的活动减少工序散布的活动减少产品质量散布顾客满足费用降低考虑判断失误的错误注意从样本数据的结果判断时发生错误统计思想不是单纯的数字组合或计算,而是为质量革新而思考的方法,也是思考的过程。统计思想不是统计知识或工具,更不是软件的具体操作,而是学会用统计思维看待和分析问题,避免只看到表面层次的现象就去下结论作决策。统计思想举例:去年公司的顾客满意率为80%,今年调查了100位顾客,有85位顾客表示满意,满意率达到85%。能否说今年的顾客满意率比去年提高了5%?调查散布和减少散布的活动减少工序散减少产品质量顾客满足费用当重复测量时,经常产生不同的结果,这就是偏差偏差的类型:通常原因的偏差:测量中的差异是被期望的并可以预测的特殊原因的偏差(随机):测量中的差异是不可预测的偏差当重复测量时,经常产生不同的结果,这就是偏差偏差的类型:偏差我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题如果所有的区域的产品的销售量完全相同,我们将怀疑数据的真实性.偏差的存在使我们的工作更有挑战性我们通常不相信来源于单个数据的结果,通常收集多个数据并注意收集的方法以减少偏差结论:偏差是自然存在的,被期望的并是统计的基础偏差我们是期望能够观察出偏差的,如果没有偏差那肯定会有问题偏差的统计领域用下列方法处理偏差

描述型统计--用图表或总结性的数字(中心值,方差,标准偏差)来描述一系列数据的特征.

统计推论--当结果的差异可能因为随机偏差或不能归属为随机偏差时所作的决定。(置信区间和假设检验)

试验设计(DOE)--收集并分析数据,以估计过程并改变效果.

统计领域中偏差的处理统计领域用下列方法处理偏差描述型统计--用图表或总结性的数过程偏差确定过程是否稳定

如果过程不稳定,鉴别并消除不稳定的要因

确定过程的平均值的位置

-它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以达到目标值

估计总散布的幅度

-与顾客的要求(规格限)比起来,是可接受的吗?

如果不是,确定散布源,而后消除或减少他们对过程的影响。

过程偏差确定过程是否稳定第二部分数据分类第二部分数据的种类不间断的总是可以以更小的单位来测量经常与测量系统一起出现不可以以更小的单位来测量只能选择几个有限的数值连续型的离散型的举例时间,重量,金额,长度举例二元的:男/女,好/坏,Yes/no分类的:周一-周日,地点(Paris,London,Beijing,...)计数:一张发票上的错误数目,一个月内发生意外的次数数据的种类不间断的不可以以更小的单位来测量连续型的离散型的举连续型数据

益处:1.能够为使用相对小范围抽样的过程提供详细的信息2.适用于低缺陷率3.能够预估发展趋势和情况

缺点:1.通常较难得到数据2.分析更为复杂连续型数据益处:缺点:离散型数据

益处:容易得到数据,并且计算方法简单2.数据容易理解3.数据随时可得

缺点:1.无法显示缺陷怎样发生及过程如何变化2.不适合低缺陷率(需要大量的抽样)3.不能预测发展趋势和情况离散型数据益处:缺点:数据类型比较连续型数据离散型数据连续数据计数数据通常为正态分布通常为二项式分布或泊松分布实际数值合格/不合格实际定义严谨数据定义较差需少量抽样需大量抽样数据类型比较连续型数据离散型数据连续数据计数数据通常为正态分练习:这是什么种类的数据?申请贷款所需要的时间每张发票上的错误数目每张发票上的缺陷百分比一天内销售酒的数量导线的长度办公室的地点申请贷款所需要的时间(天)销售人员一天内拜访的客户数量赢得招标的百分比销售人员的销售额销售人员的名字练习:这是什么种类的数据?申请贷款所需要的时间第三部分统计概述第三部分总体想要测量对象的全部参数用总体的所有数据计算出的数值(如均值,

标准差),称为总体的参数x参数总体平均值总体标准差总体σ统计学基本术语总体x参数总体σ统计学基本术语统计学基本术语样本从总体抽出的部分数据统计量用样本的所有数据计算出的数值(如均值,

标准差),称为样本的统计量x统计量样本平均值样本标准差s总体样本统计学基本术语x统计量s总体样本描述计量型数据集一组计量型数据能显示以下3个特性:中央趋势(均值,中值,众数)变异(全距,标准差,方差)形状描述计量型数据集一组计量型数据能显示以下3个特性:参数和统计量符号Mean均值Variance方差StandardDeviation标准差Proportion比例总体(参数)μσσπ样本(统计量)

хs2sp参数和统计量符号Mean均值总体(参数)样本(统计量)数据位置测量中心趋势均值中值众数四分值数据位置测量中心趋势样本均值若样本(样本量为n)的观测值为x1,x2,…xn,则样本均值为:类似地,一个有着大量但限个(N个)观测值的总体,其总体均值为:均值样本均值均值练习三10个连接线的拉拔强度为:

230240236248252278265262拉拔强度的均值是多少?10个观测值的均值为:均值练习三均值练习四199X年一个行动中,战机进行了3000次战斗,总共用时6900小时。那末每次战斗平均用时多少?每次战斗平均用时为:注意所使用的符号均值练习四注意所使用的符号均值均值的计算使用了每个观测值;每个观测值对均值都有影响。所有观测值对均值的偏差的总和为零。均值对极端的观测值很敏感,极端值会导致均值向他偏移。Xxxxxxx6351274△6△2△4均值的特性均值的计算使用了每个观测值;每个观测值对均值都有影响。X

将一组观测值按大小顺序排列,位于中心的数值即为中值若观测值的个数为偶数,则中值为中间2个数值的平均若观测值的个数为奇数,则位于中心的数值即中值中值将一组观测值按大小顺序排列,位于中心的样本中值

假如x(1),x(2),…,x(n))是按大小排序的样本值,则样本中值为:中值的优点是不受极端大或极端小的观测值的影响。中值样本中值中值练习五假设一个样本观测值为:

3124786

样本均值和样本中值是多少?这2个值是测量数据中心趋势的合理指标吗?中值练习五中值(b)假如最后一个数值改变为:

3124782680

则样本平均值和样本中值是多少?据此你有何结论?中值(b)假如最后一个数值改变为:中值MedianvsMean中值与均值因为中值不象均值对极端值敏感,因此,当有极端大或极端小值时,中值比均值更能代表数据的位置典型的例子是一个城市居民的收入中位值中值MedianvsMean中值与均值中值中值有时会有欺骗性50%-50%Rule?一半一半准则?以下一组数据的中值是多少?

2,2,2,2,2,2,90可以用一半一半准则吗?中值有时会有欺骗性50%-50%Rule?一半一半准众数是样本中出现次数最多的观测值。众数可以是唯一的,也可以有不止一个,有时并不存在众数。众数众数是样本中出现次数最多的观测值。众数练习六如果样本观测值为:(a)691358134613110136913581346131106256134372681众数是什么?具有一个众数,两个众数或多于两个众数分布的数据分布叫什么?(单峰分布…)众数练习六众数为何使用众数?

当观测值为分类式(如名义数据,序列数据)时.众数是描述数据位置的最好的指标.典型的例子是,一个公司内员工收入的众数众数的重要信息当众数不止1个时,从中抽取样本的总体通常是多个总体的混合众数为何使用众数?众数的重要信息众数均值、中值、众数的比较MOMeMeMO正态分布偏上分布偏下分布MOMe≥≥MOMe==MOMe≤≤均值、中值、众数的比较MOMeMeMO正态分布偏上分布偏下分四分值

将一组按大小顺序排列的数据平均分为四部分,分界点即四分值.

第一四分值(低四分值),约25%的观测值小于它.第二四分值,约50%的观测值小于它,即中值.第三四分值(高分值),约75%的观测值小于它.四分值将一组按大小顺序排列的数据平均分为四部分,分界点练习七

以下为20个电灯泡失效期间的观测值,已按递增顺序排列.2102162523003664546247208169241216129613921488154224802856319235283710请确定三个四分值.计算方法:先确定位置再计算四分值Q1的位置:(n+1)/4Q2的位置:2(n+1)/4=(n+1)/2Q3的位置:3(n+1)/4四分值练习七计算方法:先确定位置再计算四分值四分值答案

Q1的位置:(n+1)/4=(20+1)/4=21/4=5.25Q2的位置:2(n+1)/4=2(20+1)/4=2*21/4=10.5Q3的位置:3(n+1)/4=3(20+1)/4=3*21/4=15.75则:Q1=366+(454-366)*0.25=388Q2=924+(1216-924)*0.5=1070Q3=1542=(2480-1542)*0.75=2245.5四分值答案四分值数据散布的测量(变异)Range极差Variance方差StandardDeviation标准差Inter-QuartileRange四分植极差数据散布的测量(变异)Range极差样本极差为样本中最大和最小观测值之间的差别,即:极差是测量数据散布或变异的最简单的方法但它忽略了最大和最小值之间的所有信息r=xmax-xmin极差样本极差为样本中最大和最小观测值之间的差别,即:r=x试考虑以下的2个样本:{102050607090}and{10,40,40,40,90}具有相同的极差(r=80)但是,第二个样本的变异只是2个极端数值的变异,而在第1个样本,中间的数值也有相当大的变异.当样本量较小(n≤10)时,极差丢失信息的问题不是很严重极差试考虑以下的2个样本:极差方差与标准差若x1,x2,…,xn是一个具有N个观测值的样本,则样本方差为:样本标准差是样本方差的算术平方根,即:方差与标准差若x1,x2,…,xn是一个具有N个观测值方差计算练习八:计算下列观测值的方差和标准差.30507090110130方差计算ixixi-x(xi-x)2130-502500250-30900370-10100490101005110309006130502500方差计算ixi方差与标准差再考虑以下2个样本.SampleA:102050607090SampleB:104040404090

SampleASampleBRange极差8080Variance方差????StandardDeviation标准差????方差与标准差再考虑以下2个样本.类似于样本方差S2,用总体的所数据计算出总体变异—总体方差(σ2)总体的标准差(σ)是总体方差的算术平方根对于包含N个数值的有限总体,其方差为:

σ2=方差与标准差类似于样本方差S2,用总体的所数据计算出总体变异—总体方差(方差特性

方差计算使用了所有观测值,每个观测值对方差都有影响

方差对极端值很敏感,因平方的缘故,极端大的观测值会严重的放大方差。方差特性方差计算使用了所有观测值,每个观测值对方差都有四分值极差

四分值极差是测量散布的另一指标:IQR=Q3-Q1

四分值极差不如极差对极端值敏感当分布显著不对称时,用它衡量散布会更好样本(10,20,50,60,90)和(10,40,40,40,90)的四分值极差分别是40和0.四分值极差四分值极差是测量散布的另一指标:IQR=Q3正态分布正态分布是一种具有特定的、非常有用的特性的数据分布这些特性对我们理解所研究之过程的特性十分有用大部分自然现象和人造过程是正态分布或可有正态分布描述正态分布正态分布是一种具有特定的、非常有用的特性的数据分布标准正态分布标准正态分布,也叫Z分布,有下列参数:Z代表距离均值的标准差的数量μ=0

σ=1-4σ

-3σ

-2σ

-1σ

μ

1σ2σ3σ4σ

标准正态分布标准正态分布,也叫Z分布,μ=0-4σ特性1

:只需知道下述两项参数就可完整描述正态分布均值标准差分布1分布2分布3此三项正态分布有何区别?正态分布特性1:只需知道下述两项参数就可完整描述正态分布分布正态曲线和概率特性2

:曲线下面的面积可用来估算某一特定事件发生的累积概率得到在两个值之间的某个价值的累积概率99.73%95%68%离均值的标准差数目样本值的概率40%-30%-20%-10%-0%-正态曲线和概率特性2:曲线下面的面积可用来估算某一特定事正态分布特点-3σ-2σ-1σ1σ2σ3σ68%95%99.73%StandardDeviation标准差σAverage标准差正态分布特点-3σ-2σ-1σ1σ2σ3σ68%95%99.正态曲线下的区域分析过程能力时,我们运用正态曲线下的区域预测超过规格界限的产品所占的比例.5%5%规格上限USL规格下限LSL正态曲线下的区域分析过程能力时,我们运用正态曲线下的区域预测标准差的经验规则

当一组数据不是最理想正态分布时,前述累积概率规则仍可应用比较理论(理想)正态分布和经验(现实)分布NumberofStandardDeviations标准差数目TheoreticalNormal理论正态EmpiricalNormal经验正态+/-1σ68%60-75%+/-2σ95%90-98%+/-3σ99.7%99-100%标准差的经验规则当一组数据不是最理想正态分布时,前述累积概长期和短期能力(Z-偏差)ZLT=ZST-1.5Sigma水平

短期DPMO

长期DPMO1158655.3691462.5222750.1308537.531350.066807.2431.76209.750.3232.760.00183.4长期和短期能力(Z-偏差)ZLT=ZST-1.5Sigma第四部分基本图表第四部分这是什么?4.53.91.45.63.36.04.04.66.77.95.03.65.63.56.85.66.05.46.66.60.05.03.73.65.84.33.05.45.38.54.54.12.53.64.24.23.04.37.05.63.63.95.34.55.73.24.13.94.97.26.83.73.74.95.93.94.22.23.76.72.63.72.23.82.24.64.46.04.57.54.23.83.04.94.74.48.34.96.87.65.73.73.65.64.04.73.92.95.06.84.25.36.52.93.13.23.95.77.67.0顾客等待时间例如:你是PizzaHut的一个门店的经理.你要求你的助理记录每个顾客的等待时间,今天你已经有了100个数据.

这是什么?4.53.91.45.63.36.0观察顾客等待时间(Rate)打开PUMPING.MPJ

RATE转换为变量.时间序列图观察顾客等待时间(Rate)时间序列图时间序列图垂直轴(Y)显示被测变量的规模每个点代表一个实际的价值点是用一条线连接帮助视觉分析运行秩序等待时间(分钟)水平轴(X)反映了一段时间或序列顾客等待时间时间序列图垂直轴(Y)显示被测变量的规模每个点代表一个实际的观察顾客等待时间(Rate)打开PUMPING.MPJ

RATE转换为变量.直方图观察顾客等待时间(Rate)直方图等待时间(分钟)一个类别或等待的时间间隔Class“j”Class“k”Class“l”频率直方图等待时间(分钟)一个类别或等待的时间间隔Class“j”C产生具有正态曲线的直方图直方图产生具有正态曲线的直方图直方图频率最高频率(数量的点)等待时间(分钟)顾客等待时间的直方图水平轴(x)显示测量范围的变量钟形曲线纵轴(y)显示的频率直方图频率最高频率(数量的点)等待时间(分钟)顾客等待时间的直方图观察顾客等待时间(Rate)

打开PUMPING.MPJ文件RATE

作为变量.点图观察顾客等待时间(Rate)点图Minitab结果采集100位顾客实际的等待时间,作图如上。每一个点代表一个具有给定值输出的“事件”。随着点的积累,顾客等待时间的实际表现的特性可被看作一个“分布”。

点图Minitab结果采集100位顾客实际的等待时间,作图如上是各分布差异容易把握的数据调查方法.

让我们顾客等待时间打开文件PUMPING.MPJ用列RATE作为变量箱线图是各分布差异容易把握的数据调查方法.让我们顾客等待时间箱线Minitab结果90%75%50%25%10%Outlier箱线图可以体现数据扩散性及中心.

注意!箱线图中的中心线不是

平均

而是

中心值.箱线图Minitab结果90%75%50%25%10%Outli第五部分六西格玛度量的种类第五部分

Defect缺陷

Unit单位

Opportunity机会

DPU(DefectsPerUnit)单位的缺陷数

DPO(DefectsPerOpportunities)单位缺陷机会数

DPMO(DefectsPerMillionOpportunities)百万单位缺陷机会

RTY(RolledThroughputYield)过程通过率(受率)

SigmaLevel(Z值)

Z值的转换方法

Cp&Cpk(工程能力指数)6Sigma度量的种类Defect缺陷6Sigma度量的种类

Defect(缺陷):-所有诱发顾客不满足的

-所有与规定基准不一样的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论