离散数据的置信区间和假设检验_第1页
离散数据的置信区间和假设检验_第2页
离散数据的置信区间和假设检验_第3页
离散数据的置信区间和假设检验_第4页
离散数据的置信区间和假设检验_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6部分:离散数据

的置信区间和假设检验离散数据的置信区间和假设检验共51页,您现在浏览的是第1页!目的:目标:用Pareto图确定少数几个关键类型的缺陷。强调离散数据分析图的使用。理解缺陷比例的置信区间的用法,并计算单样本和双样本的置信区间。理解多个X变量卡方分析的用法(双向表)。使用Minitab绘图并进行分析。在上一部分,我们借助图形、置信区间和假设检验对连续数据的分析进行了讨论。下面,我们将运用图形、置信区间和几种比例的统计检验方法对离散数据进行分析。第6部分:离散数据的置信区间

和假设检验离散数据的置信区间和假设检验共51页,您现在浏览的是第2页!

工具 用途1.Pareto -找出少数关键的缺陷类型2.图形 -找出变化规律以确定哪些X影 响缺陷3.比例的置信区间 -量化变差,以确定变化是和假设检验 否具有统计显著性四种类型: 单样本,p接近.5 双样本,p接近.5 单样本,p<.1

双样本,p<.1 4.比例的卡方(2)检验 -具有多水平独立变量的比较。 -研究两个变量间的关系。离散数据导图离散数据的置信区间和假设检验共51页,您现在浏览的是第3页!如果工序产生的数据是离散的,Pareto图表可以帮助我们将注意力集中在研究关键因数上。合并那些不重要的缺陷有助于简化图形并使其对分析更有益处。关闭所有打开的工作表和图形。打开工作表文件Pareto.mtw路径为L:\SixSigma\minitab\training\ minitab\pareto.mtw打开:Stat>QualityTools>ParetoChart在pareto对话框中,有两种数据格式选项:ChartDefectsdatain:

(用于原始缺陷数据,栏C4和C5)ChartDefectsTable:

(用于汇总的缺陷数据栏C1和C5)Minitab可生成Pareto图离散数据的置信区间和假设检验共51页,您现在浏览的是第4页!Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。图中的曲线显示了累计的缺陷百分比。图形应该可以说明:查找造成80%缺陷的缺陷类型。在上例中,15种缺陷类型中的4种占总缺陷数量的66%,剩余35%的缺陷分别由其余的11种类型的缺陷产生。查找栏高度出现较大差异的位置。如果次品数量之间存在很小的差异,那么,就不能缩小您项目的重点范围。(尝试换一种方式考虑问题,即,考虑财务上的影响,而不是缺陷的数量。)Pareto图形离散数据的置信区间和假设检验共51页,您现在浏览的是第5页!问题:降低客户培训服务电话的比例(百分比)。处理离散的响应变量时,您想知道的是缺陷比例如何随潜在X变量的变化而变化。注释:n

是样本容量k

是样本的缺陷数量p=k/n是样本中的缺陷比例p

总体的缺陷比例(未知)>离散数据的指引图离散数据的置信区间和假设检验共51页,您现在浏览的是第6页!p+z*p(1-p)/n>>>

z*p(1-p)*>>(p1-p2)+1

1n1n2+2(卡方)精确二项式检验Poisson置信区间正态泊松(Poisson)近似法 近似法大n(样本容量)p不接近0或1np>10和n(1-p)>10大n(样本容量)比例较小(p<0.10)>>下表总结了我们将在这一部分使用的方法。Z值得自正态分布表,取决于所要求的置信度。离散数据分析的统计方法1个比例比较2个比例多于2个比例(及双向表格)离散数据的置信区间和假设检验共51页,您现在浏览的是第7页!另外,我们将使用以下重要的Z-值(来自正态表):-1.6451.64590%5%5% 双边 单边 Z 置信度 置信度1.282 80% 90% 1.645 90% 95% 1.960 95% 97.5%2.326 98% 99% 2.576 99% 99.5%正态分布值离散数据的置信区间和假设检验共51页,您现在浏览的是第8页!假设我们希望上页的置信区间为+.010,而不是+.020,我们需要多大的样本容量?激发想法离散数据的置信区间和假设检验共51页,您现在浏览的是第9页!GE商品质量举例:服务质量某厂商提供与GE相同的服务,其客户不满意的比例比GE的要高。该厂商声称造成这种现象的原因是样本容量太小,而并不承认是由于自己的服务质量低于GE。确定对该厂商的服务不满意的客户比例是否显著地高于GE,或者说,分析这种差异是否是由于偶然因素产生的。缺陷数量 k1=3281k2=48k1+k2=___样本容量 n1=36054n2=214n1+n2=___缺陷比例 p1=k1/n1p2=k2/n2p=(k1+k2) =___ =___(n1+n2) =___

GE(1)其它提供商(2)总计>>>比较2个比例

(差异的取值范围是什么)离散数据的置信区间和假设检验共51页,您现在浏览的是第10页!例:延迟付款的供应商比例

n=42个样本(被审计的发票数量) k=1个缺陷(延迟付款)缺陷比例的最可能估算值是:

p=k/n=1/42=.024,或2.4%在缺陷率很低的情况下,正态近似是不准确的。使用Poisson近似法计算一个比例的置信区间。^Poisson近似法:1个比例

(大n,缺陷次数少)离散数据的置信区间和假设检验共51页,您现在浏览的是第11页!假设您抽取10倍多的样本,发现10倍多的缺陷。现在的置信区间是:

下限=6.169/420=.0147or1.47%

上限=16.96/420=.0404or4.04%比较两个置信区间:

最可 90%2-边样本 故障 能的 置信容量(n)

数量(k) (k/n)

估算值 区间42 1 2.4% (.85,11.3)420 10 2.4% (1.4,4.04)样本容量的增加导致新的置信区间(1.4%,4.04%)比原来的小得多。较大样本容量的影响离散数据的置信区间和假设检验共51页,您现在浏览的是第12页!例:涂漆表层的黑斑涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。确定是否有足够的证据证明,在置信度为95%的情况下,供应商1比供应商2生产的次品少(单边检验)。由于涉及到的是大样本容量、小缺陷次数的两个比例之间的比较,我们需要使用“精确二项式”方法。此方法请详见附录。精确二项式检验:比较2个小比例

(大n,失败次数很少)缺陷数量 k1=3 k2=10样本容量 n1=100 n2=100缺陷比例 p1=k1/n1 p2=k2/n2 p1=.03 p2=.1 供应商1供应商2>>>>离散数据的置信区间和假设检验共51页,您现在浏览的是第13页!>Stat>BasicStatistics>2Proportionsp2p1两个样本的检验和置信区间样本XN样本p1482140.22429923281360540.091002p(1)-p(2)估值:0.133297p(1)-p(2)的95%CI:(0.0773320,0.189261)检验p(1)-p(2)=0(或0):Z=4.67P-值=0.000用Minitab计算比例离散数据的置信区间和假设检验共51页,您现在浏览的是第14页!拟合好坏检验(多比例的互等性):Ho

:p1=p2=p3=

...=pn

Ha

:

至少一个等式不相等 (此方法可详见附录)

拒绝准则:当p.05时,无法拒绝Ho;当p<.05时,接受Ha比较2

的计算值和表中的临界值。用于双向表格的卡方等式:Ho

:

独立 (总体间无关系)Ha

:

非独立 (总体间有关系) 缺陷类型班次 1 2 3 4 总计

1 15 21 45 13 942 26 31 34 5 963 33 17 49 20 119卡方检验...离散数据的置信区间和假设检验共51页,您现在浏览的是第15页!*如果预期频率小于5,那么计算得出的卡方值将随fe的改变而发生显著的变化。此时计算值是不太可靠的,需要小心处理。Ho

:

独立 (总体间无关系)Ha

:

非独立 (总体间有关系)

拒绝准则:当p.05时,无法拒绝Ho;当p<.05时,接受Ha比较2

的计算值和表中的临界值。双向表的卡方等式:2f其中:f0=观测频率fe=预期频率r=行数c=列数g=组数=r*c自由度=(r-1)*(c-1)所有fe应>=5*=(fo-f)eej=1g2卡方检验...离散数据的置信区间和假设检验共51页,您现在浏览的是第16页!Graph>Plot在显示框中填写数据将其绘图!离散数据的置信区间和假设检验共51页,您现在浏览的是第17页!Stat>Tables>CrossTabulation列联表离散数据的置信区间和假设检验共51页,您现在浏览的是第18页!卡方分布(r-1)(c-1)=df(自由度)其中r=行数 c=栏数离散数据的置信区间和假设检验共51页,您现在浏览的是第19页!将数据制图,并加以说明计算自由度运行交叉制表得出结论分析步骤:离散数据的置信区间和假设检验共51页,您现在浏览的是第20页!下图显示何时使用正态法、何时使用Poisson法。合理方法的选择取决于样本容量和缺陷比例。注:使用卡方检验法比较两个以上的比例,或具有2个变量的情况。大样本容量缺陷比例不过小也不过大[np>10和n(1-p)>10]使用正态近似法p=10/np=.10UsePoissonApproximation0n=20501001502002501.00.90.80.70.60.50.40.30.20.10.0比例样本容量使用Poisson近似法p=1-10/n收集更多的数据,或采用精确二项式方法离散数据的置信区间和假设检验共51页,您现在浏览的是第21页!关键概念-第6部分离散数据的置信区间和假设检验使用Pareto图形确定哪种类型的缺陷出现的频率最高,最应加以重视。对于那些不接近0.0或1.0的比例,可以使用正态近似法计算1个样本和2个样本差值的置信区间和假设检验。对于较小的比例(p<.10),可以使用Poisson近似表或精确二项式方法计算1个样本的置信区间和2个样本的假设检验。如果你具有一个双向表,首先将数据制图并寻找其间的关系,然后,运用显著性的卡方检验确定所观察到的差异是否是偶然产生。离散数据的置信区间和假设检验共51页,您现在浏览的是第22页!其它离散工具1.属性数据电子表格(AttributeDataSpreedsheet)

(小心使用小比例的样本容量计算)计算比例的置信区间

路径:AP1FS01\users\pcmon\6_sigma\m2\library\attribut.xls2.后勤回归(LogisticsRegression)因变量为离散变量时的回归分析

路径:(InMinitab)Stat>Regression>BinaryLogisticRegression3.判别分析(DiscriminanteAnalysis)根据独立变量(X‘s)将观测值(Y)分类到两个或多个组中。

路径:(InMinitab)Stat>Multivariate>DiscriminateAnalysis4.分类和回归树(CART) -ClassificationandRegressionTrees) 根据独立变量(X‘s)将观测值(Y)分类到两个或多个组中。

参考资料:Breiman,Friedman,Olshen,Stone,Classificationand

RegressionTrees,Chapman&Hall,1984.5.数据采集(DataMining) 根据独立变量(X‘s)将观测值(Y)分类到两个或多个组中。参考资料:

参见SteveDelaney,I.T.

离散数据的置信区间和假设检验共51页,您现在浏览的是第23页!精确二项式检验:比较2个小比例(大n,小缺陷次数)例:涂漆表面的黑斑涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。确定是否有足够的证据证明,在置信度为95%的情况下,供应商1比供应商2生产的次品少(单边检验)。当缺陷比例较低时,使用“精确二项式”方法对两个工序中的缺陷比例进行比较。缺陷数量 k1=3k2=10k1+k2=___样本容量 n1=100n2=100n1+n2=___缺陷比例 p1=k1/n1p2=k2/n2p=(k1+k2) =___ =___(n1+n2) =____供应商1供应商2总计>>>离散数据的置信区间和假设检验共51页,您现在浏览的是第24页!精确二项式检验:比较2个小比例(大n,小缺陷次数)我们希望确定以3/10划分(相对于6.5/6.5)是否具有统计显著性每个小组的数量将以“二项式”概率分布使用Minitab来计算3/10或更高的比例划分偶然发生的概率,零假设(p=.50)是否为真?重新启动Minitab给C1取名“缺陷数量”,并输入0,1,2,3,…,12,13产生一个累积概率:Calc>ProbabilityDistributions>Binomial离散数据的置信区间和假设检验共51页,您现在浏览的是第25页!拟合好坏检验举例(多比例互等性)

有90只老鼠,一个接一个地经过下降通道进入三扇门中的一扇。我们想检验假设:老鼠对其中的任何一扇门没有偏好。 Ho:p1=p2=p3=1/3假设每只老鼠经过下降通道一次,观测所得数据如下: n1=23,n2=36,以及n3=31.每个门道所观察的预期频数应该相等,预期频率=90×(1/3)=30=.05DF=2(k-1)2table=5.991

1 2 3观测值 23 36 31预期值 30 30 302calc=(23-30)2+(36-30)2+(31-30)2=2.87 303030由于2.87小于5.991,所以,我们不能拒绝H0。从而得出结论:没有证据显示老鼠对其中的任何一扇门具有偏好。Ho:p1=p2=p3Ha:至少有1个等式不成立2

检验统计值(近似地)服从自由度为(k-1)的2分布,From:MathematicalStatisticswithApplications,3rdEdition-Mendenhall,Scheaffer,Wackerly离散数据的置信区间和假设检验共51页,您现在浏览的是第26页!Stat>Tables>CrossTabulation离散数据的置信区间和假设检验共51页,您现在浏览的是第27页!OthersNewAcctSetupPersonalAddressBookNotResolvedServerSpaceNotExchangeInstallationGeneralInquiryLockup/PerformancePasswordResetCustomAddressBug5318181921293254751071289.63.23.23.43.85.25.89.713.519.323.1100.090.487.283.980.576.771.565.756.042.423.15004003002001000100806040200DefectCountPercentCum%PercentCountExchangeHelpDeskCalls-FW36,FW38,FW39累计缺陷%Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。Pareto图形离散数据的置信区间和假设检验共51页,您现在浏览的是第28页!151050DayCount151050EveningCount151050NightCount151050WeekendCountOtherSmudgePeelScratchFinishDefects可以使用对话设置将原始数据对几种不同的因数进行分析。在图形中保留缺陷的常规顺序。考虑累积缺陷线的高度,它表示特定因素总缺陷数量。在这种情况下,缺陷大多发生在“夜间”。在被分析的因素(周期)之间,查找缺陷水平的差异。在这本例中,傍晚和周末很少产生划痕。原始数据的Pareto图表离散数据的置信区间和假设检验共51页,您现在浏览的是第29页!正态泊松(Poisson)近似法 近似法1个比例比较2个比例多于2个比例(及双向表格)大n(样本容量)p不太

接近0或1np>10和n(1-p)>10大n(样本容量)比例较小(p<0.10)下表总结了我们在本部分中所使用的方法。(置信区间和假设检验)离散数据分析的类型离散数据的置信区间和假设检验共51页,您现在浏览的是第30页!下图显示何时使用正态法、何时使用泊松(Poisson)法。合理方法的选择取决于样本容量和缺陷比例。注:使用卡方检验法比较两个以上的比例,或2个X变量。0n=2050100150200250使用Poisson近似法大样本容量比率不是过小或过大[np>10和n(1-p)>10]使用正态近似法p=10/np=.10获得更多的数据,

或使用精确二项式方法1.00.90.80.70.60.50.40.30.20.10.0比例样本容量p=1-10/n离散数据指引图离散数据的置信区间和假设检验共51页,您现在浏览的是第31页!(大n,np>10,n(1-p)>10)例:保险索赔的精度不准确比例最可能的估计值是:p=缺陷数量/样本容量=k/n=600/2000=.30或30%在总共80,000个记录中,不准确比例置信度为95%的双边置信区间为:解释:(28%,32%)是在整个80,000个记录这个总体中缺陷(不准确)比例的取值范围。80,000 保险数据库中的记录2,000 为分析数据准确度而抽样的样本记录(n)1,400 (70%)是准确的600 (30%)是不准确的(缺陷数量,k)

p+z*p(1-p)/n.300+1.96*.3(1-.3)/2000.300+.020(.280,.320)or28%to32%>>>===>正态近似法:1个比例离散数据的置信区间和假设检验共51页,您现在浏览的是第32页!(大n,np>10,n(1-p)>10)课堂练习:抛币掷币50次。记录头面在上的次数。计算头面在上的比例的90%(双边)置信区间。p是什么?应使用什么Z?置信区间是多少?p=.50是否位于置信区间内?>正态近似法:单比例离散数据的置信区间和假设检验共51页,您现在浏览的是第33页!GE商品质量举例:服务质量缺陷数量 k1=3281k2=48样本容量 n1=36054n2=214缺陷比例 p1=k1/n1p2=k2/n2

=.091=.224

GE(1)其它供应商(2)>>计算置信区间:

1.96*

z*(p1-p2)+>>==.133+.056=(.077,.189)(7.7%,18.9%)(.224-.091)+.091(1-.091).224(1-.224)

36054214+p1(1-p1)p2(1-p2)

n1n2+解释:

最可能的估计是GE客户的满意率比另一厂商的高出13%。我们有95%的把握认为,对GE的服务满意的客户比例比对另一厂商的要高出8%-19%。该区间不包括0%,因此我们有95%以上的把握认为,差异的产生是确实存在的,而不是偶然出现的。比较2个比例

(差异的取值范围是什么)离散数据的置信区间和假设检验共51页,您现在浏览的是第34页!要计算缺限比例的90%、双边置信区间:1.从表中查找1个缺陷的上限和下限值(.355和4.744).2.除以样本容量:

下限=.355/42=.0085,或.85%

上限=4.744/42=.113,或11.3%延迟付款的供应商的比例取值范围是(.85%,11.3%)。Poisson近似法:1个比例离散数据的置信区间和假设检验共51页,您现在浏览的是第35页!课堂练习:现场检验发动机故障一年中现场检验300台发动机,发现两个缺陷。计算这个总体中存在缺陷的发动机比例95%的双边置信区间。n是什么?K是什么?表格中的缺陷下限是多少?缺陷上限是多少?Poisson近似法:1个比例

(大n,失败次数较少)离散数据的置信区间和假设检验共51页,您现在浏览的是第36页!>Stat>BasicStatistics>1Proportion成功次数在此例中指缺陷。输入一个比例的检验和置信区间p=0.5与

p0.5对比检验精确样本XN样本p95.0%CIP-值160020000.300000(0.279972,0.320616)0.000用Minitab计算比例离散数据的置信区间和假设检验共51页,您现在浏览的是第37页!>Stat>BasicStatistics>1Proportion一个比例的检验与置信区间p=0.5与p0.5的对比检验精确样本XN样本p90.0%CIP-值1104200.023810(0.012973,0.040052)0.000Minitab的区间与我们原有的区间(.014,.404)稍有不同,这是因为Minitab使用了不同的近似方法。用Minitab计算比例离散数据的置信区间和假设检验共51页,您现在浏览的是第38页!举例:冰箱缺陷

我们希望依据以下变量对某一厂家生产的冰箱的缺陷进行分类:(1)缺陷类型(2)生产班次3个班次共有

n=309个冰箱缺陷记录。这些缺陷各属4类之一(1,2,3和4)。检验零假设Ho:缺陷类型与班次无关,而备择假设Ha:

缺陷类型与班次有关,置信度取95%。缺陷‘1’:凹痕缺陷‘2’:密封系统泄漏缺陷‘3’:制冰机开关故障缺陷‘4’:部件遗失缺陷类型班次 1 2 3 4 总计

1 15 21 45 13 942 26 31 34 5 963 33 17 49 20 119卡方检验...离散数据的置信区间和假设检验共51页,您现在浏览的是第39页!假设

Ho

:三个班次产生的四类缺陷比例相同Ha

:三个班次产生的四类缺陷比例不同拒绝标准是什么?

如果计算值:2=(fo-fe)2/fe大于自由度为(r-1)*(c-1)=(3-1)*(4-1)=6的表格中的临界值,则拒绝零假设。同样地,如果p值小于.05,则拒绝零假设。按下列格式在Minitab中输入数据:现在已有了数据,步该怎样做?列联表(ContingencyTables)离散数据的置信区间和假设检验共51页,您现在浏览的是第40页!说明:

在缺陷类型与班次之间似乎存在某种依赖关系:

缺陷2在班次2中比预期值大。

缺陷2在班次3中比预期值小。

缺陷4在班次2中比预期值小。将其绘图!离散数据的置信区间和假设检验共51页,您现在浏览的是第41页!fo,观测频率df=(3-1)(4-1)“StResid”(标准残差)大的单元不能与其它单元的型式不一致,对总卡方值产生很大的影响。标准残差标准残差的平方是该单元的2值。

.422=(13-11.56)2/11.562=(fo-fe)2 fe 与下页表格中的临界值比较fe,预期频率fe=(总行数)x(总栏数)

总计fe=94x38

=11.56309列联表离散数据的置信区间和假设检验共51页,您现在浏览的是第42页!你的任务是减少医院设备的服务呼叫次数。有5个医院都在使用3种型号相同的设备:MR(1),CT(2),和X-Ray(3)。现在设法确定在医院和需要服务的设备类型之间是否有什么关联。在Minitab中输入以下数据:

课堂练习:服务电话减少列联表离散数据的置信区间和假设检验共51页,您现在浏览的是第43页!p+z*p(1-p)/n>>>

z*p(1-p)*>>(p1-p2)+1

1n1n2+2(Chi-square)精确二项式

检验Poisson置信区间正态泊松(Poisson)近似法 近似法单比例比较2个比例超过2个比例(及双向表)大n(样本容量)p不太接近0或1np>10及n(1-p)>10大n(样本容量)较小的缺陷比例(p<0.10)>>下表总结了本部分中所用的方法。Z是为满足置信度要求而从正态分布中产生的值。离散数据分析的统计方法离散数据的置信区间和假设检验共51页,您现在浏览的是第44页!棕色和红色为可接受黄色、橙色、蓝色和绿色为缺陷样本1是一包10盎司装的普通M&M样本2是一包10盎司装的花生M&M1.分别画出以上两个样本的4种类型缺陷的Pareto图形(参见第4至7页)。2. 计算两个样本缺陷比例间差异置信度为99%的置信区间。先用手算(16页),然后,再借助minitab(24页)进行计算。3. 运用卡方检验检查两个样本的所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论