




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章假设检验
§7.1
假设检验的基本思想与概念§7.2
正态总体参数假设检验§7.3
其它分布参数的假设检验§7.4
分布拟合检验§7.1
假设检验的基本思想与概念
7.1.1假设检验问题
例7.1.1
某厂生产的合金强度服从,其中的设计值为不低于110(Pa)。为保证质量,该厂每天都要对生产情况做例行检查,以判断生产是否正常进行,即该合金的平均强度不低于
110(Pa)。某天从生产中随机抽取25块合金,
测得强度值为x1,x2
,
…,x25,其均值为
(Pa),问当日生产是否正常?
(1)是参数估计问题吗?(2)回答“是”还是“否”
,假设检验问题。(3)命题“合金平均强度不低于110Pa”正确与否仅涉及如下两个参数集合:
这两个非空参数集合都称作统计假设,简称假设。
(4)我们的任务是利用样本去判断假设(命题)“”是否成立。这里的“判断”在统计学中称为检验或检验法则。
7.1.2假设检验的基本步骤
一、建立假设
在假设检验中,常把一个被检验的假设称为原假设,用
表示,通常将不应轻易加以否定的假设作为原假设。当
被拒绝时而接收的假设称为备择假设,用
表示,它们常常成对出现。在例7.1.1中,我们可建立如下两个假设:
二、选择检验统计量,给出拒绝域形式由样本对原假设进行判断总是通过一个统计量完成的,该统计量称为检验统计量。使原假设被拒绝的样本观测值所在区域称为拒绝域,一般用W表示,在例7.1.1中,样本均值愈大,意味着总体均值
也大,因此,合理的拒绝域形如正如在数学上我们不能用一个例子去证明一个结论一样,用一个样本(例子)不能证明一个命题(假设)是成立的,但可以用一个例子(样本)推翻一个命题。因此,从逻辑上看,注重拒绝域是适当的。事实上,在“拒绝原假设”和“拒绝备择假设(从而接收原假设)”之间还有一个模糊域,如今我们把它并入接收域,所以接收域是复杂的,将之称为保留域也许更恰当,但习惯上已把它称为接收域,没有必要再进行改变,只是应注意它的含义。三、选择显著性水平检验可能犯以下两类错误:
其一是
为真但样本观测值落在拒绝域中,从而拒绝原假设
,这种错误称为第一类错误,其发生的概率称为犯第一类错误的概率,或称拒真概率,通常记为
其二是
不真(即
为真)但样本观测值落在接受域中,从而接受原假设
,这种错误称为第二类错误,其发生的概率称为犯第二类错误的概率,或称受伪概率,通常记为
。观测数据情况总体情况犯第一类错误正确正确犯第二类错误为真为真犯第一类错误的概率
和犯第二类错误的概率
可以用同一个函数表示,即所谓的势函数。势函数是假设检验中最重要的概念之一,定义如下:
定义7.1.1
设检验问题的拒绝域为W,则样本观测值落在拒绝域内的概率称为该检验的势函数,记为(7.1.3)势函数
是定义在参数空间
上的一个函数。犯两类错误的概率都是参数的函数,并可由势函数算得,即:对例7.1.1,其拒绝域为,由(7.1.3)可以算出该检验的势函数这个势函函数是的减函数由此可得得如下结结论:利用这个个势函数数容易写写出犯两类错误的的概率分分别为和当减小时,,c也随之减减小,必必导致的增大;;当减小时,,c会增大,,必导致致的增大;;说明:在在样本量量一定的的条件下下不可能能找到一一个使和都小的检检验。英国统计计学家Neyman和Pearson提出水平平为的显著性检检验的概念。。则称该检检验是显著性水水平为的显著性性检验,简称水平为的检验。定义7.1.2对检验问问题对如果一个个检验满满足对任任意的,都有四、给出出拒绝域域确定显著著性水平平后,可可以定出出检验的的拒绝域域W。在例7.1.1中,若取取=0.05,由于g()关于单调减,,只需要要成立即可可。这给给出c的值为=108.684检验的拒拒绝域为为若令则拒绝域域有另一一种表示示:五、作出出判断在有了明明确的拒拒绝域后后,根据据样本观观测值我我们可以以做出判判断:当或时时,,则拒绝即接收;当或时,则接接收在例7.1.1中,由于于因此拒绝绝原假设设,即认认为该日日生产不不正常。。§7.2正态总体体参数假假设检验验参数假设设检验常常见的有有三种基基本形式式(1)(2)(3)当备择假假设在原假设设一侧时的的检验称称为单侧检验验;当备择假假设分散在原原假设两侧时的的检验称为双侧检验验。7.2.1单个正态态总体均均值的检检验一、已知知时的u检验设是来自的样本,,考虑关关于的检验问问题。检检验统计计量可选选为三种假设设的拒绝绝域形式式分别见见下图::(a)(b)(c)该检验用u检验统计量量,故称为为u检验。下面以为为例说说明:由可可推出具具体的拒绝绝域为该检验的势势函数是的函数,它可可用正态分分布写出,,具体为势函数是的增函数((见图),,只要就可保证在在时有7.2.1(a)的图形对单侧检验验是是类似似的,只是拒绝域域变为:其势函数为为对双侧检验验问题(7.2.3),拒绝域为为其势函数为为7.2.1(b)(c)的图形例7.2.1从甲地发送送一个讯号号到乙地。。设乙地接接受到的讯号号值服从正正态分布其中为甲地发送送的真实讯讯号值。现现甲地重复复发送同一讯号5次,乙地接接收到的讯讯号值为8.058.158.28.18.25设接受方有有理由猜测测甲地发送送的讯号值值为8,问能否接接受这猜测测?解:这是一个假假设检验的的问题,总总体X~N(,0.22),检验假设:这个双侧检检验问题的的拒绝域为为取置信水平平=0.05,则查表知u0.975=1.96。用观测值可可计算得u值未落入拒拒绝域内,,故不能拒拒绝原假设设,即接受原假假设,可认认为猜测成成立。二、未知时的t检验由于于未知知,,一一个个自自然然的的想想法法是是将将(7.2.4))中未未知知的的替换换成成样样本本标标准准差差s,这这就就形形成成t检验验统统计计量量(7.2.9)三种种假假设设的的检检验验拒拒绝绝域域分分别别为为例7.2.2某厂厂生生产产的的某某种种铝铝材材的的长长度度服服从从正正态态分分布,,其其均均值值设设定定为为240厘米米。。现现从从该该厂厂抽抽取取5件产品品,,测测得得其其长长度度为为((单单位位::厘厘米米))239.7239.6239240239.2试判判断断该该厂厂此此类类铝铝材材的的长长度度是是否否满满足足设设定定要要求求??解::这是是一一个个关关于于正正态态均均值值的的双双侧侧假假设设检检验验问问题题。。采用用t检验验,,拒拒绝绝域域为为:现由由样样本本计算算得得到到:t==2.7951由于2.7951>2.776,故拒拒绝原原假设设,认为该该厂生生产的的铝材材的长长度不不满足足设定定要求求。若取=0.05,则t0.975(4)=2.776.故检验法条件检验统计量拒绝域u
检验已知t
检验未知原假设备择假设表7.2.1单个正正态总总体的的均值值的检检验问问题三、假假设检检验与与置信信区间间的关关系这里用用的检检验统统计量量与6.5.5节中置置信区区间所所用的的枢轴轴量是是相似似的。。这不不是偶偶然的的,两两者之之间存存在非非常密密切的的关系系。设是来自自正态态总体体的样本本,现现在未知场场合讨讨论关关于均均值的检验验问题题。考虑双双侧检检验问问题:它可以以改写写为并且有有若让0在(-)内取值值,就就可得得到的1-置信区间间:这里0并无限限制.则水平平为的检验验接收收域为为关于的的水平平为的显著著性检检验。。是一一一对应应的。。类似地地,“参数的1-置信上上限”与“关于的单侧侧检验验问题题的水水平的检验验”反之若若有一一个如如上的的1-置信区区间,,也可可获得得所以:“正态均均值的1-置信区区间”与“关于的双侧侧检验验问题题的水水平的检验验”参数的1-置信下下限与与另一一个单单侧检检验也也是一一一对对应的的。是一一一对应应的。。7.2.2两个正正态总总体均均值差差的检检验检验法条件原假设备择假设检验统计量拒绝域u检验已知t检验未知大样本检u
验
未知m,n充分大近似t
检验未知m,n不很大例7.2.3某厂铸铸造车车间为为提高高铸件件的耐耐磨性性而试制了了一种种镍合合金铸铸件以以取代代铜合合金铸铸件,,为此,,从两两种铸铸件中中各抽抽取一一个容容量分分别为为8和9的样本本,测测得其其硬度度为镍合金金:76.4376.2173.5869.6965.2970.8382.7572.34铜合金金:73.6664.2769.3471.3769.7768.1267.2768.0762.61根据经经验,,硬度度服从从正态态分布布,且且方差差保持持不变变。试在显显著性性水平平下判断断镍合合金的的硬度度是否否有明明显提提高。。解:用X表示镍镍合金金的硬硬度,,Y表示铜铜合金金的硬硬度,则则由假假定,,要检验验的假假设是是:经计算算,从而查表知知由于故拒绝绝原假假设,,可判判断镍镍合金金硬度度有显显著提提高。。7.2.3正态总总体方方差的的检验验一、单单个正正态总总体方方差的的检验验设是来自自的样本本,对对方差差亦可可考虑虑如下下三个个检验验问题题:通常假假定未知,,它们们采用用的检检验统统计量量是相同的,均为
若取显著性水平为,则对应三个检验问题的拒绝域依次分别为例7.2.4某类钢钢板每每块的的重量量X服从正正态分分布,,其一项项质量量指标标是钢钢板重重量的的方差差不得得超过过0.016(kg2)。现从从某天天生产产的钢钢板中中随机机抽取取25块,得得其样样本方方差S2=0.025(kg2),问该该天生生产的钢钢板重重量的的方差差是否否满足足要求求。解:原假设设为备择假假设为为此处n=25,若取取=0.05,则查查表知知由此,,在显显著性性水平平0.05下,我们们拒绝绝原假假设,,认为为该天天生产产的钢钢板重重量不不符合合要求求。现计算算可得得二、两两个正正态总总体方方差比比的F检验设
是来自
的样本,
是来自
的样本。考虑如下三个假设检验问题
通常,均未知,记,分别是由算得的
的无偏估计和由
算得的
的无偏估计.可建立立检验验统计计量:三种检检验问问题对对应的的拒绝绝域依依次为为}。
或例7.2.5甲、乙乙两台台机床床加工工某种种零件件,零零件的直径径服从从正态态分布布,总总体方方差反反映了了加工工精度,,为比比较两两台机机床的的加工工精度度有无无差别别,现从各各自加加工的的零件件中分分别抽抽取7件产品品和8件产品品,测测得其其直径径为X(机床甲)16.216.415.815.516.715.615.8Y(机床乙)15.916.016.416.116.515.815.715.0这就形形成了了一个个双侧侧假设设检验验问题题,原原假设设是备择假假设为为此处m=7,n=8,经计计算查表知知于是,若取取=0.05,其拒绝绝域为为由此可可见,,样本本未落落入拒拒绝域域,即即在0.05水平下下可以以认为为两台台机床床的加加工精精度一一致。。§7.3其他分分布参参数的的假设设检验验7.3.1指数分分布参参数的的假设设检验验设x1,x2,…,xn是来自自指数数分布布的样样本,,关于于的如下下检验验问题题:(7.3.1)拒绝域域的形形式是是,由于于在=0时,所以拒拒绝域域为例7.3.1设我们们要检检验某某种元元件的的平均均寿命命不小小于6000小时,,假定定元件件寿命命为指指数分分布,,现取取5个元件件投入入试验验,观观测到到如下下5个失效效时间间:395,4094,119,11572,6133。解:由于待待检验验的假假设为为若取=0.05,则检验验拒绝域域为:故接受原原假设,,可以认为为平均寿寿命不低低于6000小时.经计算得得7.3.2比例的检检验比例p可看作某某事件发发生的概概率。作作n次独立试试验,以以x记该事件件发生的的次数,,则。我们可可以根据据x检验关于于p的一些假假设:(1)直观上看看拒绝域域为:,由于x只取整数值值,故c可限制在在非负整整数中。。这是在对对离散总总体作假假设检验验中普遍遍会遇到到的问题题.一般情况况下,对对给定的的,不一定定能正好取到一个个正整数数c使下式成成立:一般较常常见的是是找一个个c0,使得(2)检验的拒拒绝域为为:c为满足的最大正整数。。(3)检验的拒拒绝域为为:或其中c1为满足下下式的最大正整数:c2为满足下下式的最小正整数:例7.3.2某厂生产产的产品品优质品品率一直直保持在在40%,,近期对该该厂生产产的该类类产品抽抽检20件,其中中优质品品7件,在下下能否认为为优质品率率仍保持持在40%?解:以p表示优质质品率,,x表示20件产品中中的优质质品件数,,则,待检验验的假设设为拒绝域为为或由于下求c1与c2:故取c1=3,又因为为从而c2=12,拒绝域域为附带指出出,该拒拒绝域的的显著性性水平实实际上不不是0.05,而是0.0160+0.021=0.0370。由于于观观测测值值没没有有落落入入拒拒绝绝域域,,故故接接受受原原假假设设。。或7.3.3大样样本本检检验验在二二点点分分布布参参数数p的检检验验问问题题中中,,临临界界值值的的确确定定比比较较繁繁琐琐,,使使用用不不太太方方便便。。如如果果样样本本量量较较大大,,我我们们可可用用近近似似的的检检验验方方法法———大样样本本检检验验。。大样样本本检检验验一一般般思思路路如如下下::设设是来来自自某某总体体的的样样本本,,又又设设该该总总体体均均值值为为,方方差差为为的函函数数,,记记为为,譬譬如如,,对对二二点点分分布布b(1,),其方方差差(1-)是均均值值的函函数数,,则则在在样样本本容容量量n充分大时,,故可采用如如下检验:由此近似地地确定拒绝绝域。统计量例7.3.3某厂产品的的不合格品品率为10%,在一次例行检检查中,随随机抽取80件,发现有有11件不合格品品,在=0.05下能否认为为不合格品率仍为为10%?解:这是关于不不合格品率率的检验,,假设为:若取=0.05,则u0.975=1.96,故拒绝域为为故不能拒绝绝原假设。。因为n=80比较大,可可采用大样样本检验方方法。检验验统计量为为例7.3.4某建筑公司司宣称其麾麾下建筑工工地平均每每天发生事故故数不超过过0.6起,现记录录了该公司司麾下建筑工工地200天的安全生生产情况,,事故数记录如下::天数10259308010200一天发生的事故数012345合计6试检验该建建筑公司的的宣称是否否成立(取=0.05)。解:以X记建筑工地地一天发生生的事故数数,可认为,要检验的的假设是::由于n=200很大,可以以采用大样样本检验,,泊松分布布的均值和和方差都是是,这里,检验统计计量为若取=0.05,则u0.95=1.645,拒绝域为为如今u=2.556已落入拒绝绝域,故拒拒绝原假设设,认为该建筑筑公司的宣宣称明显不不成立。大样本检验验是近似的的:近似的含义义是指检验的实际际显著性水水平与原先先设定的显著性性水平有差差距,这是由于诸诸如(7.3.12)中u的分布与N(0,1)有距离。。如果n很大,,则这这种差差异就很很小。。实用用中我我们一一般并并不清清楚对对一定定的n,u的分布布与N(0,1)的的差异异有多多大,,因而而也就就不能能确定检检验的的实际际水平平与设设定水水平究究竟差差多少少。在在区间估估计中中也有有类似似问题题。因因此,,大样样本方方法是是一个“不得得已而而为之之”的方法法。只只要有有基于于精确确分布的方方法一一般总总是首首先要要加以以考虑虑的。。7.3.4检验的的p值假设检检验的的结论论通常常是简简单的的:在在给给定的的显著著水平平下,,不是是拒绝绝原假假设就就是保保留原原假设设。然然而有有时也也会出出现这这样的的情况况:在在一个个较大大的显显著水水平((=0.05)下得到到拒绝绝原假假设的的结论论,而而在一一个较较小的的显著著水平平(=0.01)下却却会得得到相相反的的结论论。这种情情况在在理论论上很很容易易解释释:因为显显著水水平变变小后后会导导致检检验的的拒绝绝域变变小,,于是是原来来落在在拒绝绝域中中的观观测值值就可可能落落入接接受域域。但这种种情况况在应应用中中会带带来一一些麻麻烦::假如如这时时一个个人主主张选选择显显著水水平=0.05,而另另一个个人主主张选选=0.01,则第第一个个人的的结论论是拒拒绝H0,而后后一个个人的的结论论是接接受H0,我们该该如何何处理理这一一问题题呢??例7.3.5一支香香烟中中的尼尼古丁丁含量量X服从正正态分布N(,1),质量量标准准规定不不能超超过1.5毫克。现现从某某厂生生产的的香烟烟中随随机抽抽取20支测得其中中平均均每支支香烟烟的尼尼古丁丁含量量为毫克,,试问问该厂厂生产产的香香烟尼尼古丁丁含量量是否否符合质质量标标准的的规定定。这是一一个假假设检检验问问题::H0:1.5,H1:>1.5,采用u检验,,计算算得:对一些些的显显著性性水平平,表表7.3.1列出了了相应应的拒拒绝域域和检检验结结论。。表7.3.1例7.3.5中的拒拒绝域域显著性水平拒绝域u=2.10对应的结论=0.05u1.645拒绝H0=0.025u1.96拒绝H0=0.01u2.33接受H0=0.005u2.58接受H0我们看看到,,不同同的有不同同的结结论。。现在换换一个个角度度来看看,在在=1.5时,u的分布布是N(0,1)。此时时可算算得,,P(u2.10)=0.0179,若以以0.0179为基准准来看看上述述检验验问题题,可可得当<0.0179时,>2.10。于是是2.10就不在在中,此此时应应接受受原假假设H0;当0.0179时,2.10。于是是2.10就落在在中,此此时应应拒绝绝H0。u由此可可以看看出,,0.0179是能用用观测测值2.10做出“拒绝绝H0”的最小小的显显著性性水平平,这就是是p值。u定义7.3.1在一个个假设设检验验问题题中,,利用用观测测值能够做做出拒绝绝原假设设的最小小显著性性水平称称为检验的p值。引进检验验的p值的概念念有明显显的好处处:第一,它它比较客客观,避避免了事事先确定定显著水平平;其次,由由检验的的p值与人们们心目中中的显著性水平平进行比较较可以很很容易作出检验验的结论论:如果p,则在显显著性水水平下拒绝H0;如果<p,则在显显著性水水平下保留H0.p值在应用用中很方方便,如如今的统统计软件件中对检检验问题题一般都都会给出出检验的的p值。例7.3.6设是来自b(1,)的样本,,要检验如如下假设设:若取显著著性水平平为,则在得得到观测测值后,我们们只需要要计算概概率:这就是检检验的p值。譬如如若取=0.05,由于p<,则应拒拒绝原假假设。例7.3.7某工厂两两位化验验员甲、、乙分别别独立地地用相同方法法对某种种聚合物物的含氯氯量进行行测定。。甲测9次,样本本方差为为0.7292;乙测11次,样本本方差为0.2114。假定测测量数据据服从正正态分布布,试对两总体体方差作作一致性性检验:检验统计量为,在原假设成立下,
F
F(8,10),拒绝域为
如今我们们不是把把拒绝域域具体化化,而是是由观测测值算得得F=0.7292/0.2114=3.4494,再去计计算该检检验的p值。或首先,我我们用F分布算得得其次考虑虑到双侧侧检验的的拒绝域域W分散在两两端,且且两端尾尾部概率率相等((见图7.3.2),据据此可可定出出p值为此p值不算很很小,,若=0.05,则接接收两两方差差相等等的假假设。。在这种种双侧侧检验验情况况下,,如何由由观测测值F=3.4494算得p值呢??图7.3.2观测值值F=3.4494对应的的p值由两端端尾部部概率率之和和确定定§7.4分布拟合检检验7.4.1总体分布只只取有限个个值的情况况设总体X可以分成k类,记为,现对该总总体作了n次观测,k个类出现的的频数分别别为:检验如下假假设:n1,…,nk,且其中诸且一、诸pi均已知如果H0成立,则对对每一类Ai,其频率ni/n与概率pi应较接近。。即观测频频数ni与理论频数数npi应相差不大大。据此,,英国统计计学家K.Pearson提出如下检检验统计量量:(7.4.2)并证明在H0成立时对充充分大的n,(7.4.2)给出的检验验统计量近近似服从自自由度为k-1的分布布。拒绝域为:例7.4.1为募集社会会福利基金金,某地方方政府发行福利彩票票,中彩者者用摇大转转盘的方法法确定最后中奖金金额。大转转盘均分为为20份,其中金金额为5万、10万、20万、30万、50万、100万的分别占2份、4份、6份、4份、2份、2份。假定大转盘盘是均匀的的,则每一一点朝下是是等可能的,于是是摇出各个个奖项的概概率如下::概率0.10.20.30.20.10.1额度5万10万20万30万50万100万现20人参加摇奖奖,摇得5万、10万万、20万、30万、50万和100万的人数分分别为2、6、6、3、3、0,由于没有有一个人摇摇到100万,于是有有人怀疑大大转盘是不不均匀的,,那么该怀怀疑是否成成立呢?这这就需要对对转盘的均均匀性作检检验。解:这是一个典典型的分布布拟合优度度检验,总总体共有6类,其发生生概率分别别为0.1、0.2、0.3、0.2、0.1和0.1,这里k=6,检验拒绝绝域为:由本例数据据可以算出出若取=0.05,则查附表表3知=由于未未落入入拒绝域,,故接受原原假设,没有理由认认为转盘不不均匀。在分布拟合合检验中使使用p值也是方便便的。本例中,以以T记服从(5)的随机变量量,则使用用统计软件件可以算出出这个p值就反映了了数据与假假设的分布布拟合程度度的高低,,p值越大,拟拟合越好。。二、诸pi不完全已知知若诸由r(r<k)个未未知知参参数数确定定,,即即首先先给给出出的极极大大似似然然估估计计然后后给给出出诸诸的极极大大似似然然估估计计Fisher证明明了了在H0成立立时时近近似似服服从从自自由由度度为k-r-1的分布布,,于于是是检检验验拒拒绝绝域域为为例7.4.2卢瑟瑟福福在在2608个等等时时间间间间隔隔内内观观测测一一枚放放射射性性物物质质放放射射的的粒粒子子数数X,表表7.4.1是观观测测结果果的的汇汇总总,,其其中中ni表示示2608次观观测测中中放放射射粒粒子数数为为i的次次数数。。ni572033835255324082731394527106i012345678910
11试利利用用该该组组数数据据检检验验该该放放射射物物质质在在单单位位时时间间内内放放射射出出的的粒粒子子数数是是否否服服从从泊泊松松分分布布。。解::本例例中中,,要要检检验验总总体体是是否否服服从从泊泊松松分分布布。。观测测到到0,1,……,11共12个不不同同取取值值,,这这相相当当于于把把总总体体分分成成12类。。这这里里有有一一个个未未知知参参数数,采采用用极极大大似似然然估估计计,,=将代入入可可以以估估计计出出诸诸。于是是可可计计算算出出列表表如如下下。。012345678910115720338352553240827313945271060.02090.08070.15620.20150.19500.15090.09730.05380.02600.01120.00430.002254.5210.5407.4525.5508.6393.5253.8140.367.829.211.25.70.11470.26721.46140.00051.07660.53431.45250.01207.66730.16580.12580.0158合计26081.00002068=12.8967i本例例中中=12.8967<18.307,故故接接受受原原假假设设。。使使用用统统计计软软件件可可以以计计算算出出此此处处检检验验的的p值是是0.2295。若取取=0.05,则则列联联表表是是将将观观测测数数据据按按两两个个或或更更多多属属性性(定性性变变量量)分类类时时所所列列出出的的频频数数表表。。例例如如,,对对随随机机抽抽取取的的1000人按按性性别别((男男或或女女))及及色色觉觉(正常常或或色色盲盲)两个个属属性性分分类类,得得到到如如下下二二维维列列联联表表,,又又称称2××2表或或四四格格表表。。7.4.2列联表表的独独立性性检验验男53565女38218性别视觉正常色盲一般,若总体中的个体可按两个属性A与B分类,A有r个类,B有c个类从总体中抽取大小为n的样本,设其中有个个体既属于类又属于类,称为频数,将rc个排列为一个r行c列的二维列联表,简称rc表(表7.4.3)。
表7.4.3rc列联表表列联表分析的基本问题是:考察各属性之间有无关联,即判别两属性是否独立。如在前例中,问题是:一个人是否色盲与其性别是否有关?在rc表中,若以
和
分别表示总体中的个体仅属于
,仅属于
和同时属于
与
的概率,可得一个二维离散分布表(表7.4.4),则“A、B两属性独立”的假设可以表述为表7.4.4二维离离散分分布表表这就变为上一小节中诸
不完全已知时的分布拟合检验。这里诸
共有rc个参数,在原假设H0成立时,这rc个参数
由r+c个参数
和
决定。在这r+c后个参数中存在两个约束条件:
所以,此时
实际上由r+c-2个独立参数所确定。据此,检验统计量为
在H0成立时时,上上式服服从自自由度度为rc-(r+c-2)-1的分布。。其中诸诸是在H0成立下下得到到的的极大大似然然估计计,其其表达达式为为对给定定的显显著性性水平平,检检验验的的拒拒绝绝域域为为:例7.4.3为研研究究儿儿童童智智力力发发展展与与营营养养的的关关系系,,某某研究究机机构构调调查查了了1436名儿儿童童,,得得到到如如表表7.4.5的数据据,,试试在在显显著著性性水水平平0.05下判判断断智智力力发发展展与与营养养有有无无关关系系。。表7.4.5儿童童智智力力与与营营养养的的调调查查数数据据营养良好营养不良合计
智商合计3423672663291304564020132164233822863451436<8080909099100解:用A表示营养状况,它有两个水平:表示
营养良好,
表示营养不良;B表示儿童智商,它有四个水平,
分别表示表中四种情况。沿用前面的记号,首先建立假设
H0:营养状况与智商无关联,即A与B独立的。统计表示如下:
在原原假假设设H0成立立下下,,我我们们可可以以计计算算诸诸参参数数的的极极大大似似然然估估计计值值:进而可给出诸
,如其它结果见见表7.4.6表7.4.6
诸
的计算结果
营养良好384.1677346.8724259.7631313.35880.90810.29460.26600.19920.2403营养不良38.877935.103626.288131.71200.0919<8080909099100由表7.4.5和表7.4.6可以计算检检验统计量量的值此处r=2,c=4,(r-1)(c-1)=3,若取=0.05,查表有,由于19.2785>7.815,故拒绝原原假设,认认为营养状状况对智商商有影响。。本例中检验验的p值为0.0002。7.4.3正态性检验验正态分布是是最常用的的分布,用用来判断总总体分布是是否为正态态分布的检检验方法称称为正态性性检验,它它在实际问问题中大量量使用。一、正态态概率纸正态概率纸纸可用来作作正态性检检验,方法法如下:利利用样本数数据在概率率纸上描点点,用目测测方法看这这些点是否否在一条直直线附近,,若是的话话,可以认认为该数据据来自正态态总体,若若明显不在在一条直线线附近,则则认为该数数据来自非非正态总体体。例7.4.4随机选取10个零件,测测得其直径径与标准尺寸的偏偏差如下::(单位::丝)9.48.89.610.210.17.211.18.28.69.6在正态概率率纸上作图图步骤如下下:(1)首先将数据据排序:7.28.28.68.89.49.69.810.110.211.1;(2)对每一个i,计算修正正频率(i-0.375)/(n+0.25),i=1,2,…,n,(3)将点逐一点在正正态概率纸纸上,(4)观察上述n个点的分布布:若诸点在一一条直线附附近,则认认为该批数数据来自正态态总体;若诸点明显显不在一条条直线附近近,则认为为该批数据的的总体不是是正态分布布。从图7.4.2可以看到,,10个点基本在在一条直线线附近,故故可认为直直径与标准准尺寸的偏偏差服从正正态分布。。如果从正态概率纸上确认总体是非正态分布时,可对原始数据进行变换后再在正态概率纸上描点,若变换后的点在正态概率纸上近似在一条直线附近,则可以认为变换后的数据来自正态分布,这样的变换称为正态性变换。常用的正态性变换有如下三个:对数变换
、倒数变换
和根号变换
。
图7.4.3给出这10个点在正态态概率纸上上的图形,,这10个点明显不不在一条直直线附近,,所以可以以认为该电电子元件的的寿命的分分布不是正正态分布。。例7.4.5随机抽取某某种电子元元件10个,测得其其寿命数据如下下:110.47,99.16,97.04,77.60,4269.82,539.35,179.49,782.93,561.10,286.80.图7.4.3例7.4.5的正态概率率纸对该10个寿命数据据作对数变变换,结果果见表7.4.8表7.4.8对数变换后后的数据132.623.48490.0616286.805.65880.549297.044.57520.1597539.356.29040.646399.164.59670.2568561.106.32990.7434110.474.70480.3549782.936.66300.8415179.495.19010.451102269.827.72750.939ii利用表7.4.8中最后两列列上的数据据在正态概概率纸上描描点,结果果见图7.4.4,从图上可可以看到10个点近似在在一条直线线附近,说说明对数变变换后的数数据可以看看成来自正正态分布。。这也意味味着,原始始数据服从从对数正态态分布图7.4.4变换后数据据的正态概概率纸二、夏皮洛洛-威尔克克(Shapiro-Wilk)检验夏皮洛-威威尔克检验验也简称W检验。这个检验当当8n50时可以利用用。过小样样本(n<8)对偏离正态态分布的检检验不太有有效。W检验是建立立在次序统统计量的基基础上。检验统计量量为:(7.4.5)其中系数ai可查附表6。拒绝域为:{WW}。其中分位数可查附表7.系数还具有如下下几条性质质:据此可将(7.4.5)简化为例7.4.6某气象站收收集了44个独立的年年降雨量数数据,资料如如下(已排排序):52055656161663566968669270470771171371471972773574074474575077677778678679179482182282683483785186287387988990090492292695296310561074我们要根据据这批数据据作正态性性检验。首先由这批批数据可算算得:我们将计算算W的过程列于于表7.4.9中。为便于计算算,值,和安排在同一一行。表7.4.9某一气象站站收集的年年降雨量152010745540.3872255610565000.266735619634020.232346169523360.207256359262910.186866699222530.169576869042180.1542kk86929002080.140597048891850.1278107078791720.1160117118731620.1049127138621490.0943137148511370.0842147198371180.0745157278341070.0651k16735826910.056017740822820.047118744821770.038319745794490.029620750791410.021121776786100.01262277778690.0042从表7.4.9可以计算出出W的值:由于计算得得到的W值大于该值值,所以在在显著性水水平=0.05上不拒绝零零假设,即即可以认为为该批数据据服从正态态分布。若取=0.05,查附表7,在n=44时给出:9、静夜夜四无无邻,,荒居居旧业业贫。。。12月月-2212月月-22Thursday,December29,202210、雨中中黄叶叶树,,灯下下白头头人。。。03:49:5303:49:5303:4912/29/20223:49:53AM11、以我我独沈沈久,,愧君君相见见频。。。12月月-2203:49:5303:49Dec-2229-Dec-2212、故人江江海别,,几度隔隔山川。。。03:49:5303:49:5303:49Thursday,December29,202213、乍乍见见翻翻疑疑梦梦,,相相悲悲各各问问年年。。。。12月月-2212月月-2203:49:5303:49:53Dece
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论