![--SAS系统和数据分析协方差分析_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-2/3/38e0d342-6661-414e-a742-85b1e53bcbab/38e0d342-6661-414e-a742-85b1e53bcbab1.gif)
![--SAS系统和数据分析协方差分析_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-2/3/38e0d342-6661-414e-a742-85b1e53bcbab/38e0d342-6661-414e-a742-85b1e53bcbab2.gif)
![--SAS系统和数据分析协方差分析_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-2/3/38e0d342-6661-414e-a742-85b1e53bcbab/38e0d342-6661-414e-a742-85b1e53bcbab3.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二十六课协方差分析当定量的影响因素对观察结果有难以控制的影响,甚至还有交互作用时,采用协方差分 析,这些影响变量称为协变量,扣除(或消除)协变量的影响,可以得到修正后的均值估计。一、协方差分析概述1. 协方差分析概念协方差分析 (analysis of covarianee)又称带有协变量的方差分析(analysis of varianee withcovariates),是将回归分析与方差分析结合起来使用的一种分析方法。在各种试验设计中,对主要变量y研究时,常常希望其他可能影响和干扰y的变量保持一致以到达均衡或可比,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。但是有
2、时,这些 变量难以控制,或者根本不能控制。为此需要在试验中同时记录这些变量的值,把这些变量 看作自变量,或称协变量(covariate),建立因变量y随协变量变化的回归方程,这样就可以 利用回归分析把因变量y中受协变量影响的因素扣除掉,从而,能够较合理地比较定性的影响因素处在不同水平下,经过回归分析手段修正以后的因变量的总体均值之间是否有显著性 的差别。简单地说,协方差分析是扣除协变量的影响,或者将这些协变量处理成相等,再对 修正的y的均值作方差分析。2. 协方差分析的假定协方差分析需要满足的假定为: 各样本来自具有相同方差2的正态分布总体,即要求各组方差齐性。 协变量与主要变量 y间的总体回
3、归系数不等于 0。 各组的回归线平等,即回归系数12如果上述的假定满足,就作协方差分析。前述的各种试验设计,如完全随机化设计、随机区组设计、析因设计、拉丁方设计等,都可以带一个或多个协变量,按设计方案扣除协变 量的影响后,对主要变量 y的修正均值作比较,得出统计结论。3. 协方差分析的模型yijai ij加上协(26.1)最简单的单因素一元协方差分析的模型,是由单因素效应模型变量的影响因素(Xjj X)而得出:yij ai (Xij X) ij其中,X为协变量,Xij为协变量在分类水平i和j上的记录值,X为所有协变量的平均值, 为相关的回归系数。设 0 上海财经大学经济信息管理系IS/SHUF
4、EX,为平均截距。上式可以化简成:yj 0aiXj j(26.2)设oi 0 ai,上式可以化简成:yij 0i xij ij(26.3)很明显 0i是第i组回归线的截距,等于回归线的平均截距0加上本组的效应ai。这个式揭示了,观察值 yj的模型可以表示成一组相似的回归线,且各组具有共同的回归系数,和各组自己的截距 0i 0 ai。用SAS中的glm过程进行协方差分析时,要注意不同试验设计时class语句和model语句的写法。设分类变量为A、B,协变量为X,观察值为Y,则有: 单因素k水平设计的协方差分析模型class A;model X A ; 随机区组设计的协方差分析模型class A
5、B;model X A B ; 两因素析因设计的协方差分析模型class A B;model X A B A*B;二、实例分析1. 一元协方差分析例26.1研究牡蛎在不同温度的水中不同位置上的生长情况。有人做了如下试验:分别 在通向发电站的入口处(温度较低)不同位置(底部和表层)和出口处(温度较高)不同位 置(底部和表层)及电站附近的深水处(底部和表层的中间)总共5个不同位置点上,随机地各放4袋牡蛎(每袋中有10个),共5X 4=20袋。在将每袋牡蛎放入位置点之前,先洗干 净称出每袋的初始体重,放在5个不同点一个月后再称出最后体重。试验结果数据如表26.1所示。表26.1牡蛎在不同温度和位置上
6、的生长数据位置trt重复数rep (x为初始体重,y为最后体重)1234XyXyXyXy1 (入口底部)27.232.632.036.633.037.726.831.02 (入口顶部)28.633.826.831.726.530.726.830.43 (出口底部)28.635.222.429.123.228.924.430.24 (出口顶部)29.335.021.827.030.336.424.330.55 (附近中部)20.424.619.623.425.130.318.121.8程序如下:data growth;do trt=1 to 5;do rep=1 to 4;input x y ;
7、output;end;end;cards;27.2 32.632.0 36.633.0 37.726.831.028.6 33.826.8 31.726.5 30.726.830.428.6 35.222.4 29.123.2 28.924.430.229.3 35.021.8 27.030.3 36.424.330.520.4 24.619.6 23.425.1 30.318.121.8proc anova data=growth;class trt;model y=trt;proc glm data=growth;class trt;model y=trt x /solution;mean
8、s trt;lsmeans trt /stderr tdiff;contrast 'trt12 vs trt34' trt -1 -1 1 1 0;estimate 'trt1 adj mean' intercept 1 trt 1 0 0 0 0 x 25.76;estimate 'trt2 adj mean' intercept 1 trt 0 1 0 0 0 x 25.76;estimate 'adj trt diff' trt 1 -1 0 0 0;estimate 'trt1 unadj mean' in
9、tercept 1 trt 1 0 0 0 0 x 29.75;estimate 'trt2 unadj mean' intercept 1 trt 0 1 0 0 0 x 27.175;estimate 'unadj trt diff' trt 1 -1 0 0 0 x 2.575;run;程序说明:定性变量trt的5个不同位置点对 y可能有较大的影响,因此class语句中分组变量为trt,先选用anova过程进行方差分析。然而,牡蛎的初始体重x对牡蛎的最后体重y可能也有一定的影响,故适合选用glm过程进行协方差分析,在model语句中不仅包括分组变量trt,
10、而且应包括协变量 x。选择项solution要求输出回归系数的估计值及其标准误差和 假设检验等结果。means和lsmeans语句要求输出分组变量trt各水平下y的未修正均值和修正后的均值,选择项 stderr要求输出y的修正均值的标准误差、各修正均值与 0比较的假设 检验结果;选择项tdiff要求输出y的各修正均值之间两两比较所对应的t值和p值。Contrast语句是用来比较入口处底部和顶部均值之和与出口处底部和顶部均值之和是否 相等。前三条 estimate语句是用来估计入口处底部和顶部调整后的均值及它们之差,并假设 检验是否为0,后三条estimate语句是用来估计入口处底部和顶部未调整
11、的均值及它们之差, 并假设检验是否为 0。程序输出的主要结果如表26.2( a)、表26.2(b)、表26.2(c)所示。The SAS SystemAnalysis of Variance ProcedureDependent Variable: YSourceDFSum of SquaresMean Square F Value Pr > FModel4198.4070000049.601750004.640.0122Error15160.2625000010.68416667Corrected Total 19358.66950000R-SquareC.V.Root MSEY Me
12、an0.55317510.597063.2686643630.84500000SourceDFAnova SSMean SquareF Value Pr > FTRT4198.4070000049.601750004.640.0122General Linear Models ProcedureDependent Variable: YSourceDFSum of SquaresMean Square F Value Pr > FModel5354.4471767570.88943535235.050.0001Error144.222323250.30159452Corrected
13、 Total 19358.66950000R-SquareC.V.Root MSEY Mean0.9882281.7804380.5491762230.84500000SourceDFType I SSMean SquareF Value Pr > FTRT4198.4070000049.60175000164.470.0001X1156.04017675156.04017675517.380.0001SourceDFType III SSMean SquareF Value Pr > FTRT412.089359283.0223398210.020.0005X1156.04017
14、675156.04017675517.380.0001T for H0:Pr > |T|Std Error ofParameterEstimateParameter=0EstimateINTERCEPT2.494859769 B2.430.02931.02786287表 26.2 (a)单因素trt 一元x的协方差分析表26.2(a)中结果分析:对分组变量trt的方差分析表明,即使当初始体重x不考虑,各分组最后体重均值的区别也统计显著(0.0122<0.05),其中分组变量trt的平方和为198.40700000。而在协方差分析中,分组变量trt的类型1的平方和等于方差分析中的平方
15、和198.40700000,分组变量trt的类型3的平方和为12.08935928,大大小于类型 1的平方和,是因为类型3的平方和反映了经过共同的协变量x调整后的平方和,减去了协变量的影响,所以平方和大幅减小。类型1是一种未经过调整的平方和,因为它的优先级高于协变量的调整。更进一步分 析,我们注意到方差分析中均方误差为10.68416667,而协方差分析中却缩小到0.30159452,相应地分组变量trt的F统计量从4.64增加到10.02,说明包含了协变量后分组的区别更加显 著,原因是简单方差分析中,大多数的误差是由于初始体重x的变异造成的。表中的最后一部分是选择项solution的输出结果
16、,对模型中的截距、各分组变量和协变量的回归系数进行估计和检验,在这个单因素trt的情况下,估计是以最后一个水平trt5( trt=5)为对照组,并且设置它的系数为0,因此截距intercept的估计值是分组trt5的估计值。其他四个分组trt的系数估计是每一个与trt5进行比较而得到的。注意,出口处的 trt3和trt4分组不同于trt5分组。协变量x的系数是合并各组内y和x所得到的回归系数,即由5个独立的trt分组分别回归y和x后得到回归系数然后加权平均。协变量 x的系数估计值表明,初始体重 变动1个单位,最后,体重 y相关地要变动1.083179819单位。表26.2( b)未调整均值和调
17、整均值及均值之间的比较The SAS SystemGeneral Linear Models ProcedureLevel ofYXTRTNMeanSDMeanSD1434.47500003.1889130929.75000003.205724052431.65000001.5373136727.17500000.960468643430.85000002.9557852924.65000002.758622844432.22500004.2975768426.42500004.049176875425.02500003.6989863520.80000003.02103735Least Sq
18、uares MeansTRTYStd Err Pr >|T| LSMEANLSMEANLSMEAN H0:L SMEAN=0 Number130.15311250.33391740.0001 1230.11730060.28273500.0001 2332.05232960.27962950.00013431.50468540.27640820.00014表26.2( b)中结果分析:means语句要求计算按trt每个水平分组的未调整的y和x的均值。女口 yr? =34.475=(32.6+36.6+37.7+31)/4,乂仔=29.75=(27.2+32+33+26.8)/4。Lsme
19、ans 语句要求计算调整后的y的均值,或称最小二乘均值估计,我们可以由公式(26.1)求分组平均得到:aiyij(Xijx)ijyi?yi?3? x)(26.4)再由公式(25.2)求分组平均代入上式:Yi?Yi?(xi? x)yi?xi?x(26.5)0aix例如,初始体重的整体平均值为x = ( 29.750+27.175+24.650+26.425+20.800 ) /5=25.76 ,以 trt1 分组为例,调整后 =30.1531125=34.475 1.083179819X( 29.75- 25.76)。tdiff 选择项要求对已调整均值的两两比较采用Isd检验,可以使用adjus
20、t= duncan/waller等选项替代Isd检验,获得其他多重比较的检验结果。从最后的5x 5修正均值比较结果表中,可得到(y1?, y2?, y5?)中的任何一个与(y3? , y4?)中的任何一个之间有显著或非常显著性差别。表 26.2 (c)有计划的均值对比和参数估计The SAS SystemContrast DFContrast SSDependent Variable: YT for H0Pr > |T|Std Error ofParameterEstimateParameter=0Estimatetrt1 adj mean30.153112590.300.00010.3
21、3391743trt2 adj mean30.1173006106.520.00010.28273504adj trt diff0.03581200.090.93120.40722674trt12 vs trt34 18.59108077Mean Square F Value Pr > F8.5910807728.490.0001表26.2 (c)中结果分析:contrast语句通过其后的参数项设置,用来假设检验我们自己计划的原假设H。:y2?y3?y4?,结果显示非常显著(0.0001<0.05),即入口处底部和顶部均值之和与出口处底部和顶部均值之和是有显著差异的,说明水中的温度
22、不同对牡蛎 生长是不同的。本程序中的estimate语句,有计划地设计了对入口处的底部和顶部调整后均值进行估计,及它们之差是否为0的假设检验,结果为不显著。但如果对未调整均值之差是否为0进行假设检验,结果却为非常显著。因此,我们可以看到使用调整后均值进行估计是 必要的。2. 多元协方差分析例26.2研究男女儿童的体表面积是否相同。 考虑到儿童的身高和体重对表面积可能有影 响,在某地测量了男女各 15名初生至3周岁儿童的身高、体重和体表面积,得到测量数据如 表26.3所示。表26.33周岁男女儿童的身高、体重和体表面积男(male)女(female)身高(x1)体重(x2)表面积(y)身高(x1
23、)体重(x2)表面积(y)54.03.002446.254.03.002117.350.52.251928.453.02.252200.251.02.502094.551.52.501906.256.53.502506.751.03.001850.352.03.002121.051.03.001632.576.09.503845.977.07.503934.080.09.004380.877.010.04180.474.09.504314.277.09.504246.180.09.004078.474.09.003358.876.08.004134.573.07.503809.796.013.
24、55830.291.012.05358.497.014.06013.691.013.05601.799.016.06410.694.015.06074.992.011.05283.392.012.05299.494.015.06101.691.012.55291.5程序如下:proc format;value sexname 1= ' male' 2= ' female data child;do i=1 to 15;do sex=1 to 2;input x1 x2 y ;format sex sexname.;output;end;end;cards;54.0 3.
25、00 2446.254.0 3.00 2117.350.5 2.25 1928.453.0 2.25 2200.251.0 2.50 2094.551.5 2.50 1906.256.5 3.50 2506.751.0 3.00 1850.352.0 3.00 2121.051.0 3.00 1632.576.0 9.50 3845.977.0 7.50 3934.080.0 9.00 4380.877.0 10.0 4180.474.0 9.50 4314.277.0 9.50 4246.180.0 9.00 4078.474.0 9.00 3358.876.0 8.00 4134.573.
26、0 7.50 3809.796.0 13.5 5830.291.0 12.0 5358.497.0 14.0 6013.691.0 13.0 5601.799.0 16.0 6410.694.0 15.0 6074.992.0 11.0 5283.392.0 12.0 5299.494.0 15.0 6101.691.0 12.5 5291.5proc glm data=child;class sex;model y=sex x1 x2 /solution;lsmeans sex /stderr tdiff;run;程序说明:本例为带有两个协变量x1和x2,一个分组变量sex的完全随机化设计的
27、多元协方差分析。data步中为了便于读入数据,sex分组变量取值为1和2,但又为了显示清楚,用format过程自定义了 sex name格式,用于sex变量的显示格式。在class语句中只能有 sex分组变量,而在 model语句中应把观察指标放在等号的左边,分组变量和协变量放在等号的 右边,solution选项求回归方程的系数估计。lsmeans语句求修正后均值,stderr选项求均值的 标准误差,tdiff选项求均值对比的t值和p值。程序输出的主要结果如表26.4所示。表26.4单因素的多元协方差分析The SAS System0.9846905.131187202.42755197394
28、5.04333333SourceDFType I SSMean SquareF Value Pr > FSEX714100.40833333714100.4083333317.430.0003X167440016.9170805067440016.91708050 1645.810.0001X2368954.78952901368954.789529019.000.0059Dependent Variable: YSourceDFSum of SquaresMean Square F Value Pr > FModel368523072.1149428022841024.03831
29、420557.410.0001Error261065399.7587237340976.91379707CorrectedTotal 2969588471.87366650General Linear Models ProcedureR-SquareC.V.Root MSEY MeanSEX1139769.33971381139769.339713813.410.0762X11938153.70360865938153.7036086522.890.0001X21368954.78952901368954.789529019.000.0059T for H0:Pr > |T|Std Er
30、ror ofParameterEstimateParameter=0EstimateINTERCEPT-1118.730592 B-2.250.0331497.2296650SEXfemale -136.828607 B-1.850.076274.0867551male0.000000 B.X154.4772174.780.000111.3853803X2130.6451083.000.005943.5387744NOTE: The X'X matrix has been found to be singular and a generalizedSourceType III SSDF
31、inverse was used to solveMean Square F Value Pr > F表26.4中结果分析:由类型 3的平方和计算结果表明,身高、体重对体表面积都有非常 显著性的影响(0.0001<0.05,0.0059<0.05),而男、女两性之间无显著性差别(0.0762>0.05 )。由回归分析的结果 可知道,与x1、x2相对应的公共偏回归系数为154.477217、2130.645108,它们与0之间差别的检验结果为p=0.0001和p=0.0059。男、女两性体表面积的修正均值分别为 52.32694和52.32694,两者之间无显著性差别(p
32、=0.0762)。第二十七课符号检验和Wilcoxon符号秩检验在统计推断和假设检验中,传统的检验统计量都叫做参数检验,因为它们都依赖于确定 的概率分布,这个分布带有一组自由的参数。参数检验被认为是依赖于分布假定的。通常情 况下,我们对数据进行分析时,总是假定误差项服从正态分布,这是人们易于接受的事实, 因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似, 这是由于大样本理论所保证的。但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法(non-paramet
33、ric statistical analysis )来处理。这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。三、单样本的符号检验符号检验(sign test)是一种最简单的非参数检验方法。它是根据正、负号的个数来假设 检验。首先需要将原始观察值按设定的规则,转换成正、负号,然后计数正、负号的个数作 出检验。该检验可用于样本中位数和总体中位数的比较,数据的升降趋势的检验,特别适用 于总体分布不服从正态分布或分布不明的配对资料,有时当配对比较的结果只能定性的表示,如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀,即不能获得具体 数字,也可用符
34、号检验,例如用正号表示颜色从深变浅,用负号表示颜色从浅变深。用于配对资料时,符号检验的计算步骤为:首先定义成对数据指定正号或负号的规则, 然后计数正号的个数 S及负号的个数 S,由于在具体比较配对资料时,可能存在配对资料 的前后没有变化,或等于假设中的中位数,此时仅需要将这些观察值从资料中剔除,当然样 本大小n也随之减少,故修正样本大小 n S S。当样本n较小时,应使用二项分布确切 概率计算法,当样本 n较大时,常利用二项分布的正态近似。1.小样本时的二项分布概率计算当n 20时,S或S的检验p值由精确计算尺度二项分布的卷积获得。在比较配对资料试验前后有否变化,或增加或减小的假设检验时,如果
35、我们定义试验后比试验前增加为正 号,反之为负号,那么对于原假设:试验前后无变化来说, 正号的个数S和负号的个数S可 能性应当相等,即正号出现的概率p=0.5,于是S与S均服从二项分布 B(n,0.5),对于太大的S相应太小的S,或者太大的S相应太小的S,都将拒绝接受原假设;对于原假设: 试验后比试验前有增加来说,正号的个数S大于负号的个数 S的可能性应该大,即正号出现的概率p 0.5,对于太小的S相应太大的S,将拒绝接受原假设;对于原假设:试验 后比试验前减小来说,正号的个数S小于等于负号的个数 S的可能性应该大,即正号出现的概率p 0.5,对于太大的S相应太小的S,将拒绝接受原假设。例27.
36、1有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么 真实情况究竟应该是怎样的呢?随机地选取15名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及格、差打分,经过三个月训练后,再做一次测试对 每个学生打分。数据如表 27.1所示。我们将素质提高用正号表示,反之用负号表示,没有变 化用0表示。显著性水平取 0.1。表27.1训练前后的素质比较学生编号训练之前训练之后差异符号1中优+2及格良+3良中一4差中+5良良06中优+7差及格+8良优+9中差一10差中+11中优+12及格良+13中及格一14中优+15差中+从表27.1中15名学生训练前后的差异分
37、析可得出:有14名学生有差异,其中 S =11,S =3。 1名学生无差异(学生编号为5),应该从分析中去掉,所以n =15-仁14。假设检验为:Ho : p 0.5即训练之后学生素质没有提高。H1 : p 0.5即训练之后学生素质有提高。由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的假定概率为p=0.5,负号为1- p=0.5,这样整个试验的概率是相同的,并且每一个试验是相互独立的。因此在n =14次独立的试验中,正号出现的次数服从二项分布B(14,0.5),如表27.2所示。表27.2 二项分布的概率和累计概率 n =14,p=0.5正号出现的次数正号出现的概率累计概率
38、00.00010.000110.00090.000920.00560.006530.02220.028740.06110.089850.12220.212060.18330.395370.20950.604780.18330.788090.12220.9102100.06110.9713110.02220.9935120.00560.9991130.00090.9999140.00011.0000从表27.2的累计概率列中我们看到,正号出现的次数大于 10的概率为1 0.9713=0.0287,或者换一种方法计算为 =0.0001+0.0009+0.0056+0.0222=0.0287 ,二者
39、的微小差异是因为小数点 后舍入问题造成的。而试验的结果:正号出现的次数为11,大于10,出现的概率不会超过0.0287,我们开始设定的显著性水平为0.1,由于0.0287<0.1,所以我们拒绝原假设,接受备选假设。如果我们的原假设为p=0.5,既训练前后学生素质相等,那么就是双侧检验,应该加上正号出现的次数小于4的概率0.0287,即2 X 0.0287=0.0574<0.1 ,同样是拒绝原假设,接受区间为4次到10次,而拒绝区间为小于等于3次(小于4次)或大于等于11次(大于10次)。2.大样本时的正态近似概率计算当n 20时,样本可以认为是大样本。我们可以利用二项分布的正态近似
40、,即对于SB( n,p),二项分布的期望均值为np,方差为n p(1 p),当n比较大时,且np和n(1 p)大于5,可以近似地认为:S np zN(0,1)(27、np(1 p)(公式中的S表示正号或者负号的个数,符号检验时,p=0.5代入式(27.1 )中,得到大样本时的正态近似统计量:S 0.5n0.5、n N(0,1)(27.2)当S>n/2时,应该修正S为S 0.5;当S<n/2时,应该修正S为S + 0.5。S值加或 减的0.5是连续性修正因子,目的是为了能将连续分布应用到近似的离散型分布。四、配对资料的 Wilcoxon符号秩检验当两组配对资料近似服从正态分布,它们差
41、值的检验可以使用配对t检验法。如果配对资料的正态分布的假设不能成立,就可以使用Frank Wilcoxon ( 1945)符号秩检验,它是一种非参数检验方法,对配对资料的差值采用符号秩方法来检验。它的基本要求是差值数据设 置为最小的序列等级和两组配对资料是相关的(配成对)。在两组配对资料的差异有具体数值的情况下,符号检验只利用大于0和小于0的信息,即正号和负号的信息,而对差异大小所包含的信息却未加利用,但Wilcoxon符号秩检验方法既考虑了正、负号,又利用了差值大小,故效率较符号检验法高。例27.2某制造商想要比较两种不同的生产方法所花费的生产时间是否有差异。随机地选 取了 11个工人,每一
42、个工人都分别使用两种不同的生产方法来完成一项相同的任务,每一个工人开始选用的生产方法是随机的,即可以先使用生产方法1再使用生产方法 2,也可以先上海财经大学经济信息管理系IS/SHUFE用生产方法2再使用生产方法1。这样,在样本中的每一个工人都提供了一个配对观察。数据如表27.3所示。任务完成时间的正差值表示生产方法1需要更多的时间,负差值表示生产方法2需要更多的时间。表27.3两种不同生产方法完成任务的时间(分钟)工人编号n生产方法M差值D绝对差值秩次R符号秩次RM1M2D=M1 M2|D|一+110.29.50.70.78829.69.80.20.22239.28.80.40.43.53.
43、5410.610.10.50.55.55.559.910.30.40.43.53.5610.29.30.90.91010710.610.50.10.111810.010.000一一一911.210.60.60.6771010.710.20.50.55.55.51110.69.80.80.899符号'秩次总和T =5.5, T=49.55.549.5为了比较两种方法的任务完成时间是否有显著差异,假设检验为:H。:任务完成时间的两个总体是相同的。Hi :任务完成时间的两个总体是不相同的。使用Wilcox on符号秩检验方法的主要步骤见表27.3中每列的计算方法和过程,先求出每对数据的差值D
44、,按差值绝对值|D|由小到大排列并给秩R,从秩1开始到秩10,注意工人编号为8的配对数据,由于差值为0,在排秩中丢弃,样本数目修正为n =11 仁10。在给秩值时,遇到相等|D|,也称为结值(tied),使用平均秩,如工人编号3和5具有相同的绝对差值0.4,所以平分秩3和秩4,各为秩3.5。一旦绝对差值的秩值R给出后,然后将 R分成正和负差值的两个部分秩值R和R ,最后求符号秩和TR , TR ,如T =2+3.5=5.5。对于样本数目有n个,T与T的最小可能值为0,而最大可能值为(1+2 +n)= n(n+1)/2。显然,应当有T +T = n(n +1)/2,如本例 5.5+49.5=55
45、=10(10+1)/2。那么符号秩的平均值为n(n+1)/4。构造 Wilcox on符号秩统计量为:(27.3)n(n 1)显然如果原假设为真,4T与T应该有相同的值,等于n(n +1)/4,因此太大的S值或太小的S值都是我们拒绝的依据。在实际工作中便于计算常取W=min(T , T ), W服从所谓的 Wilcox on 符号秩分布,对于本例 n =10,S 49.5 10(10+1)/4=22 , W= mi n(49.5 , 5.5)=5.5 , 查表可得在显著水平0.05, n =10的双侧检验的临界值为 8,即W值的拒绝区域为 0到8,接受区域为8到27.5。由于5.5<8,
46、我们拒绝原假设。对于n >20,当原假设为真时,统计量 T=T T接近于0,统计量T的方差为:(Rii 10)2n(n 1)(2 n 1)6(27.4)构造检验统计量:n(n 1)(2n1)丫 6 N(0,1)(27.5)近似于标准正态分布。因为T +T = n(n +1)/2 ,所以T =T T =2T n(n +1)/2 ,我们可以将(27.5)式中的T改写为T的形式:n(n 1)4n(n 1)(2n1)V 24N(0,1)(27.5)我们以本例的数据来计算一下,z(49.5 5.5)/ 10 11 21/6 =2.24 , p=2 x0.01246=0.249。标准正态分布使用显著
47、水平 为2.24>1.96,所以拒绝原假设。0.05时,拒绝区域为 z< 1.96和z>1.96,因五、实例分析例27.1的SAS程序如下:data study.training ;input before after;d= after-before;cards;3 52 44 31 34 43 51 24 53 52 43 23 51 3proc univariate data=study.training; var d;run;程序说明:建立输入数据集training ,首先要对定性资料进行量化。本例把学生成绩按5分计量,设定优=5分,良=4分,中=3分,及格=2分,差=
48、1分。把提高学生某种素质的训练 前成绩和训练后成绩分别存放在变量before和after中,变量d等于配对的训练后成绩减去训练前成绩。注意只能调用uni variate过程,而不能调用mea ns过程来进行符号检验。分析变量为单样本数据集training中的d变量。输出的主要结果如表27.4所示。表27.4用uni variate过程进行符号检验的输出结果Uni variate ProcedureVariable=DMomentsQuantiles(Def=5)N15 Sum Wgts15100% Max299%2Mean1.066667 Sum1675% Q3295%2Std Dev1.38
49、7015 Variance1.9238150% Med290%2Skewness-1.24756 Kurtosis0.18131725% Q1010% -1USS44 CSS26.933330% Min-25%-2CV130.0326 Std Mean0.3581261%-2T:Mean=02.978471 Pr>|T|0.0100Range4Num A= 014 Num > 011Q3-Q12M(Sign)4 Pr>=|M|0.0574Mode2Sgn Rank38 Pr>=|S|0.0154ExtremesLowest Obs HighestObs-2(9)2(10)结果说明:符号检验统计量M(Sign)=4,它是取正符号和负符号两者之间的小者作为检验统计量,Pr>=|M|计算的概率是二项分布的两尾概率之和,因此它是双侧检验,检验正符号 和负符号是否相同,结果为0.0574。在显著水平设定为0.1时,由于0.0574<0.1,拒绝原假设。符号检验的缺点是丢失了差值d大小的信息,如果设定检验的显著水平为0.05,那么本例检验结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国闪蒸干燥器行业投资前景及策略咨询研究报告
- 2025至2031年中国记忆型条码扫描器行业投资前景及策略咨询研究报告
- 2025年硅胶自熄管项目可行性研究报告
- 2025年爽滑抗粘连母料项目可行性研究报告
- 2025至2031年中国洁白牙膏行业投资前景及策略咨询研究报告
- 2025年旋转式变阻器项目可行性研究报告
- 2025年强化安全转化器项目可行性研究报告
- 2025年地刮项目可行性研究报告
- 2025至2031年中国交联聚乙烯绝缘轻型架空电缆行业投资前景及策略咨询研究报告
- 2025年仓壁振动器项目可行性研究报告
- 2024年《动漫艺术概论》自考复习题库(附答案)
- 2024年职业技能“大数据考试”专业技术人员继续教育考试题库与答案
- 新时代劳动教育教程(高校劳动教育课程)全套教学课件
- 慢病报卡系统使用流程图
- 2024年辽宁轨道交通职业学院单招职业适应性测试题库含答案
- 小升初数学总复习专题训练:平行四边形的面积与梯形的面积
- 物业安全开工第一课课件
- 化工设计自动控制方案
- 幼儿园幼小衔接考试试题一
- 天津事业单位笔试试题2024
- 《化妆品稳定性试验规范》
评论
0/150
提交评论