假设的检定两个变量的相关_第1页
假设的检定两个变量的相关_第2页
假设的检定两个变量的相关_第3页
假设的检定两个变量的相关_第4页
假设的检定两个变量的相关_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章第十章假设的检定假设的检定 两个变量的相关两个变量的相关 第一节第一节n两个定类变项两个定类变项定类或定序ppt上考至少考一个例题定距n 倘若要研究倘若要研究x x与与y y这两个变项是否相关,则在这两个变项是否相关,则在抽取了一个随机样本以后便首先运用前面所介绍抽取了一个随机样本以后便首先运用前面所介绍的方法,简化样本中的资料,从而计算的方法,简化样本中的资料,从而计算x x与与y y的相的相关程度和方向。但是,即使在样本中关程度和方向。但是,即使在样本中x x与与y y是相关是相关的,却可能是由的,却可能是由抽样误差抽样误差所引起,不一定是在总所引起,不一定是在总体中也相关。由于我们

2、所关心的是总体的情况不体中也相关。由于我们所关心的是总体的情况不是样本的情况,因此,需要作统计推论,本章的是样本的情况,因此,需要作统计推论,本章的目的是目的是介绍怎样运用样本的资料来检定假设,在介绍怎样运用样本的资料来检定假设,在总体中总体中x x与与y y是相关的。是相关的。n 在介绍计算相关系数时,我们强调要特别注在介绍计算相关系数时,我们强调要特别注意变项的测量层次,同样,在选用相关的检定法意变项的测量层次,同样,在选用相关的检定法时,也要特别注意该检定法所要求的时,也要特别注意该检定法所要求的测量层次测量层次。一、交互分类表中变量的相互独立性一、交互分类表中变量的相互独立性 研究定类

3、变量之间的关系,实际上就是通过研究定类变量之间的关系,实际上就是通过条件分布条件分布的的比较进行的,下面我们首先通过条件分布表来看一看两变项比较进行的,下面我们首先通过条件分布表来看一看两变项的相互独立性。的相互独立性。老老 年年中中 年年青青 年年边缘和边缘和戏曲戏曲20/27=0.7420/27=0.7410/40=0.2510/40=0.252/57=0.042/57=0.0432/124=0.2632/124=0.26歌舞歌舞5/27=0.185/27=0.1820/40=0.5020/40=0.5035/57=0.6135/57=0.6160/124=0.4860/124=0.48问

4、题是,如何进行比较呢?问题是,如何进行比较呢? 根据上表中的根据上表中的每一行每一行,可以比较三代人的喜爱是,可以比较三代人的喜爱是否有所不同,首先对戏曲来说,三代人的百分比分别否有所不同,首先对戏曲来说,三代人的百分比分别是:是:0.740.740.250.250.040.04; 歌舞为:歌舞为:0.180.180.500.500.610.61; 球赛为:球赛为:0.080.080.250.250.350.35。 可见,随着代际的年轻化,对戏曲喜爱逐渐下降,可见,随着代际的年轻化,对戏曲喜爱逐渐下降,而歌舞和球赛越来越受到欢迎,从而得出节目的喜爱而歌舞和球赛越来越受到欢迎,从而得出节目的喜爱

5、与代际相关的结论,也就是变量与代际相关的结论,也就是变量y(y(节目的喜爱节目的喜爱) )与变量与变量x(x(代际代际) )是有关的。是有关的。相关系数计算结果是否如此?相关系数计算结果是否如此?n 现在设想,如果统计的结果显示,三代人的现在设想,如果统计的结果显示,三代人的百分比是不变的,即:百分比是不变的,即:n 戏曲:戏曲:0.740.74、0.740.74、0.740.74n 歌舞:歌舞:0.180.18、0.180.18、0.180.18n 球赛:球赛:0.080.08、0.080.08、0.080.08n 那么,又该作出什么结论呢?那么,又该作出什么结论呢?n 显然,如果选择显然,

6、如果选择“喜爱节目喜爱节目”的比例对于三的比例对于三代人都是一样的话,那就表示变量代人都是一样的话,那就表示变量“节目节目”与变与变量量“代际代际”之间没有关系的,这种情况称变量之之间没有关系的,这种情况称变量之间是间是相互独立的相互独立的。如果变量间是相互独立的话,。如果变量间是相互独立的话,通过上例可以看出,必须存在通过上例可以看出,必须存在变量的条件分布和变量的条件分布和它的边缘分布相同它的边缘分布相同。即:即:nnnnnnnnnnrr*1*13*132*121*11nnnnnnnnnncc*2*23*232*221*21 x x y yx x1 1x x2 2x x3 3 x xc c

7、y y1 1n n1111n n2121n n3131 n nc1c1n n* *1 1y y2 2 n n1212 n n2222 n n3232 n nc2c2 n n* *2 2 y yr rn n1r1rn n2r2rn n3r3rn ncrcrn n* *r rn n1 1* *n n2 2* *n n3 3* *n nc c* *n nnnnnnnnnnnrccrrrr*33*22*11用一个通式来表示用一个通式来表示 ,即:,即:nnnnijji*(i=1,2(i=1,2 r r,j=1,2 j=1,2 c)c) 上式分子分母均乘以上式分子分母均乘以n n:nnnnnnijij*

8、ijijpnn*iipnnjjpnn*1 可见,如果交互类表中的变量是相互独立的,可见,如果交互类表中的变量是相互独立的,边缘分布和条件分布存在以下关系。边缘分布和条件分布存在以下关系。 x y x1 x2 xc 行边缘 y1 p11 = p*1 p1*. p12 = p*2 p1* p1c =p*.cp1* p1* y2 p2 1=p*1 p2* p22 = p*2 p2* p2 c=p*.cp2* p2* yr p r 1=p*1. p r * p r 2= p*2pr* prc =p*c.p*r p r * 列边缘 p*1 p*2 p*c pij=1 二、交互分类表二、交互分类表的原假设

9、的原假设n 交互分类表检验是将总体中变量间无关系,或相互独立交互分类表检验是将总体中变量间无关系,或相互独立作为检验的原假设。即:作为检验的原假设。即:n h h0 0:变量:变量x x与变量与变量y y无关(总体)无关(总体)n h h1 1:变量:变量x x与变量与变量y y有关(总体)有关(总体)n h h0 0:p pijij =p =pi i* *.p.p* *j j (i=1,2i=1,2c c;j=1,2j=1,2r r)n 由于由于p pi i和和p pj j是总体的边缘分布,一般都是未知的,因此,是总体的边缘分布,一般都是未知的,因此,可以可以用样本中的边缘频率分布作为它的点

10、估计值用样本中的边缘频率分布作为它的点估计值: n 列边缘:列边缘: i=1,2i=1,2c cn 行边缘:行边缘: j=1,2j=1,2c cn 这里小写字母这里小写字母n ni i,n nj j,n n表示样本频次。表示样本频次。nnppiii*nnppjij*三、交互分类表检验的统计量三、交互分类表检验的统计量x x2 2n 运用统计量运用统计量 2 2来进行检验。来进行检验。 2 2检验要求:检验要求:1 1)样本是用随机方法抽取的;样本是用随机方法抽取的;2 2)两个变量)两个变量都是有定类的性质。都是有定类的性质。n 交互分类检验的程序和单变量检验是相同交互分类检验的程序和单变量检

11、验是相同的:确定原假设;选择适当的统计量,定出显的:确定原假设;选择适当的统计量,定出显著性水平后根据样本值进行判断。著性水平后根据样本值进行判断。n 交互分类表统计量的确定是通过在原假设交互分类表统计量的确定是通过在原假设成立的条件下,用总体和样本一系列值的比较成立的条件下,用总体和样本一系列值的比较来进行的,具体步骤是:来进行的,具体步骤是:n求出列联表中各格的期望频次求出列联表中各格的期望频次n1 1)原假设:)原假设:h h0 0:p pijij=p=pi i* *.p.p* *j jn用样本的边缘和求出用样本的边缘和求出p pi i* *和和p p* *j jn(式中的第二个符号是根

12、据原假设(式中的第二个符号是根据原假设h h0 0得来的。得来的。n第三个近似是根据边缘频率分布的点估计值得来的。)第三个近似是根据边缘频率分布的点估计值得来的。)e eijij=np=npijij=np=np* *i i.p.p* *j jnjnin*.* 于是,在原假设于是,在原假设h h0 0成立条件下成立条件下的期望频次交互分类表有下表的期望频次交互分类表有下表1 1: x x y yx x1 1x x2 2x xc cy y1 1y y2 2 y yr re e1111e e2121e ec1c1e e1212e e2222e ec2c2 e e1r1re e2r2re ecrcr

13、不仿设想,在不仿设想,在h h0 0成立的条件下,作无数成立的条件下,作无数次抽样,每次抽样可得到一个实例的频次交次抽样,每次抽样可得到一个实例的频次交互分类表,如下表互分类表,如下表2 2: x x y y x x1 1x x2 2x xc cy y1 1n n1111n n2121n nc c1 1y y2 2n n1212n n2222n nc c2 2 y yr rn n1r1rn n2 2r rn nc cr r 比较表比较表1 1和表和表2 2,可以想象如果总体中,可以想象如果总体中h h0 0为真为真的话,那么实例频次列联表的格值和期望频次的话,那么实例频次列联表的格值和期望频次

14、列联表中的格值相差不多的可能性较大。反之,列联表中的格值相差不多的可能性较大。反之,如果两表的格值差距很大。如果两表的格值差距很大。 上述的讨论可用以下的统计量来表示:上述的讨论可用以下的统计量来表示: 分子取平方是为了取其绝对分子取平方是为了取其绝对差值,而分母差值,而分母e eijij是为了平衡是为了平衡e eijij数值本身的大小,否则,数值本身的大小,否则,如果如果e eijij本身数值很小的话,本身数值很小的话,则即使则即使(n(nijij-e-eijij) )2 2与与e eij ij 相比已相比已经很大,但在总平方和中仍然经很大,但在总平方和中仍然是微不足道。是微不足道。n 上述

15、统计量,经过数学计算可知,当上述统计量,经过数学计算可知,当n n很大,很大,每格每格e eijij都不太小,服从自由度都不太小,服从自由度k=(r-1)(c-1)k=(r-1)(c-1)的的 2 2分分布。布。n注意,注意,下面就交互分类表的统计量进行讨论下面就交互分类表的统计量进行讨论:n 1.1.对于对于2 2 2 2表,由于格数过少,为减少偏差,表,由于格数过少,为减少偏差,要作连续性修正,尤其在有某一个或多个格的预期要作连续性修正,尤其在有某一个或多个格的预期次数等于或小于次数等于或小于5 5时必须修正:时必须修正: 2 2. .以上以上 2 2检验的讨论,也适用于单变检验的讨论,也

16、适用于单变量二项总体或多项总体的假设检验。量二项总体或多项总体的假设检验。 n(1 1)二项总体。)二项总体。n 在单总体假设检验中,曾谈到对于大在单总体假设检验中,曾谈到对于大样本总体成数的假设检验,可用:样本总体成数的假设检验,可用:n z= z= 作为总体成数的原假设作为总体成数的原假设 nh h0 0:p=pp=p0 0的统计量。的统计量。npppp)1 (000n 但是通过列联表的讨论,可引出另一件与但是通过列联表的讨论,可引出另一件与 2 2等价的检验方式:改等价的检验方式:改h h0 0:p=pp=p0 0(p(p0 0为总体成数为总体成数) )。n 于是对于样本容量为于是对于样

17、本容量为n n的抽样,其理论上的抽样,其理论上期望频次为:期望频次为:e e1 1=np=np0 0 n 而理论上非期望出现的频次为:而理论上非期望出现的频次为:e e2 2=n(1-=n(1-p p0 0) )。n 与此同时,相对应的实际观测值为与此同时,相对应的实际观测值为n n1 1和和n n2 2(n(n1 1+n+n2 2=n)=n)。n 引用引用 2 2检验有:检验有: n 可以证明,当可以证明,当n n较大时,较大时, 2 2分布近似地为分布近似地为自由度自由度k=1k=1的的 2 2分布,根据连续修正,上述分布,根据连续修正,上述 2 2为:为:222212112)()(een

18、eenx222212112)5 . 011 ()5 . 011 (eeneenx(2)多项总体)多项总体n 多项分布是单项二项分布的自然扩展,如果变量多项分布是单项二项分布的自然扩展,如果变量a a共共有有r r类:类:a a1 1、a a2 2、a ar r。n 设总体种各类的概率为:设总体种各类的概率为:p p1 1、p p2 2、p pr r。于是总体。于是总体的原假设的原假设h h0 0为:为:h h0 0:p:pi i=p=pi0 i0 (i=1,2i=1,2r r)n 对于样本容量为对于样本容量为n n的抽样,其理论是期望频次分布为:的抽样,其理论是期望频次分布为:e ei i=n

19、p=npi0i0。n 与此同时,相对应的各类实际观测值为:与此同时,相对应的各类实际观测值为:n n1 1、n n2 2n nr r。 则则 2 2值为:值为:n 可以证明,可以证明, 2 2近似地满足自由度近似地满足自由度k=r-1k=r-1的的 2 2分布。分布。riiiirxeenx122) 1()( 3. 3. 使用统计量使用统计量 2 2对对rcrc表进行检验,每一表进行检验,每一格值的格值的e eijij要保持在一定数目上。要保持在一定数目上。q 如果其中有的格值如果其中有的格值e eijij过小,在计算过小,在计算q值时,值时, 2 2值的波动就会过大。值的波动就会过大。q e

20、eijij应该取多大,根据要求的精确程度不同,不应该取多大,根据要求的精确程度不同,不同研究者给出的限制不同。同研究者给出的限制不同。q 对于二项总体,要求对于二项总体,要求npnp 5 5,n(1-p)n(1-p) 5 5。也就是。也就是如果只有两个格值的话,必须要求所有如果只有两个格值的话,必须要求所有e eijij 5 5。q 有的研究者认为有的研究者认为e eijij 5 5的要求适合所有的要求适合所有r r c c的交的交互分类表。但也有人认为对于互分类表。但也有人认为对于r r c c 交互分类表,交互分类表,e eijij 3 3就可以了。另外,还有人指出就可以了。另外,还有人指

21、出e eijij小于小于5 5的格数的格数不应超过总格数不应超过总格数20%20%,当小于,当小于5 5的格值过多会引起判的格值过多会引起判断的失误。断的失误。ijijijeen2)(举例:设实例值和期望值共有举例:设实例值和期望值共有7 7个格值个格值 。eij 321138724241nij 301108623554 从直现来判断,实例值和期望值相差不从直现来判断,实例值和期望值相差不大,可以接受原有假设。但如何用大,可以接受原有假设。但如何用 2值进行显值进行显著性检验呢?(著性检验呢?( =0.05=0.05)。)。 01.141) 14 (4) 45 (2) 25 (24)2423(

22、87)8786(113)113110(32)3230(22222222x592.12) 17(01.1405. 022xx 检验表明:有显著性差异。检验表明:有显著性差异。 为什么会出现感觉和为什么会出现感觉和x x2 2检验不符的情况呢?主要检验不符的情况呢?主要因为在因为在7 7个格值中就有个格值中就有3 3个期望值小于个期望值小于5 5,占总数的,占总数的43%43%。因此因此 2 2计算值偏大当出现上述情况时,可将期望值偏计算值偏大当出现上述情况时,可将期望值偏小的格值合并。小的格值合并。eij 32 113 8724 7 nij 30 110 86 23 14 2 = 87)8786

23、(113)113110(32)3230(22226. 77)714(24)2423(22临界值:临界值:49.9)15(05.02x49. 9) 15(26. 705. 022xx 接受接受h h0 0,作出直观感觉和,作出直观感觉和 2 2检验相符的结论。检验相符的结论。 例:例:某镇研究职业代际流动,调查了某镇研究职业代际流动,调查了共共140人,其结果如下:人,其结果如下: 解:解:h h0 0:子辈职业与父辈职业无关:子辈职业与父辈职业无关 h h1 1:子辈职业与父辈职业有关:子辈职业与父辈职业有关 得期望频次表得期望频次表4.4. 2 2检验就其检验的内容来看是双边检验,检验就其检

24、验的内容来看是双边检验,就检验的形式来看,又象右边检验。就检验的形式来看,又象右边检验。n 从上面所举例中的从上面所举例中的h h0 0和和h h1 1就可以看出,它所判断的内容仅就可以看出,它所判断的内容仅是变量间是否存在关系。至于关系的方向,由于列联表属定是变量间是否存在关系。至于关系的方向,由于列联表属定类变量,因此是不存在的。但从列联表类变量,因此是不存在的。但从列联表 2 2的统计量的公式来看,的统计量的公式来看,只有期望频次和实测频次的绝对值愈大,才能否定变量间关只有期望频次和实测频次的绝对值愈大,才能否定变量间关系的原假设即:系的原假设即: 2 2 2 2。n 因此,列联表检验从

25、形式来看,却又很像右侧单边检验:因此,列联表检验从形式来看,却又很像右侧单边检验:x2(r-l)(c-1) 5. 交互分类的检验是通过频次而不是通过相交互分类的检验是通过频次而不是通过相对频次的比较进行的。对频次的比较进行的。表表1 1的的 2 2值:值:表表2 2的的 2 2值值表表3 3的的 2 2值值252525)25252510(502525)50252515(222x2252525)25252515(502525)25252510(22505050)100505020(1005050)50505030(222x41005050)100505030(1005050)100505020(

26、22200100100)20010010040(200100100)20010010060(222x8200100100)20010010060(200100100)20010010040(22n如果选择如果选择a=0.05a=0.05,查表得:,查表得: n x x2 20.050.05(1)=3.841=3.84(1)=3.841=3.84n 则表则表1 1判断为无显著性差异,表判断为无显著性差异,表2 2和表和表3 3则判断为有显著性差异,可见,相对频次则判断为有显著性差异,可见,相对频次相同的交互分类表,在统计检验中,其显相同的交互分类表,在统计检验中,其显著性并不相同,特别是当总体中

27、两变量相著性并不相同,特别是当总体中两变量相关并不很大时,如果样本容量较小,很可关并不很大时,如果样本容量较小,很可能呈现无显著性差异,但当样本容量增大能呈现无显著性差异,但当样本容量增大时,时, 2 2将增大,这时虽然列联表的相对频将增大,这时虽然列联表的相对频次没有改变,但很可能呈现有显著性差异,次没有改变,但很可能呈现有显著性差异,这时因为这时因为 2 2的临界值并不变化。的临界值并不变化。 通过上面的例子,可以看出,当样通过上面的例子,可以看出,当样本容量增加本容量增加k k倍时,倍时,由此可见如果相对由此可见如果相对频次不变,当样本容量增加频次不变,当样本容量增加k k倍时,倍时,

28、2 2值将增加值将增加k k倍。倍。2222)()(kxeenkkekeknxijijijijijij 实际上,这也是容易理解的,因为当样本容量增加之后,实际上,这也是容易理解的,因为当样本容量增加之后,如果仍然保持原有的比例的关系,则说明它出于随机误差的可如果仍然保持原有的比例的关系,则说明它出于随机误差的可能性减少,也就是确认其比例关系的把握增大。这也是为什么能性减少,也就是确认其比例关系的把握增大。这也是为什么相对频次的统计表必须注明调查总数的缘故。相对频次的统计表必须注明调查总数的缘故。 例:例:某工厂为了解职工对厂内福某工厂为了解职工对厂内福利是否满意,作如下抽样调查:利是否满意,作

29、如下抽样调查:依依h h0 0及样本边缘次数分布,计算期望频数及样本边缘次数分布,计算期望频数临界值:由于临界值:由于a=0.05 ,k=(2-1)(2-1)=1a=0.05 ,k=(2-1)(2-1)=1nx x2 20.050.05(1)=3.84(1)=3.84n x x2 2=9.27x=9.27x2 20.050.05(1)=3.84(1)=3.84n 拒绝拒绝h h0 0,接受,接受h h1 1,即男女职工,即男女职工对厂内福利的满意与否是有显著差对厂内福利的满意与否是有显著差异的,显著性水平达到异的,显著性水平达到0.050.05。作业:1 1根据某摊贩的上报,每天平均营业额为根

30、据某摊贩的上报,每天平均营业额为5555元。经过元。经过6 6天的抽查,其营业额为(设天的抽查,其营业额为(设营业额满足正态分布):营业额满足正态分布): 59.259.2,68.368.3,57.857.8,36.536.5,63.763.7,57.3 57.3 单位为元单位为元 问:原摊贩上报的数字是否可信问:原摊贩上报的数字是否可信 显著显著性水平为性水平为0.050.05?作业 2 2某学校对新生数学成绩进行摸底检查,某学校对新生数学成绩进行摸底检查,自自100100名经济专业的学生中抽出名经济专业的学生中抽出1212份考卷,份考卷,得平均分数为得平均分数为7070分,标准差分,标准差

31、3 3分;自分;自5050名管名管理专业的学生中抽取理专业的学生中抽取1010份考卷,得平均分份考卷,得平均分数为数为6060分,标准差分,标准差4 4分,若已知总体服从正分,若已知总体服从正态分布且方差相等,问两专业学生之数学态分布且方差相等,问两专业学生之数学成绩是否有显著差别成绩是否有显著差别 显著性水平为显著性水平为0.010.01。3 3、为研究两种教学方法的效果,选择了、为研究两种教学方法的效果,选择了6 6对智商、对智商、年龄、阅读能力、家庭条件都相同的儿童进行了实年龄、阅读能力、家庭条件都相同的儿童进行了实验,结果如下表。问:能否认为新教学法优于原教验,结果如下表。问:能否认为

32、新教学法优于原教学法(显著度水平学法(显著度水平=0.05=0.05)配对号配对号新教学法新教学法原教学法原教学法1 1838378 78 2 2696965653 3878788 88 4 4939391915 5787872 72 6 6595959 59 作业4 4、为了研究饮食习惯与地区之关系。作了共为了研究饮食习惯与地区之关系。作了共100人的随机抽样调查人的随机抽样调查资料如下表资料如下表,问饮食习惯是,问饮食习惯是否与地区有关否与地区有关(=0.05)?关系程度如何?关系程度如何? 地区饮食习惯 南方 北方 边缘和 面食 米食10 3040 20 40 60边缘和 50 50 1

33、00第二节第二节等级相关等级相关两个定序变量两个定序变量一、一、r rs s的统计检验的统计检验n斯皮尔曼等级相关系数斯皮尔曼等级相关系数: :n 其中,其中,ddi i2 2=(x=(xi i-y-yi i) )2 2 n n 当当r rs s是根据抽样数据计算得来时,必须是根据抽样数据计算得来时,必须进行假设检验,以确定总体中也存在等级进行假设检验,以确定总体中也存在等级相关。相关。) 1(6122nndrisr rs s的统计检验步骤的统计检验步骤n hoho:总体中变量:总体中变量x x与变量与变量y y等级无关,等级无关,p ps s=0=0n h1 h1:总体中变量:总体中变量x

34、x与变量与变量y y相关,相关,p ps s00n 根据根据hoho变量的条件下,不妨设想从总体中抽取无数个样变量的条件下,不妨设想从总体中抽取无数个样本容量为本容量为n n的样本。根据每一个样本,都可以计算出一个样本的样本。根据每一个样本,都可以计算出一个样本的等级相关系数的等级相关系数r rs s。由于抽样误差的存在,各次样本的。由于抽样误差的存在,各次样本的r rs s是是不等的,不等的,r rs s是随机变量。可以证明:当是随机变量。可以证明:当n n 1010时,统计量:时,统计量: n 自由度自由度k kf f=n-2=n-2)2(122ntrnrtssn 正如一般正如一般t t分

35、布所具有的性质,分布所具有的性质,n n 3030,r rs s也可使用统计量也可使用统计量z z进行检验,在要求不十进行检验,在要求不十分严格的情况下,分严格的情况下,n n 1010亦可使用亦可使用z z值。值。110nrzs说明:说明:n 等级相关适用于等级相关适用于定序变量定序变量,研究的是变量间,研究的是变量间的等级是否存在相互关系。但对于的等级是否存在相互关系。但对于定距变量定距变量,在,在计算相关系数时,如果某些计算相关系数时,如果某些基本条件基本条件不能满足不能满足(如要求变量分布满足正态分布),这时可以降(如要求变量分布满足正态分布),这时可以降低变量层次,作为定序变量处理,

36、因为低变量层次,作为定序变量处理,因为等级相关等级相关系数对总体变量分布不作要求的系数对总体变量分布不作要求的。n 斯皮尔曼等级相关是斯皮尔曼等级相关是以变量没有相同等级为以变量没有相同等级为前提前提的,但如果相同等级不太多,可采用的,但如果相同等级不太多,可采用平均等平均等级的方法级的方法计算斯皮尔曼等级相关。计算斯皮尔曼等级相关。 例:例:为了研究生育率与平均受教育程度之间的关系,为了研究生育率与平均受教育程度之间的关系,设随机抽查了设随机抽查了1010个县,以下是按等级设计的结果,问生个县,以下是按等级设计的结果,问生育率与受教育程度之间是否相关?(育率与受教育程度之间是否相关?( =0

37、.05=0.05)县号县号生育率等级生育率等级受教育等级受教育等级等级差等级差didi didi2 21 16 63 33 39 92 24 41 13 39 93 39 97.57.51.51.52.252.254 48 87.57.50.50.50.250.255 51 15 5-4-416166 62.52.52 20.50.50.250.257 72.52.56 6-3.5-3.512.2512.258 87 71010-3-39 99 910109 91 11 1解:解:d di i2 2=60=60。r rs s不具有不具有prepre性质,属对称测量。性质,属对称测量。 636.

38、 09903601) 110(106061) 1(61222nndris334. 2636. 01210636. 01222ssrnrt统计量: h h0 0:ps=0 (ps=0 (总体中生育率与平均受教育无关总体中生育率与平均受教育无关) ) h h1 1:ps0ps0 临界值临界值t t0.05/20.05/2(10-2)(10-2)=2.306=2.306 因为因为 t=2.334tt=2.334t0.05/20.05/2=2.306=2.306 因此,拒绝因此,拒绝h h0 0,接受,接受h h1 1,即可认为生育率,即可认为生育率与平均受教育是有关的,相关系数为与平均受教育是有关的

39、,相关系数为0.6360.636。二、二、gammagamma系数的检验系数的检验 n h h0 0:总体中:总体中g=0g=0n h h1 1:总体中:总体中g0g0(或(或g0g0或或g0g0g0或或g0gzz=14.05z0.05/20.05/2=1.96=1.96。 所以拒绝所以拒绝h h0 0,接受,接受h h1 1,即文化程度与代际流,即文化程度与代际流动相关,用文化程度解释代际流动可消减动相关,用文化程度解释代际流动可消减78%78%的的误差,误差,a=0.05a=0.05。注意:注意: n g g的的z z检定公式检定公式较为保守较为保守,通常略为低估了,通常略为低估了检定值检

40、定值(z)(z)。当所算得的检定值非常接近所要。当所算得的检定值非常接近所要求的否定域数值,就要用较为精确的求的否定域数值,就要用较为精确的s s因子检因子检验公式验公式。n 较为精确的做法是不用理会较为精确的做法是不用理会g g值,而直接值,而直接检定(检定(ns-ndns-nd)这个称为)这个称为s s因子的数值。因为因子的数值。因为g g分数的公式是以分数的公式是以s=ns-nds=ns-nd作为分子,因此作为分子,因此s=0s=0,即即g=0g=0。n 研究假设研究假设h h1 1为为s0(s0(或或s0s0或或s0),s0s0 由于由于n=44n=44,r=2r=2,c=4c=4,则

41、,则67.352)14)(12(244|360|s z z0.001/20.001/2=3.09=3.09,z=4.31zz=4.31z0.001/20.001/2=3.09=3.09所以拒绝所以拒绝h h0 0,接受,接受h h1 1。84.81)244)(144(4405104) 144(4451044800716144480716)2)(1() 1(133233222sennnbannbabanbase31. 484.8167.352sesz又因为:又因为: a a2 2=8=8 14+814+8 12+812+8 10+1410+14 12+1412+14 10+1210+12 10=

42、71610=716 b b2 2=20=20 24=48024=480 a a3 3=8=8 1414 12+812+8 1414 10+810+8 1212 10+1410+14 1212 10=510410=5104 b b3 3=0=0 ?因这只有两个边缘次数。因这只有两个边缘次数。5)85. 01 (443239285. 0)1 (22zgnndnsgz计算如果用同上题,如果用同上题,如果用z z检验:检验:注意注意n 许多定序相关测量法如许多定序相关测量法如dydy系数和肯德系数和肯德尔的尔的tautau系数,其公式都是以系数,其公式都是以“s=ns-nd”s=ns-nd”作为分子的

43、,因此它们都可以通过作为分子的,因此它们都可以通过s s的检定的检定来推论总体的情况。来推论总体的情况。n 由于都是以由于都是以s s作分子,故此在总体中如作分子,故此在总体中如果果s=0s=0,则,则g=dy=tau=0g=dy=tau=0,可见这三种相关系,可见这三种相关系数的检定是有共同性的。数的检定是有共同性的。 第三节第三节两个定距变量的检验两个定距变量的检验不考一、回归方程的检验一、回归方程的检验n 用用最小二乘法最小二乘法求直线回归的方法,求直线回归的方法,是基于是基于线性回归模型的基本假定线性回归模型的基本假定进行的。进行的。因此在配置回归直线之前,必须对总体因此在配置回归直线

44、之前,必须对总体变量间是否存在线性相关关系进行检验。变量间是否存在线性相关关系进行检验。对于不存在线性关系的总体,配置回归对于不存在线性关系的总体,配置回归直线是毫无意义的。直线是毫无意义的。 1 1、检验的原假设、检验的原假设n 总体变量总体变量x x和总体变量和总体变量y y存在线性关系,即存在线性关系,即存在关系式:存在关系式:e(ye(yi i)=)= + + x xi in 因此,总体的线性回归指的是当因此,总体的线性回归指的是当x=xx=xi i时,时,y y的均值的均值e(ye(yi i) )是线性函数:是线性函数:e(ye(yi i)= )= + + x xi i关于关于 x

45、x与与y y关系式的基本假定关系式的基本假定:n 自变量自变量x x可以是随机变量,也可是非随机变量。可以是随机变量,也可是非随机变量。x x值的测量值的测量可以认为是没有误差的,或者说误差是可以忽略不计的。可以认为是没有误差的,或者说误差是可以忽略不计的。n 由于由于x x和和y y之间存在的是非确定性的相关关系。因此,对于之间存在的是非确定性的相关关系。因此,对于x x的每一个值的每一个值x xi i,y yi i是随机变量,或称作是是随机变量,或称作是y y的子总体。要求的子总体。要求y y的所有的所有子总体子总体y y1 1、y y2 2y yi iy yn n,其方差都相等。,其方差

46、都相等。 d(yd(y1 1)=d(y)=d(y2 2)=)=d(yd(yn n) )n 如果如果y y的所有子总体,其均值的所有子总体,其均值e(ye(y1 1) );e(ye(y2 2) )e(ye(yn n) )都在一条直线上,则称作线性假定,其数学表达式为:都在一条直线上,则称作线性假定,其数学表达式为:e(ye(yi i)=)= + + x xi i。由于。由于 、 对所有总体都一样,所以对所有总体都一样,所以 和和 是总是总体参数。体参数。n 要求随机变量要求随机变量 y yi i是统计独立的,即是统计独立的,即y y1 1的数值不影响的数值不影响y y2 2的数值,各的数值,各y

47、 y值之间都没有关系。值之间都没有关系。n 出于检验的需要,除了上述假定或要求外,还要求出于检验的需要,除了上述假定或要求外,还要求y y值的每一个子总体都满足正态分布。值的每一个子总体都满足正态分布。上述总体假定的数据结构为上述总体假定的数据结构为n (1 1)随机变量随机变量y yi i是统计独立的,具有:均值是统计独立的,具有:均值e(ye(yi i)=)= + + x xi i;方;方差差d(yd(yi i)=)= 2 2 ;(2 2)y yi i与与x xi i有如下关系式:有如下关系式:y y1 1= = + + x x1 1+e+e1 1 ;y y2 2= = + + x x2

48、2+e+e2 2;.y yn n= = + + x xn n+e+en n。其中其中e e1 1、e e2 2e en n是随机变量,它们是随机变量,它们相互独立,具有:相互独立,具有:e(ee(ei i)=0)=0,d(ed(ei i)=)= 2 2。 根据前面的基本假设,对于总体线性检根据前面的基本假设,对于总体线性检验的假设可写成如下形式验的假设可写成如下形式 : 当总体具有上述假定时,即根据样本运用最小二乘法所求解的方程:当总体具有上述假定时,即根据样本运用最小二乘法所求解的方程:g=a+bxg=a+bx将是总体线性回归方程:将是总体线性回归方程:e(y)= e(y)= + + x x

49、的最佳线性无偏估计方程,的最佳线性无偏估计方程,a a和和b b是是 和和 的最佳无偏估计量。的最佳无偏估计量。 另外,另外,e1e1、e2e2enen是随机变量,它们相互独立,具都服从相同的正是随机变量,它们相互独立,具都服从相同的正态分布态分布n(0n(0, 2 2) ) 2 2未知。未知。nh h0 0: : =0=0nh h1 1: 00n依据假设,可以根据平方和分解求出检验的统计量。依据假设,可以根据平方和分解求出检验的统计量。 2 2、线性回归的平方和分解、线性回归的平方和分解 n 总偏差平方和总偏差平方和tsstssn tsstss反映了观测值反映了观测值y yi i围绕均值围绕

50、均值 n tsstss同时还是同时还是prepre中的中的e e1 1,当不知,当不知y y和和x x及及关系时,对关系时,对y y的的最佳估计只能是最佳估计只能是y y,而每一个真实的,而每一个真实的y yi i值和估计值值和估计值y y之差,就之差,就构成首次估计的误差。构成首次估计的误差。niyyitss12)(niyiny11总的分散程度 剩余平方和剩余平方和rssrssn 其中其中i i由回归直线,由回归直线,=a+bx=a+bx所确定所确定n rssrss反映了反映了y yi i偏离回归直线偏离回归直线i i的程度的程度, ,也就是也就是prepre定义中的定义中的e e2 2。r

51、ssrss反映了知道反映了知道y y与与x x有关系后,估有关系后,估计计y y值时所产生的总误差,即通过回归直线进行估值时所产生的总误差,即通过回归直线进行估计之后,仍然未能消除或未被解释的误差,又称残计之后,仍然未能消除或未被解释的误差,又称残差平方和。它的存在,说明了除差平方和。它的存在,说明了除x x对对y y的线性影响外,的线性影响外,还有其它未被考虑的因素,这些因素往往是十分复还有其它未被考虑的因素,这些因素往往是十分复杂的。杂的。 21)(niiiyyrss 回归平方和回归平方和rssrrssr n rssr=tss-rss n tss=rss+rssr 3 3、统计量、统计量n

52、 设总体满足原假设:设总体满足原假设:h h0 0 : =0=0,即分,即分别从别从 =0=0的总体中,如果无数次进行样本容的总体中,如果无数次进行样本容量为量为n n的抽样,可以证明:的抽样,可以证明:n统计量统计量:n统计量:统计量:n统计量统计量:) 1(22nxtss分布的满足自由度为2221) 1 (xxrssr) 2(22nxrss)2, 1 (22/1/22nfnrssrssrnrssrssr对统计量对统计量 n 当样本几个观察点当样本几个观察点(x(xi i、y yi i) )确定后,确定后,tsstss则为定值。因此若剩余平方和则为定值。因此若剩余平方和rssrss大,则回归

53、平方和大,则回归平方和rssrrssr必小。反之,必小。反之,若剩余平方和若剩余平方和rssrss小,则回归平方和小,则回归平方和rssrrssr必大。而必大。而rssrrssr大,则说明引入回大,则说明引入回归直线后,所能解释掉的误差大。归直线后,所能解释掉的误差大。 作定性的解释2nrssrssrf 例:例:为了研究受教育年限和职业声望为了研究受教育年限和职业声望之间的关系,设以下是之间的关系,设以下是8 8名抽样的名抽样的 结果,进结果,进行回归直线的检验行回归直线的检验( ( =0.05) =0.05) :调查对象调查对象x(年年)y(声望声望)11270216803950419865219061065754481275708560133104yx99.5)28 , 1(8.5722.176)28(28.170

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论