假设检定两个变量相关_第1页
假设检定两个变量相关_第2页
假设检定两个变量相关_第3页
假设检定两个变量相关_第4页
假设检定两个变量相关_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章假设的检定 两个变量的相关 第一节两个定类变项定类或定序ppt上考至少考一个例题定距 倘若要研究X与Y这两个变项是否相关,则在抽取了一个随机样本以后便首先运用前面所介绍的方法,简化样本中的资料,从而计算X与Y的相关程度和方向。但是,即使在样本中X与Y是相关的,却可能是由抽样误差所引起,不一定是在总体中也相关。由于我们所关心的是总体的情况不是样本的情况,因此,需要作统计推论,本章的目的是介绍怎样运用样本的资料来检定假设,在总体中X与Y是相关的。 在介绍计算相关系数时,我们强调要特别注意变项的测量层次,同样,在选用相关的检定法时,也要特别注意该检定法所要求的测量层次。一、交互分类表中变量的相

2、互独立性 研究定类变量之间的关系,实际上就是通过条件分布的比较进行的,下面我们首先通过条件分布表来看一看两变项的相互独立性。老 年中 年青 年边缘和戏曲20/27=0.7410/40=0.252/57=0.0432/124=0.26歌舞5/27=0.1820/40=0.5035/57=0.6160/124=0.48球赛2/27=0.0810/40=0.2520/57=0.3532/124=0.26问题是,如何进行比较呢? 根据上表中的每一行,可以比较三代人的喜爱是否有所不同,首先对戏曲来说,三代人的百分比分别是:; 歌舞为:; 球赛为:。 可见,随着代际的年轻化,对戏曲喜爱逐渐下降,而歌舞和球

3、赛越来越受到欢迎,从而得出节目的喜爱与代际相关的结论,也就是变量Y(节目的喜爱)与变量X(代际)是有关的。相关系数计算结果是否如此? 现在设想,如果统计的结果显示,三代人的百分比是不变的,即: 戏曲:、 歌舞:、 球赛:、 那么,又该作出什么结论呢? 显然,如果选择“喜爱节目”的比例对于三代人都是一样的话,那就表示变量“节目”与变量“代际”之间没有关系的,这种情况称变量之间是相互独立的。如果变量间是相互独立的话,通过上例可以看出,必须存在变量的条件分布和它的边缘分布相同。即: X YX1X2X3 XCY1N11N21N31 NC1N*1Y2N12N22N32 NC2 N*2YrN1rN2rN3

4、rNCrN*rN1*N2*N3*NC*N用一个通式来表示 ,即:(i=1,2 r,j=1,2 c) 上式分子分母均乘以N: 可见,如果交互类表中的变量是相互独立的,边缘分布和条件分布存在以下关系。 二、交互分类表的原假设 交互分类表检验是将总体中变量间无关系,或相互独立作为检验的原假设。即: H0:变量x与变量y无关(总体) H1:变量x与变量y有关(总体) H0:pij =pi*.p*j (i=1,2c;j=1,2r) 由于pi和pj是总体的边缘分布,一般都是未知的,因此,可以用样本中的边缘频率分布作为它的点估计值: 列边缘: i=1,2c 行边缘: j=1,2c 这里小写字母ni,nj,n

5、表示样本频次。三、交互分类表检验的统计量X2 运用统计量2来进行检验。2检验要求:1)样本是用随机方法抽取的;2)两个变量都是有定类的性质。 交互分类检验的程序和单变量检验是相同的:确定原假设;选择适当的统计量,定出显著性水平后根据样本值进行判断。 交互分类表统计量的确定是通过在原假设成立的条件下,用总体和样本一系列值的比较来进行的,具体步骤是:求出列联表中各格的期望频次1)原假设:H0:pij=pi*.p*j用样本的边缘和求出pi*和p*j(式中的第二个符号是根据原假设H0得来的。第三个近似是根据边缘频率分布的点估计值得来的。)Eij=npij=np*i.p*j 于是,在原假设H0成立条件下

6、的期望频次交互分类表有下表1: X YX1X2XCY1Y2YrE11E21EC1E12E22EC2E1rE2rECr 不仿设想,在H0成立的条件下,作无数次抽样,每次抽样可得到一个实例的频次交互分类表,如下表2: X Y X1X2XCY1N11N21Nc1Y2N12N22Nc2YrN1rN2rNcr 比较表1和表2,可以想象如果总体中H0为真的话,那么实例频次列联表的格值和期望频次列联表中的格值相差不多的可能性较大。反之,如果两表的格值差距很大。 上述的讨论可用以下的统计量来表示: 分子取平方是为了取其绝对差值,而分母Eij是为了平衡Eij数值本身的大小,否则,如果Eij本身数值很小的话,则即

7、使(nij-Eij)2与Eij 相比已经很大,但在总平方和中仍然是微不足道。 上述统计量,经过数学计算可知,当n很大,每格Eij都不太小,服从自由度K=(r-1)(c-1)的2分布。注意,下面就交互分类表的统计量进行讨论: 1.对于22表,由于格数过少,为减少偏差,要作连续性修正,尤其在有某一个或多个格的预期次数等于或小于5时必须修正: 2.以上2检验的讨论,也适用于单变量二项总体或多项总体的假设检验。 (1)二项总体。 在单总体假设检验中,曾谈到对于大样本总体成数的假设检验,可用: Z= 作为总体成数的原假设 H0:P=P0的统计量。 但是通过列联表的讨论,可引出另一件与2等价的检验方式:改

8、H0:P=P0(P0为总体成数)。 于是对于样本容量为n的抽样,其理论上期望频次为:E1=np0 而理论上非期望出现的频次为:E2=n(1-p0)。 与此同时,相对应的实际观测值为n1和n2(n1+n2=n)。 引用2检验有: 可以证明,当n较大时,2分布近似地为自由度K=1的2分布,根据连续修正,上述2为:(2)多项总体 多项分布是单项二项分布的自然扩展,如果变量A共有R类:A1、A2、Ar。 设总体种各类的概率为:P1、P2、Pr。于是总体的原假设H0为:H0:Pi=Pi0 (i=1,2r) 对于样本容量为n的抽样,其理论是期望频次分布为:Ei=npi0。 与此同时,相对应的各类实际观测值

9、为:n1、n2nr。 则2值为: 可以证明, 2近似地满足自由度K=r-1的2分布。 3. 使用统计量2对RC表进行检验,每一格值的Eij要保持在一定数目上。 如果其中有的格值Eij过小,在计算值时,2值的波动就会过大。 Eij应该取多大,根据要求的精确程度不同,不同研究者给出的限制不同。 对于二项总体,要求np5,n(1-p)5。也就是如果只有两个格值的话,必须要求所有Eij5。 有的研究者认为Eij5的要求适合所有rc的交互分类表。但也有人认为对于rc 交互分类表,Eij3就可以了。另外,还有人指出Eij小于5的格数不应超过总格数20%,当小于5的格值过多会引起判断的失误。举例:设实例值和

10、期望值共有7个格值 。Eij 321138724241nij 301108623554 从直现来判断,实例值和期望值相差不大,可以接受原有假设。但如何用2值进行显著性检验呢?()。 检验表明:有显著性差异。 为什么会出现感觉和X2检验不符的情况呢?主要因为在7个格值中就有3个期望值小于5,占总数的43%。因此2计算值偏大当出现上述情况时,可将期望值偏小的格值合并。Eij 32 113 8724 7 nij 30 110 86 23 14 2 = 临界值: 接受H0,作出直观感觉和2检验相符的结论。 例:某镇研究职业代际流动,调查了共140人,其结果如下: 解:H0:子辈职业与父辈职业无关 H1

11、:子辈职业与父辈职业有关 得期望频次表4.2检验就其检验的内容来看是双边检验,就检验的形式来看,又象右边检验。 从上面所举例中的H0和H1就可以看出,它所判断的内容仅是变量间是否存在关系。至于关系的方向,由于列联表属定类变量,因此是不存在的。但从列联表2的统计量的公式来看,只有期望频次和实测频次的绝对值愈大,才能否定变量间关系的原假设即:22。 因此,列联表检验从形式来看,却又很像右侧单边检验:X2(r-l)(c-1) 5. 交互分类的检验是通过频次而不是通过相对频次的比较进行的。表1的2值:表2的2值表3的2值如果选择,查表得: X2 则表1判断为无显著性差异,表2和表3则判断为有显著性差异

12、,可见,相对频次相同的交互分类表,在统计检验中,其显著性并不相同,特别是当总体中两变量相关并不很大时,如果样本容量较小,很可能呈现无显著性差异,但当样本容量增大时,2将增大,这时虽然列联表的相对频次没有改变,但很可能呈现有显著性差异,这时因为2的临界值并不变化。 通过上面的例子,可以看出,当样本容量增加K倍时,由此可见如果相对频次不变,当样本容量增加K倍时, 2值将增加K倍。 实际上,这也是容易理解的,因为当样本容量增加之后,如果仍然保持原有的比例的关系,则说明它出于随机误差的可能性减少,也就是确认其比例关系的把握增大。这也是为什么相对频次的统计表必须注明调查总数的缘故。 例:某工厂为了解职工

13、对厂内福利是否满意,作如下抽样调查:依H0及样本边缘次数分布,计算期望频数临界值:由于a=0.05 ,k=(2-1)(2-1)=1X2 X2=9.27X2 拒绝H0,接受H1,即男女职工对厂内福利的满意与否是有显著差异的,显著性水平达到。作业:1根据某摊贩的上报,每天平均营业额为55元。经过6天的抽查,其营业额为(设营业额满足正态分布): ,57.3 单位为元 问:原摊贩上报的数字是否可信显著性水平为0.05?作业 2某学校对新生数学成绩进行摸底检查,自100名经济专业的学生中抽出12份考卷,得平均分数为70分,标准差3分;自50名管理专业的学生中抽取10份考卷,得平均分数为60分,标准差4分

14、,若已知总体服从正态分布且方差相等,问两专业学生之数学成绩是否有显著差别显著性水平为0.01。3、为研究两种教学方法的效果,选择了6对智商、年龄、阅读能力、家庭条件都相同的儿童进行了实验,结果如下表。问:能否认为新教学法优于原教学法(显著度水平)配对号新教学法原教学法18378 2696538788 4939157872 65959 作业4、为了研究饮食习惯与地区之关系。作了共100人的随机抽样调查资料如下表,问饮食习惯是否与地区有关(=0.05)?关系程度如何? 地区饮食习惯 南方 北方 边缘和 面食 米食10 3040 20 40 60边缘和 50 50 100第二节等级相关两个定序变量一

15、、rs的统计检验斯皮尔曼等级相关系数: 其中,di2=(xi-yi)2 当rs是根据抽样数据计算得来时,必须进行假设检验,以确定总体中也存在等级相关。rs的统计检验步骤 Ho:总体中变量x与变量y等级无关,Ps=0 H1:总体中变量x与变量y相关,Ps0 根据Ho变量的条件下,不妨设想从总体中抽取无数个样本容量为n的样本。根据每一个样本,都可以计算出一个样本的等级相关系数rs。由于抽样误差的存在,各次样本的rs是不等的,rs是随机变量。可以证明:当n10时,统计量: 自由度kf=n-2 正如一般t分布所具有的性质,n30,rs也可使用统计量Z进行检验,在要求不十分严格的情况下,n10亦可使用Z

16、值。说明: 等级相关适用于定序变量,研究的是变量间的等级是否存在相互关系。但对于定距变量,在计算相关系数时,如果某些基本条件不能满足(如要求变量分布满足正态分布),这时可以降低变量层次,作为定序变量处理,因为等级相关系数对总体变量分布不作要求的。 斯皮尔曼等级相关是以变量没有相同等级为前提的,但如果相同等级不太多,可采用平均等级的方法计算斯皮尔曼等级相关。 例:为了研究生育率与平均受教育程度之间的关系,设随机抽查了10个县,以下是按等级设计的结果,问生育率与受教育程度之间是否相关?()县号生育率等级受教育等级等级差didi21633924139397.51.52.25487.50.50.255

17、15-41662.520.50.2572.56-3.512.258710-39910911105411解:di2=60。rs不具有PRE性质,属对称测量。 H0:Ps=0 (总体中生育率与平均受教育无关) H1:Ps0 临界值t(10-2) 因为 t=2.334t 因此,拒绝H0,接受H1,即可认为生育率与平均受教育是有关的,相关系数为。二、Gamma系数的检验 H0:总体中G=0 H1:总体中G0(或G0或G0或GZ。 所以拒绝H0,接受H1,即文化程度与代际流动相关,用文化程度解释代际流动可消减78%的误差,。注意: G的Z检定公式较为保守,通常略为低估了检定值(Z)。当所算得的检定值非常

18、接近所要求的否定域数值,就要用较为精确的S因子检验公式。 较为精确的做法是不用理会G值,而直接检定(Ns-Nd)这个称为S因子的数值。因为G分数的公式是以S=Ns-Nd作为分子,因此S=0,即G=0。 研究假设H1为S0(或S0或S0 由于n=44,r=2,c=4,则 Z,Z=4.31Z=3.09所以拒绝H0,接受H1。又因为: A2=814+812+810+1412+1410+1210=716 B2=2024=480 A3=81412+81410+81210+141210=5104 B3=0 ?因这只有两个边缘次数。同上题,如果用Z检验:注意 许多定序相关测量法如dy系数和肯德尔的tau系数

19、,其公式都是以“S=Ns-Nd”作为分子的,因此它们都可以通过S的检定来推论总体的情况。 由于都是以S作分子,故此在总体中如果S=0,则G=dy=tau=0,可见这三种相关系数的检定是有共同性的。 第三节两个定距变量的检验不考一、回归方程的检验 用最小二乘法求直线回归的方法,是基于线性回归模型的基本假定进行的。因此在配置回归直线之前,必须对总体变量间是否存在线性相关关系进行检验。对于不存在线性关系的总体,配置回归直线是毫无意义的。 1、检验的原假设 总体变量x和总体变量y存在线性关系,即存在关系式:E(yi)=+xi 因此,总体的线性回归指的是当x=xi时,y的均值E(yi)是线性函数:E(y

20、i)= +xi关于 X与Y关系式的基本假定: 自变量x可以是随机变量,也可是非随机变量。x值的测量可以认为是没有误差的,或者说误差是可以忽略不计的。 由于x和y之间存在的是非确定性的相关关系。因此,对于x的每一个值xi,yi是随机变量,或称作是y的子总体。要求y的所有子总体y1、y2yiyn,其方差都相等。 D(y1)=D(y2)=D(yn) 如果y的所有子总体,其均值E(y1);E(y2)E(yn)都在一条直线上,则称作线性假定,其数学表达式为:E(yi)=+xi。由于、对所有总体都一样,所以和是总体参数。 要求随机变量 yi是统计独立的,即y1的数值不影响y2的数值,各y值之间都没有关系。

21、 出于检验的需要,除了上述假定或要求外,还要求y值的每一个子总体都满足正态分布。上述总体假定的数据结构为 (1)随机变量yi是统计独立的,具有:均值E(yi)=+xi;方差D(yi)=2;(2)yi与xi有如下关系式:y1=+x1+e1;y2=+x2+e2;.yn=+xn+en。其中e1、e2en是随机变量,它们相互独立,具有:E(ei)=0,D(ei)=2。 根据前面的基本假设,对于总体线性检验的假设可写成如下形式 : 当总体具有上述假定时,即根据样本运用最小二乘法所求解的方程:g=a+bx将是总体线性回归方程:E(y)= +x的最佳线性无偏估计方程,a和b是和的最佳无偏估计量。 另外,e1

22、、e2en是随机变量,它们相互独立,具都服从相同的正态分布N(0,2) 2未知。H0: =0H1:0依据假设,可以根据平方和分解求出检验的统计量。 2、线性回归的平方和分解 总偏差平方和TSS TSS反映了观测值yi围绕均值 TSS同时还是PRE中的E1,当不知y和x及关系时,对y的最佳估计只能是y,而每一个真实的yi值和估计值y之差,就构成首次估计的误差。 剩余平方和RSS 其中i由回归直线,=a+bx所确定 RSS反映了yi偏离回归直线i的程度,也就是PRE定义中的E2。RSS反映了知道y与x有关系后,估计y值时所产生的总误差,即通过回归直线进行估计之后,仍然未能消除或未被解释的误差,又称残差平方和。它的存在,说明了除X对y的线性影响外,还有其它未被考虑的因素,这些因素往往是十分复杂的。 回归平方和RSSR RSSR=TSS-RSS TSS=RSS+RSSR 3、统计量 设总体满足原假设:H

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论