第七章相关分析_第1页
第七章相关分析_第2页
第七章相关分析_第3页
第七章相关分析_第4页
第七章相关分析_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章相关分析一、相关的意义二、积差相关三、等级相关四、质与量相关五、品质相关偏相关一、相关的意义1、相关的概念2、相关系数

相关的概念两变量之间不精确、不稳定的变化关系称为相关关系。它与函数关系的区别就在于两个变量值不是一一对应得那样精确、稳定。

两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。从变化方向来看,两个变量间有以下几种关系:(1)正相关:两个变量的变化方向一致,即一个变量值变大时,另一个变量也随之变大;反之,亦然。(2)负相关:两个变量的变化方向相反,即一个变量值变大时,另一个变量值随之变小;反之,亦然。(3)零相关:两个变量值变化方向无一定规律,即一个变量值变大时,另一个变量做无规律的变化。返回关于散点图如果观察所获得的资料是两个变量的成对数据,那么每一对观察值都可以用直角坐标系中的一个点(x,y)来表示,n个对象的观察结果就可以用n个散点来表示。这就是描绘双变量分布状况的散点图。散点图(一)身高(厘米)145143150156148160154141155148150158智商(分)1001109012010010511098102908998散点图(二)成绩(分)859075908485807580756468智商(分)1001109012010010511098102908998画散点图X45678Y14356X45678Y35421X12345Y12345X12345Y54321X1.51.82.82.83.5Y231.542.8相关系数用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。一般,样本相关系数用r表示。相关系数的取值范围是在-1到+1之间,-1≤r≤1。“+”“-”号表示变化方向。“+”表示变化方向一致,即正相关。“-”表示变化方向相反,即负相关。r的绝对值表示两个变量之间的密切程度(即强度)。注意:1.相关系数仅仅是一个比值。它不是由相等单位度量而来的,不等距,也不是百分比,因此,不能直接作加、减、乘、除运算。2.相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。3.存在相关的两个变量,也不一定存在因果关系。二、积差相关1、积差相关的概念2、积差相关的使用条件3、积差相关系数的公式4、总体相关系数的区间估计5、相关的显著性检验6、相关系数差异的显著性检验返回积差相关的概念当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。返回积差相关系数的公式返回例计算相关系数X45678Y14356X45678Y35421X12345Y12345X12345Y54321X1.51.82.82.83.5Y231.542.80.904-0.71-10.196积差相关的使用条件1、两个变量都是由测量获得的连续性数据。2、两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称分布。3、必须是成对的数据,而且每对数据之间相互独立,即每对分数与其他对子没有关系,相互独立。4、两个变量之间呈线形关系。这可由散点图来做初步分析。5、要排除共变因素的影响。6、样本容量要≥30,计算出的积差相关系数才具有有效意义。例返回偏相关偏相关(partialcorrelation),也称纯相关或净相关,指在计算两个连续变量X1与X2的相关时,将第三个变量X3或其他多个变量的影响,即r13和r23予以排除之后,X1与X2这两个变量之间的纯净相关,用符号r12.3表示,点号左边的两个下标代表要求计算偏相关的两个变量,点号右边的下标表示要消除其影响的变量。偏相关的公式如下:偏相关之例一

(将学历XL作为控制变量,对儿童智商IQ与母亲年龄NL作偏相关分析)对12名儿童的智商IQ、出生时母亲的年龄NL,以及母亲的文化程度(接受正规教育的年限——学龄)XL这三个变量进行调查的结果如下表:abcdefghijklIQ788294959697102105106108114122NL202122252726282730323232XL699121212151616191922r=0.934r12.3=0.0887偏相关系数的“阶数”一阶偏相关系数——只控制了一个“第三变量”;二阶偏相关系数——控制了两个“第三变量”;。。。。。。控制变量可以不止一个,而控制变量的数目就是偏相关系数的阶数。不难理解,两列变量之间的简单相关系数是零阶的“偏相关系数”,也就是说,它是在没有控制任何条件的情况下考察两种现象之间的相互联系。偏相关分析作为一种统计分析的手段,可以帮助我们“透过现象看本质”,更加深入地把握事物之间相互联系的证据。偏相关分析既可以帮助我们辨别虚假的“伪相关”,也可以帮助我们发现被掩蔽了的“真相关”。偏相关分析之例二

(将工龄GL作为控制变量,对工资GZ与学历XL作偏相关分析。)abcdefghijklGZ800900100020001500220027003000280035001500950GL2141010201021202514XL161916161212191616162212r=0.038(p>0.05)r13.2=0.8177(p<0.01)练习下表是20名学生某次期末考试的语文、数学、外语三门课的成绩,试求剔除了语文成绩之后,20名学生的数学成绩与外语成绩的偏相关系数。编号1234567891011121314151617181920语文9188837084927887827766697493868477738971数学8592866687887481917862717790948273698883外语9392816484917280857364676288847861748562语文与数学:0.827语文与外语:0.900数学与外语:0.787积差相关例题成绩(分)859075908485807580756468智商(分)1001109012010010511098102908998总体相关系数的区间估计1、样本相关系数的抽样分布只有当总体相关系数ρ=0时,样本相关系数的抽样分布才接近正态(严格来说,ρ=0时样本相关系数r的分布为t分布)。当总体相关系数ρ≠0时,样本相关系数的抽样分布呈偏态,概率分布函数较为复杂。将相关系数做转换:

那么无论总体相关系数ρ是否等于零,样本Z的抽样分布都近似地服从于正态分布。Zr的标准误是:

2、置信区间的确定:return相关的显著性检验之一:H0:ρ=0的检验如前所述,当总体相关系数ρ=0时,样本相关系数r的抽样分布为t分布。此时样本相关系数标准误的估计值是

检验统计量为:自由度:n-2。在实际应用中,通常是直接查积差相关系数显著性临界值表来断定r是否显著。例:例:12名初二学生的智商与身高情况登记如下表。能否认为学生的智商确实与身高有关(身材矮小者较聪明或者相反)?身高(厘米)145143150156148160154141155148150158智商(分)1001109012010010511098102908998相关的显著性检验之二:H0:ρ=ρ0的检验虚无假设意指:在总体中两个变量之间存在某种程度的线性相关,而样本的相关系数r≠ρ0是由于抽样的偶然误差。

检验统计量为:例:例据称EPT与TOFEL两种测验的相关高达0.80。随机抽取的40名被试,两个测验成绩的相关系数r=0.75,据此能不能否定总体ρ=0.80?解:查表:r=0.75时,Zr=0.973

ρ=0.80时,Zρ=1.099

Return相关系数差异的显著性检验(一)1、独立样本(r1和r2分别由彼此独立的被试得到)之间样本相关系数差异的显著性检验例:从某省随机抽取的103名高考考生中,男56人,女47人。男生数、理两科成绩的相关系数r1=0.83,女生数、理两科成绩的相关系数r2=0.76。数、理两科成绩的相互关系是否存在显著的性别差异?解:相关系数差异的显著性检验(二)2、同组被试两个相关系数差异的显著性检验这里只介绍同组被试的三个测验,两两相关系数之差的显著性检验。检验的虚无假设是:H0:ρ12=ρ13,检验统计量为:检验统计量t的自由度df=n-3。例:以某一权威测验X1为效标考查新编制的两套外语测验X2、X3的有效性。在容量n=303的标准化样本中,求得三个测验的两两相关系数分别是:r12=0.62;r13=0.51;r23=0.70。新编制的两个测验的效度是否有显著的差别?解:return三、等级相关1、斯皮尔曼等级相关2、肯德尔和谐系数返回斯皮尔曼等级相关1、概念及适用范围当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两个变量之间的相关,称为等级相关。2、相关系数的计算等级相关系数的显著性检验方法与积差相关的相同。例例成绩(分)859075908485807580756468智商(分)1001109012010010511098102908998成绩等级3.51.591.553.56.596.591211智商等级6.52.510.516.542.58.5510.5128.5D-3-1-1.50.5-1.5-0.54.00.51.5-1.502.5D2912.250.252.250.25160.252.252.2506.25return成绩(分)859075908485807580756468智商(分)1001109012010010511098102908998肯德尔和谐系数1、概念及使用范围

当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间一致性程度(即相关)的量,称为肯德尔和谐系数。它常用来表示几个评定者对同一组学生学习成绩等级评定的一致性程度或同一个评定者对同一组学生的学习成绩用等级先后评定多次之间的一致性程度。2、相关系数的计算例例N=7赵钱孙李周(k=5)RiRi2萧亚轩1111111周杰伦1111111S.H.E1111111蔡依琳1111111陈奕迅1111111潘玮柏1111111王菲1111111返四、质与量相关1、点二列相关2、二列相关返回点二列相关1、概念及适用范围

当两个变量其中一个是正态连续性变量,另一个是真正的二分名义变量时,表示这两个变量之间的相关,称为点二列相关。2、相关系数的计算例例14名男女学生某项技能测验的成绩如下表,试计算该技能测验成绩与性别的相关系数.男1女011111111000000总和成绩X7968354628643677接二列相关应用点二列相关的应用

——用于对测验项目的区分度进行检验。有一是非式选择测验,每题选对得2分,共有50题,满分100分。下表所列为20名学生在该测验中的总成绩及第5题的选答情况。问这道题与测验总分的相关程度如何?学号总分第5题学号总分第5题184对282错376错460错572错674错776错884对988对1090对1178对1280错1392对1494对1596对1688对1790对1878错1976错2074错点二列相关与二列相关相同之处:都可用于计算题目的区分度。区别:适用数据不同。点二列相关中的二分变量是真正的二分变量,不是正态分布的;二列相关中的二分变量是由正态分布的连续性测量数据人为转化来的。使用点二列相关和二列相关的总原则:如果不是十分明确观测数据的分布形态是否为正态分布,这时,不管观测数据代表的是一个真正的二分变量,还是一个基于正态分布的人为二分变量,都应选用点二列相关。只要有任何疑问,选用点二列相关总是较好的选择。在实际的研究当中,二列相关很少使用。偏相关练习练习问下表中成绩与性别是否有关?被试12345678910性别男女女男女男男男女女成绩83919584898786858892二列相关1、概念及适用范围当两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量,表示这两个变量之间的相关,称为二列相关。2、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论