第七章-相关分析_第1页
第七章-相关分析_第2页
第七章-相关分析_第3页
第七章-相关分析_第4页
第七章-相关分析_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7-1第七章相关分析学习目标理解各种相关系数的含义、性质、作用;掌握各种相关系数的计算方法;能够区分各种相关系数应用的前提;运用相关法解决各类实际问题。第七章相关关系问题?通过前面的学习,我们知道,给定任何一列单变量连续数据,都可以用平均数和标准差反映数据的总体特征。然而在实际的心理和教育测量中,往往会遇到两种事物,两种现象关系的描述,此时我们又如何去统计处理呢?对于双变量数据相互之间的关系可以用相关系数加以统计分析。何谓双变量?主要内容第一节:相关的概念第二节:积差相关分析第三节:等级相关分析第四节:偏相关分析第五节:相关分析的SPSS过程第一节相关的概念一、什么是相关(一)事物之间的相互关系(有三种):1.因果关系:一种现象是另一种现象的原因2.共变关系:表面上有联系的两种事物其实都和第三种现象有关3.相关关系:两类现象在发展变化的方向和大小方面存在一定联系,但并不是前两种关系,比较复杂一、什么是相关(二)相关的类别(三种)1.正相关:两列变量变动方向相同2.负相关:两列变量变动方向相反3.零相关:两列变量之间没有相关关系存在二、相关系数(coefficientofcorrelation)相关系数是两列变量间相关程度的数字表现形式。作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用ρ表示,是应用比较广泛的一个有代表性的统计量。相关系数是就线形关系而言的相关系数的取值内在涵义:1.取值范围:位于-1.00至+1.00之间,是一个比率,常用小数形式表示2.取值大小:表示双变量相关的强度│r│→1,则相关越密切│r│→0,相关越不密切3.正负号:表示双变量相关的方向是正相关(+)还是负相关(-)4.代表值:r=+1,表完全正相关

r=-1,表完全负相关

r=0,表无相关注意:一般情况下,通过相关系数r的值来判断双变量相关是否密切时,要把样本量的大小和相关系数取值大小综合起来考虑,经统计检验后方能确定变量之间是否存在显著相关两变量间不是线形关系时,不能用直线相关计算r值图7-2表7-1五名学生四种测验的分数学生测验分数ABCD11553641022145265100313516610441250671035114968101比较1比较2比较3ABACAD15531568151041452146714103135113661310212501265121011149116411100三、散点图在相关研究中,常用相关散点图表示两个变量之间的关系;散点图通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度。7-3

相关散布图的用途:

1、判断相关是否直线式。 当两变量之间呈曲线趋势,其相关散布图呈弯月状,说明两变量之间是非线性关系,如图7-4(a)。图7-4(a)曲线相关

当两变量间呈线性趋势,其相关散布图是椭圆形,说明两变量之间是线性关系,称为直线相关,如图7-4(b)。图7-4(b)直线相关

2、判断相关密切程度高低 相关散布图的形状和疏密,反映着相关程度的高低。如图7-5(a),散布图的椭圆形状较狭长,称为高度相关。图7-5(a)高度相关

如果散布图的椭圆形状比较粗,称为低度相关。如图7-5(b)。图7-5b低度相关

3、判断相关变化方向 正相关:散布点主要位于一、三象限。如图7-6(a),即一个变量增加(或减少),另一个变量也增加(或减少)。图7-6(a)正相关

负相关:若散布点主要位于二、四象限,如图7-6(b),即一个变量增加(或减少),另一个变量也减少(或增加)。图7-6(b)负相关

零相关:散布点的变化无一定规律。如图7-6(c)。图7-6(c)零相关

附加说明:

(1)两变量间存在相关,仅意味着变量间有关联,并不一定是因果关系。 (2)相关系数不是等距的测量单位。

r是一个比值,不是由相等单位度量而来,不能进行加、减、乘、除运算。如r1=0.25,r2=0.5,r3=0.75,不能认为r1=r3-r2

或r2=2r1。 (3)相关系数受变量取值区间大小及观测值个数的影响较大。

变量的取值区间越大,观测值个数越多,相关系数受抽样误差的影响越小,结果就越可靠,如果数据较少,本不相关的两列变量,计算的结果可能相关,如学生的身高与学习成绩。本书所举例题,数据较少,仅为说明计算方法时较方便。 (4)相关系数在特定情况下使用才具有意义。 如高中生身高与体重的相关系数用在儿童身上就没有意义。

(5)通过实际观测值计算的相关系数,须经过显著性检验确定其是否有意义。

|r|的取值范围|r|的意义0.00-0.19极低相关0.20-0.39低度相关0.40-0.69中度相关0.70-0.89高度相关0.90-1.00极高相关表7-2|r|的取值与相关程度 *如何判断两个变量的相关性 (1)找出两个变量的正确相应数据。 (2)画出它们的散布图(散点图)。 (3)通过散布图判断它们的相关性。 (4)给出相关(r)的解答。 (5)对结果进行评价和检验。第二节积差相关分析一、积差相关的概念与适用资料(一)概念当两个变量都是正态、连续变量,而且二者之间呈线形关系,表示这两个变量之间的相关为积差相关由英国统计学家皮尔逊在20世纪初提出,简称:Pearson相关系数(软件中常用此名称)积差相关又称为积矩相关离均差乘方之和除以N称做“矩”(moment),把X的离均差和Y的离均差两者积的总和除以N,用“积矩”表示。称为协方差covariance,X和Y有协同变化的规律。计算协方差的基本方法编号实测记分

XY12345∑7217069165661507018068185345850表7-3测量结果例6-5:5名学生的身高(公分)与体重(公斤)的测量结果如表。试问身高与体重有无关系?分析步骤①求均数和标准差②求离差:离差记分dxdy

300-5-3-20110-115

--编号实测记分

XY12345∑7217069165661507018068185345850积差dXdY

006010-1555③数据合并

协方差积差编号实测记分

XY12345∑7217069165661507018068185345850离差记分dxdy

300-5-3-20110-115

--协方差是相关系数的基础。它的离差乘积之和的大小,就能反映两个变量之间的关系。如果X与Y两个变量值的变化,当X大于

时,Y也大于

,而X小于

时,Y也小于

,在这种情况下,两个离差乘积和为正,且数值较大,说明两个变量的变化方向一致,且关系密切;如果两个变量值的变化,当X小于时,Y反而大于,X大于时,Y反而小于,在这种情况下,两个离差乘积和为负,且数值较大,说明两个变量的变化方向相反,但关系密切;如果两个变量值的变化,当X大于时,Y可能大于,也可能小于,当X小于,Y可能大于,也可能小于,两个离差乘积和趋于0。说明两个变量之间无相关。二、积差相关系数的基本公式协方差(二)适用条件1.要求成对数据,且每对数据之间是相互独立的2.样本容量n>=303.两列变量都是连续变量4.两列变量总体分布为正态或接近正态,至少是单峰对称分布5.两列变量之间的关系是直线型的,可由相关散点图的形状粗略判断二、计算积差相关系数的基本公式(一)利用标准差和离均差的计算公式:(7-1a)(7-1b)(一)定义式(二)运用标准分数计算相关系数的公式协方差中的xy的大小能够反映两列变量的一致性计算公式:(7-2)(三)原始观测值计算公式(7-3a)(7-3b)7-17-47-47-5解:根据已有资料可知,此两列变量分布都为正态,且身高、体重都属测量数据并为线性相关,所以通过积差相关计算相关系数代入三个公式可得:三、计算积差相关系数的差法公式利用离均差x、y相加或相减的方法,求积差相关系数的方法(公式7-4a)(公式7-4b)(公式7-5a)(公式7-5b)表7-6用减差法和加差法计算多列变量之间的相关系数XYZxyzx2y2z2(x-y)2(x-z)2(y-z)2(x+y)2(x+z)2(y+z)27251933-399903636360062425223449011162525523241121140114994222000-200404404432123-1-1111104440022021-2-2-1441011169911922-3-309900993699四、相关系数的合并(略)样本niri1500.41922640.3903370.425相关系数不可以直接相加求和,因为它不具有等距的单位。但是在心理与教育研究中,往往需要计算几个相关系数的平均数。将相关系数r转换成等距单位的Zr值可用统计学家费舍的Zr转换法,其转换公式为四、相关系数的合并(略)在心理和教育研究中,通常会需要求同一个总体的几个样本的相关系数的合成,即平均相关系数,此时可用Z-r转换法步骤:1.查表7,将各样本的r转换成费舍Z分数2.求每一样本的Z分数之和3.求平均Z分数,即4.再查附表7,将转换成相应的r值rr五、相关系数的显著检验(一)积差相关系数的显著性检验1.ρ=0【例7-2】18名被试进行了两种能力测验,结果r=0.40,试问这两种能力是否存在相关。(df=n-2)2.ρ≠0【例7-3】某研究者估计,对于10岁儿童而言,比奈智力测验与韦氏儿童智力测验的相关系数为0.7,今随机抽取10岁儿童50名,进行上述两种智力测验。结果相关系数r=0.54,试问实测结果是否支持该研究者的估计。第三节等级相关分析所得到资料是等级顺序,其总体不是正态分布的条件下,但是线性相关。一、斯皮尔曼Spearman等级相关㈠适用条件适用于两列变量,而且是属于等级变量性质具有线性关系的资料,主要用于解决类别数据和顺序数据的资料,不考虑资料是否正态,且不要求n>30。注意:符合Pearson积差相关的数据不要用等级相关计算计算公式(7-7b)(7-7a)当等级变量中没有相同等级时,可以直接应用上述两个公式进行计算步骤:(1)赋予等级。分别将两个变量的成绩从优到劣赋予等级,最优者赋予1,最劣者赋予n,或采用相反的方式排序,但两变量排序方式要一致(2)计算D值与D平方的值或RxRy值(3)代入公式运算7-47-7773.有相同等级时计算等级相关的方法当等级变量中有相同等级时,会随着等级数目的增多而有规律的减少,而不管是哪个等级序数;此时应加入校正数C(n为相同等级的数目)R1R2R3R4R51111242.56.251.52.25242.56.25242.56.251.52.25392.56.25242.56.25394164164162.56.2541610301029.5102810251029.5表7-8不同数目的相同等级对平方和的影响公式7-9计算公式:【例7-5】表7-9是10名学生的数学和语文考试成绩,问数学与语文成绩是否相关7-9语文有1处2个数据等级相同,等级为4.5;数学有2处等级相同,分别是2个数据等级为3.5和3个数据等级为8。例7-6有12名学生的两门功课成绩评定分数,见表7-10。问该两门功课成绩是否具有一致性?7-10课程A有3处等级相同,分别是:4个优(2.5),5个良(7),3个中(11);课程B有3处等级相同,分别是:5个优(3),4个良(7.5),3个中(11)。二、肯德尔等级相关(略)(一)肯德尔W系数肯德尔和谐系数(Kendallcoefficientofconcordance),是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。肯德尔和谐系数常用符号W表示。1.适用资料通过等级评定法获得数据资料的两种情形:(1)K个评定者(或被试)对N件事物或作品的等级评定(2)一个评定者(或被试)对N件事物或作品先后进行K次等级评定最终可以得到K列从1至N的等级变量资料【例7-7】有10人对红、橙、黄、绿、青、蓝、紫七种颜色进行评价,评价是否一致?获得的数据见表7-11。RR27-11N=7评价者K=1012345678910Ri红橙黄绿青蓝紫123456712345671234567123456712345671234567123456712345671234567123456710(K)20(2K)30(3K)40(4K)50(5K)60(6K)70(7K)1004009001600250036004900Σ28014000W为每一评价对象实际得到的等级总和的变异与被评价对象最大可能变化的等级总和的变异的比值。同理当K=1时,即为C,C为n个自然数的离差平方和。2.计算公式(公式7-10a)(公式7-10b)()SSSS(公式7-11)()SSSS7-87-127-12第四节偏相关分析一、概念

当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。二、偏相关系数

偏相关系数是用来衡量任何两个变量之间的关系的大小。偏相关系数与简单相关系数区别

在计算简单相关系数时:只需要掌握两个变量的观测数据,并不考虑其他变量对这两个变量可能产生的影响。

在计算偏相关系数时:需要掌握多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又采用一定的方法控制其他变量,专门考察两个特定变量的净相关关系。变量1变量2关系变量1变量2关系变量3控制例:在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算简单相关系数,就有可能得出价格越高需求越大的错误结论。价格需求量收入水平上升未知上升还是下降呢?关系?偏相关分析的公式表达在偏相关中,根据固定变量数目的多少,可分为零阶偏相关、一阶偏相关、…、(p-1)阶偏相关。零阶偏相关就是简单相关。如果用下标0代表Y,下标1代表X1,下标2代表X2,则变量Y与变量X1之间的一阶偏相关系数为:r01.2是剔除X2

的影响之后,Y与X1

之间的偏相关程度的度量。r01,r02,r12分别是Y,X1

,X2两两之间的相关系数。如果增加变量X3,则变量Y与X1的二阶偏相关系数为:依此类推变量Y与Xi的p-1阶偏相关系数为:偏相关系数的显著性检验也使用t分布,检验统计量t值及其自由度的计算公式为:【例7-9】某地30名13岁男童身高(X)、肺活量(Y)和体重(Z),以及一个学期末的体育课成绩等级如表7-13所示。试计算在控制了体重变量影响时身高与肺活量的偏相关系数。表7-1320名男童的身高、体重、肺活量数据编号身高(cm)肺活量(L)体重(kg)体育成绩等级1234567891011121314151617181920135.10146.50167.80148.50153.30153.00155.10149.90158.20154.60139.90156.20149.70165.50152.00147.60160.50160.80150.00156.501.752.502.752.252.751.752.752.252.002.501.752.751.503.001.752.002.002.751.751.7532.0033.5041.5037.2041.0032.0044.7033.9037.5039.5030.4037.1031.0049.5032.0040.5037.5040.4036.0032.0013333223222313122211第五节相关分析的SPSS过程

相关分析包括三大类:二元相关分析、偏相关分析和距离相关分析。其中二元相关分析(BivariateCorr.)又可分为连续测量变量间的简单相关分析(离差相关分析)和离散变量间的等级相关分析两类。具体如下图所示:二、二元变量相关分析(BivariateCorr.)

二元变量间的相关分析,就是分析两个变量之间统计关系的强弱,它是直接使用同一样本两个观测系列观测值进行相关分析。如果两个变量都是连续测量的变量,则使用积差相关,即Pearson简单相关分析方法;如果两个变量是非连续性的离散的等级变量,或者虽然是连续变量,但是只想知道二者在等级上的相关性,则是等级相关,即Spearman相关或Kendall’stau-b相关。在相关系数显著性检验中,Pearson相关显著性检验的自由度为df=n-2;等级相关接近正态分布,其显著性检验不需自由度。此外,需要注意的是:相关研究中,样本一般要大于30(样本内部同质性越小,样本容量需要越大)。1.连续变量间的Pearson相关分析过程演示2.非连续变量间的相关分析过程演示三、偏相关分析

直接的相关分析所得到的是两个变量间的共变关系,它反映了这两个变量间相互作用的关系或共同受到某一潜在因素影响的强弱,但是这种关系未必纯粹。比如物理与数学成绩的相关不是纯粹反映物理与数学的关系的,因为物理成绩可能还与语文成绩这一“第三者”有关。为了在剔除语文成绩影响的情况下,找到物理与数学的相关性,这时就要使用偏相关(PartialCorr.)分析方法以对“第三者”施加“管制”。在对偏相关进行显著性检验时,其自由度为n-3。在计算偏相关时点击对话框上的“Options”,然后选中“Zere-ordercorrelations”则同时输出简单相关。一般来说,简单相关系数和偏相关系数相比,前者有夸大的成分,后者更符合实际。PartialCorr.的过程演示四、距离相关分析

距离相关分析就是测量变量之间或个案之间测量的一致性程度。具体地说,如果变量间或个案间的相似性大或不相似性小,则说明二者的一致性程度高,否则二者一致性程度小。比如考察两个人个性特征的相似性程度、两个班级期末各科考试成绩的一致性、面试中考官评分的一致性等等,都可以使用距离相关分析来度量。

根据测量变量性质的不同,距离相关分析包括三种不同的情况:等距量表和比率量表测量的变量;顺序量表测量的变量;二项选择变量。在被测量变量的性质不同时,距离的计算方法也有所不同,具体对应关系是:等距量表或比率量表测量:欧氏距离或欧氏距离平方;顺序量表或称名量表测量:卡方统计量;二项选择变量:欧氏距离或欧氏距离平方。下边我们通过几个具体实例来说明。

例1,某公司聘请了5名心理学家为其进行中层干部招聘考试中的面试,面试分数记录如下。请问各考官评分的一致性如何?哪位考官的评分可信度小?各考生分数的差异是否明显?过程演示表6-1某公司招聘面试评分结果应聘者考官1考官2考官3考官4考官51889762675673767664898785675666768767887898453489656451089876结果一:考官评分的相似性(一致性)

结果一(PearsonCorr.)显示,考官之间一致性从高到低的顺序是:考官1和考官3、考官1和考官4、考官2和考官4及考官1和考官2、考官3和考官4、考官2和考官3。考官5与其他四位考官评分的相似性都很小,其中与考官1间的相似性接近于0、与考官3间的相似性为-.203,所以考官5与考官3的相似性最低。如果再聘请考官时,一般会考虑还是否聘请考官5。结果二:考官评分的不相似性(差异性、距离性)

结果二(EuclideanDistance,欧几里德距离,简称欧氏距离)显示,考官之间不一致性从低到高的顺序是:考官1和考官3、考官1和考官4及考官1和考官2、考官2和考官4、考官3和考官4、考官2和考官3。考官5与其他四位考官评分的不相似性都很大,其中与考官3间的不相似性最大。如果再聘请考官时,一般会考虑不再聘请考官5。结果三:考生成绩的相似性(一致性)结果四:考生成绩的不相似性(差异性、距离性)五、信度分析

使用心理量表进行研究时,量表的可靠性成为最基本的要求,为了解量表的可靠性就要进行信度分析。信度是评价结果的前后一致性,反映了测量结果受随机误差影响的大小。如果一个测量的信度较低,则随机误差影响较大,结果的可信赖程度就低。其估计方法常用的有三种:同质性信度、分半信度和重测信度。1.同质性信度:也称为内部一致性,指的是测验内部所有项目间的一致性,即:当所有项目所测为同一种心理特质或同一成绩水平时,因此它们之间都具有高度的正相关。评估同质性信度的常用参数是克伦巴赫(L.J.Cronbach)α系数,其计算方法是。(K为项目数,内部一致性高。A趋近于1)第三步:在Model下拉框中选择信度分析类型“Alpha”;第四步:点击Statistics打开对话框,选中以下几项:(1)Correlation:计算项目间的两两相关系数;(2)Scaleifitemdeleted:显示去掉该项目后量表总体的平均值、方差,该项目与其它项目的相关性、Alpha系数的变化;(3)FTest:作重复测量的方差分析;(4)Hotelling’sT-square:项目间平均得分的相等性检验;第一步:将编制的量表在一定容量的样本中施测,将测量数据录入建立数据文件,且反向计分的项目要加以方向的校正;第二步:点击Analyze中的Scale并选择“Reliabilityanalysis…”打开信度分析对话框,将所有问卷项目加入到变量表列中;同质性信度分析过程演示及其结果解释2.分半信度:分半信度是在测试后对测试项目按奇数项、偶数项或其它标准分成两半,分别记分,由两半分数间的相关系数得到信度系数。这是一种较为粗略的信度估计方法,其SPSS实现过程与同质性信度计算方法相似,只是在Model下拉框中选择信度分析类型“Split-half”。(分半的长度可以不等)3.重测信度:同一个测验项目,对同一组人员进行前后两次测验,两次测验所得分数的相关系数即为重测信度,它反映前后两次测验结果有无变动,即测验的稳定性,故又称稳定性系数。其SPSS实现过程是:把前后两次测量的变量值并列输入SPSS数据文件,然后在Analyze下选择Correlate,再选择二元相关分析。在输出结果中得到同一变量前后测验间的相关,注意同一变量在前后两次测验数据的录入中不能使用同样的变量名,如果使用同样的变量名则需要加一个区分性脚码。分半信度分析过程演示及其结果解释

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论