相关测量法与_第1页
相关测量法与_第2页
相关测量法与_第3页
相关测量法与_第4页
相关测量法与_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、2×2表——Φ系数和Q系数当列联表中的两个变量都只有二种取值时,就称作2×2表。如下表:首先分析当变量间无相关,即相互独立时频次间的关系。根据变量独立的要求有:

即无论X1怎么变,Y1和Y2的值始终是一致的。(请回顾PRE的涵义及其计算过程!!)

对于2×2表,差值(ad-bc)的大小,反映了变量关系的强弱。2×2表可以运用

系数和Q系数来测量相关程度,两者都是以差值(ad-bc)为基础进行讨论的。同时,也都是把关系强度的取值范围定义在[-1,+1]之间。但对什么情况算作关系最强,

系数和Q系数的测定有所不同。2×2表的相关测量

1.

系数2×2表在如下形式时,

有最大值。=1

2×2表有如下形式,有最小值。

XYX1X2Y1Y2

0C

B0=-1

当时,称作全相关。为达到完全相关,必须做到有一组对角线上的值都为零。总结起来:

两变量相互独立;

,b、c同时为零或a、d同时为零;

为一般情况。2.Q系数(尤拉的Q系数)Yule`s

对于Q系数,只要a、b、c、d中有一个是零,则|

|=1。它所对应的实际情况是,如进行配对样本的研究,其中样本1为实验组,样本2为控制组,现在要研究某种新药能否预防感冒。这时我们关心的是凡是吃了新药的人,能否全部不感冒。而对不吃新药只吃安慰药的人是否全部感冒并不关心。

设想有如下结果:现在对上表计算系数和Q系数。

Q=

这时用Q系数反映新药与感冒的关系更为合理。那么,在一般情况下,如何选择

系数和Q系数呢?取决于研究的对象。当自变量的不同取值都会影响因变量时,则应用系数。例如,研究性别与报考大学类别之间的关系。相反,在上述新药的研究中,控制组服用安慰药的结果,我们并不关心,类似这种实验性研究,应选择Q系数。二、r×c表系数和Q系数,仅适用于2×2表;对于r×c表,有两类讨论方法。一类是以值为基础来讨论变量的相关性。一类是以减少误差比例(PRE)为准则来讨论变量间的相关性。1.Lambda相关测量法

Lambda相关测量法,又称为格特曼的可预测度系数(Guttmanscoefficientofpredictability),其基本逻辑是计算以一个定类变项的值来预测另一个定类变项的值时,如果以众值为预测的准则,可以减少多少误差。消减的误差在全部误差中所占的比例愈大,就表示这两个变项的相关愈强。如下表:如何求PRE呢?换句话说,如何求E1和E2呢?E1=N-My

判断众数次数为my1,误差为fi1-My1;

判断众数次数为my2,误差为fi2-My2;

判断数次数为myc,误差为fic-Myc;

总误差为E2=

fic-

my=N-

my。进而

(不对称)其中:My=Y变项的众值次数;my=X变项的每个值之下y变项的众值次数;N=全部个案数目。同理:若以Y为自变量,X为依变量,则

其中:Mx为x变项的众值次数;

mx为y变项的每个值之x变项的众值次数;

N为全部个案数目。如果是对称的情况,即:

x与y可相互预测,不分自变项与依变项,则:Lambda相关测量的性质:(1)

系数的取值范围;(2)具有PRE意义;(3)对称与不对称的情况下,有不同的公式;(4)具有以众数作为预测的特点,不理会众数以外的分布;(5)当众数集中在一行或一列时,会使得=0,这是

的灵敏度有问题。例1.性别与某种社会态度的条件次数分布表解:性别是自变量,态度是依变量,为不对称关系

即表示中等相关,用x预测y(即用性别预测态度)可以减少51%的误差。结论表

表1-2性别对态度的影响较完整的研究结论:

学生的态度有显著的性别差异,80%的男生表示容忍,77.5%的女性表示反对,男生中表示反对的仅20.0%,而女性中表示容忍的仅占22.5%,用性别预测学生的态度,可消减51%的误差。这样就可以了吗?为什么?例2.调查了100名青年人与其知心朋友的志愿,条件次数分布如下表:解:青年人与其知心朋友的志愿是相互影响的,因此,自己志愿与知心朋友志愿是对称关系。

已知

My=50,Mx=54,

my=28+41+7=76所以这个统计值表示,如果以两个变项互相预测,可以消减47%的误差。Lambda是以众值作为预测的准则,当众数集中在某一行与某一列时,会使得

λ=0二、Tau-y系数例:某市镇劳动人口的职业背景与其工作价值观的关系如下表:转化为条件百分表则:

Lambda相关测量法有敏感性问题,不少社会学研究会采用另一种相关测量法,就是古德曼和古鲁斯卡的Tau-y系数。

Tau-y系数属于不对称相关测量法,要求两个定类变项中有一个是自变项(x)另一是依变项(y)。其数值介于0与1之间,具有消减误差比例意义。即:(1)不对称(2)[0,1](3)具有PRE意义(4)定类测量层次Tau-y系数的特色在计算系数值时,会包括所有的边缘次数和条件次数。计算公式:

Tau-y=简化公式:Tau-y=j=y变项值(列)i=X变项值(行)Fy=y变项的边缘次数Fx=x变项的边缘次数Fji=同属于y的j值和x的I值的个案数目r=y变项值的数目(横行数)c=x变项值的数目(纵行数)N=全部个案数目现在用Tau-y来测量职业背景与工作价值的相关。Tau-y=

=124.30

=

可见

yx=0,但tau-y=0.007,表示职业背景对工作价值观是具有若干影响的。因此,如果是不对称关系,最好选用tau-y来简化两个变项的相关情况。一、斯皮尔曼等级相关系数rs

首先,从一个实例出发。设调查了5对夫妇,他们双方的家庭社会经济地位如下表(表2-1)。

表2-1夫妻家庭社会经济地位

我们把一对夫妇称作上述配对样本中的一个单元,于是这5对夫妇可写作5个单元。记作:(1,2)、(2,3)、(3,4)、(4,5)、(5,1);现在来计算每一对夫妇地位的等级差的平方:(1-2)2、(2-3)2、(3-4)2、(4-5)2、(5-1)2。

可以想象,等级差的平方和极小值是零,它表示双方家庭都是严格按照高配高、低配低的。它称作完全的正等级相关:

(1-1)2,(3-3)2,(2-2)2,(4-4)2,(5-5)2。如果双方家庭严格按照高配低、低配高,则称作完全的负等级相关,这时等级差的平方和达极大值。

回忆一下是如何理解标准差的内涵的?

可见,等级相关的大小和等级差平方和的值有关。斯皮尔曼等级相关系数就是以上述讨论的等级差的平方和为基础来讨论等级相关的。x等级1,2,3,……,n。y等级1,2,3,……,n。设每一个单元x和y的观察值为:(x1,y1),(x1,y2),……,(xn,yn)。它们的等级差的平方为:(x1-y1)2=d12,(x2-y2)2=d22,……,(xn-yn)2=dn2。

把上面对例子一般化:设配对样本共有n对单元。其中x共有n个等级,y也有n个等级。则:斯皮尔曼等级相关系数rs为d表示等级之差,n表示等级数目。特点:1、当斯皮尔曼等级相关系数等于1时,属完全正等级相关(高配高)。

X

123n123

n

111

ry当斯皮尔曼等级相关系数等于-1时,属完全负等级相关(高配低)X

123n123

n

111

1y斯皮尔曼等级相关系数特点:2、斯皮尔曼等级相关系数不具有PRE的性质。3、斯皮尔曼等级相关系数是对称相关测量法。例1.用斯皮尔曼等级相关系数rs,计算上面5对夫妇的家庭社会经济地位的等级相关:

户号夫家庭地位妻家庭地位DD2115-41622111332114431155411可见,根据5户的资料计算,并不存在等级相关。

注意1:等级相关和列联表相关的含义是不同的。

如果把家庭社会经济地位只看作5个分类,而不计算类别所含等级,则有:因此,研究不同层次的变量应采用不同的相关系数。因为有:

=1+1+1+1+1=5,y=1+1+1+1+1=5,

=1,my=1,N=5。注意2

гs等级相关适用于定序变量,研究的是变量间的等级是否存在着相互关系。对于定距变量,在计算相关系数时,如果某些基本假定不能满足(例如要求变量分布满足正态性),这时可以降低变量层次,作为定序变量来处理,因为等级相关系数对总体变量分布是不作要求的。另外,有些定距变量间的关系,实际把变量看作定序变量更为合理化些。例如生命过程的研究,当把年龄按代别划分比按实际年龄来划分更为反映事物本质时,这时也可采用定序变量来讨论。

等级相关是以变量没有相同等级为前题的。但如果相同等级不太多的话,可采用平均等级的方法来讨论等级相关。例2.为研究考试中学生交卷的名次是否与成绩相关,进行以下12名学生的抽样调查:交卷名次123456789101112考试成绩907474606886926078747864

问:这12名学生交卷名次与成绩是否相关?解:由于交卷名次是定序变量,因考试成绩也应转换为定序变量,以求等级相关,为此,以考试成绩排名次,但在78分,74分和60分都出现同分对,这时应取其平均名次:9290867878747474686460

60123456789101112

4.5711.5成绩名次交卷名次DD217-636.002111.0036-39.004.59-4.520.254.511-6.542.2572525.0073416.00710-39.0095416.001012-24.0011.547.556.2511.583.512.25即这12名学生成绩与交卷名次有一定的关系。

D2

=247.00n=12二、Gamma等级相关

rs仅适用于变量没有相同的等级或只有少量的相同等级。如果调查单元很多,要划分很多的等级将很困难,而减少等级又会出现很多数据具有相同的等级,这时就不能有效地测量定序变量间的等级相关。这时我们可以选用G系数。Gamma等级相关系数允许数据具有相同的等级。它的使用不受样本容量的限制。

(一)名词解释

1.同序对(NS)设单元A变量的X和Y具有等级(xi,yi),单元B变量的X和Y具有等级(xj,yj)。

如果xi>xj,则yi>yj

则称A和B为同序对。例如:A交卷是第2名(xi),分数是90分(yi);B交卷是第3名(xj),分数是86分(yj)。下列哪种情况中,A单元与B单元是同序对??XYX1Y1X2Y2X3Y3X4Y4XYX1Y1X2Y2X3Y3X4Y4XYX1Y1X2Y2X3Y3X4Y4ABABAB同序对条件:xi>xj,yi>yj。

同序对只要求X变化方向与Y变化方向相同,但并不要求A与B中X的变化量(xi-xj)与Y的变化量(yi-yi)相等。2.异序对(Nd)

设单元A的变量X和Y具有等级(xi,yi),单元B的变量X和Y具有等级(xj,yj),如果xi>xj,yi<yj,称A和B是异序对。异序对只要求X变化与Y变化的方向相反,但并不要求A与B中变化量|xi-yj|与Y的变化量|yi-yj|相等。下列哪种情况中,A单元与B单元是异序对?XYX1Y1X2Y2X3Y3X4Y4XYX1Y1X2Y2X3Y3X4Y4XYX1Y1X2Y2X3Y3X4Y4XYX1Y1X2Y2X3Y3X4Y4AAAABBBB3.同分对TX、Ty、TXy同分对TX

如果单元A与单元B中,变量X具有相同的等级,则称X同分对。

XY

X1Y1

X2Y2

X3Y3

X4Y4AB同分对Ty:如果单元A与单元B中,变量Y具有相同的等级,则称Y同分对。

XY

X1Y1

X2Y2

X3Y3

X4Y4BA同分对Txy:如果单元A与单元B中,变量X与变量Y等级都相同,则称X、Y同分对。

XY

X1Y1

X2Y2

X3Y3

X4Y4BA例:试就以下单元数据,列举其中的同序对、异序对、同分对。单元XYA32B31C31D11E23解:单元对数共有:先以A为基础来讨论:

AB—X同分对AC—X同分对

AD—同序对AE—异序对以B、C、D为基础讨论:

BC—XY同分对CD—Y同分对

BD—Y同分对CE—异序对

BE—异序对DE—同序对

单元XYA32B31C31D11E23

4.根据列联表中频次计算Ns、Nd、Tx、Ty、Txy

当调查总数很大的情况下,计算Ns、Nd等,可将数据先统计出按等级排列的列联表,然后依据列联表来进行计算。通过列联表(以3*3表为例)来计算:

XY高中低高F11F12F13中F21F22F23低F31F32F33总对数n为总频数或个案总数先以第一行为基础进行分析:同序对数量为f11(f22+f32+f23+f33)。

XY高中低高F11(F12)(F13)中(F21)F22F23低(F31)F32F33以f12为基础分析:由于凡与f12同行或同列者必形成同分对,而f12左侧各频次不能形成同序对,因此,只有f12右侧非同行同列者可形成同序对。即:F12(F23+F33)。

XY高中低高

(F11)F12(F13)中(F21)(F22)F23低(F31)(F32)F33以f21为基础进行分析:出于同样的理由,它只有与f32f33形成同序对,计有:f21(f32+f33)。

XY高中低高(F11)(F12)(F13)中F21(F22)(F23)低

(F31)F32F33以f22基础计算:它只有与f33形成同序对,计算f22.f33。

XY高中低高(F11)(F12)(F13)中(F21)F22(F23)低(F31)(F32)F33NS是多少呢?NS=f11(f22+f32+f23+f33)+F12(F23+F33)

+f21(f32+f33)+f22.f33采取同样的计算方法,可得到Ns和Nd:Ns=f11(f22+f23+f32+f33)+f12(f33+f23)+f21(f32+f33)+f22f33

Nd=f13(f21+f22+f31+f32)+f12(f21+f31)+f23(f31+f32)+f22f31XY高中低高F11F12F13中F21F22F23低F31F32F33同理可求x同分对,y同分对及x、y同分对。

Ty=f11(f12+f13)+f12f13+f21(f22+f23)+f22f23+f31(f32+f33)+f32f33

Tx=f11(f21+f31)+f21f31+f12(f22+f32)+f22f32+f13(f23+f33)+f23f33TxyXY高中低高F11F12F13中F21F22F23低F31F32F33二、G系数:

Ns为同序对的数目。

Nd为异序对的数目。G系数不考虑同分对。如果在单元对中是以同序对为主,则变量x和变量Y正相关,反之为负相关。同序对和异序对数量之差,则反映了等级相关的程度。G系数的特征1、G系数的取值范围:-1

G

1。

G=1,则Nd=0,即均为同序对。

G=0,则Ns=Nd,即同序对和异序对相等。

G=-1,则Ns=0,即均为异序对。2、分母表示预测时可能犯的最大错误。分子表示的是可以减少的误差。因此G具有PRE性质。3、G属于对称相关测量法。4、G系数不考虑同分对。5、当定序变量只有两种等级时,则G系数有:可见,当G系数不计及符号(或方向)时,与2*2列联表中的Q系数相同,所以Q系数可看作G系数的特例。

F11f12

F21f22例题:调查了40名员工的工作满足感和归属感,得到如下表资料,计算G系数。归属感(Y)工作满足感(X)FY低中高低84315中65112高44513FX1813940Ns=223,Nd=125,G=0.28三、dyx相关测量法——萨默斯(Somers)dyx系数

Gamma系数是属于对称相关测量法。如果我们认为某定序变项是自变项(X),另一个变项是依变项(Y),最好是采用适宜于简化不对称关系的dyx系数。dyx=

(x是自变量、y为依变量)

dxy=

(y为自变量、x为依变量)其中:Ns是同序对数,Nd是异序对数,

Ty是只在依变项y上同分的对数。

公式:注意:①dyx

是非对称的测量:X

Y;②-1

dyx

1;③具有PRE意义。

例:在某城市调查200户人家,想知道住户的人口密度与婆媳冲突是否有关系?交互分类之后的次数分布如下表:

婆媳冲突住高户密中度低总数高2320447中11552894低8272459总数4210256200解:由于两个变项都是属于定序测量层次,要用G或dyx,但是根据题意X与Y是非对称,因此,最好选用dyx

Ns=23(55+28+27+24)+20(28+24)+11(27+24)+55×24=6003Nd=4(55+11+27+87)+20(11+8)+28(27+8)+55×8=2204Ty=23(20+4)+20×4+11(55+28)+55×28+8(27+24)+27×24=4141

婆媳冲突住高户密中度低总数高2320447中11552894低8272459总数4210256200因此

dyx=

dyx=0.308

可见,这200户调查资料中,婆媳冲突是与住户人口密度成正比,即住户的人口密度愈高会引起婆媳的冲突愈大,如果以住户人口密度的高低预测估计婆媳冲突的大小,可以消减30.8%的误差。

如果假定:X与Y是对称的,即拥挤的住户情况会引起婆媳的冲突,但婆媳不合也可能影响家人的劳动效率,收入少便住得拥挤,则运用G。

这个统计值显然比Dyx大。四、肯德尔(Keadall)的tau系数

肯氏把等级相关系数分三种情况讨论:1.Tau-a(一般式)

Tau-a系数仍以同序对NS与异序对Nd之差为分子,但以样本容量所形成的总对数()为分母。

Tau-a=

当数据中全是同序对时,Tau-a=1;全是异序对时,Tau-a=-1:Tau-a的取值范围为[-1,+1]。2.Tau-b(修正式)出现同分对时,分母作如下的修正。

Tx为变量X方向的全部同分对数;Ty为变量Y方向的全部同分对数。当出现X和Y方向的全部同分对时,在每个方向都要计算进去。Tau-b有只当行与列相同(即r=c)时,-1

Tau-b

1。

3.Tau-c

Tau-c=

即m为r

c等级列联表中r和c值中较小者。至于Tau-c,则无论有无同分对和无论行数与列数是多少,其数值都是:[-1,1]。Tau系数中,以Tau-c是适合社会学研究。

以婆媳冲突与住户密度的关系为例Ns=6003,Nd=2204,n=200,r=c=3,因此m=3。则

Tau-c=

注意①Tau三种系数均适宜于分析对称关系;②Tau-c最常适合社会学研究;③Tau不具有PRE意义,因此应用比G、Dyx少;④-1

Tau-a

1,-1

Tau-c

1,Tau-b不一定。一、回归研究的对象

1、回归研究的是定距变量与定距变量之间的非确定关系。回归分析法的目的,是要找出一个通过定距变量来预测另一个定距变量犯错误最小的方法。例:研究消费(Y)与收入(X)之间的关系从客观来看,存在着收入多、消费也高的客观规律。但消费现象除了受到收入这一因素制约外,它还和消费者所处的生命过程(X2)、消费心理(X3)、生活习惯(X4)、地理因素(X5)、消费环境(X6)、消费时尚(X7)、商品性能(X8)等相关。因此它是多元关系Y-F(X1、X2、X3,,X8)

在所有因素中,当仅研究其中一种因素,例如X1和Y之间的关系时,其它因素X2、X3

X8就成了未被控制的随机误差,从而Y和X1之间的关系就会呈现出相关关系。相关关系可以归结为两点:变量间存在着关系;这种关系是非确定的,或者说只存在着统计规律性。相关系数的描述

设有两个变量X和Y,当X变化时会引起Y相应的变化,但它们之间的变化关系是不确定的。如果当X取得任何一可能值Xi时,Y相应地服从一定的概率分布,则称随机变量Y和变量X之间存在着相关。2.散布图例:几次独立观测,得到了如下的X和Y数据对:XX1X2X3

Xn

YY1Y2Y3

yn

其中,Xi表示变量X在第i项预测中的测量值

与之相对的是Yi是变量y在第i次观测中的测量值。Xi和Yi是共生的,通常把数据对(Xi、Yi)(i=1,2,……n)用平面上直角座标的点表示:这样在X和Y的平面上就呈现了几个散布点,又称散布图。散布图的特点是:对于一个确定的Xi值,Yi的值不是唯一的,yi是随机变量。如受教育年限相同的人,其婚龄都未必都是相同的。3.回归方程与线性回归

根据散布图可以看出,当自变量取某一值Xi时,因变量Y对应为一概率分布,它又称条件分布。如果对于所有的Xi(i=1,2

n)其条件分布都相同,说明婚龄(Y)与受教育程度(X)是没有关系的,反之,如果不同的X值,其婚龄的分布是不同的,则说明婚龄(Y)与受教育程度(X)是有关系的。分布的比较

分布的比较是比较复杂的。为此,我们简化为在不同取值下,分布数字特征的比较。其中最简单的就是均值的比较。如下图:由于确定的X=Xi,Y的均值也是确定的

因此X和均值Y之间就形成了确定的函数关系Y=f(x)。Y=f(x)称作Y对X的回归方程,可见,回归方程是研究自变量X不同取值的,因变量Y平均值的变化。当因变量Y的平均值与自变量X呈现线性规律时,称作线性回归方程。

只有一个自变量时,称一元线性回归方程,记作:Y=bx+a。其中b称作回归系数、a称作回归常数。回归常数a表示回归直线的截距,即回归线与Y轴的交割点;回归系数b表示回归直线的斜率。每一个真实Yi与回归线的关系是:yi=bxi+a+ei

其中yi是随机变量,ei是随机误差,由于ei的值是非固定的,从而使X和Y呈现非确定的关系。二、简单直线回归(一元线性回归)

如果所研究的变项都是属于定距测量层次,可以用简单直线回归分析法来以自变项的数值预测或估计依变项的值。公式为:

yi=bxi+a+ei回归线

yi是一个随机变量,以均值来比较所犯的错误会最小,因此,在每个X值上虽然可能有多个yi,但我们在估计时就要取其均值。如果将这些Y均值用一条线连结起来,这就是回归线。由于回归线是由均值所构成的,原则上用它来预测Y值的话,所犯的错误是最小。然而,这条线通常是曲折的,很难用一个方程来表示,为求运算方便,最好是将回归线变成一条直线,即就可以简易地用y

=bx+a这个方程式来表示。问题是:回归直线应该在坐标图上哪一个位置预测时所犯的误差最小?y’=a+bx可采用直线回归法绘制回归线。

根据的准则是最小二乘法(最小平方),即:所估计的y

与实际值yi的离差平方为最小时这条直线为最佳切合线,ei=yi-y

=实际值-理论值。即:

Ei2=

(yi-y

)2=min

运用最小平方法,可以得到下面两个标注方程。

yi-na-b

xi=0①

yixi-a

xi-b

xi2=0②由①得

将a的取值代入②,求的:例:为了研究受教育年限和职业声望之间的关系,设以下是8名抽样调查结果。求教育年限与职业声望之间的回归线根据表中数据,以及求a和b的方程式:将a、b计算结果代入Y=bX+a,得回归方程:Y=32.4+2.92x

这个方程简化了8名调查对象在两个变项上的众多资料,而且可以用来预测或估计调查对象的职业声望。例如,调查对象教育年限为12时,职业声望y=32.04+2.92

12=67.08。

这个数值可作如下估计:教育年限为12年,职业声望得分67.08。预测值与实际值是有差别的,如上表有两名调查对象声望为70和75,但估计均为67.08。然而,如果是以一条简单的直线作为预测的工具,上述的方法所犯的误差总数是最小的。直线回归方程不但简化了资料,而且可以推广用以预测或估计样本以外的个案的数值。三、积矩相关测量法(皮尔逊Pearson的积矩相关系数r)1、协方差

下图表示了变量x和变量y之间存在相关关系的散布图,它共有n对数据。yxYX

x和y的均值为:

把坐标轴平移,对于新的坐标,其观测值为:(x1-),(x2-

),

,(xn-

)(y1-),(y2-

),,(yn-)现在研究X和Y每对数据的乘积。

显然,如果观测值落在新坐标的第1和第3象限,则乘积:(xi-)(yi-)>0;

反之,如果观测值落在新坐标的第2或第4象限,则乘职:(xi-)(yi-)<0。(x1-)(y1-)(x2-)(y2-)

(xn-)(yn-)

yxYX可以想象,如果变量间存在线性相关,其观测点不会平均分散在4个象限,只会集中在1、3象限或2、4象限;线性相关程度愈强,集中程度愈明显。从数量上来考虑,就是上述乘积的总和。因此,可以作为线性程度的相关标志。当=0,则表示观测点均匀地分散在4个象限,即变量X和变量Y之间不存在线性相关关系。反之,当

0,则表示变量间存在线性相关关系,其数值(绝对值)越大,则表示线性相关关系越大。而其乘积对样本容量的平均值,称作协方差。如何理解协方差的概念?

我们已经知道变量的方差公式为:

它标志变量观测值相对其均值的平均偏差,因此协方差是cov(x,y)=

(xi-)(yi-)

则表示X和Y两变量观测值相对其各自均值所选成的共同平均偏差。2、相关系数

协方差的数量可作为变量线性相关程度的度量,但由于它的数值与单位有关,因此,不同单位的变量还无法进行比较,为此,我们将变量标准化,然后再求其乘积的平均:取平均有:

这就是相关系数R1

对于总体数据r:

无论是样本数据或总体数据,相关系数r都可写作:可见,相关系数就是标准化的协方差。

数值上它等于协方差除以各自标准差的乘积。简化计算公式:

积矩相关系数r具有以下性质:

r系数假定x与y的关系是对称关系,即是对称测量,ryx=rxy。

适用定距测量层次。

取值范围[-1,+1]

注意:r

0.2,社会学中一般认为不呈直线相关(经济学中为0.3);0.2<r

0.5,低度相关;0.5<r

0.8,显著相关;r>0.8,高度相关。

r=1完全正相关r=-1完全负相关r=0零相关

相关系数受变量取值范围的影响很大。例:回归方程Y=1+X相关系数

=例:

同样可求得回归方程:y=1+x,r=0.74

y.y=1+xy=1+x..r=0.45r=0.74.

上面两例的相关系数值是不同的。为使读者正确理解所计算相关系数的大小,在给出相关系数的同时,还应给出变量的取值范围。

此外,相关系数还有另一个性质,相关系数不因坐标原点的改变或单位的变化而变化。数据值如果过大,可以减去一个常数,同样,数值如果太小,也可扩大一个倍数。其相关系数是不变的。即数据对:(x1,y1)(x1-a,y1-b)(x2,y2)与(x2-a,y2-b)(xn,yn)(xn-a,yn-b)

其相关系数相同。

相关系数R的平方具有PRE的意义。R2称为决定系数(或制定系数)PRE=E1为不知X与Y有关系时,预测Y的总误差。由于这时最佳的估计值是均值y,因此E1=

(Yi-

Y)2=TSS,称为总偏差平方和。

YRSS

RSSRTSSXy当知道X和Y存在线性相关后,我们可以用线性回归直线来预测Y的值,这时的误差E2为:E2=

(Yi-Y)2=RSS,RSS称为剩余平方和或残差。E1-E2=TSS-RSS=

(

Y0-

Y)2=RSSR

RSSR称回归平方和。可见,TSS反映了观察值Yi围绕平均值

Y总的分散程度,表示是原有的估计误差。

RSS反映了观测值Yi偏离回归直线Yi的程度,表示通过回归直线进行估计的误差。

RSSR表示了通过回归直线被解释掉的误差。因此,而得因此,R2才具PRE意义。

=另外,分子分母同乘以得:∴四、相关与回归的比较相关和回归研究的都是变量间的非确定性关系,而且研究的都是其中的线性关系。但是两者研究的角度是不同的。

1.从研究关系性质看:回归是研究变量间的因果关系的,要建立模型Y=a+bX;相关关系则不一定具有因果关系,它们往往是伴随、共存的关系,当然也不排斥一方为主的情况。下列几种情况都可以作为相关研究的对象:

X

Y(X引起Y的变化)Y

X(Y引起X的变化)X

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论