预防医学-线性相关与回归_第1页
预防医学-线性相关与回归_第2页
预防医学-线性相关与回归_第3页
预防医学-线性相关与回归_第4页
预防医学-线性相关与回归_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章

线性相关与回归(Linear

Correlation

& Regression

)线性相关与回归第一节

线性相关第二节

线性回归第三节

线性相关与回归的区别和联系第三节

等级相关一、线性相关的基本概念二、线性相关系数三、相关系数的显著性检验四、进行线性相关分析的注意事项线性相关(linear

correlation)一、线性相关的基本概念为直观地判断两个变量之间的关系,可在直角坐标系中把每对(Xi,Yi)值所代表的点绘出来,形成散点图。例如12名男青年身高与前臂长资料绘制的散点图

:4240150若一个变量X由小到大(或由大到小),另一变量Y亦相应地由小到大或由大到小,则两个变量的散点图呈直线趋势,我们称这种现象为

共变,也就是这两个变量之间有“相关关系”。男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存

性相关关系我们把这种关系称为直线相关。线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:1.正相关 2.负相关 3.无相关二、线性相关系数在分析两个变量X与Y之间关系时,常常要了解X与Y之间有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。(Pearson)相关系数的计算公式为:ii.LYLYXLXYXYYY)r

r

XY(2(X)Y)2

(

X

X

)(相关系数r没有测量单位,其数值为-1≤≤+1r相关系数的计算方法计算时分别可用下面公式带入相关系数r的计算公式中X

X

2

X

2

NXY

Y

Y

X

X

Y

Y

Y2NX

Y

NY

2

X

22例10.1

从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长均以cm为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。身高(cm)

前臂长(cm)

XY

X2Y2(X)(Y)11704779902890022092173427266299291764316044704025600193641554163552402516815173478131299292209618850940035344250071784783663168422098183468418334892116918049882032400240110165437095272253174285612116合计18915008618532608122810解:n

11,

X

=1891,

X

2

=89599,Y

=500,

Y

2

=22810,

XY

=86185。代入公式(10-2),得:

1000.9091118912

326081

(

X

)2L

X

2

nXX

82.7275002

22810

n 11(Y

)2L

Y

2

YYn

11L

XY

(

X

)(Y

)

86185

1891

500

230.455XY按公式(10-1)计算相关系数r

0.80121000.909

82.727230.455r三、相关系数的显著性检验rr与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。常用的检验方法有两种:1.按度直接查附表11的界值表,得到P

值。n

21

r

2r

0tr

n

22.用假设检验法,计算统计量,其公式为:例10.1所得的

r

值检验男青年身高与前臂长之间是否存在相关关系?第

法1.建立检验假设H

0

0

,即身高与前臂长之间不存在相关关系H1

0

;即身高与前臂长之间存在相关关系

0.052.计算统计量n

=11,

r

=0.8012,度

=11-2=9,3.查

r

界值表,得统计结论查r

界值表(附表

11),得

r0.005(9)

0.776

,因为

r

>r0.005(9),故P<0.005,按

0.05

水准H

0

接受H1

,可以认为男青年身高与前臂长之间存在正相关关系。第二种方法建立同样的检验假设计算统计量

4.0171

0.8012211

20.8012

0tr

ν=11-2=93.查界值表,得统计结论t0.005(9)t0.005(9),P

<0.005,结果与查

t

界值表,得

3.690

,tr查r

界值表一致。四、进行线性相关分析的注意事项⒈线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。⒉相关系数的计算只适用于两个变量都服从正态分布的情形,如果资料

从正态分布,应先通过变量变换,使之正态化,再根据变换值计算相关系数。四、进行线性相关分析的注意事项⒊依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须设检验。四、进行线性相关分析的注意事项⒋相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。一、线性回归的基本概念二、线性回归方程的计算三、线性回归方程的显著性检验四、进行线性回归分析的注意事项第二节线性回归(linear

regression)一、线性回归的基本概念相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X

、Y

中,当一个变量X

改变时,另一个变量

Y

也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数r

表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示Y

与X的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的近似的线性数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程。线性回归方程的形式为:Y

a

bX其中b

(

X

X

)(Y

Y

)

LXYLXX(

X

X

)2a

Y

b

XY

是给定

X

时Y

的估计值b

称为回归系数(regression

coefficient)。二、线性回归方程的计算例10.3有人研究了温度对蛙的心率的影响,得到了表10-2中所示的资料,试进行回归分析。12510425241144361214810222201004846122327644819610248162946425684191832576324102410203468040011561122337264841089合计132246362220246610对象温度(X)

心率(Y)

XYX2

Y21.根据表10-2数据绘制散点图,如下图所示:温度3020100蛙心律4030201002.计算回归系数与常数项在本例中:

X

2

X

132Y

246

XY

3622

2024Y

2

6610X

12Y

22.3631322

440

XY

(

X

)(Y

)3622

(132)(246)

n

11

670

1.5232024

(

X

)2

X

211XXlb

lXYna

Y

bX

22.363

1.52312

4.087则,回归方程为Yˆ

4.087

1.523X3.作回归直线按求得的回归方程,在

X

实测值的范围内(本例为

2~22)任取两个相距较远的点A(X

,Y

ˆ1

1

2

2B(X

,Y

)、

,连接

A、B

两点即得到回归直线。本例可取X1

3

,计算出Yˆ

8.65;

X

21,计算出Yˆ

36.06

,过(3,1

2

28.65)和(21,36.06)两点的连线即为所求的回归直线(regressionline)三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就是要检验

b是否为β=0的总体中的一个随机样本。该假设检验通常用方差分析或者t检验,两者的检验效果等价。线性回归方程的显著性检验-方差分析检验的基本思想:如果X

与Y

之间无线性回归关系,则SS回归与SS剩余都是其它随机因素对Y的影响,由此描写变异的

MS回归与MS剩余应近似相等,总体回归系数β=0,反之,β≠0。于是,可用F

检验对X

与Y

之间有无回归关系进行检验。Y

值的变异可用式(Y

Y)2

来反映,而每个Y

Y

都可以分解成下式:Y

Y

(Y

Yˆ)(Yˆ

Y

)将此式两边平方然后展开,得:其中则:(Y

Y

)2

[

(Y

)

(Yˆ

Y

)

]

2

(Y

)2

(Yˆ

Y

)2

2(Y

)(Yˆ

Y

)(Y

)(Yˆ

Y

)

[

Y

Y

b(

X

X

)

]

[Y

b(

X

X

)

Y

)

]

b(

X

X

)(Y

Y

)

b2

(

X

X

)2

b2

(

X

X

)2

b2

(

X

X

)2

0(Y

Y

)2

(Yˆ

Y

)2

(YYˆ

)2回归系数的假设检验可用下面简化公式计算(Y

)2SS

(Y

Y

)2

Y

2

n总Y

)

2

b2

(

X

X

)2SS

(Yˆ

Y

)2

(Y

b(

X

X

)回归LXXL2

XY

bLXY

LXXL

b

XYLXXSS

剩余=SS

总-SS

回归这三个平方和的

度依次为:

回归=1,

总=n-1,

剩余=n-2回归

SS回归回归MS剩余

SS剩余剩余MSF

M

S回归M

S剩余对例10.3的回归方程用方差分析进行假设检验建立假设检验β=0β≠0α=0.05计算统计量SS总SS回归SS剩余=SS总-SS回归=88.31(Y

)22462

6610

1108.5411n

1020.234406702

Y

2

XY

l

XXl

2F

MS回归

SS回归

/回归

1020.23

/1

103.97SS剩余

/剩余88.31/

9MS剩余(3)确定P值得出统计结论查F界值表,V回归

=

1,V剩余

=

9,可以认为温度与蛙的心率之间存性回归关系。F0.01(1,

9)

10.56F

F0.01(1,

9)P

0.01H

0H

0方差分析表变异来源SSMSFP总变异1108.5410回

归1020.2311020.23103.97<0.01剩

余88.3199.81对例10.3的回归方程用t

检验进行假设检验建立假设检验β=0β≠0α=0.05计算统计量988.31

3.13sY

X

440bs

3.13

0.149t

1.523

0

10.220.149(3)确定P值作结论V

=11-2=9根据

V

=9,

t

0.01/

2(9)

3.250,

P

<0.01,

H0,结论与F

检验相同。F

t细心的读者可以发现统计量F与t

之间存在着关系本例F

t

。103.97

10.22

。四、进行线性回归分析的注意事项⒈

只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。⒉作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X

,以

“果”的变量为Y

。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X

。⒊

在回归分析中,因变量是随

量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X

取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。四、进行线性回归分析的注意事项⒋回归方程建立后必须

设检验,只有经假设检验

了无效假设,回归方程才有意义。⒌使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。第三节线性相关和回归的区别与联系一、线性相关与回归的区别⒈相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随量,自变量既可以是随量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X取值相对应的变量Y必须服从正态分布)。⒉线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。二、线性相关与回归的联系⒊如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。⒋在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出r与b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于r的假设检验可以直接查表,较为简单,所以可以用其代替对b的假设检验。⒌相关回归可以互相解释。R

的平方称为确定系数(coefficient

of

determination)SS总回归SSlXX

lYY

lYY/

ll

2

l

2

XY

XY XX22R

r应用确定系数,也可以从回归的角度对相关程度做进一步的了解。二、线性相关与回归的联系第四节

等级相关如果观测值是等级资料,则可以用等级相关来表达两事物之间的关系。等级相关是分析X、Y

两变量等级间是否相关的一种非参数方法。常用的等级相关方法是Spearman等级相关。与线性相关系数r

一样,等级相关系数rs的数值亦在-1与+1之间,数值为正表示正相关,数值为负表示负相关。一、等级相关系数的计算

1)Spearman等级相关系数rs

可由公式计算6

d

2rs

1

n(n

2式中,n

表示样本含量;d

表示X、Y

的秩次之差。例10.4某医生做一种研究,欲了解人群中氟骨症患病率(%)与饮用水中氟含量(mg/l)之间的关系。随机观察8个地区氟骨症患病率与饮用水中氟含量,数据如表10-4(2)、(4)两栏。试计算等级相关系数rs。表10-4不同地区饮水中氟含量(mg/l)与氟骨症患病率(%)地区

饮水中氟含量

氟骨症患病率dd2X秩次Y秩次(1)(2)(3)(4)(5)(6)=(3)-(5)(7)=(6)210.48122.372-1120.64223.313-1131.00325.324-1141.47422.2913951.60535.005.5-0.50.2562.86635.005.50.50.2573.21746.0770084.71848.318001.将X、Y

分别从小到大编秩,见表

10-4(3)、(5)两栏,若遇到相同观察值时,则取平均秩次。如

Y5=Y6=35.00,则

Y5,Y6

分别标平均秩次

(5+6)/2=5.52.差数d,见(6)栏,注意

d

03.算d2见(7)栏,本例

d

2

12.54.代入公式(10-18)计算rs(8

82

1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论