线性相关与回归_第1页
线性相关与回归_第2页
线性相关与回归_第3页
线性相关与回归_第4页
线性相关与回归_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

线性相关与回归第一页,共五十五页,编辑于2023年,星期一相关与回归2在前面的章节中,我们讨论了单个连续性变量的部分统计分析方法,主要是统计描述与同一变量的不同处理组间的比较。但在大量的医学研究中,还需要对两个随机变量之间的关系进行量化的研究,一是确定两个变量间是否有联系及联系程度如何,二是定量地确定它们之间的互依关系。第二页,共五十五页,编辑于2023年,星期一相关与回归3医学上,许多现象之间都相互联系,例如:某年龄儿童的身高与体重的关系、凝血时间与凝血酶浓度的关系、尿铅排出量与血铅含量的关系、血压与年龄、体温与脉搏、疗效与药物剂量、血药浓度与时间、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。相关与回归就是用于研究和解释两个变量之间相互关系的。

第三页,共五十五页,编辑于2023年,星期一相关与回归4变量间关系问题:两个关系:(1)数量依存关系:应变量(dependentvariable)Y随自变量(independentvariable)X变化而变化。——回归分析(2)相关关系或互依关系:应变量Y与自变量X间的相关关系的强弱及方向

——

相关分析第四页,共五十五页,编辑于2023年,星期一相关与回归5

第一节

直线相关第二节直线回归第三节线性相关与回归的区别与联系第四节Spearman等级相关

第五页,共五十五页,编辑于2023年,星期一相关与回归6直线相关LinearCorrelation第六页,共五十五页,编辑于2023年,星期一相关与回归7适用资料类型和散点图适用于双变量正态分布的资料为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。第七页,共五十五页,编辑于2023年,星期一相关与回归8为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。

第八页,共五十五页,编辑于2023年,星期一相关与回归9图12-3

相关系数示意图

散点呈椭圆形分布,X、Y同时增减---正相关(positivecorrelation);

X、Y此增彼减---负相关(negativecorrelation)。

散点在一条直线上,

X、Y变化趋势相同----完全正相关;反向变化----完全负相关。第九页,共五十五页,编辑于2023年,星期一相关与回归10图12-3

相关系数示意图

X、Y变化互不影响----零相关(zerocorrelation)第十页,共五十五页,编辑于2023年,星期一相关与回归11一、

相关系数概念

相关系数(correlationcoefficient),又称积差相关系数(coefficientofproduct–momentcorrelation),或Pearson相关系数(软件中常用此名称)

说明相关的密切程度和方向的指标。

r

——样本相关系数第十一页,共五十五页,编辑于2023年,星期一相关与回归12r无单位,-1≤

r≤1。r值为正——正相关,为负——负相关;(与回归系数b的符号相同)|r|=1---完全相关,|r|=0---零相关。二、相关系数的意义第十二页,共五十五页,编辑于2023年,星期一相关与回归13例10.1从男青年总体中随机抽取11名男青年的身高和前臂长,身高和前臂长均以cm为单位,测量结果如表10-1所示,试计算身高与前臂长之间的相关系数?是正相关还是负相关?第十三页,共五十五页,编辑于2023年,星期一相关与回归14

表10-111例男青年身高与前臂长的测量结果

编号身高(cm)前臂长(cm)11704721734231604441554151734761885071784781834691804610165431116644第十四页,共五十五页,编辑于2023年,星期一相关与回归15

第十五页,共五十五页,编辑于2023年,星期一相关与回归16∑X=1891∑Y=500∑X2=89599∑Y2=22810∑XY=86185N=11第十六页,共五十五页,编辑于2023年,星期一相关与回归17计算结果从计算结果可以知道,11例男青年身高与前臂长之间呈正相关,相关系数是0.8012。第十七页,共五十五页,编辑于2023年,星期一相关与回归18问题:我们能否得出结论说明男青年身高与前臂长之间呈正相关,相关系数是0.8012。

为什么?第十八页,共五十五页,编辑于2023年,星期一相关与回归19相关系数的假设检验

上例中的相关系数r等于0.8012,说明了11例样本中身高与前臂长之间之间存在正相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的11例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。

第十九页,共五十五页,编辑于2023年,星期一相关与回归20对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:

=n-2

第二十页,共五十五页,编辑于2023年,星期一相关与回归21H0:

=0

H1:

≠0=0.05r=0.8012,n=11,代入公式t==n-2=11-2=9

t=4.017查t值表,t0.05(9)=2.262

上述计算t=4.017>2.262,由t所推断的P值小于0.05,按=0.05水准拒绝H0,接受H1,认为男青年身高与前臂长之间有正相关关系。

第二十一页,共五十五页,编辑于2023年,星期一相关与回归22

也可以选择直接查表法

H0:

=0

H1:

≠0=0.05r=0.8012,n=11,=n-2=11-2=9

直接查附表11,r0.05(9)=0.602

,因为0.8012>0.602,所以P值小于0.05,按=0.05水准拒绝H0,接受H1,认为男青年身高与前臂长之间有正相关关系。第二十二页,共五十五页,编辑于2023年,星期一相关与回归23直线相关的应用

前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。第二十三页,共五十五页,编辑于2023年,星期一相关与回归24直线相关的应用一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。

第二十四页,共五十五页,编辑于2023年,星期一相关与回归25

前面我们讨论了男青年身高与前臂长之间的关系,知道了二者之间呈正相关。那么,如果我们知道了一位男青年的身高,能推断出他的前臂长?或他的前臂长可能在什么范围内呢?还有,随着身高的增加,体重也在增大,它们之间也成正相关关系。那么,身高每增加1厘米,体重增加多少克呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。第二十五页,共五十五页,编辑于2023年,星期一相关与回归26直线回归SimpleRegression第二十六页,共五十五页,编辑于2023年,星期一相关与回归27当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。第二十七页,共五十五页,编辑于2023年,星期一相关与回归28但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归.第二十八页,共五十五页,编辑于2023年,星期一相关与回归29直线回归就是用来研究两个连续性变量x和y之间的数量依存关系。其中x为自变量,y为因变量,它依赖于x。直线回归适用于单变量正态分布资料,即y为随机正态变量,x为可以精确测量的值。第二十九页,共五十五页,编辑于2023年,星期一相关与回归30一、

直线回归方程

一般表达式:a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regressioncoefficient)。意义:X每改变一个单位,Y平均改变b个单位。

b>0,Y随X的增大而增大(减少而减少)——斜上;

b<0,Y随X的增大而减小(减少而增加)——斜下;

b=0,Y与X无直线关系——

水平。

|b|越大,表示Y随X变化越快,直线越陡峭。第三十页,共五十五页,编辑于2023年,星期一相关与回归31二、回归方程参数的计算

最小二乘法原则(leastsquaremethod):使各散点到直线的纵向距离的平方和最小,即使最小。因为直线一定经过“均数”点第三十一页,共五十五页,编辑于2023年,星期一相关与回归32根据上例的数据,求男青年身高与前臂长之间的回归方程。从相关系数的计算中,已经求得:∑X=1891∑Y=500∑X2=89599∑Y2=22810∑XY=86185N=11第三十二页,共五十五页,编辑于2023年,星期一相关与回归33这就是我们求得的二者关系的回归方程第三十三页,共五十五页,编辑于2023年,星期一相关与回归34回归直线的描绘

根据求得的回归方程,可以在自变量X的实测范围内取一个x1(较小值)和x2(较大值)两值,代入回归方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过()。可以用来核对图线绘制是否正确。第三十四页,共五十五页,编辑于2023年,星期一相关与回归35

第三十五页,共五十五页,编辑于2023年,星期一相关与回归36与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用β表示。

第三十六页,共五十五页,编辑于2023年,星期一相关与回归371.方差分析

F=MS回归/MS误差2.t检验

回归系数的假设检验H0:β=0H1:β≠0α=0.05选择合适的假设检验方法,计算统计量计算概率值P做出推论:统计学结论和专业结论第三十七页,共五十五页,编辑于2023年,星期一相关与回归38三、回归参数的假设检验b≠0原因:①由于抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0公式

,υ=n-2Sb为回归系数的标准误

SY|X为Y的剩余标准差——扣除X的影响后Y的变异程度。

(一)t检验;(二)方差分析第三十八页,共五十五页,编辑于2023年,星期一相关与回归39剩余(残差)标准差SY|X

度量了实际散点远离回归直线的离散程度,反映了模型的可靠性。越小模型越好。

tb检验,区间的计算均需要使用这一值。第三十九页,共五十五页,编辑于2023年,星期一相关与回归40斜率b的假设检验H0:=0H1:

0

0.05自由度

11-2=9

检验统计量:按=0.05检验水准,P<0.05,拒绝H0,认为男青年身高与前臂长之间存在线性回归关系。注意:对于同一资料,tb=tr,检验完全等价第四十页,共五十五页,编辑于2023年,星期一相关与回归41X第四十一页,共五十五页,编辑于2023年,星期一相关与回归42Y的离均差平方和的分解第四十二页,共五十五页,编辑于2023年,星期一相关与回归43几个平方和的意义第四十三页,共五十五页,编辑于2023年,星期一相关与回归44再看公式:第四十四页,共五十五页,编辑于2023年,星期一相关与回归45表1回归效应的整体方差分析表变异来源νSSMSF值P值回归147.04247.04214.7020.005

残差927.1643.018

总变异1069.636按=0.05检验水准,P<0.05,拒绝H0,认为男青年身高与前臂长之间存在线性回归关系。第四十五页,共五十五页,编辑于2023年,星期一相关与回归46直线回归的应用

描述两变量之间的依存关系:通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。例如上例回归方程:就是男青年身高与前臂长之间的定量表达式。利用回归方程进行预测:把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某男青年的身高,代入回归方程,再用区间估计的方法,即可知道男青年前臂长的范围。

利用回归方程进行统计控制

利用多元回归描述多因素的影响

第四十六页,共五十五页,编辑于2023年,星期一相关与回归473.利用散点图对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。4.变量范围相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。第四十七页,共五十五页,编辑于2023年,星期一相关与回归48区别:

第三节直线回归与相关的

区别与联系1.适用资料类型:

回归:

Y正态随机变量,X为可以精确测量的值相关:X、Y服从双变量正态分布

2.应用:

回归——数量依存关系,由一个变量值推算另一个变量值,

相关——只反映两变量间相关关系的强弱及方向

3.

回归系数有单位,相关系数无单位4.回归系数的取值范围为:-∞~+∞

相关系数的取值范围为-1~+1第四十八页,共五十五页,编辑于2023年,星期一相关与回归49联系1.方向一致:r与b的正负号一致。

2.假设检验等价:tr=tb3.

4.用回归解释相关决定系数(coefficientofdetermination)

第四十九页,共五十五页,编辑于2023年,星期一相关与回归50直线回归与相关的应用注意事项

⑴要有实际意义

⑵不能任意“外延”⑶绘制散点图

第五十页,共五十五页,编辑于2023年,星期一相关与回归51第三节

等级相关

rankcorrelation

适用资料:⑴不服从双变量正态分布⑵总体分布类型未知⑶原始数据用等级表示

等级相关系数rs(即SpearmanCorrelationCoefficient)——反映两变量间相关的密切程度与方向。第五十一页,共五十五页,编辑于2023年,星期一相关与回归52

二Spearman等级相关系数等级相关系数

式(10-18)例题10.4见P119.第五十二页,共五十五页,编辑于2023年,星期一相关与回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论