直线回归分析直线回归分析介绍的相关_第1页
直线回归分析直线回归分析介绍的相关_第2页
直线回归分析直线回归分析介绍的相关_第3页
直线回归分析直线回归分析介绍的相关_第4页
直线回归分析直线回归分析介绍的相关_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章

(完整版直回归分析直线回归分析介绍的相关直线回归析第十三章介绍的相关系数可用来说明两变量之间相伴随而呈线性变化的趋势和关联强度,并不能用其中一个变量来预测另一个变量的值。在实际工作中研究常常需要通过易测的变量对另一难测的变量进行估测,如用腰围、臀围、体重指数BMI)等简易体脂参数来估测腹腔内脂肪含量,此时可采用回归分析。本章仅介绍最简单的直线回归分析。第一节

直线回归方程的建立一、直线回归的概念直线回归(linear)方法可用来研究两个连续型变量之间数量上的线性依存关系也称简单回归(simple)。在回归分析中估测的随机变量称为因变量(dependentvariable)或反应变量(response常用

表示;y

所依存的变量称为自变量(independent或释变量(explanatoryvariable),常用

表示.例14.1

某研究欲探讨男性腰围与腹腔内脂肪面积的关系男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm腹腔内脂肪面积()和腰围x)的线回归方程。

),结果如表所。试建立表14.120名性志愿受试者腰围和腔内脂肪面积的测量值编号123456789101112

腰围(cm81。385.685。987.879.082.595。296.194。490。693。5103。8

腹腔内脂肪面(cm69。861.280.375。575.785.4102.599.697.8100。9108。2129.0

)(腰围(cm))(腰围(cm)1314151617181920

97。598。399。787。284。188.0101.088.3

(完整版直回归分析直线回归分析介绍的相关110.4123。3105。583.172.0100.0105.0127。7以腰围为横坐标,腹腔内脂肪面积为纵坐标绘制散点图,如图14所示,可见散点大致呈直线趋势。130120c积面肪脂内腔腹

110100908070607580859095100105图14。1两变直线回关系散点图即假设有一条潜在的直线可用来刻画两变量之间的关系,这样的直线称为回归直线。通常用来示回归直线上各点的纵坐标,其数值是当x

取某一值时因变量

的平均估计值.与单变量问题类似由于个体观察值不一定总等于其均数,所以散点图中各点不会恰好都在回归直线上,故两变量的直线关系并非是一一对应的函数关系。描述随的变化而变化的方程为直线回归方程linearregressionequation),也称为直线回归模型,可表示为式中,回直线的截距(intercept)或常数项,表示x

等于0时,

y

(14。1)的平均估计值;为回归直线的斜率()或归系数regressioncoefficient)表示

改变一个单位时y

的平均改变量。b

,表示回归直线从左下方走向右上方即x增大而增大;

,表示回归直线从左上方走向右下方,即y随大而减小;b,表示回归线平行于x轴,即y与x无

2(完整版直回归分析直线回归分析介绍的相关2线性依存关系。由此可见,直线回归就是通过回归系数与自变量的线性组合来描述因变量的均数是如何随自变量的改变而变化。二、回归方程的估计(一)回归方程估计的最小二乘法从散点图来看,不同的ab对应于不同的直线,求解、实上就是如何能合理地找到一条能最好的代表数据点分布趋势的直线使得每个实测值y与条“理想”的回归直线的估计i值最接近。由于各点的()有正有负,故通常(iii

y)方和最小,统计学上将各点ii距回归直线的纵向距离平方和最小这一原则称为最小二乘法(leastsquaremethod)(二)回归系数的估计方法按照最小二乘法,当

(ii

)

取得最小值时所对应和计算公式如:l)(yyxylxxx

(14.2)ay

(14.3)式中l

为x

的离均差交叉乘积和简称离均差积和,可按公式14。4)计算:l

(x

)(

)

()(yn

(14。4)下面以例14资料明建立直线回归方程的具体步骤.1.绘制两变量之间的散点图,如图所示,观察到二者存在直线趋势,故可进行直线回归分析。2.由样本数据计算如下统计量:x90.990,l

2

x)

2

/n950.778l

2

y)

2

/n7293.650l3.计算回归系数b截距a由式()可得

y)2006.649

ll

2.11053由式()可,

(完整版直回归分析直线回归分析介绍的相关aybx95.6452.1105396.392124.得回归方程为:

2.11053在x的实测值范围内,任取相较远且易读数的两个值入方程得到两个值连接两点即可绘制回归直线例分别取值98分别70和89.335,接点(70.340)和88,89.335)即得回归直线。第二节

直线回归的统计推断一、总体回归系假设检验类似单变量问题中常需用样本均数对总体均数进行推断,在得到样本回归方程后,研究者还需推断相应总体中这种回归关系是否确实存在也即推断y呈线性变化。总体回归方程形式如下:

的总体条件均数是否随x

的变化而yi

yx

ii

i

(14)式中,是前和所应的总体参数;

y

为对应于各

值的y

的总体均数总体条件均数;为误差项或残差。i由式()可,当总体回归系数

y

的总体均数为常数,此时两变量无直线回归关系,但由于抽样误差的存在,样本回归系数不一定为零,故推断总体中两变量是否存在回归关系,还须对总体回归系数是等于0进行统计推断.(一)方差分析理解回归中方差分析的基本思想需要对应变量yP

的离均差平方和作分解如图14示

图14.2

(完整版直回归分析直线回归分析介绍的相关应变量的离均平方和分解示意图图14。2中任一点P

的纵坐标被回归直与均数

截成三段,其中

y

()(y

)

。由于点P

是散点图中任取的一点,若将全部数据点都按上法处理,并将等式两端平方后再求和则有:y

2

)

2

y

2

(14。6)上式也可表示为:SS

SS

(14。7)即y)总

,称为总离均差平方和,即不考虑y与x的回归关系时y总变异。

)

,称为回归平方和。在其成分(

y

)中,由于无论回归关系如何特定本的均数

不变,故此部分变异是由于直线上的不造成的,而的不同正是由于假设两变量存在回归关系

所导致的此反映在的总变异中由与x的归关系而使y的回总变异减少的部分,也即在y的总变异中可以用y与回归关系所解释的部分。SS越大,说回明回归效果越好。即,称为残差平方和。它反映了除对的归关系影响之外的一切因素对y的残变异的作用,也即在总平方和中无法用回归关系解释的部分示考虑回归关系之后y随机误差。在散点图中,各实测点离回归直线越近,

越小,说明直线回归的估计误差越小.上述3个平方和相应的自由度之的关系为

n

,

n

,(14。8)总回

(14.9)由式(及14.9)离均差平方和及其自由度的分解可见,当时,可出现较小的SS和较大的SS(极端况为=,而=0,回归线与横坐标行);而时,回残残总可能得到较大的

和较小的SS

(极端情况为SS残

=

=0有数据点都在回归线上故相对于随机误差SS

而言,回归的变异SS

越大,越有理由认为

,或可认为不考虑回归时,随机误差是总变异SS,而考虑回归后,由于回归的贡献使原来的随机误差减小为SS。总残如果两变量间总体回归关系确实存在,回归的贡献应大于随机误差,大到何种程度时可以认为具有统计学意义,可根据SS与SS的关系构统计量,对回归系数进行假设检验:回残

MSSS/4235.086/1(完整版直回归分析直线回归分析介绍的相关MSSS/4235.086/1

MS回MS残

SS/回SS/残

回残

(14.10式中,为回归均方,为残差均方。回残在H为

的假设下,统计量F

服从自由度为、的残

分布。实际计算时,也可以利用公式14.11)直接求得

:例14.2

SSblll回xyxyxx试用方差分析对例14。1资料的样本回归方程作假设检验.

(14.11)(1)立检验设定检验水准:0

,即腹腔内脂肪面积与腰围之间无直线回归关系H

1

:即腹腔内脂肪面积与腰围之间有直线回归关系

=0.05(2)计算检验统计量y)总

7293.650yy由式(14.11)可得,SSl回由式(14.7)可得,SSSS3058.564残总回由式(14.10)可得,F回回回MS/残残残(3)定,作出统计推断1回

,2

,查值表(附4),)

8.28

,得P0.01

。按

水准拒绝H,回方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归0关系.上述计算结果可列成方差分析表如表4所示。表14。2直线回归的方差分析表变异来源回归残差

42353058.564

118

4235169.920

24.924

0.01总变异(二)t检

7293.650

19

残b(完整版直回归分析直线回归分析介绍的相关残btb

b

b

0

n

(14.12)Sb

S

ylxx

(14。13式中,S

b

为样本回归系数b标准误

Sy

SS(14.14y为剩余标准差(residualstandarddeviation),是指扣除x对y的影后,y对于回归直线的离散程度。例14.3

试用t检验对例14.1资的样本回归方程作假设检验。检验假设同例14。2。由式(14.14)

S

y

SS由式(14。13)

Sb

S

l

950.778

0.42275由式(。12)

bt4.99240.42275b由

查t界值表(附表3),

,按

水准拒绝

0

,回归方程有统计学意义。结论同例14。2。由例14.1料验证F24.924

。因,对一资料作总体回归系数否为0的设检验方差分析和t检验一致的,且

tF

。二、总体回归系置信区间由例14。1计算得到的样本回归系数

,只是总体回归系数一个点估计值类似于总体均数的置信区间的估计,双侧

置信区间可由公式(14.15)计算:n

b

(14.15)式中,S

b

为样本回归系数b标准误;t2,(n

是自由度的双侧界值。例14。4

试估计例。1料的总体回归系数95%信区间。由例得b2.11053b按式(14.15)求得%信区间为:

,查值表3)得t0.05/

。(2.110532.1012.110530.42275)(1.222,

该区间不包括0按假设检验的问题

=0.05

(完整版直回归分析直线回归分析介绍的相关水准同样可得到总体回归系数不为结论即用区间估计回答三、决定系数回平方SS回

与离均平方

之称为定系(coefficientofdetermination),记为R2。R2

SS回SS总

(14。16)

取值在0到1之间无位它映了回归贡的相对程度即在应变量y总变异用y与回归关系所能解释的比例。在实际应用中,常用决定系数来映回归的实际效果。如例14.1,2=0.581,说明男性的腰围信息可以解释其腹腔内脂肪面积变异的58.1%,有剩余41.9%的信息需通过腰围以外的其它因素来加以解释。决定系数除了作为反映回归拟合效果的统计量,还可用来对回归拟合效果作假设检验。此拟合优度检验等价于对总体回归系数的假设检验,检验统计量为:F

R2/回回回)/(nSS/MS残残残

第三节

直线回归分析的应用一、应变量总体条件均数的置信区间给定数值x

,由样本回归方程算出的

abx

只是总体条件均数

yx

的一个点估计值。由于存在抽样误差,

会因样本而异,反映其抽样误差大小的标准误可按公式14.18计算:S

(xl

(14.18)式中,

y

由(14.14)计算,其条件总体均数

yx

的双侧(1置信区间为:

S

(14.19例14中,观测值x81.31

,S

y

13.03535

,l950.778xx

,

,代入(14.18)获第一观测点x对应的标准误为1S

y

1()290.990)213.035355.0276nl20950.778xx

)(p(完整版直回归分析直线回归分析介绍的相关)(p当置信度为,t/2,18

2.101,

2.11053

,代入式14。19)可得:75.19397

2。101×5。0276=(64.63,用同样的方式可计算出对应于所有x值的y的总体均数的信区间以x为横坐标为纵坐标,将置信区间的上下限分别连起来形成的两条弧形线间的区域称为回归直线的置信带(confidenceband),见14。3中离回归直线较近的两条弧线所确定的区域。c积面肪脂内腔腹

8085腰围(cm)图14.3总体数

的置信区间和体值预测区间当xx

时,应变量总体均数的标准误达到最小值S

y

n

,其对应的置信带最离越远,其标准误越大,对应的置信带越宽二、应变量个体y值的预测区间利用回归方程进行统计预测是将自变量代入回归方程中对应变量的个体值进行估计。给定数值x

对应的个体y预测值也存在一个波动范围其准差

|

可按公(14.20计算:S

yx

y

1(x1nlxx

2

(14.20)因此,

p

时个体y

值的双侧

预测区间为

p

(14应注意的是,当

时条件总体均数的置信区间与个体

值的预测区间其含义是不同的:前者表示在固定的处,反复抽样次可算出100相应y的总体均数的置信区间有p

(完整版直回归分析直线回归分析介绍的相关100

个置信区间包含总体均数;而后者表示预测值的取值范围,即在固定的

处机抽取100个个体,平均将有个体值在求出的范围内。仍然以观测点数据x81.3

为例,利用上例计算结果该点预测值y的标差为S

yx

y

1()(81.321113.03535nl20xx代入式14。21)得第一数据点值的%测区间为75。19397

2。101×13.9713(45.84,104。55)用同样的方法,可计算出所有x

值对应的

值的95%预测区间,以x

为横坐标,

为纵坐标,将预测区间的上下限分别连起来形成的两条弧形线间的区域,称y

值的预测带14.3离回归直线较远的两条弧线所确定的区域同样y最窄。

值的预测带也是中间窄、两头宽,在x

处第四节

直线回归分析需注意问题一、回归分析前应绘制散点图除了从专业角度考虑两变量之间可能的关系,观散点图也能给出很重要的提示,因此回归分析的第一步就是绘制散点图。只有散点图呈现直线趋势时,两变量呈直线回归关系的假定才是有据可依的。当变量间散点呈现明显的曲线关系时,若采用简单直线回归分析,即使得到有统计学意义的直线方程也是不恰当的。图中明显远离主体数据的观测点,称之为离群点(outlier这些点很可能对正确评价两变量间关系有较大影响.对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回模型的假设错误,需要改变模型形式,也可能是抽样误差造成的一次偶然结果,甚至是过失误差需要强调的是,实际工作中不能通过简单剔除离群值的方式来提高拟合效果,只有认真核对原始数据,并检查其原因可谨慎剔除或采用其他估计方法如加权回归等。二、用残差图考察模型假设条件直线回归模型通常采用最小二乘法来估计回归系数,并在此基础上作进一步推断。其应用条件为:因变量与自变量关系为线性、误差服从正态分布、各观测值独立等。如果实际数据在不满足假设的情况下进行直线回归分析影响回归系数估计的精度与假设检验的

值至于

(完整版直回归分析直线回归分析介绍的相关可能得到专业上无法解释的结论。对这些假设条件的检查较为简单有效的方法是考察回归模型的残差图(residualplot)。残差图是以现有模型求出的各点残差i

y)作为纵坐标,相应的预测值或者变iii取值i

作为横坐标来绘制的如果数据符合模型基本假定残差与回归预测值的散点图应均匀分布在直线yii

0

两侧,如图(a)为较为理想的残差图,说明此数据用于拟合直线回归方程是较恰当的。图。4(b)为某农药厂工人的工龄x

与全血胆碱酯酶活性y

进行直线回归分析得到的残差图,可以看出其中一个点的残差绝对值相对其它点明显大很多。仔细检查这一数据,发现样品发生了溶血,从而严重影响测定结果,因此该点为过失误差导致的离群点,可以考虑删除或改用其它可减小离群点影响的回归分析方法图(c)为1~3岁儿童年龄x与其锡克氏反应阳性率y

经直线回归得到的残差图图中的残差与归预测值呈曲线关系示在目前的直线回归模型中加入自变量的二次项将改善拟合效果。图14。4(d)女童年龄

与舒张压y之间直线回归的残差图图中的残差呈喇叭口形状说明误差的方差不齐应考虑用加权回归等方法。图14(e)表示残差之间不独立的情况,可以看到残差与各个观测的测量时间之间存在较强的相关也不适用直线回归方法处理.

时间(a)(b)(c)(d)(e)图14.4残示意图三、结果的解释及正确应用反映自变量对应变量数量上影响大小的统计量是回归系数不是假检验的P

值。P

值越小只能说明越有理由认为变量间的直线回归关系存在,而不能说明影响越大或关系越强。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围,在正常范围内求得的测值称为内(interpolation)而超过自变量范围所得测称为推(extrapolation)。若无充足理由证明超出自变量取值范围之外两变量间仍呈直线回归关系,应尽量避免不合理的外推。

第五节

(完整版直回归分析直线回归分析介绍的相关直线回归与直线相关析的区别与联系一、区别1.料要求直线相关分析要求、服从双变量正态分布,二者无主次之分;直线回归分析要求在给定某个x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论