多重线性回归与多元逐步回归 统计学_第1页
多重线性回归与多元逐步回归 统计学_第2页
多重线性回归与多元逐步回归 统计学_第3页
多重线性回归与多元逐步回归 统计学_第4页
多重线性回归与多元逐步回归 统计学_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重线性回归流行病与卫生统计学系内容多重线性回归回归分析中自变量的选择多因素线性回归的应用及注意事项复习线性回归分析是研究一个变量和另外一些变量间线性关系的统计分析方法。在回归分析中,最简单的情形是模型中只包含两个有“依存关系”的变量,一个变量(反应变量)随另一个变量(自变量)的变化而变化,且呈直线变化趋势,称之为简单线性回归。

给定X的数值,Y

的数值取在一个平均值

(

y|x)附近对应于不同的X值,Y

的平均值座落在一条直线上

----回归直线.

y|x

和X的关系可用一个线性方程描写.简单线性回归方程总体样本“Yhat”表示估计值,给定x时y的总体均数的估计值。直线回归方程的求解:最小二乘原理YX

回归系数及其计算找一条直线使残差平方和最小

利用微积分知识,容易得到

这条线一定过两个点和线性回归分析的前提条件线性(Linear)反应变量Y与自变量X呈线性变化趋势独立(Independent)任意两个观察值相互独立,一个个体的取值不受其他个体的影响给定X时,Y正态分布(Normal)给定X取值时,Y的取值服从正态分布等方差(Equalvariance)指对应于不同的X值,Y值的总体变异相同直线回归应用条件LINE示意图回归方程有统计学意义吗

建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步进行假设检验。检验回归模型是否成立:方差分析检验总体回归系数β是否为零:t检验例1:某研究者研究大气污染物一氧化氮(NO)的浓度(ppm)与汽车流量(千辆)、气温(℃)、空气湿度(%)、风速(m/s)等因素的关系,结果见表1:单位时间内过往的汽车数(千辆)、气温(℃)、空气湿度(%)、风速(m/s)这四个因素是否都对空气中一氧化氮(NO)的浓度(ppm)有影响?如何定量地描述这些因素对一氧化氮浓度的影响?哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何?第一节多重线性回归多重线性回归(multiplelinearregression)因变量:一个,Y自变量:多个,X1,X2,X3,…,Xp方程:概念多元线性回归(multi-variatelinearregression)简称多元回归(multi-variateregression):因变量:多个,Y1,Y2,…自变量:多个,X1,X2,X3,…方程:多重线性回归方程多重线性回归方程是简单线性回归方程的扩展其中表示当所有自变量为0时反应变量Y的总体平均值。为变量Xi

的总体偏回归系数(partialregressioncoefficient),表示当方程中其他自变量保持常量时,自变量Xi每增加(或减少)一个计量单位,反应变量Y平均变化个单位。样本回归方程

反应变量Y的总体平均值的估计值。b0的估计。为常数项,又称为截距,是总体参数bi为自变量Xi

的偏回归系数,是总体参数的估计值。如果要建立由车流量()和风速()预测一氧化氮浓度(Y)的线性回归方程,模型可以写成:表示在车流量不变的情况下,风速每增加一个单位(1m/s),估计空气中一氧化氮的浓度平均改变个单位(ppm)。表13-1

多重线性回归分析数据格式

前提条件(LINE)多重线性回归分析步骤求回归方程-----最小二乘原则假设检验-----检验回归方程是否具有统计学意义,模型有意义的前提下,再分别对各偏回归系数进行假设检验。(3)变量选择-----以尽量少的自变量,达到较好地解释Y的目的基本原理:寻找一套适宜的偏回归系数(),建立多重线性回归方程,使得反应变量的观测值与回归方程的估计值回归系数的估计,求回归方程采用最小二乘法

(leastsquaredmethod)来估计偏回归系数

之间的残差平方和最小。SPSS实现方法:Analyze---Regression---Linear---y选入Dependentx1、x2、X3...XP选入IndependentMethod---EnterStepwise

Backward

Forward---ok当建立样本回归方程后,首先要考察这个回归方程是否有意义?即在,,,,中,是否至少存在一个自变量与Y的总体均数呈线性关系?回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少?四个自变量是否都对反应变量有影响?即各个偏回归系数()所对应的总体偏回归系数()是否等于0?考虑:回归的目的:估计H0成立时,只能用Y的均数来估计残差:,自由度=H1成立时,给定可以用来估计残差:,自由度=

残差减少了统计推断这个回归方程有统计学意义吗?

----这是回归模型的贡献

自由度=

方差分析的基本思想总变异:把反应变量的观察值的离均差平方和记为,它反映了没有利用自变量的信息时的观察值的变异性,即没有考虑车流量、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的大小,其自由度记为(n为样本量)。根据回归方程计算得到的预测值与实际观察值

之间的差异称为残差,记残差的离均差平方和为,它反映了的变异中不能由回归解释的部分,其自由度记为

,P为自变量个数。

把与之差记为回归平方和,它反应了回归模型的贡献,即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,其自由度记为。

表13-2方差分析表

表13-3

检验回归方程整体意义的方差分析表变异来源自由度回归40.0640.01617.59<.001残差190.0170.001总230.081表中值小于0.001,按照0.05的检验水准,可以拒绝认为所建立的回归方程是有意义的。用这四个自变量构成的回归方程解释空气中一氧化氮浓度的变化是有意义的。32回归模型好坏的评价1)拟合的回归方程在总体上有统计学意义2)决定系数R2R2=1-SS残/SS总=SS模/SS总,

它表示在因变量y的总变异中可由回归方程所解释部分的比例。0<R2≤1,越接近于1,说明回归方程效果越好。33复相关系数是随方程中的变量个数增加而增加的,为了克服这一缺点,对它进行校正AdjR2=1-MS残/MS总,0<AdjR2≤1,越接近于1,说明回归方程效果越好。调整的确定系数(adjustedR2,)

353)剩余标准差或标准估计误差(standarderrorofestimate)。它反映了应变量在扣除自变量的线性影响后的离散程度;剩余标准差越接近于0,说明回归方程效果越好。364)回归系数估计值的正负号与专业上的含义相吻合,根据回归方程计算的Y的预测值在专业上有意义。确定系数

或称决定系数,以反映回归方程的效果好坏。本例

=0.79,说明利用车流量、气温、气湿和风速等四个因素可以解释一氧化氮浓度的约80%的变异,可以认为回归的效果较好。复相关系数

(coefficientofmultiplecorrelation)又称多重相关系数

回归系数的假设检验

由于存在抽样误差,即使总体偏回归系数为零,也可能得到样本偏回归系数不为零的情形,因此需要对偏回归系数进行假设检验,以推断总体偏回归系数是否为零。检验统计量为其中,是第个偏回归系数的标准误车流量、气温、风速对一氧化氮浓度的影响有统计学意义(),但是气湿的影响没有统计学意义()。)。

标准偏回归系数

Standardizedpartialregressioncoefficient所有变量标准化后做回归,所得系数称为标准偏回归系数.

注意:

一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。

标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。第二节回归分析中变量的选择并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。在许多研究中,多因素线性回归分析的目的是建立一个预测效果最优的回归模型,需要对自变量进行筛选:将对反应变量没有影响的自变量从模型中剔除,将对反应变量的作用有意义的自变量纳入模型当中。残差平方和()缩小或确定系数()增大

越小越好!越大越好!

然而,

只要增加自变量个数,这个量就会减小!?自变量筛选的统计学标准残差的均方()缩小或调整确定系数()增大

自变量筛选的统计学标准AIC统计量AIC值达到最小,该模型为最佳模型,AIC准则自变量筛选的统计学标准自变量筛选的方法最优子集回归分析法:

p个变量有2p-1个方程逐步回归分析:向前引入法(forwardselection)向后剔除法(backwardselection)逐步引入-剔除法(stepwiseselection)(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2p-1个),按一定准则选择最优模型,常用的准则有:①校正决定系数或残差的均方(考虑了自变量的个数)②AIC(Akaike`sInformationCriterion)准则;AIC越小越好最优子集法的局限性

如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……..;当自变量数个数为50时,所有可能的回归为250-1≈1015个。

前进法(forwardselection)后退法(backwardelimination)逐步回归法(stepwiseregression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验,它表示在原有回归方程基础上引入或剔除某一自变量后所增加或减少的那部分回归平方和.(二)逐步回归分析(1)前进法

自变量从无到有、从少到多

将偏回归平方和最大且能使回归系数检验拒绝者入选为第一个自变量;规定一个界值,接着将余下的变量中偏回归平方和最大并使检验拒绝者选为第二个自变量;……

如此不断引入新的自变量,直到再不能拒绝时为止。局限性:只进不出,后续变量的引入可能会使先进入方程的自变量变得不重要。(2)后退法

先将全部自变量放入方程,然后逐步剔除

首先对全部候选变量作总的回归,每次剔除一个偏回归平方和最小而使回归系数的检验不能拒绝者。直到再不能剔除时为止。

局限性:只出不进,自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。(3)逐步回归法

双向筛选(实际应用最多):在向前引入的每一步之后都要考虑从已引入方程的变量中剔除相形见绌者引入有意义的变量(前进法)剔除无意义的变量(后退法)先规定两个阈值P引入和P剔除(P引入<P剔除),当候选变量中最大P值≤P引入时,引入相应变量;已进入方程的变量最小P值≥P剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止(计算复杂)多重线性回归的应用(1)定量地建立一个反应变量与多个解释变量之间的线性关系。例如,建立肺活量的大小与身高、体重、年龄和性别之间的线性关系。(2)筛选危险因素。例如,筛选高血压的危险因素。(3)通过较易测量的变量估计不易测量的变量。例如,建立婴儿体表面积关于身高、体重、月龄的多因素线性回归方程,可以通过容易测量的身高、体重、月龄等变量估计不易测量的体表面积。(4)通过解释变量预测反应变量。例如,通过风速、汽车流量、气温等指标预测空气中一氧化氮的浓度。(5)通过反应变量控制解释变量。例如,在气温、风速不变的情况下,通过控制汽车流量来实现空气中一氧化氮浓度不超过一定的水平。多重线性回归的应用多重线性回归应用时的注意事项

1.样本含量2.方程“最优”问题3.关于逐步回归4.多重共线性5.哑变量设定6.变量间的交互作用7.残差分析多重共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多因素线性回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。4.多重共线性

多重共线性的表现在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论