多重线性回归分析_第1页
多重线性回归分析_第2页
多重线性回归分析_第3页
多重线性回归分析_第4页
多重线性回归分析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重线性回归分析第1页,课件共62页,创作于2023年2月2内容基本原理方法简介分析步骤几点补充第2页,课件共62页,创作于2023年2月3一、方法简介

1.1分析目的与方法选择研究一个因变量与一个自变量间的线性关系时简单线性回归分析研究一个因变量与多个自变量间的线性关系时多重线性回归分析第3页,课件共62页,创作于2023年2月4一、方法简介1.2概念用回归方程定量地刻画一个因变量与多个自变量之间的线性依存关系,称为多重线性回归分析(multiplelinearregressionanalysis)。自变量是相互独立的连续型变量或分类变量。

第4页,课件共62页,创作于2023年2月一、方法简介1.3数据结构表1进行多重线性回归分析资料的数据结构5编号X1X2…XkY1X11X12…X1kY12X21X22…X2kY2:::::nXn1Xn2…XnkYn第5页,课件共62页,创作于2023年2月6二、基本原理

2.1原理简介多重线性回归模型:

Y=b0+b1X1+b2X2+…+bkXk+e=bX+e

其中,bj(j=0,1,2…,k)为未知参数,e为随机误差项。第6页,课件共62页,创作于2023年2月7二、基本原理多重线性回归模型中包含多个自变量,它们同时对因变量Y发生作用。

若要考察一个自变量对Y

的影响,就必须假设其他自变量保持不变。因此,多重线性回归模型中的回归系数为偏回归系数。它反映的是当模型中的其他自变量不变时,其中一个自变量对因变量Y的均值的影响。第7页,课件共62页,创作于2023年2月8二、基本原理

2.2前提条件

多重线性回归分析要求资料满足线性(Linear)、独立性(Independence)、正态性(Normality)和方差齐性(Equalvariance),即LINE条件。

除此之外,还要求多个自变量之间相关性不要太强。

第8页,课件共62页,创作于2023年2月9二、基本原理

2.2前提条件线性——指自变量与因变量之间的关系是线性的独立性——指各观测值之间是相互独立的正态性——指自变量取不同值时,因变量服从正

态分布方差齐性——指自变量取不同值时,因变量的方

差相等第9页,课件共62页,创作于2023年2月10三、分析步骤1.基本任务

求出模型中参数的估计值,对模型和参数进行假设检验;对自变量进行共线性诊断,对观测值进行异常值诊断;结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。

第10页,课件共62页,创作于2023年2月11三、分析步骤2.具体步骤2.1回归参数估计

多重线性回归分析的参数估计,常采用最小二乘法(OLS)进行。

参数估计值为:第11页,课件共62页,创作于2023年2月12三、分析步骤2.具体步骤2.2模型检验

根据方差分析的思想,将总的离均差平方和SS总分解为回归平方和SS回和残差平方和SS残两部分。

SS总的自由度为n-1,SS回的自由度为k,SS残的自由度为n-k-1。第12页,课件共62页,创作于2023年2月SS总=SS回归+SS残差SS总(总平方和)v总=n-1{SS回归(回归平方和)v回归=1{SS残差(残差平方和)v残差=n-p-1{v总=v回归+v残差自变量的个数第13页,课件共62页,创作于2023年2月14三、分析步骤2.具体步骤2.2模型检验

模型的显著性检验步骤为:第一步,建立检验假设。H0:b1=b2=…=bk=0H1:b1,b2,…,bk不同时为0第14页,课件共62页,创作于2023年2月15三、分析步骤第二步,计算统计量F的值。第三步,确定P值,下统计学结论。根据检验统计量F的值和自由度,确定其对应的P值。若P>a,则接受H0,认为回归模型的系数全部为0;若P<a,则拒绝H0,接受H1,认为回归模型的系数不全为0。第15页,课件共62页,创作于2023年2月16三、分析步骤2.具体步骤2.3参数检验回归方程有统计学意义,可以说明整体上自变量对Y有影响,但并不意味着每个自变量对因变量的影响都有统计学意义。考察各个自变量对因变量的影响,即检验其系数是否为0。若某自变量对因变量的影响无统计学意义,可将其从模型中删除,重新建立回归方程。第16页,课件共62页,创作于2023年2月17三、分析步骤对自变量Xi的系数是否为0进行假设检验,步骤为:第一步,建立检验假设。H0:bi=0H1:bi≠0第17页,课件共62页,创作于2023年2月18三、分析步骤第二步,计算检验统计量。第三步,确定P值。根据自由度和临界水平,查t分布表,可得双侧界值为ta/2(n-k-1)。若t>ta/2(n-k-1)或t<-ta/2(n-k-1),则P<a。此时,拒绝H0,接受H1,认为该回归系数不等于0。反之,则接受H0,认为该回归系数为0。第18页,课件共62页,创作于2023年2月19三、分析步骤2.具体步骤2.4变量筛选不是所有的自变量都对因变量的作用都有统计学意义。

故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义。第19页,课件共62页,创作于2023年2月20三、分析步骤这就是自变量的选择问题,或称为变量筛选。选择时,一要尽可能地不漏掉重要的自变量;二要尽可能地减少自变量的个数,保持模型的精简。就回归方程而言,每个变量均有两种可能性,即被选择或被踢除。所以,所有可能的模型有2k个(k为自变量个数)。自变量个数较多时,计算量过大。此时,需要一定的变量筛选方法。第20页,课件共62页,创作于2023年2月全局择优法变量筛选

逐步选择法校正决定系数R2选择法Cp选择法前进法后退法逐步回归法c第21页,课件共62页,创作于2023年2月22三、分析步骤2.4.1前进法(FORWARD)回归方程中变量从无到有依次选择一个自变量进入回归方程,并根据该变量在回归方程中的Ⅱ型离差平方和(SS2)计算F统计量及P值。当P小于sle(规定的选变量进入方程的临界水平)则该变量入选,否则不能入选。第22页,课件共62页,创作于2023年2月23三、分析步骤当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。具体而言,是从仅含常数项(即截距项)的最简单模型开始,逐步在模型中添加自变量。

第23页,课件共62页,创作于2023年2月24三、分析步骤局限性:sle取值小时,可能没有一个变量能入选;sle取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无统计学意义的变量。

第24页,课件共62页,创作于2023年2月25三、分析步骤2.4.2后退法(BACKWARD)从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的F统计量和P值,当P值小于sls(规定的从方程中踢除变量的临界水准)则将此变量保留在方程中。否则,从最大的P值所对应的自变量开始逐一踢除,直到回归方程中没有变量可以被踢除时为止。

第25页,课件共62页,创作于2023年2月26三、分析步骤局限性:sls大时,任何一个自变量都不能被踢除;sls小时,开始被踢除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。

第26页,课件共62页,创作于2023年2月27三、分析步骤2.4.3逐步回归法(STEPWISE)此法是前进法和后退法的结合。

回归方程中的变量从无到有像前进法那样,根据F统计量和P值大小按sle水平决定该自变量是否入选。

第27页,课件共62页,创作于2023年2月28三、分析步骤当回归方程选入自变量后,又像后退法那样,根据F统计量和P值按sls水平踢除无统计学意义的各自变量,依次类推。这样直到没有自变量可入选,也没有自变量可被踢除或入选的自变量就是刚被剔除的自变量时,则停止逐步筛选过程。

第28页,课件共62页,创作于2023年2月29三、分析步骤2.4.3逐步回归法

逐步回归法有无符合纳入标准的新变量纳入新变量有无符合排除标准的变量踢除完成无有无有第29页,课件共62页,创作于2023年2月30三、分析步骤

逐步回归法比前进法和后退法都能更好地选出变量构造模型,但它也有局限性:其一,当有m个变量入选后,选第m+1个变量时,对它来说,前m个变量不一定是最佳组合;其二,选入或踢除自变量仅以F值和P值作标准,完全没考虑其它标准。

第30页,课件共62页,创作于2023年2月31三、分析步骤2.4.4变量筛选方法的选择究竟哪一种筛选变量的方法最好?这个问题没有绝对的定论。

一般来说,逐步回归法和最优回归子集法较好。对于一个给定的资料,可试用多种变量筛选的方法,结合以下几条判断原则,从中选择最佳者。第31页,课件共62页,创作于2023年2月32三、分析步骤

其一,拟合的回归方程在整体上有统计学意义;其二,回归方程中各回归参数的估计值的假设检验结果都有统计学意义;其三,回归方程中各回归参数的估计值的正负号与其后的变量在专业上的含义相吻合;其四,根据回归方程计算出因变量的所有预测值在专业上都有意义。其五,若有多个较好的多重线性回归方程时,残差平方和较小且多重线性回归方程中所含的自变量的个数又较少者为最佳。第32页,课件共62页,创作于2023年2月33三、分析步骤2.5模型拟合效果评价2.5.1决定系数(R2)

即复(全)相关系数的平方,其值等于因变量观测值与预测值之间简单相关系数的平方。计算公式为:

第33页,课件共62页,创作于2023年2月34三、分析步骤2.5模型拟合效果评价2.5.1决定系数(R2)

R2取值介于0到1之间,其含义为自变量能够解释因变量y变异的百分比。

R2越接近于1,说明线性回归对实际数据的拟合程度越好。

第34页,课件共62页,创作于2023年2月35三、分析步骤2.5模型拟合效果评价2.5.2校正决定系数(Rc2)

随着模型中自变量个数的增加,决定系数R2将不断增大,这不符合回归模型中自变量个数尽可能少的原则。

第35页,课件共62页,创作于2023年2月36三、分析步骤2.5模型拟合效果评价2.5.2校正决定系数(Rc2)故在评价两个包含不同个数自变量的回归模型的拟合效果时,不能简单地用决定系数作为评价标准。此时,必须考虑回归模型中自变量个数的影响。

第36页,课件共62页,创作于2023年2月37三、分析步骤2.5模型拟合效果评价2.5.2校正决定系数(Rc2)构造校正决定系数,其公式为:

其中,n为样本含量,p为模型中自变量个数。决定系数相同时,自变量个数越多,Rc2越小。

第37页,课件共62页,创作于2023年2月38三、分析步骤2.5模型拟合效果评价2.5.3AIC信息准则

该准则由日本学者赤池于1973年提出,广泛应用于时间序列分析中自回归阶数的确定,多重回归、广义线性回归中自变量的筛选以及非线性回归模型的比较和选优。该统计量取值越小,反映模型拟合效果越好。

第38页,课件共62页,创作于2023年2月在进行多重线性回归分析时,除了要满足LINE外,还要求各变量之间不能存在共线性,即各变量之间要相互独立。为此,需要进行共线性诊断;当自变量均为随机变量时,若它们之间高度相关,则称变量间存在多重共线性(multicollinearity);自变量之间不存在多重共线性,即称其互相独立。三、分析步骤2.6共线性诊断第39页,课件共62页,创作于2023年2月40三、分析步骤多重线性回归分析中,可能会出现以下问题:回归方程的检验有统计学意义,而各偏回归系数的检验均无统计学意义。偏回归系数的估计值大小或其符号与实际情况和专业知识相违背,难以解释。某个(些)与因变量关系密切的自变量,因为参数标准误的估计值较大,相应t值就会变得较小,造成其偏回归系数无统计学意义。第40页,课件共62页,创作于2023年2月41三、分析步骤导致这些问题的原因可能有:(1)研究设计不够合理;(2)资料收集存在问题;(3)自变量间近似线性;(4)数据中存在异常点;(5)样本少而自变量多。

第41页,课件共62页,创作于2023年2月42三、分析步骤何谓多重共线性?自变量间的近似线性关系,即是多重共线性。由于数据自身的特征,回归模型中的自变量之间或多或少地存在一些相关性,这违反了自变量间相互独立的假设条件,称为多重共线性。

第42页,课件共62页,创作于2023年2月43三、分析步骤多重共线性的分类:(1)严重的多重共线性

此时,自变量之间存在着较高甚至完全的线性相关关系,虽然最小二乘法仍可应用,但由于观测误差的稳定性变差,所得的估计值可能面目全非。这类情况较为少见。(2)某种程度的多重共线性

此时,最小二乘法仍可获得参数的无偏估计值,但参数的方差估计值将变得很大,导致估计精度下降,且无法判断自变量对因变量的影响程度。第43页,课件共62页,创作于2023年2月例

研究胎儿受精龄Y/周与胎儿身长X1/cm、头围X2/cm,体重X3/g之间的依存关系。显然,此处的3个解释变量X1、X2、X3之间存在着高度的共线性,X1、X2、X3两项对Y的过分贡献只能用X2项的负系数抵消,造成其专业意义无法解释而出现悖论。三、分析步骤第44页,课件共62页,创作于2023年2月相关系数Correlation容忍度Torelance方差膨胀因子VIF条件数Conditionindex方差比例Varianceproportions,VP

方差相关矩阵VarianceMatrix可用来判断变量之间的独立性、或说多重共线性三、分析步骤第45页,课件共62页,创作于2023年2月如果两个自变量之间的相关系数超过0.9,则会带来共线性问题,如果在0.8以下,一般不会出现多大问题。共线性诊断——1.两个自变量之间的相关系数第46页,课件共62页,创作于2023年2月2.容忍度Tolerance/方差膨胀因子VIF经验表明:VIF大于5或10时,存在严重的共线性;一般要求Tolerance必须大于0.1,或VIF必须小于10。容忍度=1/VIF第47页,课件共62页,创作于2023年2月483.条件数最大特征根与其余每个特征根比值的平方根,称为条件指数(conditionalnumber),公式为:

而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:

第48页,课件共62页,创作于2023年2月49条件数越大,说明设计矩阵X具有越强的共线性。经验上,若0<CNk<10,可认为自变量间不存在多重共线性;若10≤CNk≤30,可认为自变量间存在中等程度的多重共线性;若CNk>30,则认为自变量间存在严重的多重共线性。

第49页,课件共62页,创作于2023年2月50三、分析步骤2.6.3共线性的解决方法(1)变量筛选采用自变量筛选的方法一般可选出对因变量有统计学影响且相互之间独立或相关性较低的一组自变量。(2)有偏估计自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。此类方法包括岭回归分析、主成分回归分析等。(3)增大样本含量通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。第50页,课件共62页,创作于2023年2月51三、分析步骤2.7异常点诊断2.7.1异常点对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,称为异常点。异常点的诊断,可采用学生化残差统计量、Cook’sD统计量。

第51页,课件共62页,创作于2023年2月52三、分析步骤2.7.2学生化残差统计量Studentizedresidual,计算公式为:该统计量的绝对值大于2时,所对应的观测点可能是异常点。

第52页,课件共62页,创作于2023年2月53三、分析步骤2.7.3Cook’sD统计量库克距离统计量。一般认为,

Cook’sD>0.5时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点。

第53页,课件共62页,创作于2023年2月54三、分析步骤2.7.4异常点的处置

认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。

如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。

第54页,课件共62页,创作于2023年2月55三、分析步骤2.8自变量作用大小评价

由于自变量量纲不同,不能直接根据原始数据计算得来的偏回归系数来评价各自变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论