




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多重线性回归与相关多重线性回归与相关multiple linear regression & correlation主要内容主要内容多重线性回归的概念及其统计描述多重线性回归的概念及其统计描述多重线性回归的假设检验多重线性回归的假设检验复相关系数与偏相关系数复相关系数与偏相关系数自变量筛选自变量筛选关于多重线性回归的应用关于多重线性回归的应用Q案例讨论案例讨论多重线性回归与相关的概念及作用多重线性回归与相关的概念及作用Y因变量,响应变量或反应变量因变量,响应变量或反应变量 dependent variable, response variableX自变量,解释变量自变量,解释变量 in
2、dependent variable, explanatory variable多重线性回归与相关的概念及作用多重线性回归与相关的概念及作用多重线性回归和相关分析的作用多重线性回归和相关分析的作用 多重线性回归多重线性回归 multiple linear regression 研究一个反应变量与多个自变量之间的线性研究一个反应变量与多个自变量之间的线性依存关系依存关系. . 多重相关多重相关 multiple correlation 研究一个反应变量与多个自变量的相关性研究一个反应变量与多个自变量的相关性( (复复相关相关) )及剔除某些自变量的影响后自变量与应变及剔除某些自变量的影响后自变量
3、与应变量的简单线性相关性量的简单线性相关性( (偏相关偏相关) )。数据与模型数据与模型 例13-1 为了研究空气中为了研究空气中一氧化氮一氧化氮(NO)的浓度的浓度与与汽车流量等汽车流量等因素的关系,有人测定了某城市交通点在单位时间内过往的因素的关系,有人测定了某城市交通点在单位时间内过往的汽汽车数车数、气温气温、空气温度空气温度、风速风速以及以及空气中的空气中的NO的浓度的浓度,数据如,数据如表表13-1所示。所示。数据与模型数据与模型 多重线性回归分析的基本目的是用一个以上的多重线性回归分析的基本目的是用一个以上的自变量自变量(X1,X2,Xk)的数值估计另一个反应变量的数值估计另一个反
4、应变量(Y)及其变异性的统计学分析方法及其变异性的统计学分析方法.其数学模型为其数学模型为:.:;:;0,:;:0样品的误差项为第的偏回归系数为自变量的平均值时反应变量表示当所有自变量为为常数项察值样品反应变量的实际观为第iXYiYikkiikikiiiXXXY 22110数据与模型数据与模型 多重线性回归分析的模型参数多重线性回归分析的模型参数 k ,10 一般都由样本数据估计而得,而由估计所得参数一般都由样本数据估计而得,而由估计所得参数 kbbb,10和相应自变量及应变量构成的线性表和相应自变量及应变量构成的线性表达式,称为多重线性回归方程:达式,称为多重线性回归方程:kkXbXbXbb
5、Y 22110.,),.,(21的总体平均值的估计值的总体平均值的估计值反应变量反应变量时时为为YXXXXYk 回归参数的估计回归参数的估计 回归参数估计的基本原理回归参数估计的基本原理 利用观察或收集到的因变量和自变量的一组数据建立一个因变利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数表达式,量关于自变量的线性函数表达式, 使得这个表达式的理论值和观察使得这个表达式的理论值和观察值之间的离差值之间的离差(残差残差)平方之和最小,即:平方之和最小,即: 最小最小 niiiYYQ12多重线性回归分析的前提条件多重线性回归分析的前提条件多重线性回归参数的估计方法多重线
6、性回归参数的估计方法LINE最小二乘法最小二乘法根据最小二乘法原理求下式为最小的解211022)()(kkiiiixbxbbyyye得:bj(j=0,1,2,k)即为j的估计值,此结果为非标准化偏回归系数非标准化偏回归系数标准化偏回归系数标准化偏回归系数 对参与回归分析的各自变量和应变量先进行标准化对参与回归分析的各自变量和应变量先进行标准化,使使各自变量的计量单位和变异度一致,再采用最小二乘法策略各自变量的计量单位和变异度一致,再采用最小二乘法策略估计模型中的偏回归系数,估计模型中的偏回归系数,此时的偏回归系数称为此时的偏回归系数称为标准化偏标准化偏回归系数回归系数,也称为通径系数,也称为通
7、径系数。各自变量标准化的方法为:。各自变量标准化的方法为:iiiiSXXX iiiiSYYY 标准化偏回归系数标准化偏回归系数 对非标准化偏回归系数也可用以下公式转换成标对非标准化偏回归系数也可用以下公式转换成标准化偏回归系数:准化偏回归系数:的标准差为的标准差为ysxsssbbyjjyjjj, 通过比较各标准化偏回归系数绝对值的大小,可通过比较各标准化偏回归系数绝对值的大小,可判断各相应自变量对回归方程的相对贡献大小。判断各相应自变量对回归方程的相对贡献大小。多重线性回归方程的几何图形多重线性回归方程的几何图形 当自变量只有一个时,回归方程对应的几何图形为当自变量只有一个时,回归方程对应的几
8、何图形为二维平面上的一条直线;当有两个自变量时,回归方二维平面上的一条直线;当有两个自变量时,回归方程程对应的几何图形为三维空间的一个平面;当有两个以对应的几何图形为三维空间的一个平面;当有两个以上上自变量时,回归方程对应的几何图形为三维以上空间自变量时,回归方程对应的几何图形为三维以上空间的的“超平面超平面”,无法用直观图形表达,只能想象。,无法用直观图形表达,只能想象。X1X2Y两个自变量时,回归平面示意图两个自变量时,回归平面示意图例例13-113-1资料的偏回归系数和标准化偏回归系数资料的偏回归系数和标准化偏回归系数4321432144770. 000110. 027274. 0592
9、49. 0:03468. 000000655. 000449. 000011619. 0014166. 0:XXXXYXXXXY 标准偏回归系数方程标准偏回归系数方程普通偏回归系数方程普通偏回归系数方程 从标准偏回归系数大小可知,从标准偏回归系数大小可知,X1对对Y的贡献最大,的贡献最大,X4次之,依次为次之,依次为X2,X3。多重线性回归的假设检验多重线性回归的假设检验整体回归效应的假设检验(方差分析) 多重线性回归分析由样本数据计算得到回归系数的估计多重线性回归分析由样本数据计算得到回归系数的估计值值b0,b1b2,bk后,还需进一步检验后,还需进一步检验H0: 1= 2= 3= 4= 0
10、,以确定就整体而言,所得回归方程是否有意义。该检验采用以确定就整体而言,所得回归方程是否有意义。该检验采用方差分析来进行。方差分析来进行。整体回归效应的假设检验整体回归效应的假设检验(方差分析方差分析) niniiiiniiYYYYYY112212:可以证明可以证明指样本总变异,即指样本总变异,即Y的观的观察值的察值的总离均差平方和总离均差平方和,反映没有利用反映没有利用X的信息的信息时时Y的变异,其自由度为的变异,其自由度为n-1。指利用了指利用了X的信息后,样本的信息后,样本总变异中能用回归模型解总变异中能用回归模型解释的那部分变异,称为释的那部分变异,称为回回归平方和归平方和,该部分越大
11、,该部分越大,说明总变异中能用回归模说明总变异中能用回归模型解释的部分就越大,就型解释的部分就越大,就总体而言,存在整体回归总体而言,存在整体回归效应的可能就越大。其自效应的可能就越大。其自由度为由度为k。指利用了指利用了X的信息后,样本的信息后,样本总变异中不能用回归模型解总变异中不能用回归模型解释的那部分变异,称为释的那部分变异,称为残差残差平方和平方和,该部分越大,说明,该部分越大,说明样本总变异中不能用回归模样本总变异中不能用回归模型解释的部分就越大,就总型解释的部分就越大,就总体而言,存在整体回归效应体而言,存在整体回归效应的可能就越小。就其自由度的可能就越小。就其自由度为为n-k-
12、1。简称为简称为SST(SS总总)简称为简称为SSR(SS残残)简称为简称为SSE(SS回回)1 nTkR 1 knT整体回归效应的假设检验整体回归效应的假设检验(方差分析方差分析) .,.,0:,01043210HPFMSMSFHHPFMSMSFFMSMSSSESSRHEReREReREReRER不拒绝不拒绝则按检验水准则按检验水准若若接受接受拒绝拒绝则按检验水准则按检验水准若若成立的条件下成立的条件下在在可以证明可以证明 例例13-113-1资料的整体回归效应的假设检验资料的整体回归效应的假设检验表表13-2检检验验回回归归方方程程整整体体意意义义的的方方差差分分析析表表 变变异异来来源源
13、 自自由由度度 SS MS F P 回回归归模模型型 4 0.06396 0.01599 17.59 0.0001 残残差差 19 0.01727 0.00090903 总总变变异异 23 0.08123 上上表表显显示示,P0.001,拒拒绝绝H0,接接受受H1,说说明明从从整整体体上上而而言言,用用这这四四个个自自变变量量构构成成的的回回归归方方程程解解释释空空气气中中NO浓浓度度的的变变化化是是有有统统计计学学意意义义。 多重线性回归的假设检验多重线性回归的假设检验偏回归系数的假设检验(t检验) 偏回归系数的偏回归系数的t检验是在回归方程整体具有统计学意义的情况下,检验是在回归方程整体具
14、有统计学意义的情况下,检验某个总体偏回归系数检验某个总体偏回归系数 j=0是否成立,以判断相应的那个自变量是否成立,以判断相应的那个自变量Xi是否对回归确有贡献。是否对回归确有贡献。 ., 0,., 0,1.0:01,101,0HPtSbtHHPtSbtkntSbtHknbjjknbjjbjjjjjj则结论为不拒绝则结论为不拒绝若若接受接受则结论为拒绝则结论为拒绝若若时时假设假设 例例13-113-1资料偏回归系数的假设检验及标准化偏回归系数资料偏回归系数的假设检验及标准化偏回归系数表表 13-3 偏偏回回归归系系数数的的 t 检检验验与与标标准准化化偏偏回回归归系系数数 变变量量 自自由由度
15、度 回回归归系系数数 标标准准误误 t 值值 P 值值 标标准准化化偏偏回回归归系系数数 截截距距 20 -0.14166 0.06916 -2.05 0.0546 0 X1 20 0.00011619 0.00002748 4.23 0.0005 0.59249 X2 20 0.00449 0.00190 2.36 0.0289 0.27274 X3 20 -0.00000655 0.00069083 -0.01 0.9925 -0.00110 X4 20 -0.03468 0.01081 -3.21 0.0046 -0.44770 上上表表可可见见,这这四四个个变变量量中中,变变量量 X1
16、、X2和和 X4的的偏偏回回归归系系数数在在0.05概概率率水水平平具具有有统统计计学学意意义义,而而且且气气湿湿(X3)对对 NO浓浓度度的的影影响响无无统统计计学学意意义义。 SPSS处理过程图示整体回归效应的假设检验及偏回归系数的t检验A AN NO OV VA Ab b.0644.01617.590.000a.01719.001.08123RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 风速, 气湿, 气温, 车流a. Dependent Variable: 一氧化氮
17、b. CoefficientsCoefficientsa a-.142.069-2.048.055.000.000.5924.227.000.004.002.2732.364.029.000.001-.001-.009.993-.035.011-.448-3.208.005(Constant)车流气温气湿风速Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 一氧化氮a. 复相关系数、确定系数与调整确定系数复相关系数、确定系数与调整确定系数M Mo od
18、de el l S Su um mm ma ar ry y.887a.787.743.030150Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 风速, 气湿, 气温, 车流a. 复相关系数与偏相关系数确定系数、复相关系数与调整确定系数确定系数确定系数也称为决定系数,记为也称为决定系数,记为R2,用以反映线性回,用以反映线性回归模型能在多大程度上解释反应变量归模型能在多大程度上解释反应变量Y的变异性。的变异性。SSTSSRR 2.,., 1, 102222比比的的总总变变异异减减少少
19、了了的的百百分分程程使使反反应应变变量量也也可可以以解解释释为为回回归归方方或或者者说说的的百百分分比比总总变变异异反反应应变变量量程程中中所所有有自自变变量量解解释释了了直直接接反反映映回回归归方方选选用用的的线线性性回回归归模模型型合合了了所所表表示示样样本本数数据据很很好好地地拟拟越越接接近近于于的的值值确确定定系系数数其其取取值值范范围围为为YRYRRR 确定系数确定系数R2的意义的意义确定系数确定系数R2的意义的意义 例例13-1资料由方差分析表可得资料由方差分析表可得SSR=0.06396,SSE=0.01727, SST=0.08123,代入确定系数的计算公式:,代入确定系数的计
20、算公式:7874. 008123. 001727. 0108123. 006396. 02SSTSSRR 由此说明,用包含汽车流量、气温、气湿与风速这四个自变由此说明,用包含汽车流量、气温、气湿与风速这四个自变 量的回归方程可解释交通点空气量的回归方程可解释交通点空气NONO浓度变异性的浓度变异性的78.74%.78.74%.总体确定系数总体确定系数R2的假设检验的假设检验 多重线性回归分析由样本数据计算得到确定系数的估多重线性回归分析由样本数据计算得到确定系数的估计值计值R2,还需进一步检验总体确定系数还需进一步检验总体确定系数R2是否等于是否等于0,即,即 H0: R2 = 0,以确定就整
21、体而言,所得回归方程是否有,以确定就整体而言,所得回归方程是否有意义。该检验也采用方差分析来进行。并且该假设检验完意义。该检验也采用方差分析来进行。并且该假设检验完全等价于对回方程的整体方差分析。全等价于对回方程的整体方差分析。总体确定系数总体确定系数R2的假设检验的假设检验 .,11.,111,11:0:0212210212221,222021HPFknRkRFHHPFknRkRFknkFknRkRFRH不拒绝不拒绝则按检验水准则按检验水准若若接受接受拒绝拒绝则按检验水准则按检验水准若若成立的条件下成立的条件下在在 复相关系数与偏相关系数复相关系数复相关系数 R,即为确定系数的平方根,表示应
22、变量,即为确定系数的平方根,表示应变量Y与与k个自变量个自变量(X1,X2,Xk)的线性相关的密切程度。的线性相关的密切程度。SSTSSRR 例例13-1资料,资料,8873. 07874. 0R表示交通点空气表示交通点空气NO浓度,浓度,与汽车、气温、气湿与风速等四个变量的复相关系数为与汽车、气温、气湿与风速等四个变量的复相关系数为0.8873.复相关系数与偏相关系数 随着回归方程的自变量个数的增加,随着回归方程的自变量个数的增加,R2值表现为只增不值表现为只增不减减,这是确定系数,这是确定系数R2的缺点,如果在计算的缺点,如果在计算确定系数确定系数R2时对自时对自变量个数实施某种惩罚变量个
23、数实施某种惩罚(即调整即调整),使较大的,使较大的k会使会使R2值降低,值降低,如此计算所得的确定系数称为调整确定系数如此计算所得的确定系数称为调整确定系数2aR复相关系数与偏相关系数 7426. 004475789. 07874. 014247874. 0147874. 0:1132 aR资料的调整确定系数为资料的调整确定系数为例例11) 1() 1(11222knRkRknSSnSSMSMSRa总残总残调整确定系数调整确定系数Ra2的计算公式的计算公式 调整确定系数Ra2大小能够用来衡量自变量个数不同的回归方程对模型的拟合效果的优劣。复相关系数与偏相关系数偏相关系数(partial cor
24、relation coefficient)其概念:扣除其他变量的影响后,变量其概念:扣除其他变量的影响后,变量Y与与X的相关,称的相关,称为偏相关,其对应的相关系数为偏相关系数。为偏相关,其对应的相关系数为偏相关系数。复相关系数与偏相关系数偏相关系数的计算方法和原理偏相关系数的计算方法和原理方法方法:首先以待扣除的变量首先以待扣除的变量(可能为多个可能为多个)为自变量为自变量,以以Y残差残差eX和和eY,再利用再利用eX和和eY两残差变量计算简单线性相关系两残差变量计算简单线性相关系或或X为应变量为应变量,分别建立线性回归方程分别建立线性回归方程,分别估算出分别估算出Y和和X的的残差残差,其相
25、关系数即为扣除了上述以其相关系数即为扣除了上述以X或或Y为应变量建立的回为应变量建立的回归方程中的自变量的影响后的归方程中的自变量的影响后的X与与Y间的偏相关系数。间的偏相关系数。复相关系数与偏相关系数偏相关系数的计算方法和原理偏相关系数的计算方法和原理原理原理: 残差残差,即是指应变量的总变异中不能由回归解释即是指应变量的总变异中不能由回归解释的变异的变异.eX和和eY分别代表扣除了回归方程中的自变量的分别代表扣除了回归方程中的自变量的影响后影响后X 和和Y的变异的变异.所以利用所以利用 X和和Y的残差的残差eX和和eY计算计算的简单线性相关系数即表示扣除了上述自变量的影响的简单线性相关系数
26、即表示扣除了上述自变量的影响后的后的X与与Y间相关性。间相关性。偏相关性分析的实例偏相关性分析的实例偏相关性分析的实例分析偏相关性分析的实例分析大明与小明暑假期间在不同的地点参加勤工俭学,发现大明与小明暑假期间在不同的地点参加勤工俭学,发现大明冷饮销售量与小明的游泳池门票收入呈现一正相关关系,大明冷饮销售量与小明的游泳池门票收入呈现一正相关关系,但大明与小明是在不同的地点参加勤工俭学,理论上同一天但大明与小明是在不同的地点参加勤工俭学,理论上同一天的超市冷饮销售量与游泳池门票收入是相互独立的,但现在的超市冷饮销售量与游泳池门票收入是相互独立的,但现在经简单线性相关分析经简单线性相关分析,却发现
27、两者的相关系数却发现两者的相关系数r12=0.97239.那么是那么是两者真的存在线性关联,即爱吃冷饮的人想游泳,或两者真的存在线性关联,即爱吃冷饮的人想游泳,或爱游泳的人想吃冷饮?爱游泳的人想吃冷饮?或者两者之间真的不存在线性关联或者两者之间真的不存在线性关联,现在的这种表面上的关联性是由于其它变量的影响导致?现在的这种表面上的关联性是由于其它变量的影响导致?X1与与X2的散点图及相关系数的散点图及相关系数X1:冷饮销售量:冷饮销售量X2:游泳人数:游泳人数X3与与X1的散点图及相关系数的散点图及相关系数X1:冷饮销售量:冷饮销售量X3:气温:气温X3与与X2的散点图及相关系数的散点图及相关
28、系数X2:游泳人数:游泳人数X3:气温:气温由于由于X3(气温气温)与与X1冷饮销售量呈现正相关,冷饮销售量呈现正相关,X3(气温气温)与与X2游泳人数呈现正相关。那么游泳人数呈现正相关。那么X1与与X2之间的正相关是否是由于同时受到之间的正相关是否是由于同时受到了了X3 (气温气温)的影响而产生的一种的影响而产生的一种“假假”关联?关联?扣除扣除X3对对X2和和X1的影响后,利用相应的残差的影响后,利用相应的残差eX1和和eX2计算偏相关系数,如果计算偏相关系数,如果X1与与X2之间之间的偏相关系数仍然很大,那么我们就有足够的偏相关系数仍然很大,那么我们就有足够的理由认为的理由认为X1与与X
29、2间扣除间扣除X3的影响后存在关的影响后存在关联;反之,我们就认为联;反之,我们就认为X1与与X2间的关联是由间的关联是由于同时受到于同时受到X3的影响而存在的一种的影响而存在的一种“假假”关关联。联。扣除扣除X3的影响后的影响后X1与与X2的残差的残差(eX1,eX2)散点图及其偏相关系数散点图及其偏相关系数扣除气温(X3)的影响后,冷饮销售量(X1)残差和游泳人数(X2) 的残差的相关性几乎不存在了,其偏相关系数r12.3=0.21495经假设检验,P=0.5509, 故可以认为总体 偏 相关 系数12.3=0。即扣除气温(X3)的影响后,冷饮销售量(X1)和游泳人数(X2)之间总体上没有
30、线性相关。-60.00000-40.00000-20.000000.0000020.0000040.0000060.00000Unstandardized Residual Of x1-200.00000-100.000000.00000100.00000200.00000300.00000400.00000Residual of x2R Sq Linear = 0.046偏相关系数计算公式:)1)(1 (2232132313123 ,12rrrrrr例例131偏相关系数的计算(偏相关系数的计算(SPSS图示)图示)扣除扣除x2x3x4影响后影响后x1与与y的偏相关系数计算的偏相关系数计算C
31、Co or rr re el la at ti io on ns s1.000.696.000019.6961.000.000.190CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)df车流一氧化氮Control Variables气温 & 气湿 & 风速车流一氧化氮扣除其余自变量的影响后扣除其余自变量的影响后X1、X2、X3、X4与与NO(Y)的偏相关散点图及偏相关系数的偏相关散点图及偏相关系数X1与与NO(Y)的偏相关散点图及偏相关系数的偏相关散点图及偏相关系数X2与与NO(Y)的偏
32、相关散点图及偏相关系数的偏相关散点图及偏相关系数X3与与NO(Y)的偏相关散点图及偏相关系数的偏相关散点图及偏相关系数X4与与NO(Y)的偏相关散点图及偏相关系数的偏相关散点图及偏相关系数自变量筛选自变量筛选自变量筛选的目的自变量筛选的目的 确保回归模型中包含所有对反应变量有较大影响确保回归模型中包含所有对反应变量有较大影响的自变量,而把对反应变量关系不大变量排除在模型的自变量,而把对反应变量关系不大变量排除在模型之外。之外。模型参数估计模型参数估计 R2 调整调整 R2 Cp 残差残差 均方均方 intercept X1 X2 X3 X4 0.6529 0.6371 11.0195 0.00
33、128 -0.13529 0.000158 - - - 0.4618 0.4374 28.0914 0.00199 0.15888 - - - -0.052650 0.0776 0.0357 62.4259 0.00341 -0.03084 - - 0.001660 - 0.0003 -0.0451 69.3323 0.00369 0.07991 - 0.000284 - - 0.7246 0.6983 6.6117 0.00107 -0.0500 0.000122 - - -0.025220 0.6705 0.6391 11.4465 0.00127 -0.19625 0.000162 0.
34、00221 - - 0.6548 0.6219 12.8456 0.00134 -0.12018 0.000162 - -0.000290 - 0.5526 0.5100 21.9809 0.00173 0.03640 - 0.00538 - -0.062350 0.4946 0.1165 27.1633 0.00195 0.07858 - - 0.001090 -0.050570 0.0790 -0.0087 64.2994 0.00356 -0.04770 - 0.000622 0.001680 - 0.7874 0.7555 3.0001 0.000864 -0.14200 0.0001
35、16 0.004490 - -0.034700 0.7248 0.6836 8.5872 0.00112 -0.04484 0.000124 - -0.000110 -0.025050 0.6722 0.623 13.2915 0.00133 -0.18163 0.000166 0.002200 -0.000270 - 0.5874 0.5255 20.8716 0.00168 -0.04775 - 0.005440 0.001120 -0.06033 0.7874 0.7426 5.0000 0.000909 -0.14166 0.000116 0.004490 -6.6E -06 -0.0
36、34680 自变量筛选自变量筛选自变量筛选自变量筛选的标准与原则自变量筛选的标准与原则1.残差平方和残差平方和(SSE)缩小与确定系数缩小与确定系数(R2)增大增大 若某一自变量被引入模型后,使若某一自变量被引入模型后,使SSE缩小很多,说明该变量对缩小很多,说明该变量对Y的作用大,可被引入;反之,说明其对的作用大,可被引入;反之,说明其对Y的作用很小的作用很小,不应被引入不应被引入.从另一方面讲,当某一自变量从模型中剔除后使从另一方面讲,当某一自变量从模型中剔除后使SSE增加很多增加很多,说明说明该变量对该变量对Y的作用大,不应被剔除的作用大,不应被剔除;反之反之,说明其对说明其对Y的作用很
37、小而应的作用很小而应被剔除。被剔除。 *:由于残差平方和大小总是随着模型中所含自变量个数的增加而减少,:由于残差平方和大小总是随着模型中所含自变量个数的增加而减少,故故SSE变化准则只能用于比较具有相同自变量个数的模型,而不适合自变量变化准则只能用于比较具有相同自变量个数的模型,而不适合自变量个数不相同模型子集间的比较。个数不相同模型子集间的比较。 *:确定系数的增大和残差平方和的缩小完全等价。:确定系数的增大和残差平方和的缩小完全等价。2.残差均方残差均方(MSE)缩小与调整确定系数缩小与调整确定系数(Ra2)增大增大自变量筛选的标准与原则自变量筛选的标准与原则MSTMSERpnSSEMSE
38、a 1122.残差均方残差均方(MSE)缩小与调整确定系数缩小与调整确定系数(Ra2)增大增大 假设模型从无自变量开始假设模型从无自变量开始,逐渐引入自变量逐渐引入自变量,自变量个数刚开始增加时自变量个数刚开始增加时,虽然因子虽然因子(n-p-1)-1增大了增大了,但此时由于选入的是对应变量作用最大的自变量但此时由于选入的是对应变量作用最大的自变量,SSE减少量相对为大减少量相对为大,故综合而言故综合而言MSE是减少的是减少的;当模型自变量增加到一定程当模型自变量增加到一定程度后度后,对对Y变量作用较大的自变量基本上都已引入模型变量作用较大的自变量基本上都已引入模型,再增加变量时再增加变量时S
39、SE的的减少量相对不大减少量相对不大,而而(n-p-1)-1却增大很多却增大很多,致使致使MSE增加增加.因此可以将因此可以将“MSE愈愈小愈好小愈好”作为选择自变量的准则作为选择自变量的准则,经推导经推导,调整确定系数调整确定系数“Ra2愈大愈好愈大愈好”与与MSE最小化完全等价最小化完全等价. *:此准则适合于自变量个数不相同时模型拟合效果优劣的比较此准则适合于自变量个数不相同时模型拟合效果优劣的比较.3.Cp统计量统计量自变量筛选的标准与原则自变量筛选的标准与原则.;)(;222为样本含量为样本含量的自变量的个数的自变量的个数包括常数项包括常数项为所拟合模型中为所拟合模型中估计估计为全模
40、型的残差均方的为全模型的残差均方的和和为所选模型的残差平方为所选模型的残差平方nqSSEnqSSECqqp *:此准则适合于自变量个数不相同时模型拟合效果优劣的比较此准则适合于自变量个数不相同时模型拟合效果优劣的比较.Cp统计量的统计学意义统计量的统计学意义 当所拟合的线性模型是当所拟合的线性模型是“合适合适”的的,那么那么,Cp统计量应该近似等于所拟统计量应该近似等于所拟合模型中参数的个数合模型中参数的个数q. 当用所有可能的自变量子集拟合了线性回归模型以后,分别计算其当用所有可能的自变量子集拟合了线性回归模型以后,分别计算其Cp值的大小,并以每一回归模型的值的大小,并以每一回归模型的Cp值
41、和模型中参数的个数绘制散点图值和模型中参数的个数绘制散点图。将显示。将显示“合适模型合适模型”的散点的散点在直线在直线Cp=q附近附近,拟合不佳的模型拟合不佳的模型将将远离此远离此线线。结合实际,在。结合实际,在“合适模型合适模型”中选择既具有较小的中选择既具有较小的Cp值,在图中又接近值,在图中又接近于于Cp=q直线的模型作为直线的模型作为“最优最优”模型。模型。Cp统计量的统计学意义统计量的统计学意义 这一结论来自于残差平方和的一个准则这一结论来自于残差平方和的一个准则.如果含如果含q个模型参数是确实个模型参数是确实能反映自变量与应变量的线性回归关系能反映自变量与应变量的线性回归关系,那么
42、那么,从总体中抽取样本容量为从总体中抽取样本容量为n的简单随机样本的简单随机样本,经多重线性回归分析后所得的残差平方和的数学期望等经多重线性回归分析后所得的残差平方和的数学期望等于于(n-q) 2,即即E(SSE)= (n-q) 2.假定全模型的残差均方估计的期望假定全模型的残差均方估计的期望 2E= = 2为真值为真值,则则2 SSE近似等于近似等于(n-q),故此故此Cp的数学期望近似等于模型的数学期望近似等于模型参数的个数参数的个数,即即E(Cp)=q。自变量筛选的方法自变量筛选的方法1.所有可能的自变量子集中选择:也称为所有可能的自变量子集中选择:也称为“最优子集回归最优子集回归” a
43、ll possible subset selection 此种方法先计算出所有可能子集的回归模型,然后考察每一模型符合此种方法先计算出所有可能子集的回归模型,然后考察每一模型符合上述第上述第2或第或第3准则的程度,准则的程度, 同时考虑模型中参数个数的多少同时考虑模型中参数个数的多少(在满足准则在满足准则程度一致的情况下,参数个数较小的模型为程度一致的情况下,参数个数较小的模型为“优优” )选择出一个或几个最优选择出一个或几个最优回归模型。这回归模型。这 种方法计算量大,一般适合用于种方法计算量大,一般适合用于 自变量个数不太多的情况自变量个数不太多的情况采用。采用。自变量筛选的方法自变量筛选
44、的方法2.前向选择前向选择(forward selection) 该方法从仅含常数项的模型开始该方法从仅含常数项的模型开始,首先对每个变量计算反映其进首先对每个变量计算反映其进入模型后该变量对新模型贡献量的入模型后该变量对新模型贡献量的F值值,然后将最大然后将最大F统计量与预先指统计量与预先指定的临界值定的临界值(Fin)比较比较,如果如果F Fin程序停止继续引入新变量程序停止继续引入新变量,否则将其否则将其最大最大F值所对应的自变量引入模型值所对应的自变量引入模型;然后在有一个自变量的模型的基础然后在有一个自变量的模型的基础上上,重复以上过程;如此反复,每次加入一个变量到模型中重复以上过程
45、;如此反复,每次加入一个变量到模型中,直到剩下直到剩下的变量中无一个能使其的变量中无一个能使其F值大于或等于值大于或等于Fin值为止。值为止。自变量筛选的方法自变量筛选的方法2.前向选择前向选择(forward selection) 该方法是基于该方法是基于残差均方缩小的准则来选择自变量残差均方缩小的准则来选择自变量,使残差均,使残差均方缩小最大的变量先进入模型。但该方法的缺点是变量方缩小最大的变量先进入模型。但该方法的缺点是变量“只进不出只进不出”,而新变量的进入会使原来已进入的变量与反应变量的关系发生改,而新变量的进入会使原来已进入的变量与反应变量的关系发生改变,在这种情况下,有可能先进入
46、的变量要被剔除,显而易见,向变,在这种情况下,有可能先进入的变量要被剔除,显而易见,向前法无法做到这一点,不能保证最终所筛选的模型为前法无法做到这一点,不能保证最终所筛选的模型为“最优最优” 模型模型。自变量筛选的方法自变量筛选的方法3.后向选择后向选择(backward selection) 该方法首先建立包含所有该方法首先建立包含所有p个变量的全模型,然后逐个计算出剔除某个变量的全模型,然后逐个计算出剔除某一变量后仅包含一变量后仅包含p-1个自变量的个自变量的p个模型,同时计算剔除变量后所致残差个模型,同时计算剔除变量后所致残差平方和增量的平方和增量的F值,然后将值,然后将p个个F值中的最
47、小者与预先指定的临界值值中的最小者与预先指定的临界值Fout相相比较,若最小的比较,若最小的F100有严重共线性有严重共线性3、方差扩大因子(、方差扩大因子(Variance Inflation Factor) 10存在共线性存在共线性多重共线性问题多重共线性问题2个自变量的复相关系数对其余个自变量为第1)1 (12pxjRRVIFjjjjCoefficientsCoefficientsa a-.142.069-2.048.055.000.000.5924.227.000.5701.755.004.002.2732.364.029.8411.190.000.001-.001-.009.993.
48、8321.202-.035.011-.448-3.208.005.5751.740(Constant)车流气温气湿风速Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearity StatisticsDependent Variable: 一氧化氮a. Collinearity DiagnosticsCollinearity Diagnosticsa a4.7301.000.00.00.00.00.00.2314.524.00.02.00.00.43.01915.841.02.27.51.08.42.01418.287.02.69.03.58.14.00628.639.97.02.45.34.00Di
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 清洁处理承包合同协议书
- 渠道承包合同协议书模板
- 渣土车司机劳务合同范本
- 网上买卖设备的合同范本
- 电力产权分界协议协议书
- 湖北省劳动合同补充协议
- 艺人与酒吧合作合同范本
- 材料未签合同的进场协议
- 电梯维修安全协议书合同
- 签了合作协议不履行合同
- 消防应急预案电子版
- 2022年全国《网络安全学习教育知识》竞赛试题库与答案
- DL∕T 5142-2012 火力发电厂除灰设计技术规程
- 中国特发性面神经麻痹神经修复治疗临床指南2023年
- 西安市灞桥区2024年公开招聘事业单位工作人员历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- (正式版)JBT 14933-2024 机械式停车设备 检验与试验规范
- JJG-52-1999弹簧管式一般压力表、压力真空表和真空表
- 新华DCS软件2.0版使用教程-文档资料
- 弗洛伊德和荣格对心理创伤的理解
- 志愿服务证明(多模板)
- 《有效沟通技巧培训》课件
评论
0/150
提交评论