第15章 多重线性回归课件_第1页
第15章 多重线性回归课件_第2页
第15章 多重线性回归课件_第3页
第15章 多重线性回归课件_第4页
第15章 多重线性回归课件_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Multiplelinearregression多元(重)线性回归第15章多重线性回归

人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间例子2005年11月第15章多重线性回归表15-132例40岁以上男性的年龄、吸烟、体重指数与收缩压2005年11月第15章多重线性回归多元回归分析数据格式2005年11月第15章多重线性回归第一节多元线性回归模型一、回归模型简介2005年11月第15章多重线性回归(一)多元线性回归模型的一般形式

2005年11月第15章多重线性回归两自变量与应变量的散点图第15章多重线性回归两自变量与应变量的拟合面bj

为xj方向的斜率第15章多重线性回归(二)多元线性回归分析的一般步骤

2005年11月第15章多重线性回归二、采用最小二乘法

建立多元线性回归方程2005年11月第15章多重线性回归2005年11月第15章多重线性回归2005年11月第15章多重线性回归表15-1有三个自变量2005年11月第15章多重线性回归表15-1有三个自变量2005年11月第15章多重线性回归SAS软件输出结果ParameterEstimates

ParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|EstimateIntercept142.788789.881594.330.00020x111.431840.310574.61<.00010.68980x219.490432.421743.920.00050.33641x315.839084.287541.360.18410.20293分别为参数估计值b0、b1、b2、b328第15章多重线性回归SAS软件输出结果dataa;inputnoyx1-x3;cards;1 135 45 0 2.8762 122 41 0 3.251

。。。

31 152 62 0 3.96232 164 65 0 4.01;proc

reg;modely=x1-x2/stb;run;第15章多重线性回归第二节回归方程的假设检验与评价

一、回归方程的假设检验二、偏回归系数的假设检验三、有关评价指标

2005年11月第15章多重线性回归一、回归方程的方差分析

(H0:所有总体回归系数bj为0)

AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel35052.618281684.2060936.58<.0001Error281289.2567246.04488CorrectedTotal316341.875002005年11月第15章多重线性回归有关计算公式2005年11月第15章多重线性回归有关计算公式X2X1YModelSSTotalSSResidualSS2005年11月第15章多重线性回归二、各回归系数的t检验

ParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|Estimate

变量自由度回归系数标准误t值P值标准化回归系数

Intercept2842.788789.881594.330.00020x1281.431840.310574.61<.00010.68980x2289.490432.421743.920.00050.33641x3285.839084.287541.360.18410.202932005年11月第15章多重线性回归标准化回归系数(可说明各自变量相对贡献大小)

变量回归系数bj标准化回归系数b’jljj标准差S常数项42.788780.00000X11.431840.689801471.8756.890561X29.490430.336417.9690.507007X35.839080.202937.6600.497078Y6341.87514.303032005年11月第15章多重线性回归三、有关评价指标

(软件有关结果)RootMSE(剩余标准差)

6.7856

R-Square(决定系数)0.7967AdjR-Sq(校正决定系数)0.7749DependentMean应变量Y的均值=144.437502005年11月第15章多重线性回归1.剩余标准差(RootMSE)反映了回归方程的精度,其值越小说明回归效果越好

2005年11月第15章多重线性回归2.决定系数

(determinationcoefficient)

说明所有自变量能解释Y变异的百分比。取值(0,1),越接近1模型拟合越好

2005年11月第15章多重线性回归3.复相关系数

(multiplecorrelation

coefficient)说明所有自变量与Y间的线性相关程度。即与Y间的相关程度。如果只有一个自变量,此时

2005年11月第15章多重线性回归4.校正决定系数(Adjusteddeterminationcoefficient)

2005年11月第15章多重线性回归5.偏回归平方和(sumofsquaresforpartialregression)及其F检验

在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应

;j=1,2,…,p

2005年11月第15章多重线性回归

FullModelReducedModel2005年11月第15章多重线性回归实例计算2005年11月第15章多重线性回归第四节自变量的选择一、全局择优法

二、逐步回归法

2005年11月第15章多重线性回归一、全局择优法

根据一些准则(criterion)建立“最优”回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)AIC(Akaike’sInformationCriterion)准则;AIC越小越好2005年11月第15章多重线性回归第三节模型的变量筛选

根据一些准则(criterion)建立“最优”回归模型校正决定系数(考虑了自变量的个数)Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)AIC(Akaike’sInformationCriterion)准则;AIC越小越好2005年11月第15章多重线性回归(一)校正决定系数(Adjusteddeterminationcoefficient)

2005年11月第15章多重线性回归(二)Cp准则的计算公式2005年11月第15章多重线性回归(三)AIC准则的计算公式2005年11月第15章多重线性回归1.全局择优法

求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型2005年11月第15章多重线性回归SAS获得的几个准则值结果

ADJRSQCPAIC

ADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507

2005年11月第15章多重线性回归全局择优法的局限性

如果自变量个数为4,则所有的回归模型有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。2005年11月第15章多重线性回归2.逐步选择法

1.前进法(forwardselection)2.后退法(backwardelimination)3.逐步回归法(stepwiseregression)

它们的共同特点是每一步只引入或剔除一个自变量。决定引入或剔除基于对偏回归平方和的F检验2005年11月第15章多重线性回归(一)前进法

自变量从无到有、从少到多

Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。

局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。2005年11月第15章多重线性回归(二)后退法

先将全部自变量放入方程,然后逐步剔除

偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)

。建立新的回归方程。重复上述过程。

局限性:自变量高度相关时,可能得不出正确的结果

。2005年11月第15章多重线性回归(三)逐步回归法

双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法)

小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。注意,引入变量的检验水准要小于或等于剔除变量的检验水准。2005年11月第15章多重线性回归第四节多元线性回归的应用及其注意事项2005年11月第15章多重线性回归一、应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量2005年11月第15章多重线性回归二、应用条件2005年11月第15章多重线性回归三、应用的注意事项

(一)变量的数量化

(二)样本含量

(三)统计“最优”与专业的“最优”

(四)多重共线性

(五)交互作用

(六)残差图

(七)偏相关系数

2005年11月第15章多重线性回归(一)变量的数量化(1)自变量为连续型变量(必要时作变换)(2)自变量为有序变量(依次赋值,如疗效好中差,可分别赋值3、2、1)(3)自变量为二分类(可令男=1,女=0)(4)自变量为名义分类(需要采用哑变量(dummyvariables)进行编码)2005年11月第15章多重线性回归名义分类变量的哑变量化

假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:2005年11月第15章多重线性回归举例

姓名性别sex年龄职业(J)J1J2J3J4张山男119学生0001李四女025商人0010王五男130军人0000赵六女040农民0100钱七女036工人1000孙八男130商人0010刘九男126军人0000注意:1.哑变量是同时存在,其统计学意义是相对而言的。

2.哑变量有无意义可采用加与不加入哑变量的偏回归平方和F检验确定。2005年11月第15章多重线性回归(二)样本含量

观察个体数n与变量个数m的比例一般至少应为:观察个体n:变量m

=5~102005年11月第15章多重线性回归(三)统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响2005年11月第15章多重线性回归(四)多重共线性

自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。xxxxxxxxxxxxxX1X2Y2005年11月第15章多重线性回归多重共线性的识别与解决办法筛选自变量用主成分回归岭回归回归系数的符号与专业知识不符变量的重要性与专业不符R2高,但各自变量对应的回归系数均不显著。方差膨胀因子(VarianceInflationFactors,VIF)>102005年11月第15章多重线性回归(五)交互作用

当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论