应用统计学多重线性回归模型课件_第1页
应用统计学多重线性回归模型课件_第2页
应用统计学多重线性回归模型课件_第3页
应用统计学多重线性回归模型课件_第4页
应用统计学多重线性回归模型课件_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重线性回归模型多重线性回归模型 内容提要 模型简介 简单实例分析 逐步回归 残差分析 模型进一步诊断与修正 小结 内容提要 模型简介模型简介 生活中发生的许多现象都不是独立的,而是相互作用、相互影响的。一种结果的出现往往是多个因素、多个环节共同作用的结果。抛开其他因素,仅考察其中一个影响因素对结果的影响,所得出的结论是片面的,甚至可能是错误的。 本章所要讨论的问题是如何同时考虑多个因素对同一结果的影响。此时,因变量只有一个,也称反应变量,常用y表示。自变量也称解释变量,有多个。模型简介 生活中发生的许多现象都不是独立的,而是相互作用、相模型简介 多重线性回归模型其中,j是偏回归系数(Part

2、ial regression coefficient),它表示在其它自变量固定不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量,p为自变量的个数,为残差,独立服从 N(0,2)分布。模型简介 多重线性回归模型其中,j是偏回归系数(Parti 自变量与因变量之间存在线性关系,可以通过绘制“散点图矩阵”予以考察; 各观测间相互独立; 残差服从正态分布; 方差齐性。模型简介应用条件 多重线性回归模型使用最小二乘法来解决方程的估计和检验问题。 自变量与因变量之间存在线性关系,可以通过绘制“散点图矩阵”简单分析实例例1 为研究男性高血压患者血压与年龄、身高、体重等变量的关系,随机测量了

3、32名40岁以上男性的血压y、年龄x1、体重指数x2, 试建立多重线性回归方程。数据文件见mreg2.sav。简单分析实例例1 为研究男性高血压患者血压与年龄、身高、体简单分析实例初步分析初步分析:与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。本例有两个自变量与一个反应变量,绘制散点图矩阵,如下。简单分析实例初步分析初步分析: 绘制散点图矩阵简单分析实例初步分析 绘制散点图矩阵简单分析实例初步分析简单分析实例简单分析实例简单分析实例简单分析实例简单分析实例结果分析 给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为两个变量是被强行纳入模型的(

4、Method为Enter),当然就不存在剔除变量的事情了。简单分析实例结果分析 给出了自变量进入模型的方式,此处尚未涉简单分析实例结果分析 模型拟合优度情况的检验,结果显示,复相关系数为0.840,决定系数为0.706,调整的决定系数为0.686,还输出了剩余标准差。简单分析实例结果分析 模型拟合优度情况的检验,结果显示,复相简单分析实例结果分析 回归模型的假设检验结果,显示F34.808,P3的观测为异常值。探测自变量中强影响点:杠杆值,hij大于2或3倍的平均值即为异常;库克距离1为异常;标准化回归系数和标准化预测值的变化;模型的进一步诊断与修正强影响点的诊断样本中的异常值和强影响点是指远

5、离均值的数据点。 强影响点的处理模型的进一步诊断与修正 考虑是否录入错误,如果是,予以改正;否则予以删除强影响点记录; 进行稳健回归,如最小一乘法和加权最小二乘法; 进行非参数回归及变量变换等。 强影响点的处理模型的进一步诊断与修正 考虑是否录入错误, 多重共线性的识别模型的进一步诊断与修正多重共线性:是指自变量间存在相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。有以下表现形式: 整个模型的方差分析结果为P ; 专业上认为应该有统计学意义的自变量检验结果却无统计学意义; 自变量的偏回归系数取值大小甚至符号明显与实际情况违背,难以解释; 增加或删除一条记录或一个自变量,偏

6、回归系数发生很大变化。 多重共线性的识别模型的进一步诊断与修正多重共线性:是指自变 多重共线性的识别模型的进一步诊断与修正可以通过statistics 子对话框中的Collinearity Diagnostics 复选框予以实现。其中提供了以下统计量: 容忍度 方差膨胀因子 条件指数 变异构成 多重共线性的识别模型的进一步诊断与修正可以通过statis容忍度(Toli=1-Ri2):Ri2是自变量xi与其他自变量间的决定系数。方差膨胀因子(VIF=1/Toli)10,表明共线性严重特征根:最大特征根远远大于其他特征根,说明自变量间有大量的信息重叠。条件指数ki=SQRT( m / i ):10

7、,表明存在共线性。模型的进一步诊断与修正容忍度(Toli=1-Ri2):Ri2是自变量xi与其他自变 多重共线性的识别(例2分析结果)模型的进一步诊断与修正 多重共线性的识别(例2分析结果)模型的进一步诊断与修正 多重共线性的处理模型的进一步诊断与修正 增加样本量逐步回归(当共线性很严重时,仍然不行) ; 岭回归( Ridge Regression,为有偏估计) ; 主成分回归; 路径分析。 多重共线性的处理模型的进一步诊断与修正 增加样本量小 结 回归模型的建立步骤回归分析已经被应用的非常广泛,作为一个严肃的统计学模型,它有着自己严格的适用条件,在拟合时需要不断进行这些适用条件的判断。但是,

8、许多使用者往往忽视了这一点,只是把模型做完就好了。这不仅浪费信息,更有可能得出错误的结论。这里给出一个比较合适的回归分析操作步骤,供大家参考。小 结 回归模型的建立步骤回归分析已经被应用的非常广泛,作为小 结 回归模型的建立步骤 绘制散点图,观察变量间的趋势。(不能随意省略) 考察数据分布,进行必要的预处理。 进行直线回归分析。 残差分析。(最重要和直观的方法是图示法) 强影响点的诊断和多重共线性的判断。小 结 回归模型的建立步骤 绘制散点图,观察变量间的趋势。小 结建立一个“完美”的多重线性回归模型是一个需要反复进行的过程,不能指望一蹴而就。小 结建立一个“完美”的多重线性回归模型是一个需要

9、反复进行的基本操作:Analyze-Regression-LinearDependent:因变量Independent:自变量Method:自变量筛选方法,默认为EnterBlock:不同变量有不同筛选方法时可定义BlockSelection Variable:变量值满足条件的样本才参与分析Case Labels:指定图示中数据点的标志变量基本操作:Analyze-Regression-Linear应用统计学多重线性回归模型课件应用统计学多重线性回归模型课件应用统计学多重线性回归模型课件应用统计学多重线性回归模型课件应用统计学多重线性回归模型课件对于呈非线性关系的变量之间的统计关系进行大体估计

10、(但经变量变换可转化为线性关系本质线性关系)。绘制拟合曲线并进行预测。做为线性回归分析的预分析步骤:选择变量变换的方法。曲线估计对于呈非线性关系的变量之间的统计关系进行大体估计(但经变量变常用的几种非线性模型(一)抛物线模型(二次曲线模型)具体形式为:式中0、1 和2 为待估计参数。判断某种现象是否适合应用抛物线,可以利用“差分法”。其步骤如下:首先将样本观察值按X 的大小顺序排列,然后按以下两式计算X 和Y 的一阶差分Xt、Yt 以及Y 的二阶差分Y2t。 Xt=Xt-Xt-1; Yt=Yt-Yt-1 Y2t=Yt-Yt-1当Xt 接近于一常数,而Y2t 的绝对值接近于常数时,Y 与X 之间

11、的关系可以用抛物线模型近似加以反映。常用的几种非线性模型(一)抛物线模型(二次曲线模型)(二)双曲线模型假如Y 随着X 的增加而增加(或减少),最初增加(或减少)很快,以后逐渐放慢并趋于稳定,则可以选用双曲线来拟合。双曲线模型形式是:Y=0+1 (1/X) +(二)双曲线模型假如Y 随着X 的增加而增加(或减少),最初(三)幂函数模型幂函数模型的一般形式是:这类函数的优点在于:方程中的参数可以直接反映因变量Y 对于某一个自变量的弹性。所谓Y 对于Xj 的弹性,是指在其他情况不变的条件下,Xj 变动时所引起Y 变动的百分比。 弹性是一个无量纲的数值,它是经济定量分析中常用的一个尺度。它在生产函数

12、分析和需求函数分析中,得到了广泛的应用。(三)幂函数模型幂函数模型的一般形式是:(四)指数函数模型指数函数模型为:这种曲线被广泛应用于描述社会经济现象的变动趋势。例如产值、产量按一定比率增长,成本、原材料消耗按一定比例降低。(四)指数函数模型指数函数模型为:(五)逻辑曲线模型逻辑曲线的方程式如下:逻辑曲线具有以下性质。Y 是X 的非减函数,开始时随着X 的增加,Y 的增长速度也逐渐加快,但是Y 达到一定水平之后, 其增长速度又逐渐放慢。最后无论X 如何增加,Y 只会趋近于L,而永远不会超过L。(五)逻辑曲线模型逻辑曲线的方程式如下:可拟合的曲线本质线性关系:形式上呈非线性关系,但可通过变量变换

13、化为线性关系。拟合原则:一般来说,涉及的变量越多,变量的幂次越高,计算量就越大,误差也将越大。一般尽量避免采用多元高次多项式。能拟合的曲线见下页可拟合的曲线本质线性关系:形式上呈非线性关系,但可通过变量变应用统计学多重线性回归模型课件基本操作:AnalyzeRegressionCurve Estimation基本操作:AnalyzeRegressionCurve Independent: X2Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 X5 QUA .987 10 382.64 .000 252.698 -.1475 2.5E-05 X5 CUB .99

14、4 9 516.46 .000 -41.314 .0754 -2.E-05 2.6E-09 X5 COM .995 11 2086.35 .000 20.9550 1.0004 X5 POW .954 11 229.58 .000 3.6E-05 1.8460应用统计学多重线性回归模型课件应用统计学多重线性回归模型课件例:打开年人均消费支出和教育数据,对居民在外就餐的趋势进行分析,预测2003年和2004年度的居民在外就餐的费用。例:打开年人均消费支出和教育数据,对居民在外就餐的趋势进操作:GraphsSequence操作:GraphsSequence应用统计学多重线性回归模型课件Depend

15、ent variable. X4 Method. EXPONENTListwise Deletion of Missing DataMultiple R .96856R Square .93810Adjusted R Square .93501Standard Error .26294 Analysis of Variance: DF Sum of Squares Mean SquareRegression 1 20.956004 20.956004Residuals 20 1.382742 .069137F = 303.10787 Signif F = .0000- Variables in

16、 the Equation -Variable B SE B Beta T Sig TTime .153837 .008836 .968556 17.410 .0000(Constant) 12.521790 1.751183 7.150 .0000The following new variables are being created: Name Label FIT_6 Fit for X4 from CURVEFIT, MOD_6 EXPONENTIAL1 new cases have been added.Dependent variable. X4 二项Logistic 回归适用于进

17、行二分类因变量的影响因素分析用于控制混杂因素,描述自变量对因变量的独立作用下的影响程度用于预测或判别分析二项Logistic 回归适用于进行二分类因变量的影响因素分与线性回归的不同之处被解释变量为0/1二分类定性变量时,不适合线性回归模型分析:被解释变量取值范围不一致残差为二值离散型分布而非正态分布等方差性不再满足与线性回归的不同之处被解释变量为0/1二分类定性变量时,不适二项Logistic回归将yi=1的概率值直接拟合线性回归模型:Py=1=0+ixi可对概率P值做变量变换,使之取值范围为- +解释变量与被解释变量概率值的实际关系一般呈增长曲线发生比(Odds)=p/(1-p)Logit

18、P转换:ln() = ln(p/(1-p) = 0+ixi二项Logistic回归将yi=1的概率值直接拟合线性回归模i为解释变量增加一个单位时, ln()的变化量经变换,= exp(0+ixi)固定其他变量,研究变量x1的作用exp(i)称为固定其他变量的作用时,变量xi增加一个单位引起的发生比之比(Odds Ratio,OR).二项Logistic回归-参数意义i为解释变量增加一个单位时, ln()的变化量二项Log最大似然估计法,通过最大化对数似然值(log likelihood)估计参数。最大似然估计法是一种迭代算法,它以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的参

19、数的方向和变动。估计了该初始函数后,对残差进行检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化)。二项Logistic回归-参数估计最大似然估计法,通过最大化对数似然值(log likelih-2 对数似然值(-2Log Likelihood,-2LL)似然(likelihood)即概率,反映该模型能较好地拟合样本数据的可能性。对数似然值(log likelihood,LL)是它的自然对数形式,取值在0 至-之间。对数似然值通过最大似然估计的迭代算法计算而得。LL最大为0,越大意味着回归方程的拟合程度越好。因为数学上较方便,常计算-2LL。二项Logistic回归-检验统计

20、量-2 对数似然值(-2Log Likelihood,-2LL比分检验(Score Test)以未包含某个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导数及信息矩阵,二者乘积即为比分检验统计量S,样本量大时,S服从卡方分布,比分检验结果一般与似然比检验一致。二项Logistic回归-检验统计量比分检验(Score Test)二项Logistic回归-检回归方程的显著性检验 似然比卡方检验H0:各回归系数同时为0检验统计量:似然比卡方服从近似卡方分布L0为解释变量未引入方程时的对数似然函数值, L为解释变量引入方程后的对数似然函数值.回归方程的

21、显著性检验 似然比卡方检验H0:各回归系数同时回归方程的拟合优度检验回归方程能够解释的被解释变量变异程度越高,拟合优度越高.Cox & Snell R2统计量= 1-(L0/L)2/nNaglkerke R2= Cox & Snell R2/(1-(L0)2/n),取值01回归方程预测值与实际值之间的吻合程度,总体预测准确率越高,拟合优度越高.错判矩阵Hosmer-Lemeshow统计量服从n-2个自由度的卡方分布:当自变量较多且多为连续性变量时残差分析回归方程的拟合优度检验回归方程能够解释的被解释变量变异程度越回归系数的显著性检验H0:i=0检验统计量:Wald统计量服从近似卡方分布Waldi=(i/Si)2Wald检验统计量的缺点:它考虑因素的综合作用,当因素间存在多重共线性的时候,结果不可靠,较不宜于拒绝零假设,使得本应保留在方程中的变量未能保留。当回归系数很大时,Wald统计量存在一定偏差。回归系数的显著性检验H0:i=0虚拟变量回归虚拟变量(哑变量,dummy variable):对于模型中的分类自变量,如有序或无序多分类变量,其值间距离并不相等,因此不能用一个回归系数表示其影响.必须转化为虚拟变量参与分析如变量X分为K类,则生成K-1个虚拟变量原变量X新的哑变量VxaVxbA10B01

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论