




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用统计学多重线性回归模型第一页,共八十一页,2022年,8月28日
内容提要
模型简介简单实例分析
逐步回归残差分析
模型进一步诊断与修正小结第二页,共八十一页,2022年,8月28日模型简介
生活中发生的许多现象都不是独立的,而是相互作用、相互影响的。一种结果的出现往往是多个因素、多个环节共同作用的结果。抛开其他因素,仅考察其中一个影响因素对结果的影响,所得出的结论是片面的,甚至可能是错误的。本章所要讨论的问题是如何同时考虑多个因素对同一结果的影响。此时,因变量只有一个,也称反应变量,常用y表示。自变量也称解释变量,有多个。第三页,共八十一页,2022年,8月28日模型简介
多重线性回归模型其中,βj是偏回归系数(Partialregressioncoefficient),它表示在其它自变量固定不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量,p为自变量的个数,ε为残差,独立服从N(0,σ2)分布。第四页,共八十一页,2022年,8月28日
自变量与因变量之间存在线性关系,可以通过绘制“散点图矩阵”予以考察;各观测间相互独立;残差服从正态分布;方差齐性。模型简介-应用条件
多重线性回归模型使用最小二乘法来解决方程的估计和检验问题。第五页,共八十一页,2022年,8月28日简单分析实例例1为研究男性高血压患者血压与年龄、身高、体重等变量的关系,随机测量了32名40岁以上男性的血压y、年龄x1、体重指数x2,试建立多重线性回归方程。数据文件见mreg2.sav。第六页,共八十一页,2022年,8月28日简单分析实例-初步分析初步分析:与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。本例有两个自变量与一个反应变量,绘制散点图矩阵,如下。第七页,共八十一页,2022年,8月28日
绘制散点图矩阵简单分析实例-初步分析第八页,共八十一页,2022年,8月28日简单分析实例第九页,共八十一页,2022年,8月28日简单分析实例第十页,共八十一页,2022年,8月28日简单分析实例结果分析
给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为两个变量是被强行纳入模型的(Method为Enter),当然就不存在剔除变量的事情了。第十一页,共八十一页,2022年,8月28日简单分析实例结果分析
模型拟合优度情况的检验,结果显示,复相关系数为0.840,决定系数为0.706,调整的决定系数为0.686,还输出了剩余标准差。第十二页,共八十一页,2022年,8月28日简单分析实例结果分析
回归模型的假设检验结果,显示F=34.808,P<0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。第十三页,共八十一页,2022年,8月28日简单分析实例结果分析
给出了模型的常数项以及两个自变量的偏回归系数及其检验结果,可以写出回归方程如下:Y=54.798+1.379x1+4.513x2主要结果第十四页,共八十一页,2022年,8月28日SPSS结果中输出偏回归系数的同时,也输出了各自的标准偏回归系数。年龄的标准化偏回归系数为0.664,体重指数的标准化偏回归系数为0.247,因此,可以认为,年龄对血压的影响比体重指数对血压的影响大。简单分析实例结果分析第十五页,共八十一页,2022年,8月28日例2
仍以例1的资料为例,试作逐步回归分析。数据文件见mreg2.sav。逐步回归第十六页,共八十一页,2022年,8月28日逐步回归第十七页,共八十一页,2022年,8月28日逐步回归第十八页,共八十一页,2022年,8月28日逐步回归
输出SPSS在逐步回归过程中拟合的步骤中,每一步引入模型的变量情况,此处只有一个变量引入。结果分析第十九页,共八十一页,2022年,8月28日逐步回归结果分析
分别输出拟合的模型中,拟合优度情况的检验结果:复相关系数、决定系数、调整的决定系数以及剩余标准差。本例只有一步,故结果很简单,仅拟合一个模型。第二十页,共八十一页,2022年,8月28日逐步回归结果分析
给出各个拟合模型的常数项以及各自变量的偏回归系数、95%可信区间及其检验结果(此处为仅有一步的结果)。第二十一页,共八十一页,2022年,8月28日逐步回归结果分析
给出拟合模型过程中被剔除的变量情况及其检验结果(此处为仅有一步)。第二十二页,共八十一页,2022年,8月28日残差分析非标准化残差(原始残差)标准化残差(Pearson残差)学生化残差剔除残差学生化剔除残差
残差种类第二十三页,共八十一页,2022年,8月28日残差分析
模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:年龄)第二十四页,共八十一页,2022年,8月28日残差分析
模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:体重指数)第二十五页,共八十一页,2022年,8月28日残差分析
模型适用条件的检验-独立性的检验通过LinearRegression过程的statistics按钮中的Durbin-Watson检验进行判断。若自变量数少于4个,统计量接近2,基本上可以肯定残差间相互独立。仍以例1为例,结果如下。第二十六页,共八十一页,2022年,8月28日残差分析
模型适用条件的检验-方差齐性的检验第二十七页,共八十一页,2022年,8月28日残差分析
模型适用条件的检验-正态性的检验绘制残差的直方图及PP图的复选框第二十八页,共八十一页,2022年,8月28日残差分析
模型适用条件的检验-正态性的检验结果第二十九页,共八十一页,2022年,8月28日模型的进一步诊断与修正
强影响点的识别1.残差:以标准化残差最常用。一般地,标准化残差大于3时几乎可以肯定该条记录为强影响点。在LinearRegression过程中statistics按钮提供了Casewisediagnostics复选框用于在output窗口中输出可能为强影响点的记录编号和相关统计量。第三十页,共八十一页,2022年,8月28日模型的进一步诊断与修正仍以例2为例,没有记录标准化残差大于3,可要求输出2倍标准差以内的残差值,结果如下:
强影响点的识别第三十一页,共八十一页,2022年,8月28日模型的进一步诊断与修正2.强影响点统计量:在SPSS中,可以通过Save子对话框中的InfluenceStatistics复选框,提供一系列用于强影响点识别的统计量。
强影响点的识别第三十二页,共八十一页,2022年,8月28日强影响点的诊断样本中的异常值和强影响点是指远离均值的数据点。探测因变量的异常值:标准化残差、学生化残差、剔除残差;绝对值>3的观测为异常值。探测自变量中强影响点:杠杆值,hij大于2或3倍的平均值即为异常;库克距离>1为异常;标准化回归系数和标准化预测值的变化;模型的进一步诊断与修正第三十三页,共八十一页,2022年,8月28日
强影响点的处理模型的进一步诊断与修正⑴考虑是否录入错误,如果是,予以改正;否则予以删除强影响点记录;⑵进行稳健回归,如最小一乘法和加权最小二乘法;⑶进行非参数回归及变量变换等。第三十四页,共八十一页,2022年,8月28日
多重共线性的识别模型的进一步诊断与修正多重共线性:是指自变量间存在相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。有以下表现形式:
整个模型的方差分析结果为P<,但各自变量的偏回归系数的统计学结果却为P>;
专业上认为应该有统计学意义的自变量检验结果却无统计学意义;自变量的偏回归系数取值大小甚至符号明显与实际情况违背,难以解释;增加或删除一条记录或一个自变量,偏回归系数发生很大变化。第三十五页,共八十一页,2022年,8月28日
多重共线性的识别模型的进一步诊断与修正可以通过statistics子对话框中的CollinearityDiagnostics复选框予以实现。其中提供了以下统计量:容忍度方差膨胀因子条件指数变异构成第三十六页,共八十一页,2022年,8月28日容忍度(Toli=1-Ri2):Ri2是自变量xi与其他自变量间的决定系数。方差膨胀因子(VIF=1/Toli)≥10,表明共线性严重特征根λ:最大特征根远远大于其他特征根,说明自变量间有大量的信息重叠。条件指数ki=SQRT(λm/λi):≥10,表明存在共线性。模型的进一步诊断与修正第三十七页,共八十一页,2022年,8月28日
多重共线性的识别(例2分析结果)模型的进一步诊断与修正第三十八页,共八十一页,2022年,8月28日
多重共线性的处理模型的进一步诊断与修正
增加样本量逐步回归(当共线性很严重时,仍然不行);岭回归(RidgeRegression,为有偏估计);主成分回归;路径分析。第三十九页,共八十一页,2022年,8月28日小结
回归模型的建立步骤回归分析已经被应用的非常广泛,作为一个严肃的统计学模型,它有着自己严格的适用条件,在拟合时需要不断进行这些适用条件的判断。但是,许多使用者往往忽视了这一点,只是把模型做完就好了。这不仅浪费信息,更有可能得出错误的结论。这里给出一个比较合适的回归分析操作步骤,供大家参考。第四十页,共八十一页,2022年,8月28日小结
回归模型的建立步骤⑴绘制散点图,观察变量间的趋势。(不能随意省略)⑵考察数据分布,进行必要的预处理。⑶进行直线回归分析。⑷残差分析。(最重要和直观的方法是图示法)⑸强影响点的诊断和多重共线性的判断。第四十一页,共八十一页,2022年,8月28日小结建立一个“完美”的多重线性回归模型是一个需要反复进行的过程,不能指望一蹴而就。第四十二页,共八十一页,2022年,8月28日基本操作:Analyze-Regression-LinearDependent:因变量Independent:自变量Method:自变量筛选方法,默认为EnterBlock:不同变量有不同筛选方法时可定义BlockSelectionVariable:变量值满足条件的样本才参与分析CaseLabels:指定图示中数据点的标志变量第四十三页,共八十一页,2022年,8月28日第四十四页,共八十一页,2022年,8月28日第四十五页,共八十一页,2022年,8月28日第四十六页,共八十一页,2022年,8月28日第四十七页,共八十一页,2022年,8月28日第四十八页,共八十一页,2022年,8月28日对于呈非线性关系的变量之间的统计关系进行大体估计(但经变量变换可转化为线性关系——本质线性关系)。绘制拟合曲线并进行预测。做为线性回归分析的预分析步骤:选择变量变换的方法。曲线估计第四十九页,共八十一页,2022年,8月28日常用的几种非线性模型(一)抛物线模型(二次曲线模型)具体形式为:
式中β0、β1和β2为待估计参数。判断某种现象是否适合应用抛物线,可以利用“差分法”。其步骤如下:首先将样本观察值按X的大小顺序排列,然后按以下两式计算X和Y的一阶差分△Xt、△Yt以及Y的二阶差分△Y2t。△Xt=Xt-Xt-1;△Yt=Yt-Yt-1△Y2t=△Yt-△Yt-1当△Xt接近于一常数,而△Y2t的绝对值接近于常数时,Y与X之间的关系可以用抛物线模型近似加以反映。第五十页,共八十一页,2022年,8月28日(二)双曲线模型假如Y随着X的增加而增加(或减少),最初增加(或减少)很快,以后逐渐放慢并趋于稳定,则可以选用双曲线来拟合。双曲线模型形式是: Y=β0+β1(1/X)+ε第五十一页,共八十一页,2022年,8月28日(三)幂函数模型幂函数模型的一般形式是:这类函数的优点在于:方程中的参数可以直接反映因变量Y对于某一个自变量的弹性。所谓Y对于Xj的弹性,是指在其他情况不变的条件下,Xj变动1%时所引起Y变动的百分比。弹性是一个无量纲的数值,它是经济定量分析中常用的一个尺度。它在生产函数分析和需求函数分析中,得到了广泛的应用。第五十二页,共八十一页,2022年,8月28日(四)指数函数模型指数函数模型为:这种曲线被广泛应用于描述社会经济现象的变动趋势。例如产值、产量按一定比率增长,成本、原材料消耗按一定比例降低。第五十三页,共八十一页,2022年,8月28日(五)逻辑曲线模型逻辑曲线的方程式如下:逻辑曲线具有以下性质。Y是X的非减函数,开始时随着X的增加,Y的增长速度也逐渐加快,但是Y达到一定水平之后,其增长速度又逐渐放慢。最后无论X如何增加,Y只会趋近于L,而永远不会超过L。第五十四页,共八十一页,2022年,8月28日可拟合的曲线本质线性关系:形式上呈非线性关系,但可通过变量变换化为线性关系。拟合原则:一般来说,涉及的变量越多,变量的幂次越高,计算量就越大,误差也将越大。一般尽量避免采用多元高次多项式。能拟合的曲线见下页第五十五页,共八十一页,2022年,8月28日第五十六页,共八十一页,2022年,8月28日基本操作:Analyze-Regression-CurveEstimation第五十七页,共八十一页,2022年,8月28日Independent:X2DependentMthRsqd.f.FSigfb0b1b2b3X5QUA.98710382.64.000252.698-.14752.5E-05X5CUB.9949516.46.000-41.314.0754-2.E-052.6E-09X5COM.995112086.35.00020.95501.0004X5POW.95411229.58.0003.6E-051.8460第五十八页,共八十一页,2022年,8月28日第五十九页,共八十一页,2022年,8月28日例:打开‘年人均消费支出和教育’数据,对居民在外就餐的趋势进行分析,预测2003年和2004年度的居民在外就餐的费用。第六十页,共八十一页,2022年,8月28日操作:Graphs-Sequence第六十一页,共八十一页,2022年,8月28日第六十二页,共八十一页,2022年,8月28日Dependentvariable..X4Method..EXPONENTListwiseDeletionofMissingDataMultipleR.96856RSquare.93810AdjustedRSquare.93501StandardError.26294AnalysisofVariance:DFSumofSquaresMeanSquareRegression120.95600420.956004Residuals201.382742.069137F=303.10787SignifF=.0000--------------------VariablesintheEquation--------------------VariableBSEBBetaTSigTTime.153837.008836.96855617.410.0000(Constant)12.5217901.7511837.150.0000Thefollowingnewvariablesarebeingcreated:NameLabelFIT_6FitforX4fromCURVEFIT,MOD_6EXPONENTIAL1newcaseshavebeenadded.第六十三页,共八十一页,2022年,8月28日二项Logistic回归适用于进行二分类因变量的影响因素分析用于控制混杂因素,描述自变量对因变量的独立作用下的影响程度用于预测或判别分析第六十四页,共八十一页,2022年,8月28日与线性回归的不同之处被解释变量为0/1二分类定性变量时,不适合线性回归模型分析:被解释变量取值范围不一致残差为二值离散型分布而非正态分布等方差性不再满足第六十五页,共八十一页,2022年,8月28日二项Logistic回归将yi=1的概率值直接拟合线性回归模型:Py=1=β0+βixi可对概率P值做变量变换,使之取值范围为-∞~+∞解释变量与被解释变量概率值的实际关系一般呈增长曲线发生比(Odds)Ω=p/(1-p)LogitP转换:ln(Ω)
=ln(p/(1-p))=β0+βixi第六十六页,共八十一页,2022年,8月28日βi为解释变量增加一个单位时,ln(Ω)的变化量经变换,Ω=exp(β0+βixi)固定其他变量,研究变量x1的作用exp(βi)称为固定其他变量的作用时,变量xi增加一个单位引起的发生比之比(OddsRatio,OR).二项Logistic回归-参数意义第六十七页,共八十一页,2022年,8月28日最大似然估计法,通过最大化对数似然值(loglikelihood)估计参数。最大似然估计法是一种迭代算法,它以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的参数的方向和变动。估计了该初始函数后,对残差进行检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化)。二项Logistic回归-参数估计第六十八页,共八十一页,2022年,8月28日-2对数似然值(-2LogLikelihood,-2LL)似然(likelihood)即概率,反映该模型能较好地拟合样本数据的可能性。对数似然值(loglikelihood,LL)是它的自然对数形式,取值在0至-∞之间。对数似然值通过最大似然估计的迭代算法计算而得。LL最大为0,越大意味着回归方程的拟合程度越好。因为数学上较方便,常计算-2LL。二项Logistic回归-检验统计量第六十九页,共八十一页,2022年,8月28日比分检验(ScoreTest)
以未包含某个(或几个)参数的模型为基础,保留模型中参数的估计值,并假设新增加的参数为0,计算似然函数的一阶偏导数及信息矩阵,二者乘积即为比分检验统计量S,样本量大时,S服从卡方分布,比分检验结果一般与似然比检验一致。二项Logistic回归-检验统计量第七十页,共八十一页,2022年,8月28日回归方程的显著性检验——似然比卡方检验H0:各回归系数同时为0检验统计量:似然比卡方服从近似卡方分布L0为解释变量未引入方程时的对数似然函数值,L为解释变量引入方程后的对数似然函数值.第七十一页,共八十一页,2022年,8月28日回归方程的拟合优度检验回归方程能够解释的被解释变量变异程度越高,拟合优度越高.Cox&SnellR2统计量=1-(L0/L)2/nNaglkerkeR2=Cox&SnellR2/(1-(L0)2/n),取值0~1回归方程预测值与实际值之间的吻合程度,总体预测准确率越高,拟合优度越高.错判矩阵Hosmer-Lemeshow统计量服从n-2个自由度的卡方分布:当自变量较多且多为连续性变量时残差分析第七十二页,共八十一页,2022年,8月28日回归系数的显著性检验H0:βi=0检验统计量:Wald统计量服从近似卡方分布Waldi=(βi/Sβi)2Wald检验统计量的缺点:它考虑因素的综合作用,当因素间存在多重共线性的时候,结果不可靠,较不宜于拒绝零假设,使得本应保留在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论