高级统计多元回归_第1页
高级统计多元回归_第2页
高级统计多元回归_第3页
高级统计多元回归_第4页
高级统计多元回归_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高级统计多元回归第1页,共26页,2023年,2月20日,星期四1.回归模型的拟合度第2页,共26页,2023年,2月20日,星期四简单回归从散点图开始有助我们对变量间的关系有一个形象化的了解。如何对变量间的关系进行更准确的描述?——

线性回归画出回归线哪条直线是最优拟合?第3页,共26页,2023年,2月20日,星期四回归线拟合的程度怎样?第4页,共26页,2023年,2月20日,星期四残差从点到线的离差可代表拟合的程度(残差)Residuals第5页,共26页,2023年,2月20日,星期四作回归线使离差的平方和为最小离差=y观测值-y预测值叫做Least-squaresregression回归方程y=a+bxIGRAPH/VIEWNAME='Scatterplot'/X1=VAR(salbegin)TYPE=SCALE/Y=VAR(salary)TYPE=SCALE/COORDINATE=VERTICAL/FITLINEMETHOD=REGRESSIONLINEARLINE=TOTAL第6页,共26页,2023年,2月20日,星期四好的模型残差很小R2=0.89第7页,共26页,2023年,2月20日,星期四一般的模型R2=0.35残差较大第8页,共26页,2023年,2月20日,星期四差的模型R2=0.002这里的直线基本不能描述数据第9页,共26页,2023年,2月20日,星期四2.多元回归的方法(method)第10页,共26页,2023年,2月20日,星期四多元回归的方法(method)方法间的区别在于如何处理相关的自变量重叠部分的方差,即用何原则确定变量进入方程的次序标准回归或同时回归:Enter逐步回归:Stepwise层次回归:hierarchical第11页,共26页,2023年,2月20日,星期四标准回归亦称同时回归(simultaneous)重叠部分对R2有贡献,但不分配到任何一个自变量中与其他自变量重叠区域大的自变量的相对重要性可能被忽视第12页,共26页,2023年,2月20日,星期四逐步回归:Stepwise在分析的每一阶段,与因变量有最大偏相关的自变量被加在模型上。变式ForwardBackwardremove拟合度最优,用于探索性回归最好n>20IV慎推广,须交互验证

第13页,共26页,2023年,2月20日,星期四层次回归:hierarchical研究者根据理论假设确定次序,定义block因果顺序在前的,先进入方程欲考察的重要变量或者放在前,或放在最后应选择statistics…Rsquarechange第14页,共26页,2023年,2月20日,星期四3.多元回归的数据要求第15页,共26页,2023年,2月20日,星期四多元回归的数据要求(1)因变量应为等距/等比型变量。在实际操作中,如果有足够的水平,顺序型变量也可。如果因变量是命名型,则须用判别分析或logisticregression。自变量应为等距/等比型变量。在实际操作中,顺序型变量也可。命名型若为2水平(dichotomies)可直接用。命名型若为多水平,可先转换为dummyvariables。因变量与自变量的关系应为线性。如果变量间关系是曲线的,但具单调性(递增或递减),可通过转换达成线性。如果是U型线,需特殊转换处理。尽管自变量间彼此可以有相关,其相关不可接近完全线性。否则称为multicollinearity。第16页,共26页,2023年,2月20日,星期四多元回归的数据要求(2)被试数目与自变量数目的比率为10:1(根据不同情况在20:1至5:1的范围中);被试数目>100没有非常值(Outliers)没有Multicollinearity第17页,共26页,2023年,2月20日,星期四多元回归的统计前提3个前提:因变量残差正态分布残差与预测值呈线性关系在因变量预测值的所有水平上,残差的方差相等散点图:纵轴为因变量的预测值(ZPRED),横轴为残差(ZRESID)第18页,共26页,2023年,2月20日,星期四残差图残差图告诉我们回归线在不同变量水平的拟合程度第19页,共26页,2023年,2月20日,星期四残差图提供的重要信息残差的系统分布提示有未被解释的系统性方差自变量增大时,残差增大。变量间的关系不是线性的第20页,共26页,2023年,2月20日,星期四MulticollinearityStatistics...

Collinearitydiagnostics任何两个自变量间的相关在.70以上,Collinearity就会出现。Tolerance<.5,提示Collinearity第21页,共26页,2023年,2月20日,星期四多重共线性的含义自变量之间高度相关,互相削弱了各自对y的边际影响回归方程整体显著,但各个自变量都不显著多重共线性的检验方程的确定系数很高,且y于各自变量的相关系数也很高,但自变量的回归系数均不显著两个自变量情形时,自变量之间相关系数很高,多各自变量时,某一自变量可以被其他自变量线性表出方程的确定系数很高,但每一自变量的偏确定系数很小,说明变量之间可能存在高度的线性关系容限度(tolerance)、方差膨胀因子(VIF)多重共线性的解决办法(对于样本确定的情况)去掉与y相关程度较低,而与其他自变量高度相关的变量去掉可以被其余自变量线性表出的变量多重共线性及其解决办法第22页,共26页,2023年,2月20日,星期四命名型转换为dummyvariables新建n-1个dummyvariables,取0或1的值为避免multicollinearity,须去掉一个作为标准的变量,通常是频次最多的

注意对缺失值的处理第23页,共26页,2023年,2月20日,星期四通过转换生成线性关系因为线性回归是处理数据的快捷方式如果数据是非线性的,有时会通过转换生成线性关系Explore提供的散点图可帮助识别有效的转换方式中度正偏态---平方根转换高度正偏态---对数转换J型分布---倒数转换负偏态---先以一常数减之,变为正偏态第24页,共26页,2023年,2月20日,星期四4.报告回归分析的结果第25页,共26页,2023年,2月20日,星期四回归分析最基本的结果输出所有自变量总共解释多少方差?---R2adj.R2adj=1-(1-R2)(N-n-1)/(N-1)R2adj>75%很好;50-75%不错;25-50%一般;<25%不够

所有自变量总共与因变量有无显著关联?---F

虚无假设是所有自变量与因变量均无关联。.当其他自变量保持恒定时,每一自变量与因变量有什么样的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论