第三讲用作回归分析_第1页
第三讲用作回归分析_第2页
第三讲用作回归分析_第3页
第三讲用作回归分析_第4页
第三讲用作回归分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲用作回归分析1第1页,共20页。1、回归分析计算PROC REG DATA=数据集名; MODEL 应变量=自变量;RUN;PROC REG DATA=数据集名; MODEL 应变量=自变量名列/ p cli clm RUN;2第2页,共20页。2、回归线作图PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项;RUN;利用plot语句可以绘制与拟合数据有关散点图、回归线和置信曲线、预测区间曲线3第3页,共20页。回归线作图PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r;

2、PLOT y变量*x变量/选项;RUN;y变量和x变量可以是应变量、自变量和其它与回归分析有关的变量:p.(predicted) 预测值r. (residual) 余差U95., L95. 预测值置信限U95M.,L95M.预测均值置信限选项:conf 95作预测均值置信曲线pred95作预测值置信曲线overlay将语句中规定的图迭置在一幅图上AIC CP MSE SSE在图上显示相应的统计量4第4页,共20页。3、逐步回归分析计算-变量选择PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r selection=stepwise slentry=0

3、.05 slstay=0.05 details;RUN;5第5页,共20页。4、回归诊断例外值(outliers)或异常作用点的检查从已拟合回归的数据中分析线性模型的假定是否被破坏:应变量的均值是否是独立变量的线性函数,是否需要对变量进行变换或拟合曲线回归余差(residuals)是否同方差,不相关,正态分布独立变量间是否存在线性关系(仅多元有)考察余差散点图是进行回归诊断的必要步骤6第6页,共20页。回归诊断7第7页,共20页。回归诊断回归分析的余差值是回归诊断的重要工具rYYiii = - 个预测值为第其中 :余差的定义为iYYYriiii 利用余差可以考察余差和预测值的散点图也可以检验余

4、差分布的正态性8第8页,共20页。回归诊断3.4.1.2.模型合适模型合适应改曲线模型应改曲线模型不等方差不等方差观测值不独立观测值不独立9第9页,共20页。回归诊断生成余差在PROC REG的model语句加上选项 p,就会输出预测值和相应的余差PROC REG DATA=数据集名; MODEL 应变量=自变量/p; PLOT y变量*x变量/选项;RUN;利用plot语句 plot r.*p. ; 就可得到余差-预测散点图,其中可以把p值换成自变量x,就得到相应的散点图。10第10页,共20页。回归诊断识别异常观测值在PROC REG的model语句加上选项 r,就会输出与预测值和余差有关

5、的一些统计量。他们可用于识别异常数据(outlier)及其影响PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r;RUN;Predict Value 预测值Std Err Predict 预测值标准差Residual 余差Std Err Predict 余差标准差Student Residual student化的余差-2 -1 0 1 2 余差显著性图Cooks D Cooks D统计量其中D是距离的缩写。11第11页,共20页。回归诊断余差分布正态性有了余差的数据,就可对其运用图形方法或正式的分布正态性的检验在INSIGHT中可直接对数据表中的预测余差变量进行分析在P

6、ROC REG可利用下列语句用图形分析余差分布正态性PROC REG DATA=数据集名 graphics ; MODEL 应变量=自变量; PLOT nqq.*student.(nqq.*r.);RUN;12第12页,共20页。回归诊断识别有影响的观测Cook D统计量度量一个观测从分析中剔除时参数估计值的变化对一个观测值其 Cook D 统计量的值超过 4/n 时(n为样本容量),这个观测存在反常效应, 其中4/n只是经验,没有统一的标准。13第13页,共20页。回归诊断识别有影响的观测Dffitsi 度量第i 个观测对预测值的影响iY第i个观测的预测值 )(iY用排除第i个观测的回归对第

7、i个观测的预测值 )(iYS第i个观测的预测值的标准差,是为了把数据标准化。其中Dffits越大越好,D是different和fit的缩写说明,)(Dffits)(iiiiYsYY npi/2? |Dffits|p 为模型中参数的个数, n 为样本容量其中14第14页,共20页。回归诊断识别有影响的观测Proc REG 的 Model语句加选项 r 可获得 Cook D 统计量Proc REG 的 Model语句加选项 influence 可获得 Dffits 等反映观测值影响的统计量PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r influence;RUN;15第1

8、5页,共20页。选项 influence 生成的统计量 Hat diag:帽子矩阵,可以把杠杆点找出来,用的较多。Dbet:表示某个点删除前后统计量的变化。16第16页,共20页。五、影响点诊断proc reg data=e4;model y1=x1-x4/influence r;run;其中选项influence 同上一页。R主要给出Cook-distance.前面已有。17第17页,共20页。六、共线性诊断共线性(collinearity, multicollinearity)问题是指独立变量间存在线性关系1.变量间的线性关系会隐蔽变量的显著性2.也会增加参数估计的方差3.产生不稳定的模型只有拟合多元回归才会发生这一问题共线性的诊断可使用方差膨胀因子、条件指数和方差比例18第18页,共20页。回归诊断共线性诊断-VIF方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度量r2rTOL111VIFrR独立时系数方差系数方差Rr2 是Xr关于模型中其它独立变量回归的R2一般采用 VIF 10 表明存在共线性问题Proc REG 的Model语句加选项 VIF19第19页,共20页。回归诊断共线性诊断-条件指数和方差比例条件指数(condition index)和方差比例(variance proportion)联合使用可确认存在线性关系的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论