第七章 回归分析(一)_第1页
第七章 回归分析(一)_第2页
第七章 回归分析(一)_第3页
第七章 回归分析(一)_第4页
第七章 回归分析(一)_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第七章 回归分析 第一节 相关分析 第二节 一元线性回归 第三节 多元线性回归 第四节 回归诊断2第一节 相关分析 两变量相关分析的基本思想运用数学方法研究两个变量之间的密切程度。 相关分析统计量1. Pearson相关系数(线性相关程度)2. Spearman和Kendall相关系数 当数据不满足正态分布的条件时用3.偏相关系数3第一节 相关分析一、用insight制作散点图和计算相关系数(一)散点图 制作数据集class中变量weight和height的散点图。1、analyze = scatter plot2、weight = Y,height = X 3、OK(edit = wind

2、ows = tools)4第一节 相关分析制作散点图矩阵 若要考察多个变量之间的联系,制作它们间的散点图阵是有用的。例如要建立数据集salary中变量salary、salbegin、age、prevexp间的散点图。选:1、analyze = scatter plot (Y X)2、将 salary、salbegin、age、prevexp =Y salary、salbegin、age、prevexp =X3、OK5第一节 相关分析 (二)计算相关系数1、analyze = multivariate(Y)2、 educ、jobcat、salbegin、age、prevexp =Y salary

3、、salbegin =X3、OK 为了得到检验相关系数是否为零的原假设的p值,可选:tables = corr p-values6第一节 相关分析 对数据集salary中的已经计算相关的变量生成95%预测值置信椭圆。选:curves = confidence ellipse = prediction:95%结果显示,椭圆被拉得越长相关性越强。7第一节 相关分析偏相关系数的计算1、analyze = multivariate(Y)2、 educ、jobcat=partial, salary =X salbegin=Y3、OK8第一节 相关分析 二、用分析员应用计算相关系数 statistics

4、= descriptive = correlations9第一节 相关分析 三、用编程计算相关系数(一)散点图gplot过程一般格式: proc gplot data=数据集; plot 纵轴变量名*横轴变量名; symbol v=符号 cv= 颜色 h=点大小; run;10第一节 相关分析 Proc gplot data=salary ; plot salary*salbegin; symbol v=dot cv=green h=2; run;11第一节 相关分析用编程计算相关系数常使用过程corr。它的最简单用法为: proc corr data=数据集; var 变量名列; run;1

5、2第一节 相关分析 例如对数据集salary计算变量相关系数,可提交以下程序: proc corr data=salary; var educ jobcat salbegin age prevexp salary salbegin ; run; 默认计算pearson相关系数. Spearman和kendall相关直接在corr过程中加上关键词spearman和kendall即可。13第一节 相关分析 若关心一些变量和另一些不同的变量间的相关系数,则可用语句with规定另一组变量,程序会提供有var和with设定的两组变量间的相关系数。提交以下程序: proc corr data=salary

6、; var educ jobcat salbegin age prevexp ; with salary salbegin ; run;14第一节 相关分析偏相关系数计算partial 语句 proc corr data=salary; var salary salbegin; partial educ jobcat ; run;15第二节 一元线性回归一、概述一元线性回归模型一元线性回归模型 参数估计方法参数估计方法 最小二乘法01Ybb x16第二节 一元线性回归的理论假定:的理论假定:服从正态分布服从正态分布的数学期望的数学期望E( )0的方差相同,的方差相同,22221ji值相互独立值

7、相互独立)( , 0),cov(jiji), 0(2N17第二节 一元线性回归 二、用insight拟和简单线性回归例h107:有某大学一年级12名女大学生的体重kg(x)与肺活量L(y)数据。试做肺活量对体重的直线回归分析。 具体步骤: 1、analyze=fit(Y X) 2、y=Y 3、x=X 4、OK18第二节 一元线性回归产生预测值 根据拟和出来的回归直线,预测体重为45kg,55kg,65kg的肺活量预测值。具体步骤(接上述操作之后):1、回到数据表并移到表的底部2、在x列最后填入45,55,65。每填完一个数据按回车键。3、系统会自动地按拟和的回归方程计算肺活量的预测值并将结果显

8、示在p_y列之中。19第二节 一元线性回归回归与预测值的置信区间 若得到回归函数值的置信带,可在回归拟和结果的窗口的下拉菜单中选:1、curves=cofidence curves2、means:95% 若需要加入表示预测值的置信上下限的曲线,则将上述第二步改为:2、prediction:95%20第二节 一元线性回归 三、用分析员应用拟和简单线性回归 可在读入数据集后在下拉菜单选:1、statistics=regression=linear2、x=explanatory,y=dependent。3、ok.21第二节 一元线性回归 四、用编程拟合简单线性回归 在sas/stat中有许多具有回归

9、分析功能的过程,功能最为全面的是过程“reg”,它的最简单用法是: proc reg data=数据集; model 因变量名=自变量名; run;22第二节 一元线性回归 例如要用数据集h107回归,可提交一下程序: proc reg data=h107; model y=x; run;23第二节 一元线性回归预测与置信限预测与置信限 若要利用拟合的回归方程对原数据集h107的数据进行预测,可提交以下程序: proc reg data=h107; model y=x / p; id x; run;24第二节 一元线性回归语句说明:选项p:用于预测的选项Id语句:要求输出结果时增加变量x作为标

10、识变量,便于比较不同自变量和因变量的取值。25第二节 一元线性回归 若需要利用拟合的回归方程对另一些数据进行预测,例如要得到当x=60,61,63等因变量y的预测值,可用以下程序: data new; input x ; cards; 60 61 63 ; run; (接下页)26第二节 一元线性回归proc sort data=tj01.h107 out=sorted; by x; run;data new1; set sorted new;run;proc reg data=new1; model y=x / p; id x;run;27第二节 一元线性回归若需要得到预测值的置信限,可在m

11、odel语句中加入选项cli,则程序会提供对各个观测预测值的95%的置信上限和下限。例如提交以下程序: proc reg data=tj01.h107; model y=x / cli; run;28第二节 一元线性回归 回归限的作图回归限的作图过程过程reg 要对拟合回归数据制作其散点图并附加回归线通常可以有两种方式实现,一种是利用过程reg带有的作图功能,另一种是用过程gplot。29第二节 一元线性回归 为了利用过程reg制作高分辨率的图形,首先必须在proc语句中加入选项graphics。然后增加plot语句,指明作图的纵轴变量和横轴变量。plot语句的一般形式为: plot 纵轴变量

12、名*横轴变量名30第二节 一元线性回归proc reg data=h107 graphics; model y=x; plot y*x; symbol v=dot h=0.7 w=2 color=orange;run;31第二节 一元线性回归语句说明:Symbol语句:规定输出图形的形式V=:规定散点的形状H=:规定点的大小。W=:规定拟合直线的宽度Color=:规定输出图形的颜色32第二节 一元线性回归 若提交以下程序可以附加预测值和回归的置信限曲线: proc reg data=h107 graphics; model y=x; plot y*x/conf95 pred95; symbol

13、 v=star; run;选项Conf95与pred95规定输出置信限,置信水平为95%33第三节 多元线性回归一、概述1、多元线性回归模型、多元线性回归模型01 1k kY bb xb x34第三节 多元线性回归2、变量的选择、变量的选择 逐步选择方法:向前加入法(forward)、向后消去法(backward)、逐步回归法(stepwise) 全部可能回归法:R2极大法、adj-RSQ极大法、 Cp极小法。35第三节 多元线性回归3、拟合变量的多项式回归、拟合变量的多项式回归 参数的检验使用型表 4、可转换成线性模型的多元回归、可转换成线性模型的多元回归 如 可转换成:2012kkYbb

14、x b xb x11202Ze 01122log( )log()log()Z 36第三节 多元线性回归 二、用insight 拟合多元线性回归拟合多元线性回归拟合多元线性回归 以数据集salary为例,拟合salary与其他指标的多元回归。在调入数据集后选:1、analyze=fit(Y X)2、salary=Y3、其他指标变量=X4、OK。37第三节 多元线性回归剔除自变量剔除自变量 edit=delete. 所有拟合的结果就会修改为不含被剔除变量的拟合结果。38第三节 多元线性回归拟合多项式回归拟合多项式回归 例如数据集paper记录了使用不同量添加剂后纸张强度的数据。变量amount表示

15、添加剂数量,strength表示强度。为了找到强度与添加剂的经验公式,可以探索拟合strength关于amount的多项式回归。为此在调入数据集后可在下拉菜单选:39第三节 多元线性回归1、analyze=fit(Y X)2、strength=Y3、为了拟合自变量的四次多项式,点击intercept使之增为4。4、amount=expand5、OK40第三节 多元线性回归结果分析:1、在显示的散点图中缺省地拟合了线形回归,只需要调节parametric regression fit表的滚动条,即可拟合非线性回归曲线。2、为了确定拟合多项式的合适的次数,型表方差分解检验提供的信息都是不合用的,因

16、为它们都是在其它因素加入的前提下检验某个自变量的显著性。这里只能利用型表,可在下拉菜单选: tables=type / (LR)tests 通过型表分析参数p值。拟合三次项多项式较合适。41第三节 多元线性回归 三、用分析员应用拟合多元线性回归 以数据集salary为例,拟合salary与其他指标的多元回归。在调入数据集后选:1、statistics=regression=linear2、salary=dependent3、 自变量=explanatory4、ok。42第三节 多元线性回归 四、用编程拟合多元线性回归基本用法基本用法 使用编程拟合多元线性回归与拟合简单线性回归是类似的,同样使用

17、reg过程。以数据集salary为例,若要拟合salary关于其它变量的线性回归。可使用以下程序:43第三节 多元线性回归proc reg data=salary; model salary=educ jobcat salbegin jobtime prevexp; run;44第三节 多元线性回归模型的自动选择模型的自动选择 若希望有程序自动地进行变量的选择,则可在model语句中加入选项selection=,它的一般用法为:selection=none|forward|backward|stepwise|rsquare|cp| adjrsq45第三节 多元线性回归以下是逐步回归选择方法的一

18、段程序: proc reg data=salary; model salary=educ jobcat salbegin jobtime prevexp /selection=stepwise; run;46第三节 多元线性回归 在向前、向后或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,在程序中是分别由model语句的选项slentry=和slstay=设定的,缺省的情况时:forwardBackwardstepwiseSlentry0.500.15Slstay0.100.1547第三节 多元线性回归以下是提供全部可能回归的程序,并用R2排序: proc reg data

19、=salary; model salary=educ jobcat salbegin jobtime prevexp /selection=rsquare b; run; 上述程序中model语句的选项b是表示要输出每种回归的回归系数。如果加上选项best=n,则只显示每种回归的最优的n个方程。48第三节 多元线性回归 拟合多项式回归拟合多项式回归 以数据集paper为例,要拟合变量strength关于amount的多项式回归。可以先用数据步生成amount幂次的变量。以下就是拟合三次多项式的程序:49第三节 多元线性回归 data tem; set sasuser.paper; a2=amo

20、unt*amount; a3=a2*amount; a4=a3*amount; run; proc glm data=tem; model strength=amount a2 a3 a4/ss1; run;50第四节 回归诊断一、概述 前面介绍的回归拟合都是在一定的假定下才成立的,当某些假定不成立时,如何来处理数据,这些要进行回归诊断,常做的内容包括以下几方面: 察看数据中相对拟合的模型是否有例外数据点和对确定模型影响特别大的数据点。 误差项的方差是否齐性 自变量的多重共线性 自相关51第四节 回归诊断 考察余差考察余差ikkiiiiiixbxbxbbYYYe2211052第四节 回归诊断识

21、别有影响的观测识别有影响的观测DFFITS统计量一般建议的判别标准是当(k为进入回归的自变量的个数),该观测应作为对回归有较大影响的观测加以关注。Cook D统计量一般建议的判别标准是当 该观测应作为对回归有较大影响的观测加以关注。nkDFFITSi/ ) 1(2|nDi/4|53第四节 回归诊断 共线性诊断共线性诊断1、方差膨胀因子(VIF)一般建议,若VIF10,表明模型中有很强的共线性问题。54第四节 回归诊断2、条件指数 在10-30间为弱相关 在30-100间为中等相关 大于100表明有强相关一般建议,大的条件指数伴随着一个变量超过0.5的方差比例,就可以认为该自变量有共线性问题存在

22、,并由此选定相关的变量集。55第四节 回归诊断 二、用INSIGHT作回归诊断考察余差 要从余差考察是否满足等方差的假定或者模型是否合适,最好的方法是直接考察余差的散点图。使用INSIGHT的fit(Y X)拟合线性回归时缺省地会提供余差-预测值的散点图。56第四节 回归诊断 以数据集fitness为例,先拟合oxygen与其他6个变量(除group)的线性回归。这时数据表中变量R_oxygen就是预测的余差。为了得到标准化的余差,可在显示拟合结果的窗口的环境中选: var=standardized residual57第四节 回归诊断 一般认为,标准化余差绝对值超过2者可进一步考察它是否为例

23、外的数据,为此挑出这些数据:1、edit=variables=others2、在transformation栏里选abs(Y),将RS_oxygen选入Y3、OK58第四节 回归诊断 随即在数据表中生成A_ RS_oxygen,它就是标准化余差的绝对值。再在下拉菜单用 edit=observation=find 可将全部标准化余差绝对值大于2的观测挑出来。59第四节 回归诊断 检测观测对回归的影响Cook D 仍用数据集fitness,可在显示拟合结果的窗口的下拉菜单选: var=Cook D此时在数据集中加入了一列D_oxygen。 Cook D统计量大于4/n表明是一个有影响的观测。60第四节 回归诊断 在这里n=31。所以要确认Cook D统计量是否大于4/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论