SAS 逐步回归课件_第1页
SAS 逐步回归课件_第2页
SAS 逐步回归课件_第3页
SAS 逐步回归课件_第4页
SAS 逐步回归课件_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SAS-逐步回归

南京医科大学流行病与卫生统计学系柏建岭1SAS逐步回归reg过程reg过程是专门用于回归分析的SAS过程,可提供绝大多数常用的线性回归分析功能;reg过程只是SAS中众多关于回归的过程之一,它适用于通常意义上的回归分析;reg过程可提供多达九种模型选择方法;可执行有关线性假设和多元假设的假设检验;可执行共线性诊断的功能;可计算预测值、残差、学生化残差、可信区间以及影响度等统计量;reg过程具有统计绘图功能。2SAS逐步回归reg过程可包含的语句PROCREG<options>;<label:>MODELdependents=<regressors></options>;BYvariables;FREQvariable;IDvariables;VARvariables;WEIGHTvariable;<label:>MTEST<equation,...,equation></options>;OUTPUT<OUT=SAS-data-set>keyword=names<...keyword=names>;PLOT<yvar*xvar><=symbol><...yvar*xvar><=symbol></options>;PRINT<options><ANOVA><MODELDATA>;<label:>TESTequation,<,...,equation></option>;RUN;3SAS逐步回归procreg语句procreg语句用于调用reg过程。其中的语句选项较多,功能复杂;此处的选项将会对同一reg过程步中所有的model语句发生作用。procreg语句的主要选项及其功能和用法见下表。4SAS逐步回归procreg语句的主要选项选项功能和用法alpha=为当前过程步中所创建的各种可信区间指定其置信水平(除某些语句中另外设置了置信水平者外)。须设置为0~1之间的值,默认值为0.05。corr给出有关model语句和var语句中的所有变量的相关矩阵。outest=将参数估计值以及模型拟合过程的相应统计量(可选)输出到所指定的数据集中。ridge=须设置为一个非负数所组成的列表(或单个数值),以列表中的每一个数值作为岭常数K进行岭回归分析,并将每一次岭回归分析所得的参数估计值输出到“outest=”选项所指定的输出数据集中。输出数据集中岭常数K存储在变量“_RIDGE_”下,相应估计值所对应的“_TYPE_”变量值为“RIDGE”。设置此选项时,restrict语句将被忽略。simple将reg过程中所用到的变量的合计值、均数、方差、标准差以及未校正的离均差平方和等在结果中显示。tableout将参数估计值的标准误、可信区间、t值(针对参数为零的检验假设)以及相应的P值输出到“outest=”选项所指定的输出数据集中。5SAS逐步回归model语句语句形式:

<label:>MODELdependents=<regressors></options>;用来对所要拟合的回归模型进行定义;“label”项代表所定义模型的标签,用来对当前model语句所定义的模型进行标识;以等号相连的两段内容为模型表达式,用来定义所要拟合的回归模型;可设置众多的选项,其中相当一部分和procreg语句的选项相同,功能也基本相似,只是作用的范围有所不同。6SAS逐步回归model语句选项(1)选项功能和用法selection=指定模型选择的方法,可以是前进法(forward)、后退法(backward)、逐步法(stepwise)等九种方法。best=在模型选择方法为RSQUARE、ADJRSQ或CP时使用。当模型选择方法为ADJRSQ或CP时,此选项用来指定最佳模型的最大个数;当模型选择方法为RSQUARE时,此选项用来为每一种大小的模型指定其最佳模型的最大个数。这些最佳模型将在结果中显示或输出到“outest=”选项所指定数据集中。include=要求在变量筛选时必须将model语句中所列自变量中的前n个包括在模型中,变量筛选过程仅在剩余的自变量中进行。当模型选择方法为NONE时此选项无效。maxstep=须设置为正整数。在模型选择方法为FORWARD、BACKWARD或STEPWISE时,用来指定进行变量筛选的最大步数。对于FORWARD或BACKWARD方法,此选项的默认值为模型中所包含的自变量个数,而对于STEPWISE方法,此默认值为上述默认值的三倍。noint要求模型拟合时不包含截距项。slentry=当模型选择方法为FORWARD或STEPWISE时,用来指定变量的入选标准(变量进入模型所需达到的显著性水平),对于FORWARD法默认值为0.5,对于STEPWISE法默认值则为0.15。slstay=当模型选择方法为BACKWARD或STEPWISE时,用来指定变量的剔除标准(模型中的变量剔除出模型所需达到的显著性水平),对于BACKWARD法默认值为0.1,STEPWISE法默认值则为0.15。7SAS逐步回归model语句选项(2)选项功能和用法start=须设置为“start=s”的形式(s须为正整数)。在模型选择方法为MAXR、MINR或STEPWISE等方法(须进行模型的比较和自变量的替换过程)时,要求最初的模型中包括model语句中的前s个自变量,此时默认值为0。当模型选择方法为RSQUARE、ADJRSQ或CP等方法时,此选项的功能是要求给出的模型子集中每个模型的自变量个数应至少为s个,此时默认值为1。对于不在上述方法之列的模型选择方法,此选项将无效。stop=须设置为“stop=s”的形式(s须为正整数)。在模型选择方法为MAXR或MINR方法时,限定最终的模型中最多可包含的自变量个数为s个。当模型选择方法为RSQUARE、ADJRSQ或CP等方法时,此选项的功能是要求给出的模型子集中每个模型的自变量个数应最多为s个。此选项的默认值为model语句中包含的自变量个数。对于不在上述方法之列的模型选择方法,此选项将无效。adjrsq对于每一个所选择的模型计算其自由度校正的R2。aic对于每一个所选择的模型计算其AIC(Akaike'sinformationcriterion)统计量。b当模型选择方法为RSQUARE、ADJRSQ或CP等方法时,对于每一个所选择的模型计算其回归系数。bic对于每一个所选择的模型计算其BIC(Sawa'sBayesianinformationcriterion)统计量。cp对于每一个所选择的模型计算其Mallow’sCp统计量。stb给出标准化回归系数。标准化回归系数的计算方法是令回归系数除以应变量的样本标准差和自变量的样本标准差之比。clb给出参数估计值的可信区间。cli给出单个预测值的可信区间。clm给出每条观测(即固定了自变量的情况)下应变量期望值(均数)的可信区间。partial针对每一个自变量(包括截距项)绘制其对应变量的偏回归杠杆图。r进行残差分析并给出分析结果。8SAS逐步回归plot语句语句形式:

plot<yvar*xvar><=symbol><...yvar*xvar><=symbol></options>;plot语句用来对指定的变量绘制散点图;“yvar*xvar<=symbol>”为图形表达式,用来对所绘制的散点图进行定义;同一plot语句中可以指定多个图形表达式,从而同时绘制多个散点图;用来绘制散点图的变量,应是model语句或var语句中使用的变量,另外还可使用某些统计量或特定的系统变量(专门针对回归模型者)。9SAS逐步回归九种模型

none(全回归模型)。不对回归变量进行筛选,建立与全部自变量的全回归模型。forward(前进法)。前进法以模型中没有变量开始,对每个自变量,forward计算反映自变量对模型的贡献的F

统计量。这些F

统计量与model语句中给出的slentry=水平上的值相比较,如果F

统计量的显著水平没有一个比slentry=水平上(如果缺省slentry=这个参数,则显著水平假设为0.50)的值大,则forward停止。否则,forward在模型中加入具有最大F

统计量的变量,然后forward再计算这些变量的F统计量直到剩下的变量都在模型的外面,再重复估计过程。变量就这样一个接一个地进入模型直到剩下的变量没有一个可以产生显著的F统计量。一旦一个变量进入了模型,它就不再出去了。10SAS逐步回归九种模型backward(后退法)后退法以计算含有全部自变量的模型的统计量为开始。然后变量一个接一个地从模型中剔除,直到留在模型中的所有变量产生的F统计量的显著水平在slstay=水平上(如果缺省slstay=这个参数,则显著水平假设为0.10)。在每一步,剔除对模型贡献最小的变量。stepwise(逐步回归,向前且向后)逐步方法是向前选择的修正。对已在模型中的变量,不一定必须一直在模型中,这点与前进法是不同的。stepwise按照前进法选入变量后,还考察模型中所包含的所有变量并剔除使得F统计量的显著水平不在slstay=水平上的变量。只有在完成检验和必要的剔除之后,其他变量才可再进入模型。当模型外的变量没有一个使F统计量在slentry=水平上显著且模型中的每个变量在slstay=水平上显著,或加到模型中的变量是刚刚剔除的变量时候,逐步处理便结束了。11SAS逐步回归九种模型maxr(最大R2

法)。最大R2

法是占优势的逐步技术,它几乎与所有可能的回归一样好。不像上面三种技术,这个方法不是落在单个模型上,而是试着找出最佳一变量模型、最佳二变量模型等等。

maxr方法先找出一个产生最大R2值的变量,然后再加入另一个次最大R2值的变量,从而形成二变量的模型。形成二变量的模型之后,将模型中的变量与模型外的变量相比较,以决定是否移去一个变量而以另一个能生成更大R2

值的变量来代替。全部比较结束后,便得到了最佳二变量模型。依次往下,便得到最佳三变量模型等等。12SAS逐步回归九种模型minr(最小R2

增量法)

按给定样本的R2大小准则选择最优的自变量子集,但不能保证对总体或其他样本而言是最优的。用户可以规定出现在子集中自变量的最大和最小个数及被选择的每种子集的个数。R2选择法总能够对所考虑变量的每种变量个数找到具有最大R2的模型,但需要很多的计算时间。rsquare(R2选择法)。最小R2增量法非常类似于maxr,只是选择准则为产生最小R2增量。对模型中一个已知的变量数,maxr和minr通常产生同样的“最佳”模型,但是minr在每步中考虑较多的模型。13SAS逐步回归九种模型adjrsq(调正R2选择法)该方法类似于rsquare法,只是对于选择模型使用的准则为调正R2统计量。Mallows的Cp统计量Cp统计量是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度:14SAS逐步回归bestBest=值——在模型选择方法为RSQUARE、ADJRSQ或CP时使用。当模型选择方法为ADJRSQ或CP时,此选项用来指定最佳模型的最大个数;当模型选择方法为RSQUARE时,此选项用来为每一种大小的模型指定其最佳模型的最大个数。这些最佳模型将在结果中显示或输出到“outest=”选项所指定数据集中。15SAS逐步回归slentry和slstay

slentry=值——指前进和逐步法中选择变量进入模型的显著水平。如果省略,那么stepwise过程便对向前选择技术置slentry=0.5,对逐步法置slentry=0.15。slstay=值——指后退与逐步法中变量留在模型里的显著水平。如果省略,则逐步法用0.15,后退法用0.10。16SAS逐步回归slentry和slstayforwardbackwardstepwiseslentry0.500.15slstay0.100.1517SAS逐步回归includestartstopinclude=n——强迫头n

个因变量总是在模型中。选择技术由model语句中其他变量来完成。start=s——以含有model语句中头s个自变量的模型为开始,进行比较、选择过程。理所当然地,没有一个被估计的模型含有不足s个的变量。此仅应用于maxr或minr模型。

stop=s——当它找到“最佳”s变量模型之后,stepwise便停止。其中s是stop的值,此仅应用于maxr或minr模型。18SAS逐步回归testtest语句用于对有关模型参数的假设进行检验,其中的参数来自test语句前最近的一条model语句所定义的模型。modely=x1x2x3x4;testx1,x2=x3;变量X1的系数b1等于0变量X2的系数等于变量X3的系数19SAS逐步回归restrictrestrict语句用于对模型参数的估计设置限定条件。restrictintercept=0X2-X3=0

每增加一个限制条件,模型的自由度就会减少1,此时限制条件的自由度显示为-1。20SAS逐步回归SAS语句proc

reg;modely=x1x2x3x4/selection=rsquareadjrsqMSECPAIC;run;21SAS逐步回归SAS结果22SAS逐步回归SAS语句proc

reg;modely=x1x2x3x4/selection=rsquarebest=6;run;proc

reg;modely=x1x2x3x4/selection=rsquarebest=4;run;23SAS逐步回归SAS语句Best=6Best=424SAS逐步回归SAS语句proc

reg;modely=x1x2x3x4/selection=adjrsqbest=6;run;proc

reg;modely=x1x2x3x4/selection=adjrsqbest=4;run;25SAS逐步回归SAS结果Best=6Best=426SAS逐步回归SAS语句proc

reg;modely=x1x2x3x4/selection=stepwiseSLE=0.15SLS=0.14

details;run;27SAS逐步回归岭回归NO.身长(cm)头围(cm)体重(g)胎儿受精龄(周)x1x2x3Y113.09.25013218.713.210214321.014.815015419.013.311016522.816.020017626.018.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论