北大光华陈奇志老师saS_第1页
北大光华陈奇志老师saS_第2页
北大光华陈奇志老师saS_第3页
北大光华陈奇志老师saS_第4页
北大光华陈奇志老师saS_第5页
已阅读5页,还剩157页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1七、SAS系统

与回归分析计算机统计分析软件(SAS系统9.1.2)

北大光华陈奇志老师saS共164页,您现在浏览的是第1页!2SAS与回归分析目录1.

相关分析2.

一元线性回归分析3.

多元线性回归分析4.

变量选择5.

非线性回归(可化为线性)6.

回归诊断北大光华陈奇志老师saS共164页,您现在浏览的是第2页!3SAS与回归分析

回归分析是处理多个变量间相关关系的一种数学方法.

变量间的关系有两种类型:确定性的函数关系和相关关系.回归分析方法是处理变量间相关关系的有力工具.

回归分析用于确定一个连续变量(因变量)与另一些连续变量(自变量)间的相互依赖关系.北大光华陈奇志老师saS共164页,您现在浏览的是第3页!4相关分析

散点图及变量的相关关系中学生身高与体重数据的散点图(用INSIGHT绘制..红色为男生,兰色为女生.不同符号表示不同的年龄):北大光华陈奇志老师saS共164页,您现在浏览的是第4页!5相关分析

相关关系的类型

上述四幅图分别说明了以下几种可能的关系:

1、可用直线描述变量间的关系(变量间联系中最简单的一种);

2、显示变量间有曲线关系;

3、可能有季节性的周期变化(在受季节影响的经济指标中常会遇到);

4、变量间无明显的关系.北大光华陈奇志老师saS共164页,您现在浏览的是第5页!6相关分析

相关系数

两个区间型变量间的关系有很多种可能,在考察散点图后,可用相关统计量将两个变量的关系定量化.若两个变量间存在一个线性关系,则他们为相关的,否则,变量间的相关是不强的.

相关系数是描述变量间线性联系程度的一个统计量,统计中有多个描述相关的指标,最常用的是Pearson相关系数,简称相关系数.

北大光华陈奇志老师saS共164页,您现在浏览的是第6页!7相关分析

相关系数(CorrelationCoef.)正相关:一个变量数值增加时另一个变量也增加负相关:一个变量数值增加时另一个变量减少北大光华陈奇志老师saS共164页,您现在浏览的是第7页!8相关分析用Insight计算相关系数

为了得到检验相关系数是否为零的原假设的p值,可选:

表(Tables)→相关系数P值(CORRP-Values);则在输出结果的窗口下方又增加一张相关系数的P值表.根据表中这些p-值可知,只有RPM和MIDPRICE之间的p值(0.5518)大于0.05,这表示不能拒绝这两个变量的相关系数等于零的假设,即可接受RPM和MIDPRICE之间的相关系数等于零.

其余变量间的相关系数均显著地不等于零.北大光华陈奇志老师saS共164页,您现在浏览的是第8页!9相关分析用Insight制作散点图矩阵及置信椭圆

预测值的置信椭圆可以说明以下两方面问题:

(1)作为置信域,在变量为两元正态分布的假定下,置信椭圆显示数据以设定的百分率落入的区域,落入预测置信椭圆的观测值的百分率应该接近于设定的置信水平;

(2)作为相关的指标。若两个变量不相关,椭圆应该为圆;两个变量相关性越强,则椭圆越扁(即椭圆拉长),可以用椭圆长短轴之比来衡量相关的程度.北大光华陈奇志老师saS共164页,您现在浏览的是第9页!10相关分析用分析员应用计算相关系数

1、在分析员应用中打开数据集FITNESS;2、选统计→描述统计→相关,在弹出的相关窗口选中OXYGEN、RSTPULSE、RUNPULSE和RUNTIME→确定(OK);则显示这几个变量的相关系数阵及相应的p值.

3、若要制作散点图和置信椭圆,可在相关窗口选中变量后点击Plot键进行选择,

→确定(OK);输出的结果中给出逐对变量的散点图和置信椭圆(没有生成散布图阵).

北大光华陈奇志老师saS共164页,您现在浏览的是第10页!11相关分析

绘制散点图—PLOT和GPLOT过程

散点图是直观地观察连续变化变量间相依关系的重要工具。利用编程可绘制两个变量的散点图。Symbolv=starcv=red;procgplotdata=class;

plotweight*height;Run;或(reg11.sas)procplotdata=class;

plotweight*height=‘*’;Run;北大光华陈奇志老师saS共164页,您现在浏览的是第11页!12相关分析

相关与回归强相关并不表示一定存在因果关系;弱相关并不表示变量间不存在关系;个别极端数据可能影响相关系数.北大光华陈奇志老师saS共164页,您现在浏览的是第12页!13相关分析

本节的练习题

对学生数据(CLASS),用SAS菜单系统及编程完成以下练习:(1)计算AGE,WEIGHT,HEIGHT的相关系数

(2)绘制AGE,WEIGHT,HEIGHT的散布图阵,并对预测均值附加85%的置信椭园.(3)用SAS/INSIGHT绘制WEIGHT与HEIGHT的散布图(男女用不同颜色,不同年龄用不同的符号表示).

北大光华陈奇志老师saS共164页,您现在浏览的是第13页!14一元线性回归分析简单线性回归模型

因变量Y和自变量x的n次观测数据(xi,Yi)可以用以下方程表示:

Yi=0+1

xi+

i(i=1,2,...,n)

Yi:因变量的第

i

次观测值;

xi:

自变量的第i次观测值;

b0,b1:

待估计的未知参数.

0是截距参数,它对应自变量为0时因变量的均值;

1是斜率参数,它对应自变量改变一个单位时因变量均值的改变量;北大光华陈奇志老师saS共164页,您现在浏览的是第14页!15一元线性回归分析

线性回归的拟合北大光华陈奇志老师saS共164页,您现在浏览的是第15页!16一元线性回归分析

线性回归的拟合--最小二乘法估计(LSE)^北大光华陈奇志老师saS共164页,您现在浏览的是第16页!17一元线性回归分析

回归的方差分解自变量(x)因变量(Y)北大光华陈奇志老师saS共164页,您现在浏览的是第17页!18一元线性回归分析简单线性回归分析--模型检验的假设

模型检验的假设为:

H0:1=0,H1:1

≠0;

检验结果若拒绝原假设就表示回归方程的作用是显著的;接受原假设就表示所考虑的自变量X对因变量Y的回归作用并不显著.

基线模型:Yi=+ei原假设:简单线性回归模型拟合数据不比基线模型好;备选假设:简单线性回归模型拟合数据比基线模型好.

北大光华陈奇志老师saS共164页,您现在浏览的是第18页!19一元线性回归分析

回归统计量--预测值与置信限北大光华陈奇志老师saS共164页,您现在浏览的是第19页!20一元线性回归分析

一元线性回归的例子—用编程和INSIGHT

例2.1:讨论英国11年有执照汽车数x(万辆)与车祸次数Y(千次)的相关关系(数据见DATA步的数据行),并进行预测.

解:(1)用编程,首先生成SAS数据集dreg21.datadreg21;

inputyearyx@@;

cards;19471663521948153373194917741119502014411951216462195220849019532275291954238577195526864119562686921957274743;(reg21.sas)北大光华陈奇志老师saS共164页,您现在浏览的是第20页!21一元线性回归分析

一元线性回归的计算--SAS/INSIGHT(例子)

计算预测值:在数据表底部自变量栏键入数据(x=1000,800),即得到相应的预测值;

计算回归均值和预测值的置信区间:曲线(Curves)=>置信曲线(CofidenceCurves…)=>均值(mean):=>95%

=>

预测

(Predction):=>90%

⑥*

Noint:强制截距为零.在拟合窗口中间若选中截距(这是默认的情况),回归模型中包含截距项.若不选中截距,即强制截距为零.此例应选中截距.北大光华陈奇志老师saS共164页,您现在浏览的是第21页!22一元线性回归分析

广义线性模型(GENMOD)简介

广义线性模型(GENMOD)是传统线性模型的推广.传统线性模型的因变量Y是数值变量(连续变量),假定:

E(Y)=b0+b1x1+...+bpxp,因变量和自变量的n次观测值满足:

i=

E(

Yi)

=b0+b1xi1+...+bpxip,(i=1,...,n).推广后允许因变量Y或是连续型变量,或是属性变量(如比例变量,或计数变量等),且假定:

g(i)

=b0+b1xi1+...+bpxip,(i=1,...,n)其中g()是一个单调可微的函数—称为连接函数(或关联函数).北大光华陈奇志老师saS共164页,您现在浏览的是第22页!23一元线性回归分析

广义线性模型(GENMOD)简介

传统线性回归模型包括多元线性回归模型,方差分析模型,协方差分析模型等.这些是应用最广泛的一些分析方法.

当使用菜单系统INSIGHT进行计算时,由菜单项拟合(YX)可以完成广义线性模型的所有功能:

只须从拟合窗口下方按方法键,并根据不同模型选择不同的关联函数,响应分布等,即可建立广义线性模型的所包括的各种模型.

缺省时建立的模型就是传统的线性模型.北大光华陈奇志老师saS共164页,您现在浏览的是第23页!24一元线性回归分析

一元线性回归的计算--例子procregdata=fitness;modeloxygen=runtime;run;procregdata=fitness;modeloxygen=runtime/pcliclm;idruntime;outputout=outfitp=poxyr=roxyl95=l95oxyu95=u95oxy;run;(reg22.sas或reg22b.sas)北大光华陈奇志老师saS共164页,您现在浏览的是第24页!25一元线性回归分析

回归线作图--用REG中的PLOT语句PROCREGDATA=数据集名

noprint;

MODEL应变量=自变量/pcliclmr;

PLOT

y变量*x变量/选项;symboln

c=颜色

v=值;

RUN;(Reg23.sas或Reg23B.sas)y变量和x变量可以是因变量、

自变量和其它与回归分析结果有关的变量:p.(predicted)

预测值r.(residual)

残差U95.,L95.

预测值置信限

U95M.,L95M.预测均值置信限选项:conf95---作预测均值的置信曲线pred95---作预测值的

置信曲线overlay---将语句中规定的图迭置在一幅图上AICCPMSESSE--

在图形左边显示相应的统计量北大光华陈奇志老师saS共164页,您现在浏览的是第25页!26一元线性回归分析

回归线作图--例子symbol1value=starci=bluecv=redi=rlclm95width=2;procgplotdata=dreg21;ploty*x;title2‘Y对x的回归线及均值的95%置信限';run;(REG24.sas或Reg24B.sas)(i=rlclm95

表示绘制线性回归预测均值的95%置信限)北大光华陈奇志老师saS共164页,您现在浏览的是第26页!27一元线性回归分析

本节的练习题

2.对不同类型汽车的价格和性能的数据(DST.CARS)用SAS菜单系统及编程完成以下练习:(1)建立MIDPRICE(中间价)与PERFORM(使用效率--性能)回归关系式,并给出回归系数的检验结果.(2)给出当PERFORM=0.03,0.04,0.05和0.06时,中间价的预测值及线性回归预测均值的90%置信区间.(3)绘制MIDPRICE(中间价)对PERFORM(性能)的散点图,回归线及均值的95%的置信限.

北大光华陈奇志老师saS共164页,您现在浏览的是第27页!28多元线性回归分析

多元线性回归模型多元线性回归模型:

Yi=b0+b1xi1+...+bpxip+ei,i=1,...,nei:相互独立、正态分布、同方差、零均值.用最小二乘准则估计b0,b1,...,bp,使得:通过求解b0,b1,...,bp

的一个线性方程组(正规方程)可得参数的估计.北大光华陈奇志老师saS共164页,您现在浏览的是第28页!29多元线性回归分析

最小二乘法和平方和分解=H阵北大光华陈奇志老师saS共164页,您现在浏览的是第29页!30多元线性回归分析

回归方程的显著性检验

求得回归方程后,此方程是否有意义?首先应检验以下假设:

H0:b1=b2=….=bm=0使用的方法仍是方差分析法.从分析引起Yt(t=1,…,n)变化的总变差TotalSS的原因入手.显然使得Y变化的原因有二个:,因Y与xi(i=1,…,m)线性相关,由xi的变化引起Y的变化;第二,其它因素或误差引起的.若Y的变化主要是由xi的变化引起的,则模型中的自变量xi的系数βi≠0.用方差分析的思想,把yt(t=1,…,n)的总变差进行分解:

TotalSS=ModelSS+ErrorSS北大光华陈奇志老师saS共164页,您现在浏览的是第30页!31多元线性回归分析

回归系数的显著性检验

对回归方程的显著性检验,若否定H0,仅表示β1,β2,…,βm不全为0,但并不排除有个别βi为0。若βi=0,说明自变量xi对因变量Y的影响不明显,应从回归模型中删除。因此对回归系数βi(i=1,2,…,m)是否为0逐个进行检验是很必要的。即检验以下的假设:

H(i)

:βi=0(i=1,2,…,m)类似地,可构造检验以上假设的检验统计量T,并由n组观测计算T值和显著性概率(p值)。从而对H(i)

是否成立进行统计推断。北大光华陈奇志老师saS共164页,您现在浏览的是第31页!32多元线性回归分析

回归分析的例子(REG)

例3.1

使用SAS/STAT软件中提供的回归过程REG和SAS菜单系统“分析员应用”来分析FITNESS数据集,并建立肺活量与其它指标的经验公式。

(1)用REG过程来建立经验公式。一般先用DATA步创建SAS数据集.因该数据集已存放在SASUSER或DST数据库里,直接调用即可.

然后用PLOT过程画OXYGEN随RUNTIME变化的散布图:

procplotdata=fitness;

plotoxygen*runtime=′*′;

title“肺活量与1.5英里跑时间的散布图”;run;

北大光华陈奇志老师saS共164页,您现在浏览的是第32页!33多元线性回归分析

回归分析的例子(分析员应用)

用SAS菜单系统进行回归计算.首先启动“分析员应用”,并打开SAS数据集FITNESS.进行多元线性回归分析的步骤如下:①在“分析员应用”菜单栏目中选择

统计(Statistics)=>

回归(Regressi)=>线性(Linear)….②在弹出的线性回归主窗口中选择因变量和自变量:OXYGEN=>Dependent,AGE,…,MAXPULSE=>Explanatory.③在线性回归主窗口的下方有几个键:

北大光华陈奇志老师saS共164页,您现在浏览的是第33页!34多元线性回归分析

回归分析的例子(分析员应用)按Plots键在弹出的“线性回归:Plots”窗口中选择绘制因变量的观测值对预测值的散布图(plotobservervspredicted)=>OK。④将要求绘图、分析计算的项选择完毕后,从相应窗口按OK键返回到线性回归的主窗口=>OK,系统将按用户的要求进行分析计算。⑤查看输出结果,从“分析员应用”的数据窗口左边的树状表可以选择你想查看的各类计算结果。北大光华陈奇志老师saS共164页,您现在浏览的是第34页!35多元线性回归分析用Insight拟合多元线性回归

(1)分析(Analyze)→拟合(Fit)(YX),选OXYGEN→Y;

(2)按下Ctrl,并点击在变量表中同时选中age、weight、rstpulse、runpulse、maxpulse和runtime→X,→OK;拟合窗即显示拟合多元回归的的有关信息,前两张表包含模型和方程的信息;

北大光华陈奇志老师saS共164页,您现在浏览的是第35页!36多元线性回归分析用Insight拟合多元线性回归

第四张方差分析表中,看到p值0.0001,拒绝原假设(H0:b1=b2=….=bm=0),并可作出至少有一个回归系数显著不为零的结论.这表示所考虑的多元回归模型是显著的.

北大光华陈奇志老师saS共164页,您现在浏览的是第36页!37多元线性回归分析用Insight拟合多元线性回归

参数估计表也给出了参数的估计值,并给出回归系数的显著性检验,即逐个检验各回归系数i

=0的假设,它还包括截距的显著性检验.

北大光华陈奇志老师saS共164页,您现在浏览的是第37页!38多元线性回归分析

本节的练习题

对不同类型汽车的价格和性能的数据(DST.CARS)用SAS菜单系统及编程完成以下练习:(1)建立MIDPRICE(中间价)与citympg,cylinder,hwympg,egnsize,rpm,revltns,fueltnk和perform的多元回归关系式,并给出各个回归系数的检验结果.(2)由回归系数的显著性检验结果,能否指出影响中间价格的主要因素是哪些?哪几个因素是不显著的(=0.10)?(3)对92辆汽车的数据用以上拟合的回归式进行预测,并且给出均值的95%的置信区间.北大光华陈奇志老师saS共164页,您现在浏览的是第38页!39变量选择

回归变量的选择问题在实用上和理论上都是十分重要的。这个问题最大的困难就是如何比较不同选择(即不同子集)的优劣,即最优选择的标准。从不同的角度出发,可以有不同的比较准则,在不同的准则下,“最优”回归方程也可能不同.北大光华陈奇志老师saS共164页,您现在浏览的是第39页!40变量选择

最优选择的标准AIC(A)=ln(ESS(A))+或BIC(A)=ln(ESS(A))+达最小。

(5)修正R2准则

选择子集A,使得修正R2=1-(1-R2)(当模型含截距项时i=1,否则i=0)达最大。2lnllnnn

n-i

n–(l+i)(4)AIC或BIC准则

选择子集A,使得北大光华陈奇志老师saS共164页,您现在浏览的是第40页!41变量选择

变量选择方法--逐步筛选法在REG过程中逐步筛选变量的方法通过以下有关的选项给出:NONE:全部进入,不筛选变量;FORWARD:向前加入法,即逐个加入变量;BACKWARD:向后删除法,全部加入后逐个剔除;STEPWISE:逐步筛选法,边进边出;MAXR:逐个加入和对换,使R2增加最大;MINR:逐个加入和对换,使R2增加最小.北大光华陈奇志老师saS共164页,您现在浏览的是第41页!42变量选择

变量选择方法--所有可能回归法

ADJRSQ:选Adj-RSQ最大的模型CP:选最先满足Cp≤p的模型其中p为进入回归式的变量个数Hocking建议:

Cp≤p(预测)Cp≤2p-m+1(估计)

(m为全模型的变量个数)北大光华陈奇志老师saS共164页,您现在浏览的是第42页!43变量选择用Insight拟合多元线性回归后剔除自变量

(2)对已拟合的回归模型,若有证据表明某个自变量的作用并不显著,就要考察剔除这个自变量后重新拟合的回归模型。例如在上节的例子中要考虑剔除最不重要的变量rstpulse后拟合回归的效果,对此不必重新拟合,只需在拟合窗的任一处选中变量rstpulse使它变亮,再从下拉菜单选:

编辑(Edit)→删除(Delete),则系统将删除rstpulse,重新建立Y与其余自变量的回归模型.显示的结果就是修改为不含rstpulse的拟合结果。

北大光华陈奇志老师saS共164页,您现在浏览的是第43页!44变量选择

逐步回归--基本思想和步骤

以上介绍的选择回归子集的几种方法中,最常用的是逐步筛选法。逐步回归的基本思想和基本步骤如下:基本思想:逐个引入自变量,每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉。最终得到的方程中即不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。

基本步骤:首先给出引入变量的显著性水平αin和剔除变量的显著水平αout。然后按以下框图筛选变量。北大光华陈奇志老师saS共164页,您现在浏览的是第44页!45变量选择

逐步回归--例子

例4.1

用REG过程或“分析员应用”分析FITNESS数据,并用逐步筛选方法建立“最优”的回归关系式;然后进行预测。

(1)调用REG过程完成逐步回归计算。假设引入变量的显著性水平αin=0.15,剔除变量的显著性水平αout=0.15(一般取αin=αout,也可取为不等.但要求αin<=αout,否则可能出现死循环)。要求计算预测值和95%置信界限。SAS程序如下:

北大光华陈奇志老师saS共164页,您现在浏览的是第45页!46变量选择

逐步回归--例子

以上SAS程序的输出结果,首先给出筛选变量的过程:

步引入runtime,一元线性回归模型的R2=0.7434;

第二步引入age,Y与runtime,age的二元回归模型的

R2=0.7642;第三步引入runpulse,Y与runtime,age和runpulse的三元回归模型的R2=0.8111;第四步引入maxpulse,Y与runtime,age,runpulse和maxpulse的四元回归模型的R2=0.8368;经过四步筛选变量的过程结束后,“最优”回归方程中包含4个变量。并可写出回归方程式(省略了).北大光华陈奇志老师saS共164页,您现在浏览的是第46页!47变量选择

逐步回归--例子北大光华陈奇志老师saS共164页,您现在浏览的是第47页!48变量选择

逐步回归--例子

④将要求的项选择完毕后,从相应窗口按

=>OK键,返回到线性回归的主窗口=>OK,系统将按用户的要求进行分析计算.⑤查看输出结果,从“分析员应用”数据窗口左边的树状表可以选择你想查看的各类计算结果.以下是逐步回归最后一步(第四步)的结果和筛选过程的汇总结果.北大光华陈奇志老师saS共164页,您现在浏览的是第48页!49变量选择

变量选择的其它例子procregdata=sasuser.fitness;modeloxygen=ageweightrstpulsemaxpulserunpulseruntime/selection=rsquare

best=2

sbc

rmse;title'R-SquareSelection';run;(REG43.sas)计算所有可能回归子集.对每种变量个数输出最好的二个回归子集及该子集相应的sbc和rmse统计量.

北大光华陈奇志老师saS共164页,您现在浏览的是第49页!50变量选择

变量选择的其它例子北大光华陈奇志老师saS共164页,您现在浏览的是第50页!51非线性回归

曲线回归--可化为线性的曲线回归

在有些实际问题中,因变量Y与x的关系不是线性关系.它们之间的关系有时可根据专业知识知道;有时通过画散点图可猜测Y与x的函数形式.这里要求我们了解常见函数的曲线图形.

对这类不满足线性关系的回归问题,首先初步确定函数形式;然后对变量Y或x作适当的变换,目的是化为线性回归(一元线性或多元线性);然后求出变换后的线性关系式,最后转化为回归曲线.北大光华陈奇志老师saS共164页,您现在浏览的是第51页!52非线性回归

曲线回归--常见的函数及图形幂函数:Y=a

xb

(b>1)幂函数:Y=a

xb

(0<b<1)双曲函数:----=a+b---1Y1xS型函数Y=1a+be-x北大光华陈奇志老师saS共164页,您现在浏览的是第52页!53非线性回归

曲线回归--例子

例5.1(钢包浸蚀数据)

炼钢厂出钢时所用的盛钢水的钢包,在使用过程中由于受浸蚀,其容积不断增大.经试验得钢包的容积Y(以钢包盛满时钢水的重量表示)与相应使用的次数X的数据如下表.试用REG过程或“分析员应用”分析钢包数据,并建立最适合这组数据的回归关系式;然后进行预测。北大光华陈奇志老师saS共164页,您现在浏览的是第53页!54非线性回归

§1

曲线回归--例子

北大光华陈奇志老师saS共164页,您现在浏览的是第54页!55非线性回归

曲线回归--例子

(3)曲线回归(双曲线)

对数据进行曲线拟合之前,首先需要生成一个存放对X,Y变换(求倒数)后的新变量。在DATA步增加一个程序语句用于建立新变量(变量名分别为XA,YA)。

datada51a;

setdata51;ya=1/y;xa=1/x;

run;现在已经为拟合Y与X的双曲线回归准备好了数据。下面键入调用REG过程的SAS程序(输出结果省略了):

procregdata=da51a;

modelya=xa;title′双曲线回归模型′;

run;(REG51.SAS或Reg51B.sas)北大光华陈奇志老师saS共164页,您现在浏览的是第55页!56非线性回归

曲线回归--回归曲线拟合好坏的度量

线性回归的效果可用决定系数R2和误差均方s2来判断。如例5.1(钢包数据)的回归中,R2=0.9736,对于曲线回归也有类似的统计量用于度量回归曲线的拟合效果。

(1)相关指数在曲线回归中称为曲线回归模型的相关指数。R2愈靠近1表示曲线回归的效果愈好。在钢包的例子中,所考虑的双曲线回归的相关指数等于0.9729。一般说来,当化为线性回归后的决定系数愈大,曲线回归的相关指数也大。

北大光华陈奇志老师saS共164页,您现在浏览的是第56页!57非线性回归

多项式回归

多项式函数是非线性函数中较为简单的一类,它也可通过多元线性回归来拟合,如

Y=0+

1x+

2x2+

3x3+...引入新变量

xi=xi

Y=

0+1x1+

2x2+

3x3+...INSIGHT:提供简便的方法拟合多项式回归并显示图形.

procreg和procglm都可用于拟合多项式.北大光华陈奇志老师saS共164页,您现在浏览的是第57页!58非线性回归

多项式回归--I型平方和(SS1)

I型(Sequential)平方和记录回归变量逐个进入回归式时,模型平方和的增加量.

R(截距)=

R(X1|截距)=SSM(X1,截距)R(X2|X1,截距)=SSM(X2,X1,截距)-SSM(X1,截距)R(X3|X2,X1,截距)=SSM(X3,X2,X1,截距)-SSM(X2,X1,截距)

SSM(全模型)=R(X1|截距)+R(X2|X1,截距)+R(X3|X2,X1,截距)

I型平方和北大光华陈奇志老师saS共164页,您现在浏览的是第58页!59非线性回归

多项式回归--I型平方和(SS1)I型平方和可转化为F统计量,用以对回归模型:

Y=b0+b1x1+b2x2+b3x3+e

作如下的检验:北大光华陈奇志老师saS共164页,您现在浏览的是第59页!60非线性回归

多项式回归--两种平方和:SS1,SS2

因此,若进入回归模型的变量有一定的优先次序(如对多项式,线性项先于二次项,二次项先于三次项等),应该用I型平方和(SS1)及相应的F统计量.

若平等地考虑各个变量是否进入回归模型,则可用II型平方和(SS2)及其相应的F统计量.

例5.2(温度随时间变化的规律):以下DATA步中的数据行给出某化学试验中,每隔5分钟对温度进行一次测量的数据,试找出温度(tc)随时间(t)变化的规律.

解:首先生成SAS数据集,名为reg52.北大光华陈奇志老师saS共164页,您现在浏览的是第60页!61非线性回归

多项式回归—例5.2这是拟合三次多项式的结果北大光华陈奇志老师saS共164页,您现在浏览的是第61页!62非线性回归

多项式回归—例5.2

以上方差分析表和参数估计表是三次多项式模型的主要计算结果,由选项SS1,SS2,在参数估计表中还给出类型I和类型Ⅱ平方和.但没有进行检验.

注意到模型平方和SSM满足:

SSM=R(t,截距)+R(tt|t,截距)+R(ttt|tt,t,截距),即

1.64929=0.03636+1.61287+0.00005828.

为了确定多项式的阶次,适合于这组数据的多项式是取二次多项式,三次多项式还是需要更高阶次的多项式?以上只给出了类型I和类型Ⅱ平方和,还不能解决我们关心的问题,但利用类型I平方和及其它输出结果,可以通过以下检验来确定最高阶次:北大光华陈奇志老师saS共164页,您现在浏览的是第62页!63非线性回归

多项式回归--两种平方和:SS1,SS2PROCREGDATA=数据集名;

MODEL因变量名=自变量名列

</SS1SS2

其它选项>;OUTPUTOUT=数据集名<选项>;RUN;

用REG过程进行k次多项式回归计算时,首先应使用DATA步准备好数据,即令k个新变量:

xi=xi(i=1,…,k).并把xi(i=1,…,k)作为k个自变量列在MODEL语句的等号右边.北大光华陈奇志老师saS共164页,您现在浏览的是第63页!64非线性回归

一般线性模型(GLM过程)PROCGLMDATA=数据集名;

CLASS变量名列;

MODEL

因变量名列=自变量名列

</SS1SS2其它选项>;

OUTPUTOUT=

数据集名<选项>;RUN;变量*变量*...变量|变量|...(REG53.sas)

用GLM过程中MODEL语句的选项SS1不仅计算I型平方和且计算由SS1构造的检验统计量和p值,由此可确定多项式回归的合适阶次.北大光华陈奇志老师saS共164页,您现在浏览的是第64页!65非线性回归

本节的练习题

1.试对发动机性能数据用菜单系统及编程方法完成以下练习:(1)绘制POWER(马力)对SPEED(用每分钟转几百转度量)的散布图,它们是满足线性关系吗?(2)建立POWER与SPEED的线性关系式,并进行显著性检验.(3)建立POWER与SPEED的二次多项式回归.并且与一元线性回归式比较之.用几阶多项式拟合最合适?2.试用编程方法或SAS菜单系统对钢包浸蚀数据进行分析,假定Y与X的函数关系为①双曲函数:1/y=a+b/x;②对数函数:y=a+blogx;③幂函数:y=a+bx1/2;④负指数函数:y=ae-b/x,试作变量变换化非线性回归为线性,并建立回归方程,并比较以上四种函数关系,找出最佳的拟合曲线.北大光华陈奇志老师saS共164页,您现在浏览的是第65页!66回归诊断

回归诊断的必要性--Ansbe数据及散点图(

REG61.SAS)北大光华陈奇志老师saS共164页,您现在浏览的是第66页!67回归诊断

回归诊断的必要性Ansbe例子告诉我们,经典回归分析中讨论的估计和检验问题并不能用于验证回归模型的各项假定.另数据中的异常点可能使回归结果不稳定或不适用.这些任务需要在经典回归后进行回归诊断.具体说有以下几方面:1.异常值(outliers)或强影响点的检查;2.从已拟合回归的数据中分析线性模型的假定是否被破坏:

因变量的均值是否是自变量的线性函数,是否需要对变量进行变换或拟合曲线回归;

误差项是否同方差,不相关,正态分布;3.自变量间是否存在线性关系(仅多元有)—共线性诊断;考察残差散点图是进行回归诊断的必要步骤.北大光华陈奇志老师saS共164页,您现在浏览的是第67页!68回归诊断

残差分析--残差图的类型模型合适应改曲线模型不等方差观测值不独立北大光华陈奇志老师saS共164页,您现在浏览的是第68页!69回归诊断

残差分析--生成残差在PROCREG的model语句加上选项p(或r),就会输出预测值和相应的残差.RPOCREGDATA=数据集名;

MODEL应变量=自变量/p;PLOTy变量*x变量/选项;symboln

c=颜色

v=值;

RUN;利用plot语句plotr.*p.;

就可得到残差-

预测散点图.(reg62.sas)北大光华陈奇志老师saS共164页,您现在浏览的是第69页!70回归诊断

识别异常观测值在PROCREG的model语句加上选项r,就会

输出与预测值和残差有关的一些统计量.他

们可用于识别异常数据(outlier)及其强影响点.PROCREGDATA=数据集名

;

MODEL应变量=自变量/r;RUN;PredictValue预测值StdErrPredict预测值标准差Residual残差StdErrResidual残差标准差StudentResidualstudent化的残差-2-1012残差显著性图Cook'sDCook'sD统计量北大光华陈奇志老师saS共164页,您现在浏览的是第70页!71回归诊断

识别异常观测值--与残差有关的统计量残差:标准化残差:“学生化”残差:其中s(i)是删去第i个观测点后所拟合回归式的均方误差.(i=1,2,…n)北大光华陈奇志老师saS共164页,您现在浏览的是第71页!72回归诊断

残差的正态性检验有了残差的数据,就可对其运用图形方法

或对残差的分布作正态性检验.在INSIGHT中可直接对数据表中的残差变量进行分析--验证正态性.在PROCREG可利用下列语句用图形分析

残差分布正态性.PROCREGDATA=数据集名;

MODEL应变量=自变量;PLOTnqq.*student.(nqq.*r.);

RUN;(Reg63.sas)北大光华陈奇志老师saS共164页,您现在浏览的是第72页!73回归诊断

识别强影响点--CookD统计量CookD统计量度量一个观测从分析中剔除时参数估计值的变化对一个观测值其CookD统计量的值超过4/n

时(n为样本容量),这个观测存在反常效应(经验结论).SAS/INSIGHT:

在拟合窗口的菜单项变量的下拉菜单选

变量(Vars)=>Cook'sD北大光华陈奇志老师saS共164页,您现在浏览的是第73页!74回归诊断

识别强影响点--有关统计量的计算PROCREG

的Model语句加选项r可获得

CookD

统计量PROCREG

的Model语句加选项

influence

可获得Dffits

等反映观测点影响的统计量.PROCREGDATA=数据集名

;

MODEL因变量=自变量/r

influence;RUN;(Reg64.sas)北大光华陈奇志老师saS共164页,您现在浏览的是第74页!75回归诊断

识别强影响点--偏杠杆图偏杠杆图是使有影响观测可视化的方法.偏杠杆图是两个回归的残差的散点图.

例如对变量xr

的偏杠杆图: 纵轴是Y关于除xr以外所有x的回归的残差,

横轴是xr关于所有x的回归的残差.有影响观测通常分离与其它数据点或在某

一轴上有极端数值.偏杠杆图还可识别要加入哪些变量的高次项.北大光华陈奇志老师saS共164页,您现在浏览的是第75页!76回归诊断

识别强影响点如何处理有影响的观测:1.复验数据,确认并无数据输入错误发生;2.若数据是有效的,模型可能不合适.拟

合此数据可能需要使用高阶模型,也可能数据是反常的;3.一般不剔除数据.某些有影响的观测提

供重要的信息.若要剔除数据,应给出必

要的描述和说明.北大光华陈奇志老师saS共164页,您现在浏览的是第76页!77回归诊断

共线性诊断-VIF和TOL(容差)方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度量:Rr2

是xr关于模型中其它自变量回归的R2一般采用VIF>10表明存在强共线性问题.INSIGHT在拟合回归模型时自动生成VIFProcREG的Model语句加选项VIF北大光华陈奇志老师saS共164页,您现在浏览的是第77页!78回归诊断

误差项的独立性使用残差来分析误差项的独立性:Durbin-Watson统计量d

残差对时间的散点图北大光华陈奇志老师saS共164页,您现在浏览的是第78页!79Howdoestheweatheraffectthesalesofliftticketsinaskiresort?Dataofthepast20yearssalesoftickets,alongwiththetotalsnowfallandtheaveragetemperatureduringChristmasweekineachyear,wascollected.ThemodelhypothesizedwasTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+e

Example北大光华陈奇志老师saS共164页,您现在浏览的是第79页!北大光华陈奇志老师saS共164页,您现在浏览的是第80页!81例:Johnson过滤水股份公司

Johnson公司对遍步南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含最近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?北大光华陈奇志老师saS共164页,您现在浏览的是第81页!82建立维修时间的回归方程二元回归方程解释你得到的回归方程!

北大光华陈奇志老师saS共164页,您现在浏览的是第82页!83回归诊断

本节的练习题

1.试对数据Reynolds用菜单系统及编程方法完成以下练习:(1)建立sales与months的一元线性关系式,并绘制散布图,回归线图,sales对months和预测值的残差图,从中能否直观看出该线性模型是否适合这组数据?(2)建立sales与months的二次多项式回归后.绘制POWER对预测值的残差图.残差图是否较(1)中正常?

北大光华陈奇志老师saS共164页,您现在浏览的是第83页!84SAS与回归分析

回归分析是研究一个(或几个)因变量Y与另一些变量的相互依赖关系.具体地说,我们研究以下几方面问题:

①建立因变量Y与x1,x2,…,xm的经验公式(回归方程)②对经验公式的可信度进行检验;③判断每个自变量xi(i=1,…,m)对Y的影响是否显著?④利用经验公式进行预报和控制,指导生产;

⑤诊断经验公式是否适合这组数据.北大光华陈奇志老师saS共164页,您现在浏览的是第84页!85相关分析

相关关系的类型用直线描述用曲线描述可能有周期变化无明显关系北大光华陈奇志老师saS共164页,您现在浏览的是第85页!86相关分析

相关系数(CorrelationCoef.)线性联系是描述变量间联系中最简单和最常用的一种(Y=a1x1+a2x2+b);相关系数是描述两个变量间线性联系程度

的统计指标;相关系数的计算公式:北大光华陈奇志老师saS共164页,您现在浏览的是第86页!87相关分析

相关系数相关系数的值为-1和+1之间;若两个变量间有高度线性关系其值接近任一个极端值;若两个变量间无线性关系其值接近于零;●

若相关系数的值大于零表示两变量有正相关(即两变量同时增大);●若相关系数的值小于零表示两变量有负相关(即一个变量增大时另一变量减小或反之).北大光华陈奇志老师saS共164页,您现在浏览的是第87页!88相关分析用Insight计算相关系数

为了定量地描述变量间的线性联系程度,就需要计算他们之间的相关系数。打开CARS,选

分析(Analyze)→多元(Multivariate)(Y);(2)选MIDPRICE、CITYMPG、HWYMPG、EGNSIZE、RPM和PERFORM→Y,即选这些变量为分析变量,计算他们之间的相关系数,

→OK。多元分析生成分析变量的单变量统计量和这些变量间的相关系数矩阵;

北大光华陈奇志老师saS共164页,您现在浏览的是第88页!89相关分析用Insight制作散点图矩阵及置信椭圆

为了利用图形来说明变量间的相关,可以在多变量窗口生成散点图矩阵和置信椭圆,生成这些椭圆时我们假定每一对变量(X,Y)是两元正态分布的。

可以生成两类椭圆:均值置信椭圆--预测两变量均值(EX,EY)分布的置信区域;预测值置信椭圆--预测两变量单个观测值

(X,Y)分布的置信区域.北大光华陈奇志老师saS共164页,您现在浏览的是第89页!90相关分析用Insight制作散点图矩阵及置信椭圆

对数据集CARS,为了在散点图矩阵上生成95%预测值置信椭圆,可在多变量窗口中选:曲线(CURVES)→散点图置信椭园(ScatterPlotConfEllipse)→预测(Prediction):95%;则生成散点图矩阵及95%预测值置信椭圆(只列出散点图矩阵的下三角部分).变量HWYMPG和CITYMPG间散点图上的这个椭圆被拉得很长,表明变量HWYMPG和CITYMPG之间有很强的相关.而RPM和MIDPRICE间散点图上的这个椭圆近似于园,表明这两个变量基本上不相关.北大光华陈奇志老师saS共164页,您现在浏览的是第90页!91相关分析

相关系数的计算--CORR过程PROCCORRDATA=数据集名;

RUN;PROCCORRDATA=数据集名;

var变量名列;with变量名列;partial变量名列;by变量名列;

RUN;(reg11.sas)北大光华陈奇志老师saS共164页,您现在浏览的是第91页!92相关分析

相关系数在使用相关系数说明问题时要注意的是:

(1)相关系数很强并不表示变量间一定有因果关系,也可能是两个变量同时受第三个变量的影响而使他们有很强的相关(如学习能力和鞋码大小);

(2)相关系数是说明线性联系程度的。相关系数接近于0的变量间可能存在非线性联系(可能是曲线关系);

(3)有时个别极端数据可能影响相关系数。北大光华陈奇志老师saS共164页,您现在浏览的是第92页!93相关分析

相关与回归

相关分析量化连续型变量之间线性相关的强度;

回归分析确定一个连续变量与另一些连续变量间的相互依赖关系.北大光华陈奇志老师saS共164页,您现在浏览的是第93页!94一元线性回归分析建立回归方程: 确定变量:Y

与变量x1,x2,..,xm有相关关系.

选择形式:Y

与x1,x2,..,xm

以什麽形式相联系,

即f(.)

的表示式.

确定系数:确定Y=a1x1+a2x1x2+a3x12+...

中的ai

(i=1,2,…).

回归(Regression)分析描述一个变量与一些变量间统计联系的关系式,Y=f(x1,x2,...,xm),并用于解释和预测。北大光华陈奇志老师saS共164页,您现在浏览的是第94页!95一元线性回归分析简单线性回归模型

随机误差i

表示Yi关于0+1

xi的残差,同样假定它是独立的,等方差(2)的正态分布。估计线性回归模型的目的就是要从观测(xi,Yi)(i=1,…,n)出发对模型中的未知参数0,1和2进行估计;从图形上看就是要从观测点(xi,Yi)出发,拟合直线Y=0

+1

x.

未知总体参数0

和1的估计是由最小二乘法得到的,这个方法提供的估计使由此估计确定的直线满足观测值和直线间纵向距离的平方和为最小。换言之,拟合的回归直线尽可能地靠近所有的数据点。北大光华陈奇志老师saS共164页,您现在浏览的是第95页!96一元线性回归分析

线性回归的拟合--最小二乘法估计(LSE)使达到最小值的点为b0,b1。称

b0,b1

是参数的最小二乘估计(LSE)。称Q为残差平方和。北大光华陈奇志老师saS共164页,您现在浏览的是第96页!97一元线性回归分析

回归的方差分解因变量(Y)自变量(x)北大光华陈奇志老师saS共164页,您现在浏览的是第97页!98一元线性回归分析

回归的方差分解

北大光华陈奇志老师saS共164页,您现在浏览的是第98页!99

一元线性回归分析

回归统计量(R2,修正R2和

PRESS)(预测残差平方和)m北大光华陈奇志老师saS共164页,您现在浏览的是第99页!100一元线性回归分析

一元线性回归的计算(2)Analyst:

统计(Statistics)=>回归(Regression)

=>

简单(Simple...)(3)PROCREGDATA=数据集名;

MODEL因变量=自变量;

RUN;(1)SAS/INSIGHT:分析(Analyze)=>拟合(Fit)(YX) =>指定Y和X变量(4)GLM过程北大光华陈奇志老师saS共164页,您现在浏览的是第100页!101一元线性回归分析

一元线性回归的例子—用编程和INSIGHT

调用REG过程:proc

reg

data=dreg21;

modely=x;run;(2)用SAS/INSIGHT的步骤:①启动INSIGHT,打开SAS数据集dreg21;②散点图:分析(Analyze)

=>

散点图(ScatterPlot)(YX)=>指定X和Y变量

=>OK=>

浏览结果

③拟合:分析(Analyze)=>拟合(Fit)(YX)=>指定X和Y变量=>OK=>浏览结果

北大光华陈奇志老师saS共164页,您现在浏览的是第101页!102一元线性回归分析

一元线性回归的计算--SAS/INSIGHT(GENMOD)

北大光华陈奇志老师saS共164页,您现在浏览的是第102页!103一元线性回归分析

广义线性模型(GENMOD)简介

当因变量Y是连续型变量,且g()=时(即关联函数为恒等式),并假定Y为正态分布(响应分布),这时以上模型就是我们熟悉的传统线性模型(一般线性模型).(2)当因变量Y是属性变量[如Y=0或1,记=P(Y=1)],且

时(即关联函数为logit),并假定Y为二项分布,这时以上模型就是我们在属性数据分析中将介绍的Logistic回归模型.(3)……..北大光华陈奇志老师saS共164页,您现在浏览的是第103页!104一元线性回归分析

一元线性回归的计算--REG过程PROCREGDATA=数据集名;

MODEL因变量=自变量;

RUN;PROCREGDATA=数据集名;

MODEL

因变量=自变量名列/pcliclm

noprintnoint

;

id变量名;

outputout=数据集名关键统计量名=输出名...;

RUN;北大光华陈奇志老师saS共164页,您现在浏览的是第104页!105一元线性回归分析

回归线作图--用REG中的PLOT语句PROCREGDATA=数据集名

noprint;

MODEL应变量=自变量/pcliclmr;PLOTy变量*x变量/选项;symboln

c=颜色

v=值;

RUN;

利用procreg中的plot语句可以绘制与拟合数据有关的散点图、回归直线和置信曲线、预测区间曲线.noprint不输出拟合的结果.北大光华陈奇志老师saS共164页,您现在浏览的是第105页!106一元线性回归分析

回归线作图--用GPLOT过程PROCGPLOTDATA=数据集;

PLOT

纵轴变量*横轴变量;

RUN;PROCGPLOTDATA=数据集;

PLOT

纵轴变量*横轴变量纵轴变量*横轴变量…

/

overlay;symbol1i=rlcli|rlclm置信百分数其它图形选项;

symbol2i=rlcli|rlclm置信百分数其它图形选项;

RUN;图形选项:c=value=cv=height=font=Line=

width=interpol=r<类型><0><clm|cli><50...99>ci=北大光华陈奇志老师saS共164页,您现在浏览的是第106页!107一元线性回归分析

本节的练习题

1.讨论某种合成纤维的强度Y与拉伸倍数x的相关关系(数据见数据集DST.regE21).试用SAS菜单系统及编程完成以下练习:(1)建立Y(合成纤维的强度)与x(拉伸倍数)回归关系式,并给出回归系数的检验结果.(2)给出当x=2.2,3.2,6.2和10.2时,合成纤维的强度的预测值及线性回归预测均值的90%置信区间.(3)绘制Y对x的散点图,回归线及均值的95%的置信限.

北大光华陈奇志老师saS共164页,您现在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论