SAS学习系列23. 多元线性回归_第1页
SAS学习系列23. 多元线性回归_第2页
SAS学习系列23. 多元线性回归_第3页
SAS学习系列23. 多元线性回归_第4页
SAS学习系列23. 多元线性回归_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

23.多元线性回归一、多元线性回归1.模型为Y邛o+”iXi+...+^Xn+e其中X],xn是自变量,y是因变量,/30,B、...,Bn是待求的未知参数,e是随机误差项(残差),若记多元线性回归模型可写为矩阵形式:Y=Xp+s通常要求:矩阵X的秩为k+1(保证不出现共线性),且k<N;e为正态分布,E(e)=0和E(ee')p2I错误!未定义书签。其中I为NXN单位矩阵。用最小二乘法原理,令残差平方和踽=(F—妙)(『—妙)最小,得到p二(磁尸中)为卩的最佳线性无偏估计量(高斯一马尔可夫定理)。

2.”2的估计和T检验选取"的估计量:2s~=N-k-1则假如t假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的设,参数的1-a置信区间可由下式得出:其中ta/2为与a%显著水平有关的t分布临界值。3.R2和F检验ESS,8f3.R2和F检验ESS,8f6=1-TSSTy~BxxBYT若因变量不具有0平均值,则必须对R2做如下改进:随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进行修正(校正拟合优度对自由度的依赖关系):ESS/(ESS/(N-k-1)TSS/(N-1)(1-R2)做假设检验:H0:M=...=8n=0;H1:B、...,8n至少有一个工0;使用F统计量做检验,F_Rhk_卅N-k-\

Z—i-(\—Fy(N—k—Y)l-R1k若F值较大,则否定原假设。二、PROCREG过程步基本语法:PROCREGdata=数据集;MODEL因变量=自变量列表</可选项>;<restrict自变量的等式约束;>说明:MODEL语句用来指定因变量和自变量;restrict语句示例:restricta1+a2=1;常用的输出可选项:STB——输出标准化偏回归系数矩阵CORRB——输出参数估计矩阵COLLINOINT——对自变量进行共线性分析P——输出个体观测值、预测值及残差(R/CLM/CLI包含P)R――输出每个个体观测值、残差及标准误差CLM――输出因变量均值95%的置信界限的上下限CLI——对各预测值输出95%的置信界限的上下限MSE——要求输出随机扰动项方差2的估计"2与残差分析有关的可选项VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;COLLIN——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性;TOL——表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系;DW输出Durbin-Watson统计量;influence对异常点进行诊断,对每一观测点输出统计量(Cook'sD>50%,defits/debetas>2说明该点影响较大)。交互式语句add向模型中增加变量;delete-一删除原拟合模型中的有关变量;refit——重新拟合模型;print——输出有关模型的相关信息。绘制回归分析的图形在PROCREG过程步加入绘图选项语句即可。基本语法:PROCREGdata=数据集PLOTS=(图形类型);可选的绘图类型:FITPLOT——带回归线、置信预测带的散点图;RESIDUALS——自变量的残差图;DIAGNOSTICS——诊断图(包括下面各图);COOKSD——Cook'sD统计量图;OBSERVEDBYPREDICTED——根据预测值的因变量图;QQPLOT——检验残差正态性的QQ图;RESIDUALBYPREDICTED——根据预测值的残差图;RESIDUALHISTOGRAM——残差的直方图;RFPLOT——残差拟合图;RSTUDENTBYLEVERAGE——杠杆比率的学生化残差图;RSTUDENTBYPREDICTED——预测值的学生化残差图;注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:PROCREGdata=数据集PLOTS(ONLY)=(图形类型);例1用多元线性回归模型,来研究耗氧量的是如何依赖其它变量的。

31位成年人心肺功能的调查数据(见下表),由于回归是相关的,所以理论上还应该做共线性诊断。ageweightOxygen耗氧量runtime跑15英哩的时间(分)rstpulse休息时每分钟心跳次数runpulse跑步时每分钟心跳次数Maxpulse每分钟心跳次数最大值4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.6348164166

5070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172代码:datafitness;inputageweightoxygenruntimerstpulserunpulsemaxpulse;datalines;4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.1251.85510.33501661704981.4249.1568.95441801855169.6340.83610.95571681725177.9146.67210.00481621684891.6346.77410.25481621644973.3750.38810.08761681685773.3739.40712.63581741765479.3846.08011.17621561655276.3245.4419.63481641665070.8754.6258.92481461555167.2545.11811.08481721725491.6339.20312.88441681725173.7145.79010.47591861885759.0850.5459.93491481554976.3248.6739.40561861884861.2447.92011.50521701765282.7847.46710.5053170172run;proccorrdata=fitnessPLOT=MATRIX(HISTOGRAMnvar=all);varoxygenageweightruntimerstpulserunpulsemaxpulse;labeloxygen='Oxygenconsumption'age'Ageinyears'weight'weightinkg'runtime='Min.torun1.5milesrstpulse='Heartratewhilerestingrunpulse='Heartratewhilerunningmaxpulse='Maximumheartrate';run;procregdata=fitnessPLOTS(ONLY)=(DIAGNOSTICSFITPLOT);modeloxygen=agemaxpulserstpulserunpulseruntimeweight/ss1ss2;/*ss1为第I类型平方和,ss2为第II类型平方和*/run;deleterstpulse;print;run;procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight;pulse:testmaxpulse+runpulse=0;run;procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight/ss2;/*带restrict约束条件的回归,ss1不可用*/restrictmaxpulse+runpulse=0;run;datafitness2;setfitness;maxrun=maxpulse-runpulse;run;procregdata=fitness2;modeloxygenmodeloxygen=agemaxrunruntimeweight/ss1ss2;run;运行结果及说明:(1)相关性分析徽点圏矩陈seeweightruntimerstpuIserunpulsema^puIse散点图矩阵中第一行的6个散点图分别表示oxygen变量作为y轴,其他六个变量作为x轴的散点图,第一列的6个散点图分别表示oxygen变量作为x轴,其他六个变量作为y轴的散点图;对角线是该变量数值变化的直方图。绘制散点图矩阵图是为了观察变量间的相关性。从图中可以看出变量runpulse与maxpulse之间存在有较强的共线性,如果在回归模型中增加方差膨胀系数(vif),共线性水平的容许值(tol),条件数

(collin)选项对回归进行共线性诊断,也会得到相同的结论。另外,我们从图中还发现耗氧量oxygen与变量runtime有较强的负相关,从下面的相关系数也能得到相同的结论。CUKF?过程7变量:C'xvj'rriH.qc?wcij>h1mnlimrikTpiiIkcriinpiiIscmrjxfiuIsc简单统计星啻昌N均值标准差总和量小值谥大值标签oxygen:1147,37581!).32723140937.3880060.05500r'KMWcnCDiisumpIionage3147.67?42b.21I4111H!38.00000bAAgeinfearswei£ht3177..1-14528.32857240159.0300091.63000weightinkgruntimt?10.58013328.17000El7QM)14.03000Miri.fi)iuri1.bmilesrsLpu1se31b:J./ll^l8294451郵40.0000076.00000Heartratewhile:restingrunpu1sb31169.64516IO.2519952西1-16.00000186.00000Ifeartratewhirunningmaxpu1se:111/:!.//+1519.11541(15387uib.oonon1512.00000MhximumhrniIrnfrPearsonProb>Ir相关系数,N-311underHO;Rho=0oxygenageweightruntimerstpulserunpj1semaxpulseoxygen1.00000-0.30459-tt16275-0.86219-a34S41-0.39797-a23B74Oscy^encorsumption0.09570.3817<.mm0.05C330?l:6C.1997age-o,30459i.3ncon-n.肚阳40.18875n.14157-0.33787n.-^9?inyears0.09570.2061J.3092U.4475006300.0150weight-0.16276-U.^3b-l1.JUCUU0.143NU.O22/J0.13162U.2193baeifhtinkg0.38170.20C1J.441?0.SO35a3?p40.17C1runtime-A.8C219n.i临e0,14351I.ooooo0,4A0540.313650,2251olMin.tonunL5miles<.UC010.30S2U.141^U.02560O05SC.22IUrstpuIse-U.34641-U.Illb/U.022700.lCOb-11.ODUUJ0.317970.257501Heartratewhilereeting0.05630.44750.90353.02553加口C.162Drunpu1se-0,39797-n.也間0,1«15i20.313G50,317971.tx)ooo0,92975Heartratewtiilerunning0.02660.06300.3284J.06S&U.0&13<.UUU-maxpu1se-U.23874-U.心圧吃U.249380.22ti1U0.257500.929751.oooooMl自輩imuiMiheartrate□.19970.01500.17010.16?^<CXH2)回归分析

读取的观测数31使用的观测数方差分析源自由度平方和均方卜值Pr>1-模型6721.97421120.3290422.32<.UUU1误差24129.407331.39UL校正合计30951.3B154均方抿误差2.32206R方0.8-180因变量均值47.37581调整R方0.SI00变异系数4.90137参数怙计值变量自由度参数估计值标准误差t值Pr>|t|1型SS11SSS1ntercept1102.2383412.453050.21<.000169578363.432661-U.219320.09959-2.210.037073.9882326.29149maxpu1se10.304730.137222.220.0361142.3554326.59054rstpu1se1-0.000844210.05863-o.tno.9886o.U0112runpu1se1-n.373160.12068-a.nso.nobo36-10751.55541runtime1680520.El能-7.IS<.0001310.368B9275.67144woigh11-0.0.-13?0.IflfiOD449949一44994得到回归方程:oxygen=102.238339-0.219916age+0.304735maxpulse-0.000844rstpuls-0.373164runpulse-2.680516runtime-0.072380weight多元线性回归模型的一个重要问题是,如何正确地缩减自变量到达最优的简化模型。判断回归模型是否还能缩减自变量,可以通过这第I类平方和(I型SS)和第II类平方和(II型SS),构造F检验(等同于这个自变量的参数t检验,因为F=t2)来比较确定。runtime自变量的两类平方和都是最大的且占的比例很大,说明是回归模型中第一重要的自变量。而rstpulse自变量在第一类平方和中有比较大的数值却在第I类平方和中是最小的,这是rstpulse自变量(休息时每分钟心跳次数)应该被考虑第一个删除的主要原因。(3)剔除不显著的回归变量,继续回归分析自变量rstpulse和weight的回归系数的t检验的P值分别为0.9886和0.1980,都大于a=0.05,故不拒绝“系数=0”的原假设。这里要小心地看待这些检验,因为它们都是在其他自变量都加入回归的前提下进行显著性检验的,完全可能因为自变量间存在较强的相关而掩盖他们对回归的贡献。所以,在剔除不显著的回归变量时必须逐个进行。另外,从自变量rstpulse的回归系数更接近于0,也提示我们应先考虑删除自变量rstpulse.deleterstpulse;print;run;方差介析源自由度平方和均方r值Pr>r模型b721.97309144.3曲曲2/.yu<.DDU1误差129.408455.17634校正合计951.38154均方根误差2.27516R方0.8430因变量均值47.37581调整R方0.8176娈异系数4.80236参数怙计值弯量自由度参数估计值准差标误t值Pr>|t|I型ss11型SSIntercept1102.2042811.97929<.DUU109578376.78935age1-0.刃拠0.09550-?.300.D30179.9SS2327.37429maxpuIse10.304910.133942.2Bo.031e142.3554326.82640runpuIse1-0.373400.11714-3.Ifl□.OOG8139.1721852.59624runtime1-2.682520.340S9-7.87<.0001352.93570320.35968weight1-0.072300.05331-1.3dD.W/19.521579.52157得到新的回归方程:oxygen=102.204275-0.219621age+0.304908maxpulse-0.373401runpulse-2.682523runtime-0.072302weight比较剔除rstpulse前后的输出可看出,R2的变化在4位小数之后。进入回归的变量的回归系数在剔除rstpulse后的变化都小于1%。说明剔除自变量rstpulse后,对回归模型没有实质性的影响,这个自变量的剔除是恰当的。(4)系数的线性组合检验使用test语句,还可以对回归系数的线性组合进行F检验。例

如,我们看到参数估计表中,maxpulse变量的系数与runpulse变量的系数之和非常接近于0(回顾前文:这两个自变量有很强的共线性),想要检验一下这样的系数线性组合是否有很大的可能性,如果是那样则可以简化回归模型。REG过程模型:MODEL1因娈量oxygen的检骗^pulso"结果源自由度均方I值Pr>F分子18.257201.600.2182分母255.17634在test语句中的线性方程组只有1个,所以自由度为1,线性方程组的平方和为&2572。F检验的分子为均方和&2572/1=8.2572,F检验的分母为均方误差MSE=5.176338,自由度为25。因此,F(1,25)=8.2572/5.176338=1.5952,P值=0.2182>0.05,即不能拒绝回归系数线性组合的原假设。(5)有约束条件的回归模型若回归模型中的回归系数有线性组合的约束条件,则可以使用restrict语句在此约束条件下重新拟合回归模型。procregdata=fitness;modeloxygen=agemaxpulserunpulseruntimeweight/ss2;/*带restrict约束条件的回归,ss1不可用*/restrictmaxpulse+runpulse=0;run;

方差分析源自由度平方和均方卜值Pr>h模型n斗713.71590178.4289733./U<.DDD1误寸26137.665655.29483校正合计30851.38154均方根误差2.30105R方0.8383因豐晕均值47,37561调整1?方0,9134变异系数4.E5702参数怙计值自由度参数怙计值Hl值Pr>|t|11ass1ntercept189.437426.5641713.63<.0001984.04B07age1-0.16297008527-1.S10.007119,33940maxpu1se10.388260.117883290.002957.44495runpu1se1-0.38826011788-3290.002957.44495runtimo1-2.805550.33049-8.斗9<.0001381.55672weight1-0.080630.05350-1.5I0.113812.02679RESTRIOI-1-120.5553496.53753-1.2b0.2182*8.25720*使用beta分布计算的概率"得到新的回归方程:oxygen=89.487420-0.162973age+0.388260(maxpulse-runpulse)-2.805552runtime-0.080635weight注意到maxpulse变量的系数为0.388260,runpulse变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论