




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.实验目的第三讲回归分析1、1、2、2掌握线性回归系统建模的基本方法。学会使用SAS系统对线性回归模型进行参数估计、统计推断及残差分析等。实验要求1、数据的初步分析:数字特征、经验分布、相关分析。残差分析、回归分析。实验原理2、33.1、线性回归模型及模型参数0Q2的最小二乘估计设Y是一可观测的随机变量,它受到p-1个非随机因素X],x2,,Xp1和随机误差s的影响。假定它们有如下线性关系:…Y=0+0X+0X+,・・・,+0X+s01122p—1p—1其中:0是待估参数,s〜N(0,Q2),则称(1)式为线性回归模型。k对总体(xrX,…,xY)进行n次(n>p独立观测,得样本:1(X,xp,•--,x,y)i=1,2,•…,ni,1i,2p—11)i,p—1,y)i令:x11xn1x丿np—1)T卩=(卩00p—1)T则卩的最小二乘估计:S(0)=minstw=min(Y—X0)t(Y—X0)可得正规方程:XtX0=XtY若rank(X)=p,贝用0=(XtX)—1XtY,代入(1)式,并略去误差项得经验回归方程:Y=0+0X+0X+,,+0X01122p—1p—11122令e=令e=y-y称为残差向量,可得:E(eTe)=◎2(n-p),令c2刁eTe是◎2的无偏估计。3.2、回归模型检验原理①线性回归关系的显著性检验为检验Y与X],X2,,xp-1之间是否存在显著的线性回归关系,即检验假设:H:卩=卩==卩=0吕H:至少有某个卩土0(1<i<p-1)012p-11i构造如下检验统计量:•…MSRF=—MSE当H0为真时,严1,-p)给定显著性水平°,由F分布得临界值F°(p-1,n-p)(即F分布的上侧a分位数),计算F的观测值F,若°0F0<F(p-1,n-,接受H,否则拒绝H。在SAS中,对显著性检验问题,其输出0a00结果通常是检验的p值。对上述线性回归关系的显著性检验问题,检验的p值为p=Ph0{F-F0},若p值小于显著性水平a,拒绝H,否则接受H。②回归参数的显著性检验回归关系显著并不意味着每个自变量Xj对Y的影响都显著,我们希望从回归方程中剔除那些对Y的影响不显著的的自变量,从而建立一个较为简单有效的回归方程。若某个自变量Xk对Y无影响,那么它的系数卩k=0,因此检验Xk的影响是否显著等价与检验假设:H0:卩广0只H1:吒丰0。若令S(p')=MSE(XTX)-1,s(叮为S(卩‘)的主对角线上的第k个元素的平方根,则可得到0-Pkk0-Pkks(p)k当H0为真时,0t(n-p),记t的观测值为10,则检验准则为:若It<t(n-p),则接受H10a02若It>t(n-p),则拒绝H10a0③残差分析在回归分析中,我们通常假定£(i二1,2,…,n)是独立同正态分布的随机变量,有零均i值和常值方差b2,因此,若拟合的回归模型适合于所给的数据,那么残差£(i二1,2,…,n)应i该基本上反映误差的这些特性。利用残差的这些特性反过来考察原模型的合理性就是残差分析的基本思想。a)残差正态性的频率检验回归模型中标准化残差MSE(i=h2,回归模型中标准化残差MSE(i=h2,…,n)可近似认为是取自标准正态总体的样本,理论上属于VMSE(i=h2,…,n)有68%在(-1,1)内,87%在(-1.5,1.5)内,95%在(-1,1)内,如果残差在某个区间内的频率与上述理论频率有较大的偏差,我们有理由怀疑e(从i而£)的正态假设的合理性。i残差正态性的QQ图检验QQ图是做正态性检验的直观方法,将残差£(i=1,2,…,n)按由小到大的排列,以残差i为纵坐标、正态期望为横直角坐标系中画出正态QQ图。相关系数检验法通过计算残差和正态期望之间的相关系数判断它们之间关系的强弱,若相关系数接近1,则说明残差为正态性。时序残差图分析以观测时间(或观测值序号)为横坐标,的散点图时序残差图。拟合好的模型的时序残差图中的点应落在以时间轴为中轴线的带状区域,且无明显的趋势性,否则说明回归方程的形式或对误差等方差的存在一定问题。以拟合值用为横坐标的残差图分析若模型适当,以拟合值用为横坐标的残差图以自变量为横坐标的残差图分析以每个Xj的各观测值Xj为点的横坐标,以残差为纵坐标。同样满意的残差图呈现水平带状。3.3、逐步回归的原理与步骤逐步回归的基本步骤就是依次拟合一系列回归方程,后一个回归方程在前一个的基础上增加或删除一个自变量,其增加或删除某个自变量的准则是用残差平方和的增加或减少量来衡量,一般采用如下的偏F检验统计量,设模型已经有l-1个自变量,记l-1个自变量的集合为A,当不再A中的自变量加入到模型当中时,偏F检验统计量一般形式为:~F(1,n-l-1)厂SSE(A)-SSE(S~F(1,n-l-1)TOC\o"1-5"\h\zF=k—=k-SSE(A,X)MSE(A,X)kkn-1-1SSR(XA)=SSE(A)—SSE(S,X)称为额外回归平方和。f统计量描述了误差kk平方和的增加或减少量,所以偏F检验统计量是逐步回归方法中增加或删除变量所用的基本统计量。4.相关SAS知识SAS中提供的关于回归最常用的过程是REG过程。语法格式如下:Procregoptions1;Modeldependent=regressors/options2;Outputout=SASdatasetkeyword=name…;…PlotY轴变量*X轴变量/options3;(当要画的是统计量时须使用keyword.来表示,如:residual.*predicted.)相关说明:在关键词“Model”之后,应指明因变量,等号之后依次列出回归变量(自变量),每个变量之间用空格隔开,“options2”部分提供了最优模型的选择方法和其他拟和结果,主要包括三个主要部分:①FORWARD:向前选择最优模型方法。自变量进入模型的控制水平用语句SLENTRY=level表示,默认情况下level=0.5。BACKWARD:向后删除法。保留自变量在模型中的控制水平由语句SLENTRY=level给出,默认情况为level=0.1。STEPWISE:逐步回归法,选取自变量和保留自变量的控制水平语句由SLENTRY=level1和SLSTAY=level2默认情况为level1=level2=0.15。RSQUARE:利用Rp准则选择最优模型。ADJRSQ:修正的Rp(Ra)准则选择最优模型法。paCP:利用Cp准则选择最优模型法。注意:在SAS系统中,这6中方法不能同时并用,即在“options2”部分只能写其中的一种。对模型选取细节的选项DETAILS:此选项仅对最优模型选取方法中的FORWARD、BACKWARD和STEPWISE有效,它要求打印出每一步引入和删除的自变量及相关信息。例如一个自变量选入模型时的偏F值,模型的R2值和一个自变量被删除时模型R2值以及有关参数估计的信息。NOINT:取消回归模型的常数项。对估计细节内容的选择①CORRB:打印出估计的参数的相关系数矩阵。COVB:打印出估计的参数的协方差矩阵。P:打印出因变量的拟合值,同时还包括因变量的观测值合拟和残差。R:打印出有关残差及用于N(析电量2包括:拟合值的标准差、残差、学生化残差及Cook距离。OUTPUT语句中的“keyword=name”部分指定下列的一些或全部的内容:PREDICTED(P)=name;因变量的拟合值RESIDUAL(R)=name;残差STUDENT=name;标准化残差L95M=name;因变量的期望值的95%置信区间的下限U95M=name;因变量的期望值的95%置信区间的上限L95=name;因变量真值的95%置信区间的下限U95=name;因变量真值的95%置信区间的上限COOKD=name;cook距离H=name;杠杆量PRESS=name;用来估计第i组观测值对拟合值的影响DFFITS=name;用来估计第i组观测值对参数估计的影响⑶“options3“部分包含以下内容:symbol='字符'规定绘图中的符号;overplay:允许多个散点图重叠输出到一张图上。5、举例[例题1]某公司在各地区销售一种特殊的化妆品.该公司观测了15个城市在某季度内该化妆品的销量Y以及各城市适合使用该化妆品的人数X和人均收入X,得12数据如表3.2所示(见教材94页).假设误差服从正态分布N(0,,b2),试建立Y与X,X之间的线性回归方程并讨论相关的统计推断问题.12SAS程序如下:goptionsvsize=10cmhsize=15cm;datasell;inputyx1x2;cards;1622742450120180325422337538021312052838678623471692653782819830081923302450
11619521375553256025243040202323724427144236266010315720882123702605run;procgplotdata=sell;ploty*x1='A'y*x2='B';run;procregdata=sell;modely=x1x2/noint;outputout=sell1p=pr=rstudent=stdr;**输出预测值,残差和标准化残差;plotresidual.*predicted.;*/画关于预测值的残差图;plotresidual.*x1;/*画关于变量x1的残差图*/plotresidual.*x2;/*画关于变量x2的残差图*/procprintdata=sell1;run;结果分析:(1)所建模型线性的显著性分析AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePr>FModel253845269225679.47<.0001Error1256.883574.74030CorrectedTotal1453902RootMSE2.17722R-Square0.9989DependentMean150.60000AdjR-Sq0.9988CoeffVar1.44570由运行结果知,F=5679.47,(pr>F)v0.0001比a=°-05远远要小,且R-Square=0.9989非常接近于1,说明线性关系显著。2)模型参数的显著性分析由程序运行结果知变量xl和由程序运行结果知变量xl和X2的系数01和卩2是显著的,但常数项00不显著,可考虑将常ParameterEmtimat亡mVariableDFParameterEmtimgteStandardErrortValuePr>|t|Intercept13.452612.430651.420.1809xl10.496000.0060581.92<.0001x210.009200.000968119.50<.0001
比原来的模型要好!数项删除。要删除常数项,只需要将上述程序中model语句改为:modely=xlx2/noint即可。改进后的程序运行结果如下:比原来的模型要好!AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePr>FModel289404119702088545.4<.0001Error1866.447985.11188Uncorrect亡dTotal15394107RootMSE2.26084R-Square0.9998DependentMean150.60000AdjR-Sq0.9998CoeffVar1.50122ParameterEmtimatesVariableDFParameterEmtimat亡StandardErrortValuePr>|t|xl10.495420.0062778.99<.0001x210.010350.0005495618.88<.0001由此可见,删除常数项后,模型的F值为38545.4,R-Square=0.9998,6.【本次实验】题目见数据分析教材例题3.4某医科大学儿科医院研究某种代乳粉的营养价值时,用大白鼠做试验,得大白鼠进食量(克)和增加体重(克)间关系的原始数据如下所示,试做直线回归分析。x820780720867690787934679639820yl65l58l30l80l34l67l86l45l20l58解:/UT•程序:goptionsvsize=10cmhsize=15cm;datadairufen;inputyx;cards;165820158780130720180867134690167787186934145679120639158820run;procgplotdata=dairufen;ploty*x='A';run;procregdata=dairufen;modely=x;outputout=dairufenlp=pr=rstudent=stdr;SAS系统2汕9年02月13日星期五下午03时05分4就TheREGProcedureModel:M0DEL1DependentVariable::NumberofObservationsRead10NumberofObservationsUsed10AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FSAS票统2叩9年曬月13曰星期五下牛朋时28^02TheRECProc&dur&ModeI:MODEL1DependentVsiriable:yNumberofObservationsRead10NumberofObservationsUsed10NOTE:Nainterceptinmcdel・R-Sqjareisredefined.AnalysisofYarianGeHuurceDFSumofSquaresMeanSquareFValuePr>FMode112417852417854071.79<.0001Error9534.4243259.38048Uncorrected7uta110242819RootMSE7.70587由运行结果知,F=60f20,(pr>F)<Q.0QQt比a和.05远远要小,且R-Square=0.8827比较接近CoeffVar4.99408于1,说明线性关系显著。从程序运行结果知变量的系数0是显著的,但常数项0不显著,可考虑将常数项删除。要10删除常数项,只需要将上述程序中model语句改为:modely=x/noint即可。改进后的程序运行结果如下:10・1时740.00313询岛<.0001程序;goptionsvsize=10cmhsize=15cm;datadairufen;inputyx;cards;165820158780130720180867134690167787186934145679120639158820由此可见,删除常数项后,由此可见,删除常数项后,模型的F值为4071.79,R-Square=0.9978,比原来的模型要好!run;procgplotdata=dairufen;ploty*x='A';run;procregdata=dairufen;modely=x/noint;o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临时保安合同范本
- 人才引进聘用合同范本
- 2025年西藏货运从业资格证考试模拟考试题目答案
- 专业购销合同范本
- 个人雇佣老师合同范本
- 加工木料供货合同范本
- 办公区花卉租赁合同范本
- 冰淇淋原材料采购合同范本
- 仪器外借合同范本
- 公交驾校培训合同范本
- PFMEA-失效模式分析案例
- 荔枝依旧年年红
- SMT贴片线项目可行性研究报告
- 新加坡公司法-英文版
- 第五版-FMEA-新版FMEA【第五版】
- 口腔修复学第三章牙体缺损的修复
- 建设部环卫劳动定额
- 2023年枣庄科技职业学院单招综合素质模拟试题及答案解析
- 美容心理学概述(美容心理学课件)
- 化工企业安全生产教育培训计划及内容
- GB/T 30891-2014水产品抽样规范
评论
0/150
提交评论