




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章 相关与回归分析,第六章,2,掌握线性相关分析过程及分析结果 掌握线性回归分析过程及分析结果 了解非线性回归分析过程及分析结果,内容与要求,第六章,3,第六章,4,相关与回归分析概述,1. 相关与回归分析基本概念 相关分析(Correlation Analysis):是研究变量之间依存关系的密切程度。 回归分析(Regression Analysis):是根据相关关系的具体形态,选择一个合适的数学模型,近似地表达变量间的平均变化关系,第六章,5,两者的关系:具有共同的研究对象,在应用 中互相补充。相关分析需要回归分析来进一步表 明变量相关的具体形式,而回归分析则需要相关 分析所表明的变量
2、间是否存在相关及相关程度的 高低作为依据。只有变量之间高度相关时,进行 回归分析寻求其相关的具体形式才有意义。而在 相关程度很低的情况下回归函数表达式的代表性 几乎就不存在了,第六章,6,两者的区别:第一,相关分析没有自变量和 因变量之分。回归分析必须事先确定变量中哪个 是自变量,哪个是因变量,两个变量的地位不是 对等的;第二,相关分析所涉及的两个变量都是 随机变量,在回归分析中通常把因变量作为随机 变量,而自变量作为非随机变量;第三,相关分 析通过相关系数描述变量的关系。改变两变量的 地位不影响相关系数的数值。而回归分析是通过 回归方程进行估计和预测。改变两变量的地位后 所形成的回归方程的性
3、质是不同的,第六章,7,2. 相关分析的内容与种类 相关分析的主要内容有:确定相关关系的存在,相关关系呈现的形态和方向,相关关系的密切程度。其主要方法是绘制相关图表和计算相关系数。在分析过程中的按分析方法分主要包括两类: 线性相关(Linear Correlation):又称为简单相关(Simple Correlation), 适用于双变量符合正态分布类型的数据属于参数统计分析方法的范畴,第六章,8,秩相关(Rank Correlation):秩相关又称等级相关,适用于双变量等级资料类型的数据。属于非参数统计分析方法。秩相关分析方法适用于下列类型的资料: 不服从变量正态分布的数据。 总体分布类
4、型未知的数据。 以等级表示的数据,第六章,9,SAS系统中相关分析的方法主要包括: Pearson(皮尔逊)积差相关 Spearman(斯皮尔曼)等级相关 Kendall(卡德尔)等级相关 HOEFFDING(霍夫丁)D相关,第六章,10,3.回归分析的内容与种类 如果因变量是(非时间的)连续变量(即一般定量资料),设自变量的个数为k,当k=1时,回归分析的种类有: 直线回归分析 通过直线化实现的简单曲线回归分析 包括:非线性曲线拟合 一般多项式曲线拟合。 正交多项式曲线拟合,第六章,11,相关分析,用直线描述,用曲线 描述,可能有周期变化,无明显关系,第六章,12,上述四幅图分别说明了以下几
5、种可能的关系: 1、可用线性描述变量间的关系(变量间联系中最简单的一种) ; 2、显示变量间有曲线关系; 3、可能有季节性的周期变化(在受季节影响的经济指标中常会遇到) ; 4、变量间无明显的关系,第六章,13,线性相关是描述变量间联系中最简单和最常用的一种。线性相关系数是描述两个变量间线性联系程度的统计指标; 积差线性相关系数的计算公式,第六章,14,两个区间型变量间的关系有很多种可能,在考察散点图后,可用相关统计量将两个变量的关系定量化.若两个变量间存在一个线性关系,则他们为相关的,否则,变量间的相关是不强的. 相关系数是描述变量间线性联系程度的一个统计量,统计中有多个描述相关的指标,最常
6、用的是Pearson相关系数,简称相关系数,第六章,15,相关系数的值为 -1和+ 1之间; 若两个变量间有高度线性关系其值接近任一个极端值; 若两个变量间无线性关系其值接近于零;若相关系数的值大于零表示两变量有正相关; 若相关系数的值小于零表示两变量有负相关,第六章,16,正相关: 一个变量数值 增加时另一个 变量也增加,负相关: 一个变量数值 增加时另一个 变量减少,第六章,17,用Insight计算相关系数,为了定量地描述变量间的线性联系程度, 就需要计算他们之间的相关系数。 (1)打开数据集,选 分析(Analyze)多元(Multivariate)(Y); (2) 选 变量 Y,即选
7、这些变量为分析变量, 计算他们之间的相关系数, OK。 多元分析生成分析变量的单变量统计量和 这些变量间的相关系数矩阵,第六章,18,为了得到检验相关系数是否为零的原假设的p值,可选: 表(Tables)相关系数P值(CORR P-Values);则在输出结果的窗口下方又增加一张相关系数的P值表. 如果p值大于0.05,这表示接受这两个变量的总体相关系数等于零的假设,第六章,19,为了利用图形来说明变量间的相关,可以在多变量窗口生成散点图矩阵和置信椭圆,生成这些椭圆时我们假定每一对变量(X,Y)是两元正态分布的。 可以生成两类椭圆: 均值置信椭圆-预测两变量均值(EX,EY)分布 的置信区域;
8、 预测值置信椭圆-预测两变量单个观测值 (X,Y)分布的置信区域,第六章,20,预测值的置信椭圆可以说明以下两方面问题: (1) 作为置信域,在变量为两元正态分布的假定下,置信椭圆显示数据以设定的百分率落入的区域,落入预测置信椭圆的观测值的百分率应该接近于设定的置信水平; (2) 作为相关的指标。若两个变量不相关,椭圆应该为圆;两个变量相关性越强,则椭圆越扁(即椭圆拉长),可以用椭圆长短轴之比来衡量相关的程度,第六章,21,为了在散点图矩阵上生成95%预测值置信椭圆,可在多变量窗口中选: 曲线(CURVES)散点图置信椭园(Scatter Plot Conf Ellipse)预测(Predic
9、tion):95%; 则生成散点图矩阵及95%预测值置信椭圆(只列出散点图矩阵的下三角部分).变量间散点图上的这个椭圆被拉得很长,表明变量之间有很强的相关. 散点图上的这个椭圆近似于园,表明这两个变量基本上不相关,第六章,22,用分析员应用计算相关系数,1、在分析员应用中打开数据集; 2、选 统计 描述统计 相关, 在弹出的相关窗口选中变量 确定(OK); 则显示这几个变量的相关系数阵及相应的p值. 3、若要制作散点图和置信椭圆,可在相关窗口选中变量后点击Plot键进行选择; 输出的结果中给出逐对变量的散点图和置信椭圆(没有生成散布图阵,第六章,23,SAS系统的线性相关分析过程是由CORR过
10、程完成的。由系统的BASE模块提供,可以计算: PEARSON(皮尔逊)积差相关系数、 SPEARMAN(斯皮尔曼)秩相关系数、 KENDALL(卡德尔)TAU-B统计量、 HOEFFDING(霍夫丁)独立性分析D统计量 以及线性偏相关系数。它还对用于估计可靠性的ronbach系数进行计算,第六章,24,相关分析的CORR过程,PROC CORR DATA=数据集名;RUN,PROC CORR DATA=数据集名; var 变量名列; with 变量名列; partial 变量名列; by 变量名列;RUN,reg11.sas,第六章,25,常用选项: (1)PROC CORR 语句的选择项:
11、 1.DATA=SAS 数据集 2.PEAESON 计算皮尔逊相关系数(默认) 3.SPEARMAN 计算斯皮尔曼系数 4.HOEFFDING 计算霍夫丁D统计量 5.KENDALL 计算卡德尔系数 6.OUT(PSKH )=输出数据集。分别对应与四个系数输出数据集,第六章,26,7.NOMISS 分析时剔除缺失值 8.NOSIMPLE 不列出描述统计量 9.COV 列出协方差矩阵 10.ALPHA 计算并输出阿尔法系数 (2)功能语句 1.VAR语句:计算所有数值型变量间的相关系数 2.WITH语句:必须与VAR语句同时使用,只计算VAR变量与WITH变量的相关系数。 3.PARTIAL :
12、偏相关变量表; 4.BY语句:分组进行相关系数的计算,第六章,27,散点图是直观地观察连续变化变量间相依关 系的重要工具。利用编程可绘制两个变量的散 点图,Symbol v=star cv=red; proc gplot data=class; plot weight*height ; Run,或,proc plot data=class ; plot weight*height=* ; Run,第六章,28,在使用相关系数说明问题时要注意的是: (1) 相关系数很强并不表示变量间一定有因果关系,也可能是两个变量同时受第三个变量的影响而使他们有很强的相关(如学习能力和鞋码大小); (2) 相关
13、系数是说明线性联系程度的。相关系数接近于0的变量间可能存在非线性联系(可能是曲线关系); (3)有时个别极端数据可能影响相关系数,第六章,29,强相关并不表示一定存在因果关系,弱相关并不表示变量间不存在关系,个别极端数据可能影响相关系数,第六章,30,数据集MYDATA.CPI是某地区30户居民家庭的月可支配收入(INCOME)和月消费支出(CSPT)的原始资料,试通过相关分析月可支配收入和月消费支出两个变量间是否存在相关关系。 由于这两个分析变量均为连续变量。因此,可以使用PEARSON积差相关分析过程。为了更直观的反映两个变量之间的关系,在使用CORR过程分析之前,使用PLOT过程作散点图
14、,第六章,31,PROC GPLOT DATA=MYDATA.CPI; PLOT CSP*INCOME; RUN; PROC CORR DATA=MYDATA.CPI OUTS=DA1; VAR INCOME CSP; RUN,第六章,32,从散点图中可以看到两个变量基本上呈现直线关系,第六章,33,第六章,34,数据集DST.BCLASS是某学校学生身体状况的资料。 运行下列两组程序,了解WITH语句的作用。 程序1: 程序2,PROC CORR DATA=DST.BCLASS NOSIMPLE; VAR AGE HEIGHT WEIGHT; RUN,PROC CORR DATA=DST.B
15、CLASS NOSIMPLE; VAR HEIGHT WEIGHT; WITH AGE; RUN,第六章,35,运行结果-未使用WITH语句 运行结果-使用WITH语句,第六章,36,数据集MYDATA. VITAL是一组肺活量、身高体重的实测资料要求: (1)对三个变量进行简单线性相关分析; (2)分别以身高与体重为控制变量进行一阶偏相关分析。 编程1:简单线性相关分析(CORR的一般过程) PROC CORR DATA= MYDATA. VITAL NOSIMPLE; VAR HEIGHT WEIGHT; WITH VITAL; RUN,第六章,37,运行结果,第六章,38,编程2:偏相关
16、过程(以WEIGHT为控制变量) PROC CORR DATA=MYDATA.VITAL NOSIMPLE; VAR HEIGHT VITAL; PARTIAL WEIGHT; RUN,第六章,39,编程3:偏相关过程(以HEIGHT为控制变量) PROC CORR DATA=MYDATA.VITAL NOSIMPLE; VAR WEIGHT VITAL; PARTIAL HEIGHT; RUN,第六章,40,某大型企业以“你在企业改革中最需要解决什么?”为题,分别对企业管理人员和普通员工共200名进行了问卷调查。经整理后得下表所列的资料。分析两种人员“需要”的相关程度。 由于两变量是离散变量
17、,因此需要使用秩相关分析过程,第六章,41,创建数据集 DATA LI54; INPUT worker manager; CARDS; 26 19 10 21 16 8 25 16 5 11 6 15 9 7 3 3 ; PROC PRINT; RUN,第六章,42,分析过程 PROC RANK DATA=LI54 OUT=LI54_R; VAR worker manager; RANKS R_worker R_manager; PROC PRINT; RUN; PROC CORR DATA=LI54_R SPEARMAN; VAR R_worker R_manager; RUN,第六章,43
18、,运行结果,两变量的线性相关系数值为 0.61905,说明两 变量为中度线性相关,但其检验概率值Prob |r|为0.1017,大于默认的显著性水平 ,因此从总体上不 能认为两个变量具有线性相关关系,第六章,44,数据集EXAM包含四个子测验的分数,分别是 VOCAB(词汇)、READING(阅读)、SPELLING (拼写)、USAGE(语法)等,分析这些子测验成绩 是否与英语总成绩有关。 编程: PROC CORR DATA=EXAM ALPHA; VAR VOCAB READING SPELLING USAGE; RUN,第六章,45,第六章,46,结果说明 输出结果的第一部分(Cron
19、bach CoefficientAlpha) 含两个阿尔法系数,第一个值(Raw) 是根据原始分数导出 的,Alpha=0.895444;第二个值(Standardized)是根据标 准化后的分数导出的,Alpha=0.889552。二者的值都相当 高。因此,可下结论说由这四个子测验分数的总和所形成 英语总成绩的显示极高的可信度,第六章,47,练习题,对数据集(DST.BCLASS),用SAS菜单系统及编程完成以下练习: (1) 计算AGE,WEIGHT,HEIGHT的相关系数和偏相关系数。 (2) 绘制AGE,WEIGHT,HEIGHT的散布图阵,并对预测均值附加85%的置信椭园. (3)
20、用SAS/INSIGHT绘制WEIGHT与HEIGHT的散布图(男女用不同颜色,不同年龄用不同的符号表示,第六章,48,一元线性回归分析,建立回归方程: 确定变量:Y 与变量x1, x2,. . , xi有相关关系 . 选择形式:Y 与 x1, x2,. . , xi 以什麽形式相联系, 确定回归参数数,回归(Regression)分析描述一个变量与一些变量间统计联系的关系式,Y=f (x1,x2,.,xm), 并用于解释和预测,第六章,49,因变量和自变量x的n次观测数据(xi ,Yi)可以用以下方程表示: Yi = 0 + 1 xi + i (i=1,2,. . .,n) Yi : 因变量
21、的第 i 次观测值; xi : 自变量的第 i 次观测值; 0 ,1 : 待估计的未知参数. 0是截距参数,对应自变量为0时因变量的均值; 1是斜率参数,对应自变量改变一个单位时因变量均值的改变量,第六章,50,随机误差i 表示Yi关于0 + 1 xi的残差,同样假定它是独立的,等方差(2)的正态分布。 估计线性回归模型的目的就是要从观测(xi ,Yi) (i=1,n) 出发对模型中的未知参数0 ,1和2进行估计;从图形上看就是要从观测点(xi ,Yi)出发,拟合直线Y = 0 + 1 x . 未知总体参数0 和1的估计是由最小二乘法得到的,这个方法提供的估计使由此估计确定的直线满足观测值和直
22、线间纵向距离的平方和为最小。换言之,拟合的回归直线尽可能地靠近所有的数据点,第六章,51,第六章,52,因变量(Y,自变量(x,第六章,53,自变量(x,因变量(Y,第六章,54,第六章,55,模型显著性检验,模型显著性检验的假设为: H0: 1 = 0, H1: 1 0; 检验结果若拒绝原假设就表示回归方程的作用是显著的;接受原假设就表示所考虑的自变量X对因变量Y的回归作用并不显著. 基线模型:Yi = + ei,第六章,56,回归统计量(R2 ,修正R2和 PRESS,预测残差平方和,m,第六章,57,预测值与置信限,第六章,58,2) Analyst: 统计(Statistics) =回
23、归(Regression) = 简单(Simple . . .,3) PROC REG DATA=数据集名; MODEL 因变量=自变量; RUN,SAS/INSIGHT:分析(Analyze) =拟合(Fit)(Y X) = 指定Y和 X变量,4) GLM过程,第六章,59,一元线性回归的例子,例1:讨论某地区11年有执照汽车数x(万辆)与车祸次数Y(千次)的相关关系(数据见DATA步的数据行),并进行预测. 解:(1) 用编程,首先生成SAS数据集dreg1,data dreg1; input year y x ; cards; 1947 166 352 1948 153 373 1949
24、 177 411 1950 201 441 1951 216 462 1952 208 490 1953 227 529 1954 238 577 1955 268 641 1956 268 692 1957 274 743 ; (reg21.sas,第六章,60,1)调用REG过程: proc reg data=dreg21; model y = x ; run; (2) 用SAS/INSIGHT的步骤: 启动INSIGHT,打开SAS数据集dreg21; 散点图: 分析(Analyze) = 散点图(Scatter Plot)(Y X) =指定和变量 = OK = 浏览结果 拟合: 分析(
25、Analyze) =拟合(Fit)(Y X) =指定和变量=OK=浏览结果,第六章,61,计算预测值:在数据表底部自变量栏键入数据(x=1000,800),即得到相应的预测值; 计算回归均值和预测值的置信区间: 曲线(Curves)=置信曲线(Cofidence Curves ) = 均值(mean) : = 95% 或 = 预测 (Predction) : =90% * Noint: 强制截距为零.在拟合窗口中间 若选中截距(这是默认的情况),回归模型中包含截距项.若不选中截距,即强制截距为零,第六章,62,广义线性模型(GENMOD)简介,广义线性模型(GENMOD)是传统线性模型的推广.
26、传统线性模型的因变量是数值变量(连续变量),假定: E(Y)=b0+b1x1+. . .+bpxp , 因变量和自变量的n次观测值满足: i = E( Yi ) =b0+b1xi1+. . .+bpxip , ( i=1,. . .,n). 推广后允许因变量或是连续型变量,或是属性变量(如比例变量,或计数变量等),且假定: g(i ) =b0+b1xi1+. . .+bpxip , ( i=1,. . .,n) 其中g(i )是一个单调可微的函数,称为连接函数(或关联函数,第六章,63,当因变量是连续型变量,且g()= 时(即关联函数为恒等式),并假定为正态分布(响应分布),这时以上模型就是我
27、们熟悉的传统线性模型(一般线性模型). (2)当因变量是属性变量如Y=0或1,记= P(Y=1),且 时(即关联函数为logit),并假定为二项分布,这时以上模型就是我们在属性数据分析中将介绍的Logistic回归模型,第六章,64,传统线性回归模型包括多元线性回归模型,方差 分析模型,协方差分析模型等.这些是应用最广泛的一些分析方法. 当使用菜单系统INSIGHT进行计算时,由菜单项 拟合(Y ) 可以完成广义线性模型的所有功能: 只须从拟合窗口下方按方法键,并根据不同模型选择不同的关联函数,响应分布等,即可建立广义线性模型的所包括的各种模型. 缺省时建立的模型就是传统的线性模型,第六章,6
28、5,一元线性回归的REG过程,PROC REG DATA=数据集名; MODEL 因变量=自变量;RUN,PROC REG DATA=数据集名; MODEL 因变量=自变量名列/ p cli clm noprint noint ; id 变量名; output out=数据集名 关键统计量名=输出名.;RUN,第六章,66,proc reg data=dst.fitness ; model oxygen = runtime ; run; proc reg data=dst.fitness ; model oxygen = runtime / p cli clm ; id runtime; ou
29、tput out=outfit p=poxy r=roxy l95=l95oxy u95=u95oxy; run,reg22.sas或reg22b.sas,第六章,67,回归线作图-REG中的PLOT语句,PROC REG DATA=数据集名 noprint; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项; symboln c=颜色 v=值;RUN,利用proc reg 中的plot语句可以绘制与拟合数据有关的散点图、回归直线和置信曲线、预测区间曲线,noprint 不输出拟合的结果,第六章,68,PROC REG DATA=数据集名 noprint;
30、MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项; symboln c=颜色 v=值;RUN; (Reg23.sas或Reg23B.sas,y变量和x变量可以是因变量、自变量和其它与回归分析结果有关的变量: p.(predicted) 预测值 r. (residual) 残差 U95., L95. 预测值置信限U95M.,L95M. 预测均值置信限,选项: conf 95-作预测均值 的置信曲线 pred95-作预测值的 置信曲线 overlay-将语句中 规定的图迭置 在一幅图上 AIC CP MSE SSE- 在图形左边显示 相应的统计量,第六章,69,
31、回归线作图-用GPLOT过程,PROC GPLOT DATA=数据集; PLOT 纵轴变量*横轴变量;RUN,PROC GPLOT DATA=数据集; PLOT 纵轴变量*横轴变量 纵轴变量*横轴变量 / overlay; symbol1 i=rlcli|rlclm置信百分数 其它图形选项;symbol2 i=rlcli|rlclm置信百分数 其它图形选项; RUN,图形选项: c= value= cv= height= font= Line= width= interpol=r ci,第六章,70,symbol1 value=star ci=blue cv=red i=rlclm95 wid
32、th=2; proc gplot data=dreg1; plot y*x; title2 Y对x的回归线及均值的95%置信限; run; (REG24.sas或Reg24B.sas,i=rlclm95 表示绘制线性回归预测均值的95%置信限,第六章,71,例2,恩格尔系数反映了食品支出与收入水平之间 的关系:假定商品价格不变,实际食品支出与实 际收入水平之间的关系,可以用一元线性回归模 型表示。下表是关于15个居民家庭的月人均食品 支出(Y)与人均月收入(X)的数值 要求:绘制散点图; 建立回归模型并进行残差分析; 绘制95%的置信区间图,第六章,72,编 程,PROC GPLOT DATA
33、=MYDATA.ENGLE; PLOT Y*X; RUN; PROC REG DATA=MYDATA.ENGLE; MODEL Y=X/CLI CLM R; PLOT Y*X PREDICTED.* X L95.* X U95.* X / OVERLAY; PLOT Y*X PREDICTED.* X L95M.* X U95M.* X / OVERLAY; QUIT,第六章,73,运行结果散点图,第六章,74,运行结果CLM图,第六章,75,运行结果回归分析,第六章,76,运行结果置信区间,第六章,77,运行结果残差分析,第六章,78,输出残差分析结果: 包括残差的标准误差(Std Erro
34、r Residual)、学生化 残差(Student Residual)以及学生化残差图,图上出现四 个及以上“* ”号的点所对应的学生化残差的绝对值大于 2,认为是残差较大的可疑点。如果这样的点所占的比 例较大,表明模型拟合得不合适。对于出现的可疑点, 应检查原始记录和数据输入时是否有失误,第六章,79,COOKD统计量(Cooks D): COOK统计量是度量各个观测点影响大小的指标,D 值大的点称为强势影响点,一般使用的标准为 |D|4/N, 为强势影响点。从残差图中可以看到第6个观测和第12个 观测为强势影响点。在实际应用中可以删除这两个观测 重新建立回归模型,可以提高模型的分析精度,
35、第六章,80,练习题,1. 讨论某种合成纤维的强度Y与拉伸倍数x的相关关系(数据见数据集DST.regE21).试用SAS菜单系统及编程完成以下练习: (1) 建立(合成纤维的强度)与x(拉伸倍数)回归关系式,并给出回归系数的检验结果. (2) 给出当x=.2,3.2,6.2和10.2时,合成纤维的强度的预测值及线性回归预测均值的90%置信区间. (3) 绘制Y对x的散点图,回归线及均值的95%的置信限,第六章,81,2.对不同类型汽车的价格和性能的数据(DST.CARS) 用SAS菜单系统及编程完成以下练习: (1) 建立MIDPRICE(中间价)与PERFORM(使用效率-性能)回归关系式
36、,并给出回归系数的检验结果. (2) 给出当PERFORM=0.03,0.04,0.05和0.06时,中间价的预测值及线性回归预测均值的90%置信区间. (3) 绘制MIDPRICE(中间价)对PERFORM(性能)的散点图,回归线及均值的95%的置信限,第六章,82,多元线性回归分析,多元线性回归模型可同时研究 Y 与多个自变量 (独立变量) x1, x2,. . , xp 间的关系; 对多元回归模型进行解释和选择最优要比单变 量的模型复杂; 多元线性回归分析对于解释分析因变量与自变 量的关系、预测因变量等方面是一个有用的工具。 一些变量间的非线性关系也可归为多元线性回 归模型(例如多项式关
37、系,第六章,83,多元线性回归模型: Yi=b0+b1xi1+. . .+bpxip+ei, i=1,. . .,n,ei: 相互独立、正态分布、同方差、零均值,用最小二乘准则估计b0 ,b1 ,. . .,bp ,使得,通过求解b0 ,b1 ,. . .,bp 的一个线性方程组(正规方程)可得参数的估计,第六章,84,H阵,第六章,85,预测残差平方和,预测值(P): 均值E(y)置信限(CLM,预测值y置信限(CLI,第六章,86,求得回归方程后,此方程是否有意义?首先应检验以下假设: H0: b1 =b2=.= bm = 0 使用的方法仍是方差分析法.从分析引起Yt(t=1,n)变化的总
38、变差Total SS的原因入手.显然使得Y变化的原因有二个:第一,因Y与xi(i=1,m)线性相关,由xi的变化引起Y的变化;第二,其它因素或误差引起的.若Y的变化主要是由xi的变化引起的,则模型中的自变量xi的系数i 0.用方差分析的思想,把yt( t=1,n)的总变差进行分解: Total SS=Model SS+Error SS,第六章,87,由总变差的分解公式: Total SS=MSS+ESS 可构造检验假设的检验统计量F F=,MSS/fm MMS(模型均方,ESS/fe EMS(误差均方,由观测数据计算F值及显著性概率(p值),p值是指在H0下,利用F的分布规律,计算出检验统计量
39、F大于等于样本F值的概率。若得出的p值很小(小于显著性水平),依统计思想,小概率事件在一次实践中一般不会发生。如果发生小概率事件,将否定前提假定H0,第六章,88,对回归方程的显著性检验,若否定H0,仅表示1, 2, m不全为0,但并不排除有个别i为0。若i=0,说明自变量xi对因变量Y的影响不明显,应从回归模型中删除。因此对回归系数i (i=1,2,m)是否为0逐个进行检验是很必要的。即检验以下的假设: H(i) :i=0 (i=1,2,m) 类似地,可构造检验以上假设的检验统计量T,并由n组观测计算T值和显著性概率(p值)。从而对H(i) 是否成立进行统计推断,第六章,89,在多元线性回归
40、分析中输出的回归系数(参数)的 t 检验里,都是假定其它自变量进入回归的前提下检 验该变量进入的显著性.即构造t统计量的平方和为偏 回归平方和,在后面的介绍中称之为II型平方和(SS2). 若模型中有两个变量相关性强,在这一检验中两 者的显著性都有可能被隐蔽起来.所以,这一检验结果 必须小心分析。 删除变量时,必须逐个删除.并在删除每个变量 后,注意观测其它变量的p-值的变化,第六章,90,例3 使用SAS/STAT软件中提供的回归过程REG和SAS菜单系统“分析员应用”来分析FITNESS数据集,并建立肺活量与其它指标的经验公式。 解 (1) 用REG过程来建立经验公式。 一般先用DATA步
41、创建SAS数据集.因该数据集已存放在SASUSER或DST数据库里,直接调用即可. 然后用PLOT过程画OXYGEN随RUNTIME变化的散布图: proc plot data=fitness; plot oxygen*runtime=*; title “肺活量与1.5英里跑时间的散布图” ; run,第六章,91,以下用REG过程对FITNESS数据进行回归计算: proc reg data=fitness; model oxygen=age weight runtime rstpulse runpulse maxpulse; title “oxygen与其它指标的多元回归模型”; run;
42、 (Reg31.sas,第六章,92,用SAS菜单系统进行回归计算.首先启动“分析员应用”,并打开SAS数据集FITNESS.进行多元线性回归分析的步骤如下: 在“分析员应用”菜单栏目中选择 统计(Statistics)= 回归(Regressi)= 线性(Linear). 在弹出的线性回归主窗口中选择因变量和自变量: OXYGEN=Dependent, AGE,MAXPULSE=Explanatory. 在线性回归主窗口的下方有几个键,第六章,93,Models键让用户选择筛选自变量的方法; Plots键供用户选择想绘制的各类图形,如散点图、残差图或影响图等; Tests键供用户选择是否进行
43、WLS或功效分析; Statistics键让用户选择希望计算的统计量,如参数估计、标准回归系数、估计的相关阵或协差阵; Predictions键供用户由预测选项选择预测内容,第六章,94,按Plots键在弹出的“线性回归:Plots”窗口中选择绘制因变量的观测值对预测值的散布图(plot observer vs predicted) =OK。 将要求绘图、分析计算的项选择完毕后,从相应窗口按OK键返回到线性回归的主窗口=OK,系统将按用户的要求进行分析计算。 查看输出结果,从“分析员应用”的数据窗口左边的树状表可以选择你想查看的各类计算结果,第六章,95,用Insight拟合多元线性回归的做法
44、与拟合简单线性回归的做法是类似的,只需要在选定回归自变量X时选择多个自变量即可。 以数据集Fitness为例,对OXYGEN建立一个好的模型。 从上节练习知道,用单个变量runtime,模型的R平方约为74%,用数据集中的其他变量可以改进模型.如引入变量age、weight、rstpulse 、runpulse、maxpulse和runtime作为自变量建立一个模型,选,第六章,96,1)分析(Analyze)拟合(Fit)(Y X), 选 OXYGEN Y; (2)按下Ctrl,并点击在变量表中同时选中age、weight、rstpulse 、runpulse、maxpulse和runtim
45、e X, OK; 拟合窗即显示拟合多元回归的的有关信息,前两张表包含模型和方程的信息,第六章,97,第三张拟合汇总表中表明R平方为0.8487,比简单线性回归模型有所提高.在模型中增加自变量总能提高R平方,但有时并不显著;校正R平方是类似于R平方的统计量,但它对模型中的变元个数进行修正.在比较不同模型的拟合效果时用校正R平方更合适,如在这里它为0.8180,而在简单模型中为0.7345,说明这一模型比简单线性模型更多地说明响应变量OXYGEN的变化,第六章,98,第四张方差分析表中,看到p值0.0001,拒绝原假设(H0: b1 =b2=.= bm = 0),并可作出至少有一个回归系数显著不为
46、零的结论.这表示所考虑的多元回归模型是显著的,第六章,99,型检验窗必须小心地考察,F统计量和相联系的p值检验各个自变量的回归系数为零的假设,但是,它是在所有其他自变量加入的情况下检验各个变量加入的显著性.若模型中的一个自变量与另一个自变量有较强的相关时,在这一检验中两个变量的显著性都可能被隐蔽起来,所以从模型中删除变量时,必须逐个删除,并在删除每个变量后,注意观察所引起的其他变量的p值变化.检验的显著性概率(p值)并不依赖于自变量在模型中排列的次序,但它依赖于哪些变量进入了模型,第六章,100,参数估计表也给出了参数的估计值,并给出回归系数的显著性检验,即逐个检验各回归系数i =0的假设,它
47、还包括截距的显著性检验,第六章,101,在拟合窗中最后一个图是残差(或余差)与预测值的散点图,与简单线性回归一样,点应该随机散布在零线附近,没有出现任何破坏模型假定的迹象.像以前一样,可用Distribution(Y)检验残差分布的正态性,第六章,102,练习题,对不同类型汽车的价格和性能的数据(DST.CARS) 用SAS菜单系统及编程完成以下练习: (1) 建立MIDPRICE(中间价) 与 citympg,cylinder, hwympg,egnsize,rpm,revltns,fueltnk和perform的多元回归关系式,并给出各个回归系数的检验结果. (2) 由回归系数的显著性检验
48、结果,能否指出影响中间价格的主要因素是哪些?哪几个因素是不显著的 (=0.10)? (3) 对92辆汽车的数据用以上拟合的回归式进行预测,并且给出均值的95%的置信区间,第六章,103,变量选择,什么是“最优”回归方程?直观考虑应该是方程中包含的所有变量对因变量Y的影响都是显著的;而不包含在方程中的变量对Y的影响是不显著的(可忽略).也就是从自变量集x1 ,x2 ,,xm中选出适当的子集xi1 ,xi2 ,,xil(l =m),使得建立Y与xi1 ,xi2 ,,xil 的回归方程就是这样的“最优”回归方程.这就是回归变量的选择问题,第六章,104,回归变量的选择问题在实用上和理论上都是十分重要
49、的。这个问题最大的困难就是如何比较不同选择(即不同子集)的优劣,即最优选择的标准。从不同的角度出发,可以有不同的比较准则,在不同的准则下,“最优”回归方程也可能不同,第六章,105,最优选择的标准,1) 均方误差s2最小 选择子集A=xi1 ,xi2 ,,xil,使均方误差: s2(A)=ESS (A)/(n-l-1) 达最小。 其中ESS (A)是Y与子集A回归模型的误差平方和,l是子集A中自变量的个数。 (2) 预测均方误差最小 选择子集A, 使得J(A)= ESS(A)达最小。 (3) Cp统计量最小准则 选择子集A,使得Cp(A)= +2l-n 达最小, 其中ESS是包含所有m个自变量
50、的全回归模型中的误差平方和,n+l+1,n- l -1,ESS(A,ESS/(n-m-1,MSE,第六章,106,最优选择的标准,AIC(A)=ln(ESS(A)+ 或 BIC(A)=ln(ESS(A)+ 达最小。 (5) 修正R2准则 选择子集A,使得修正R2=1- (1-R2) (当模型含截距项时i=1,否则i=0)达最大,2l,n,l lnn,n,n - i,n (l+i,4) AIC或BIC准则 选择子集A,使得,第六章,107,在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差;若加入了不该加入的变量,将加大所有的回归系数估计量的方差. 回归分析中变量的选择是在自变
51、量(独立变量)集中找出合适的子集,用以描述模型和进行预报,第六章,108,在REG过程中逐步筛选变量的方法通过以下有关的选项给出: NONE:全部进入,不筛选变量; FORWARD: 向前加入法,即逐个加入变量; BACKWARD: 向后删除法,全部加入后逐个剔除; STEPWISE: 逐步回归法,边进边出; MAXR:逐个加入和对换,使R2增加最大; MINR: 逐个加入和对换,使R2增加最小,第六章,109,MAXR:开始加入使R2增加最大的变量 以后每一步选择模型内外变量进行对换-.选择使R2增加最大的对换; .选择加入一个使R2增加最大的新变量. MINR:开始加入使R2增加最小的变量
52、 以后每一步选择模型内外变量进行对换-.选择R2增加最小的对换; .选择加入一个使R2增加最小的新变量,第六章,110,ADJRSQ:选Adj-RSQ最大的模型,CP:选最先满足Cpp 的模型 其中p为进入回归式的变量个数,建议: Cpp (预测) Cp2p-m+1(估计) (m为全模型的变量个数,第六章,111,Analyst : 从菜单栏选 统计(Statistics) =回归(Regression) = 线性(Linear .,在多元线性回归窗口指定因变量和自变量后,从窗口下方: = 按Model纽 = 由Mothod 选方法 (注:INSIGHT未提供变量的自动选择,第六章,112,2
53、) 对已拟合的回归模型,若有证据表明某个自变量的作用并不显著,就要考察剔除这个自变量后重新拟合的回归模型。 例如在上节的例子中要考虑剔除最不重要的变量rstpulse后拟合回归的效果,对此不必重新拟合,只需在拟合窗的任一处选中变量rstpulse使它变亮,再从下拉菜单选: 编辑(Edit) 删除(Delete), 则系统将删除rstpulse,重新建立Y与其余自变量的回归模型.显示的结果就是修改为不含rstpulse的拟合结果,第六章,113,PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r noprint selection= backward
54、|forward| stepwise rsquare |adjrsq|cp slentry=0.05 slstay=0.10 best=个数 aic sbc rmse include=n ; id 变量名; output out=数据集名 关键统计量名=输出名. . .;RUN,REG41.sas,3) 编程-REG过程及选项SELECTION,第六章,114,以上介绍的选择几种方法中,最常用的是逐步筛选法。逐步回归的基本思想和基本步骤如下: 基本思想:逐个引入自变量,每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉。最终得到的方程中即不漏掉
55、对Y影响显著的变量,又不包含对Y影响不显著的变量。 基本步骤:首先给出引入变量的显著性水平in 和剔除变量的显著水平out。然后按以下框图筛选变量,第六章,115,例4 用REG过程或“分析员应用”分析FITNESS数据,并用逐步筛选方法建立“最优”的回归关系式;然后进行预测。 解 (1) 调用REG过程完成逐步回归计算。假设引入变量的显著性水平in=0.15,剔除变量的显著性水平out=0.15(一般取in = out ,也可取为不等.但要求in = out ,否则可能出现死循环) 。要求计算预测值和95%置信界限。SAS程序如下,第六章,116,proc reg data=sasuser.
56、fitness; model oxygen = age weight rstpulse maxpulse runpulse runtime / selection=stepwise sle=0.15 sls=0.15; print cli; title Stepwise Selection; run,REG42.sas,0.15是系统的缺省值,可以省略,第六章,117,2) 用“分析员应用”进行逐步回归计算的具体步骤 首先启动“分析员应用”,并打开SAS数据集。在“分析员应用”菜单栏目中选择 统计(Statistics)=回归(Regression)=线性(Linear) 在弹出的线性回归主窗
57、口中选择因变量和自变量: oxygen=Dependent, runtime、age、maxpulse=Quantitative。 按线性回归主窗口下方的Models键,在弹出的模型选择窗口中,第六章,118,第六章,119,选择标签为Method(方法)的项目,从显示的八种方法中选择逐步回归方法.在模型窗口中选择标签为Criteria(显著性准则)的项目从显著性水平框中指定引入模型和保留在模型中的显著性水平(如选引入模型的显著性水平为0.15,保留在模型里的显著性水平也取为0.15)。在模型选项窗口中还可以指定总是包含在模型里的变量以及对几个全子集法选择输出的统计量等 = OK,第六章,12
58、0,将要求的项选择完毕后,从相应窗口按 = OK键 ,返回到线性回归的主窗口 = OK,系统将按用户的要求进行分析计算. 查看输出结果,从“分析员应用”数据窗口左边的树状表可以选择你想查看的各类计算结果.以下是逐步回归最后一步(第四步)的结果和筛选过程的汇总结果,第六章,121,第六章,122,例5,数据集 REALTY是某地区1992-2004年的部分经济核 算指标。包括住宅需求量(Y)、年度(YEAR)、国内生产总 值 (X1)、人均住房支出(X2)、市区人口总量(X3)、职工平 均工资(X4)、本年住宅平均售价(X5)、上年住宅平均售价 (X51)、人均居住面积(X6)、年市场化利率(X
59、7) 、年末总 户数(X8)、本年人均可支配收入(X9)、下年人均可支配收 入(X91),研究这些因素对住宅需求量(Y)的影响,PROC REG DATA=DST. REALTY; MODEL Y= x1 x2 x3 x4 x5 x51 x6 x7 x8 x9 x91; QUIT,第六章,123,输出结果-方差分析(Analysis of Variance,第六章,124,输出结果-参数估计(Parameter Estimates,第六章,125,结果讨论一,F检验的检验值,其对应的概率值为,远远 小于显著性水平,表明变量间线性关系显著,拟 合的回归模型回归效果是显著的; 拟合精度(Root MSE)的值为7.94654,拟 合优度的值为 0.9988,调整的拟合优度(Adj R-Sq) 的值为0.9925,表明因变量变化的99.25%是由自 变量引起的。说明该回归模型自变量对因变量的 线性关系的拟合是可靠的,第六章,126,结果讨论二,由于没有指定分析方法,因此系统默认使用 全部进入法。该方法的默认显著性水平为。因此 在确定回归方程时,检验概率的值大等于0.5的变 量可以不写入回归模型。所以该模型可以写为,第六章,127,例6,利用例5的资料进行逐步回归法分析: PROC STEPWISE DST. REALTY; MODEL Y= x1 x2 x3 x4 x5 x51
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论