第四章相关与回归分析_第1页
第四章相关与回归分析_第2页
第四章相关与回归分析_第3页
第四章相关与回归分析_第4页
第四章相关与回归分析_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

朱连华Tel京信息工程大学数理学院统计系E-mail:ahualian@126.com统计分析与SAS软件应用第四章相关与回归分析相关分析相关系数的计算二个变量间的相关分析多个变量间的相关分析距离分析回归分析一元线性回归模型多元线性回归模型可转化为线性的回归模型回归诊断相关与回归分析---变量间的关系§1相关分析相关系数的计算二个变量间的相关分析多个变量间的相关分析距离分析一、相关系数的计算:相关系数的计算有三种:Pearson相关系数:对定距变量的数据进行计算秩相关:Spearman和Kendall相关系数对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩相关系数有关公式:Pearson积矩相关

Spearman相关系数式中Ri是第i个x值的秩,Si是第i个y值的秩。分别是Ri和Si的平均值。Kendall’stau-b:其中ti(或ui)是x(或y)的第i组结点x(或y)值的数目,n为观测量数。关于相关系数统计意义的检验

式中r是相关系数,n是样本观测量数,n-2是自由度。当t>t0.05(n-2)时,p<0.05拒绝原假设;Pearson和Spearman相关系数假设检验t值计算公式:二、两个变量间的相关分析两两变量间的相关:包括两个连续变量间的相关(Pearson相关)两个等级(分类)变量间的秩相关(Spearman和Kendall相关)a、连续变量间的相关:Pearson。实例:zlh.gmsr:1962年-1988年安徽省国民收入与城乡居民储蓄存款余额两个变量间的线性相关分析(income:国民收入,deposit:城乡居民储蓄存款余额,number:序号,year:年份)。比较有用的结果:Pearson相关系数r=.976和其相应的显著性概率Sig=.000(显然国民收入与存款余额之间是高度相关的)Pearson相关实例1zlh.gmsrdatazlh.gmsr;inputnumberyearincomedeposit;cards;1 1962 34.61 .592 1963 35.67 .713 1964 39.52 .854 1965 47.32 1.005 1966 54.14 1.226 1967 50.86 1.147 1968 49.69 1.328 1969 51.61 1.289 1970 65.06 1.3510 1971 72.57 1.6011 1972 77.72 1.8712 1973 83.57 2.2013 1974 82.00 2.5514 1975 87.44 2.6115 1976 95.63 2.7416 1977 97.23 3.1317 1978 103.81 3.9118 1979 116.29 5.7519 1980 127.87 8.7620 1981 150.29 12.1921 1982 161.47 16.3622 1983 180.20 20.9523 1984 221.17 28.3224 1985 271.81 38.4325 1986 310.53 55.4326 1987 357.86 75.2027 1988 444.78 89.83;run;proc

corrdata=zlh.gmsr;varincomedeposit;run;Pearson相关实例1安徽省国民收入与城乡居民存款余额的相关分析(使用默认参数)b、等级(分类)变量间的秩相关:Spearman和Kendall。实例:zlh.yhgz

银行职工的起始工资salbegin和现工资salary与雇员的职务等级jobcat、受教育程度educ关系(比较有用的结果:Kendall秩相关系数r和其相应的显著性概率Sig(Kendall秩相关系数均>0.5,认为中度相关)实例:zlh.wsbs

某次全国武术女子前10名运动员长拳和长兵器两项得分数据,要求分析这两项得分是否存在线性相关(比较有用的结果:秩相关系数r和其相应的显著性概率Sig(秩相关系数均>0.5,认为中度相关)实例1zlh.yhgzproc

corrdata=zlh.yhgzpearsonspearmankendall;varsalary;witheducjobcat;run;proc

corrdata=zlh.yhgzpearsonspearmankendall;varsalbegin;witheducjobcatprevexp;run;/*id雇员序号gender性别bdate出生日期educ受教育年数jobcat工作分类salary薪水salbegin初始薪水jobtime本单位工作时间(月)prevexp过去工作经历(月)minority是否少数民族*/实例1zlh.yhgz左面程序的执行结果,Pearson相关下表是执行程序的结果,使用非参相关:Spearman和Kendall‘stau-b方法计算相关系数。这两个结果是不同的。Pearsom相关分析结果初始工资与受教育程度和职务等级高度相关(p<0.001),与以前的工作经历无关(p=0.327)。Spearman和Kendall‘stau-b的结果是与三者都是高度相关的p值均小于0.001。只是与以前工作经历相关系数较小0.133和0.186。应该使用哪个输出结果做结论呢?应该查看变量的测度和进行正态性分析。从上3个图可以看出受教育年限、起始工资、以前工作经历(月)都不是正态分布;从变量属性的测度类型看,职务等级是Order类型,只分3等,受教育程度也是分类变量少于24等,所以也属于分类变量Order类型;左表是描述统计量的输出,偏度和峰度度值都说明这些变量都非正态分布,因此应该做非参相关。根据前页第2个表格看出,起始工资的确定主要考虑了雇员的受教育程度和职务等级。也考虑了以前工作经历长短。均为正相关。

根据前面对变量测度类型和正态性分析,当前工资与各因素的相关关系的分析只采用Spearman和Kendall‘stau-b方法计算相关系数。(只有本企业工作经历时间偏度接近0)结论:当前工资与以前工作经历的时间长短无关;与受教育年限、起始工资和职务高度相关,与本单位工作时间长短有一定的相关关系:p<0.05,但是相关系数仅为0.071。秩相关实例2zlh.wsbs;datazlh.wsbs;inputrankingscore1score2;cards;1 9.00 9.252 8.90 9.153 8.90 9.104 8.90 8.955 8.85 9.106 8.85 9.107 8.80 8.858 8.80 8.709 8.80 9.1010 8.80 9.10;run;proccorrdata=zlh.wsbsspearmankendall;varscore1score2;run;秩相关实例2

某次全国武术女子前10名运动员长拳和长兵器两项得分数据,要求分析这两项得分是否存在线性关系。

Kendall’stau-b与Spearman相关系数三、多元变量间的相关分析偏相关分析复相关分析典型相关分析(后续)偏相关分析的概念线性相关分析计算两个变量间的相关关系,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反映两个变量间的线性程度。如身高、体重与肺活量之间的关系。如果使用Pearson相关计算其相关系数,可以得出肺活量与身高和体重均存在较强的线性关系。但实际上,如果对体重相同的人,分析身高和肺活量,是否身高越高,肺活量就越大呢?不是的。原因是身高与体重有线性关系,体重与肺活量存在线性关系,因此得出身高和肺活量之间存在着较强的线性关系的错误结论。偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。分析身高与肺活量之间的相关性,就要控制体重在相关分析中的影响。实际生活中有许多这样的关系,如可以控制年龄和工作经验两个变量的影响,估计工资收入与受教育程度之间的相关关系。可以在控制了销售能力与各种其他经济指标的情况下,研究销售量与广告费用之间的关系等。偏相关的有关公式

以x1,x2,y三个变量为例来求在x2控制变量的影响下,y与x1的一阶偏相关系数:(1)先做y对x2,x1对x2的回归

则e1、e2分别表示清除了x2对y和x1的影响后的y和x1的值。这两个残差之间的相关关系代表y和x1之间的纯相关关系。

(2)

一阶偏相关系数

类似:控制了两个变量z1、z2,变量x、y之间的二阶偏相关系数:Pearson偏相关系数假设检验的t统计量:其中,r是相应的偏相关系数,n是观测量数,k是控制变量的数目,n-k-2是自由度。当t>t0.05(n-k-2)时,p<0.05拒绝原假设偏相关分析实例:身高数据zlh.heightdatazlh.height;inputnheightweightvcp;cards;1 135.10 32.0 1.752 139.90 30.4 1.753 163.60 46.2 2.754 146.50 33.5 2.505 156.20 37.1 2.756 156.40 35.5 2.007 167.80 41.5 2.758 149.70 31.0 1.509 145.00 33.0 2.5010 148.50 37.2 2.2511 165.50 49.5 3.0012 135.00 27.6 1.2513 153.30 41.0 2.7514 152.00 32.0 1.7515 160.50 47.2 2.2516 153.00 32.0 1.7517 147.60 40.5 2.0018 157.50 43.3 2.2519 155.10 44.7 2.7520 160.50 37.5 2.0021 143.00 31.5 1.7522 149.90 33.9 2.2523 160.80 40.4 2.7524 159.00 38.5 2.2525 158.20 37.5 2.0026 150.00 36.0 1.7527 144.50 34.7 2.2528 154.60 39.5 2.5029 156.50 32.0 1.75;run;proc

corr;varheightvcp;partialweight;run;proc

corr;varweightvcp;partialheight;run;proc

corr;varheightweight;run;实例:身高数据假设:肺活量与体重间无线性相关关系Significant=0.002,拒绝原假设,说明肺活量和体重(控制了身高)高度相关,相关系数为0.569。假设:肺活量与身高间无线性相关关系。Significant=0.619,接受原假设,说明肺活量和身高(控制了体重)没有线性关系,相关系数为0.098。正是由于在身高和体重之间高度线性相关,因此只做线性相关无法找到肺活量与身高和体重的真正的相关关系。结论是:肺活量与体重高度相关,与身高无线性关系。复相关分析以上都是在把其它变量的影响完全排除在外的情况下研究两个变量之间的相关关系。但是在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相关系数。

复相关系数的计算:设因变量为y,自变量为x1,…,xp;假定回归模型为:则y与自变量x1,…,xp的相关分析转化为y与的相关分析,y与自变量x1,…,xp的复相关系数:

复相关系数反映了一个变量与另一组变量关系密切的程度。复相关系数的假设检验等价于多变量回归的方差分析结果,所以不必再作假设检验。再看公式R根号里的分式实际上就是回归离差平方和与总离差平方和的比值,反映了回归贡献的百分比值。所以常把称为决定系数或相关指数。在评价多变量回归方程、变量选择、曲线回归方程拟合的好坏程度中常会用到。复相关分析是典型相关分析的特殊情形。典型相关分析是多个变量与多个变量之间的相关分析。四、距离分析是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。有关的统计量。不相似性测度:a、对等间隔(定距)数据的不相似性(距离)测度可以使用的统计量有Euclid欧氏距离、欧氏距离平方等。b、对计数数据使用卡方。c、对二值(只有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等相似性测度:a、等间隔数据使用统计量Pearson相关或余弦。b、测度二元数据的相似性使用的统计量有20余种。距离分析分为观测量之间距离分析和变量之间距离分析。距离分析实例实例:zlh.miany仍使用四川绵阳地区3年生中山柏的数据。观测量间的距离分析(不相似性测度,使用欧氏距离),分析月生长量hgrowVariables分析变量:月生长量hgrowLabelCaseby:月份MonthComputeDistances:BetweenCaseMeasure:不相似性测度结果:观测量间的欧氏距离(1月与8月的生长量最不相似,其欧氏距离值为19.290,而1月与2月生长量不相似性最小,值为0.490)变量间的不相似性Variables分析变量:temp、rain、hsun、humiComputeDistances:BetweenVariablesMeasure:不相似性测度,欧氏距离,分析变量测度的单位不同,所以要进行标准化,TransformValues:ByVariable,ZScore结果:变量间的欧氏距离矩阵(不相似矩阵)还可以重新进行相似性分析,得Pearson相关系数矩阵,然后跟欧氏距离矩阵相比较。距离分析的主对话框图不相似性距离测度选择项对话框

相似性测度选择项对话框

距离分析实例

观测量间的欧氏距离变量间不相似性分析例题输出变量间的不相似性测度标准化后的欧氏距离变量间的相似性测度例题相关系数矩阵相关分析SAS过程:CORRCORR相关过程PROCCORR选择项;VAR变量;WITH变量;BY变量;PARTIAL变量;FREQ变量;WEIGHT变量;RUN;一元线性回归模型多元线性回归模型可转化为线性的回归模型回归诊断§2回归分析1)如何实现预测,即如何由1个或多个指标(自变量)的值去推算另1个或多个指标(因变量)的值。2)如何实现控制,即事先给出产品质量应达到的标准(自变量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(因变量)的变化区间。3)如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。回归分析要解决的问题描述因变量y如何依赖于自变量x和误差项

的方程称为回归模型一元线性回归模型可表示为

y=b0+b1x+ey是x的线性函数(部分)加上误差项线性部分反映由于x的变化而引起的y的变化误差项

是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一、一元线性回归模型假设1、解释变量X是确定性变量,不是随机变量;假设2、随机误差项具有零均值、同方差和不序列相关性:E(e

i)=0i=1,2,…,nVar(e

i)=2i=1,2,…,nCov(e

i,e

j)=0i≠ji,j=1,2,…,n

假设3、随机误差项e与解释变量X之间不相关:Cov(Xi,e

i)=0i=1,2,…,n

假设4、e服从零均值、同方差、零协方差的正态分布

e

i~N(0,2)i=1,2,…,n一元线性回归模型(基本假定)参数估计:最小二乘估计(methodofleastsquares)德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数即:2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小

根据最小二乘法,可得求解和的公式如下回归的评价总变异回归阐明部分回归未阐明部分SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{误差平方和的分解总平方和(SST—totalsumofsquares)反映因变量的n个观察值与其均值的总误差回归平方和(SSR—sumofsquaresofregression)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和平方和的意义回归平方和占总误差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差判定系数R2

(拟合优度)

(coefficientofdetermination)修正拟合优度检验自变量与因变量之间的线性关系是否显著将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数k)残差均方:残差平方和SSE除以相应的自由度(n-k-1)线性关系的检验提出假设H0:1=0线性关系不显著2.

计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F

作出决策:若F>F,拒绝H0;若F<F,不拒绝H0线性关系检验步骤线性关系的检验(方差分析表)提出假设H0:b1=0(没有线性关系)H1:b1

0(有线性关系)计算检验的统计量确定显著性水平,并进行决策t>t,拒绝H0;t<t,不拒绝H0回归系数的检验(检验步骤)P值的应用实例:今收集了我国1978年改革开放以来到2001年共24年的税收(x,百亿元)和财政收入(y,百亿元)数据,以分析税收与财政收入之间的依存关系(data:zlh.czss)datazlh.czss;inputyearxy;cards;1978 5.1928 11.32621979 5.3782 11.43681980 5.717 11.59931981 6.2989 11.75791982 7.0002 12.12531983 7.5559 18.66951984 9.4735 16.42861985 20.4079 20.04821986 20.9073 21.22011987 21.4036 21.99351988 23.9047 23.57241989 27.274 26.6491990 28.2187 29.3711991 29.9017 31.49481992 36.9691 34.83371993 42.533 43.48951994 51.2688 52.1811995 60.3804 62.4221996 69.0982 74.07991997 82.3404 86.51141998 92.628 98.75951999 106.8258 114.44082000 125.8151 133.95232001 153.0138 163.8604;run;procregdata=zlh.czss;modely=x;ploty*x/symbol='*';run;

多元线性回归模型:表现在线性回归模型中的解释变量有多个。

一般表现形式:i=1,2…,n其中:k为解释变量的数目,j称为回归参数(regressioncoefficient)。

习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样:

模型中解释变量的数目为(k+1)

二、多元线性回归模型也被称为总体回归函数的随机表达形式。它的非随机表达式为:

方程表示:各变量X值固定时Y的平均响应。

j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;或者说j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。总体回归模型n个随机方程的矩阵表达式为

其中样本回归函数:用来估计总体回归函数其随机表示式:

ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。

样本回归函数的矩阵表达:

或其中:假设1,解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。假设2,随机误差项具有零均值、同方差及不序列相关性假设3,解释变量与随机项不相关

假设4,随机项满足正态分布

多元线性回归模型的基本假定

上述假设的矩阵符号表示式:假设1,n(k+1)矩阵X是非随机的,且X的秩=k+1,即X满秩。假设2,

假设3,E(X’)=0,即

假设4,向量

有一多维正态分布,即

同一元回归一样,多元回归还具有如下两个重要假设:假设5,样本容量趋于无穷时,各解释变量的方差趋于有界常数,即n∞时,

或其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量的离差为元素组成的nk阶矩阵

假设6,回归模型的设定是正确的。

参数的最小二乘法求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得

。即若X列满秩,即列秩为k+1二元回归几何解释(观察到的y)回归面0ix1yx2(x1,x2)}提出假设H0:12k=0线性关系不显著H1:1,2,k至少有一个不等于02.计算检验统计量F确定显著性水平和分子自由度k、分母自由度n-k-1找出临界值F

4.作出决策:若F>F

,拒绝H0线性关系检验提出假设H0:bi=0(自变量xi

因变量y没有线性关系)H1:bi

0(自变量xi

因变量y有线性关系)计算检验的统计量t

确定显著性水平,并进行决策t>t,拒绝H0;

t<t,不拒绝H0回归系数的检验datasale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605;proc

reg;/*调用reg过程*/modely=x1x2;/*自变量是x1和x2,因变量是y*/run;实例:销售量数据参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。在变量的显著性检验中已经知道:容易推出:在(1-)的置信水平下i的置信区间是

其中,t/2为显著性水平为、自由度为n-k-1的临界值。

参数的置信区间增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的|X’X|的值越大,致使区间缩小。如何才能缩小置信区间?模型预测:E(Y0)的置信区间与Y0的置信区间

对于模型

给定样本以外的解释变量的观测值X0=(1,X10,X20,…,Xk0),可以得到被解释变量的预测值:它可以是总体均值E(Y0)或个值Y0的预测。但严格地说,这只是被解释变量的预测值的估计值,而不是预测值。

为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信区间。

1、E(Y0)的置信区间于是,得到(1-)的置信水平下E(Y0)的置信区间:

其中,t/2为(1-)的置信水平下的临界值。e0服从正态分布,即

构造t统计量

可得给定(1-)的置信水平下Y0的置信区间:

2、Y0的置信区间datazlh.sale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605.2003000;procreg;modely=x1x2/cliclm;run;1、倒数模型、多项式模型与变量的直接置换法

例如,描述税收与税率关系的拉弗曲线:抛物线s=a+br+cr2c<0s:税收;r:税率设X1=r,X2=r2,则原方程变换为s=a+bX1+cX2c<0

三、可线性化的非线性模型2、幂函数模型、指数函数模型与对数变换法

例如,Cobb-Dauglas生产函数:幂函数Q=AKLQ:产出量,K:投入的资本;L:投入的劳动方程两边取对数:lnQ=lnA+lnK+lnL3、复杂函数模型与级数展开法

方程两边取对数后,得到:

(1+2=1)Q:产出量,K:资本投入,L:劳动投入:替代参数,1、2:分配参数例如,常替代弹性CES生产函数将式中ln(1K-+2L-)在=0处展开台劳级数,取关于的线性项,即得到一个线性近似式。如取0阶、1阶、2阶项,可得

实例:美国1790-1970每10年统计一次全国人口数,以时间t(公元)为自变量,人口数为因变量,17901800181018201830184018501860187018803929530872399638128661706923191314433981850155189019001910192019301940195019601970629477599491972105710122775131669151325179323203211datazlh.uspop1;dot=1790to1970by10;inputp@@;tt=t*t;output;end;cards;3929 5308 7239 9638 12866 17069 23191 31443 39818 5015562947 75994 91972 105710 122775 131669 151325 179323 203211;procreg;modelp=ttt;run;datazlh.uspop2;dot=1790

to

1970

by

10;inputp@@;s=(t-1700)/100;/*赋值语句计算出s的值*/ss=s*s;/*赋值语句计算出的值*/output;end;cards;3929 5308 7239 9638 12866 17069 23191 31443 39818 5015562947 75994 91972 105710 122775 131669 151325 179323 203211;proc

reg;model

p=sss;run;

实例:经钻探,某地区煤矿上表面高度h数据如表:其中x为横坐标,y为纵坐标。建立上表面高度h的回归方程(作趋势面分析)。为了简单,我们用x和y的二次多项式拟合这组数据(实际操作时,可能是三次,甚至四次多项式)。即建立回归模型

其中是零均值随机变量。

datacorn;inputxyh;t1=x;t2=y;t3=x*x;t4=x*y;t5=y*y;cards;2.00 6 -112.00 5.5 02.00 5 102.00 4.5 202.00 4 312.25 6 -112.25 5.5 -12.25 5.0 92.25 4.5 192.25 4.0 302.50 6.0 -122.50 5.5 -22.50 5.0 82.50 4.5 192.50 4.0 292.75 6.0 -132.75 5.5 -22.75 5.0 72.75 4.5 182.75 4.0 283.00 6.0 -143.00 5.0 133.00 5.0 63.00 4.5 173.00 4.0 27;proc

reg;modelh=t1-t5;run;多元线性回归模型选择

在上述例中用二次多项式拟合时,有5个自变量的方幂或交叉积当作预报因子,当用三次,四次多项式拟合时,随着多项式次数升高,预报因子个数急剧增加。例如地质学中的趋势面分析,自变量个数为2,多项式次数为4时,预报因子个数为1+2+3+4+5=15。在气象,经济等问题中,有时自变量本身个数也非常多,例如自变量是在海洋20个地点,每个地点9个时段海水表面的温度,这时自变量有180个。过多的自变量不仅使计算复杂,也不能抓住主要因素,还给计算带来麻烦(X’X不满秩或行列式近于零),从而降低精度。有许多数学原则可以用来选择自变量,从而确定回归模型,例如F检验法,复相关系数最大原则、修正复相关系数最大原则、统计量最小原则、统计量最小原则、统计量、平均估计方差(AEV)、刀切法(PRESS)、AIC、BIC实例:某种水泥在凝固时放出的热量y(卡/克)与水泥中下列4种化学成分比例有关:的比例(%):,13次试验数据如表,试用向前选择法,向后选择法,逐步回归法选择模型。datazlh.cement;inputx1-x4y;cards;72666078.5129155274.31156820104.3113184787.675263395.91155922109.2371176102.7131224472.5254182293.12147426115.9140233483.81166912113.31068812109.4;procregdata=cement;modely=x1-x4/selection=forward;/*向前选择法*/run;procregdata=cement;modely=x1-x4/selection=backward;/*向后选择法*/run;procregdata=cement;modely=x1-x4/selection=stepwise;/*逐步回归法*/run;四、回归诊断线性关系的F检验、自变量显著性的t检验、残差检验、多重共线性分析、影响分析、异方差检验、自相关检验等。其中线性关系的F检验、自变量显著性的t检验已介绍,本节介绍多重共线性分析和影响分析。这两个回归诊断的目的是分别考察:是否存在自变量(包括常数项),它是其它自变量(包括常数项)的线性组合,或近似的是其它自变量的线性组合。-----------共线性诊断观测数据是否存在异常点(outlier)。-----影响分析

对于模型

Yi=0+1X1i+2X2i++kXki+ii=1,2,…,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性Multicollinearity。

共线性诊断

1、多重共线性的概念

如果存在

c1X1i+c2X2i+…+ckXki=0

i=1,2,…,n

其中:ci不全为0,则称为解释变量间存在完全共线性(perfectmulticollinearity)。如果存在

c1X1i+c2X2i+…+ckXki+Vi=0

i=1,2,…,n

其中ci不全为0,vi为随机误差项,则称为近似共线性(approximatemulticollinearity)或交互相关(intercorrelated)。

在矩阵表示的线性回归模型

Y=X+

中,完全共线性指:秩(X)<k+1,即中,至少有一列向量可由其他列向量(不包括第一列)线性表出。

如:X2=X1,则X2对Y的作用可由X1代替。一般地,产生多重共线性的主要原因有以下三个方面:1)变量相关的共同趋势

时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。

横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。

2)滞后变量的引入在经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。2、实际问题中的多重共线性3)样本资料的限制由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。

一般经验:

时间序列数据样本:简单线性模型,往往存在多重共线性。

截面数据样本:问题不那么严重,但多重共线性仍然是存在的。3、多重共线性的后果1)完全共线性下参数估计量不存在如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。的OLS估计量为:例:对离差形式的二元回归模型如果两个解释变量完全相关,如x2=x1,则这时,只能确定综合参数1+2的估计值:2)、近似共线性下OLS估计量非有效

近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为由于|X’X|0,引起(X’X)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。仍以二元线性模型

y=1x1+2x2+为例:

恰为X1与X2的线性相关系数的平方r2由于r2

1,故1/(1-r2)1当完全不共线时,r2

=0

当近似共线时,0<

r2

<1当完全共线时,r2=1多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(VarianceInflationFactor,VIF)

方差膨胀因子表相关系数平方00.950.960.970.980.990.999方差膨胀因子125102025335010010003)、参数估计量含义不合理如果模型中两个解释变量具有线性相关性,例如X2=X1

,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。

1、2已经失去了应有的含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。4)、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大容易使通过样本计算的t值小于临界值,误导作出参数为0的推断可能将重要的解释变量排除在模型之外5)、模型的预测功能失效变大的方差容易使区间预测的“区间”变大,使预测失去意义。

多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:方差膨胀因子(VIF)条件指数(conditionindex)方差比例法

多重共线性检验的任务是:

(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。4、多重共线性的检验共线性诊断-VIF方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度量Rr2

是Xr关于模型中其它独立变量回归的R2一般采用VIF>10表明存在共线性问题ProcREG的Model语句加选项VIF共线性诊断-条件指数和方差比例条件指数(conditionindex)和方差比例

(varianceproportion)联合使用可确认存在线性关系的变量组条件指数(hi=(lmax/li)1/2)在10-30间为弱相关在30-100间为中度相关大于100表明有强相关大的条件指数伴随方差比例>0.5可确认有

共线性的独立变量子集ProcREG:Model语句

加选项collin或collinoint方差比例法对每个自变量(包括常数项),求出来自每个主成分的方差所占的比例,它们称为方差比例(其计算较复杂,不细述)。当条件指数大,而对应的两个以上方差比例超过50%时,判定这些变量间存在相关性。SAS-REG过程的MODEL语句中,加选项collin,它指示电脑计算方差比例。实例:某健身房统计31个人的跑步运动状况:年龄、体重、肺活量、1.5英里跑步时间、不运动时脉搏、跑步时脉搏、跑步时最大脉搏,以肺活量为因变量,其余变量为自变量,做共线性分析。datafitness;inputageweightoxyruntimerstpulserunpulsemaxpulse;cards;44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18544 85.84 54.297 8.65 45 156 16842 68.15 59.571 8.17 40 166 17238 89.02 49.874 9.22 55 178 18047 77.45 44.811 11.63 58 176 17640 75.98 45.681 11.95 70 176 18043 81.19 49.091 10.85 64 162 17044 81.42 39.442 13.08 63 174 17638 81.87 60.055 8.63 48 170 18644 73.03 50.541 10.13 45 168 16845 87.66 37.388 14.03 56 186 19245 66.45 44.754 11.12 51 176 17647 79.15 47.273 10.6 47 162 16454 83.12 51.855 10.33 50 166 17049 81.42 49.156 8.95 44 180 18551 69.63 40.836 10.95 57 168 17251 77.91 46.672 10 48 162 16848 91.63 46.774 10.25 48 162 16449 73.37 50.388 10.08 67 168 16857 73.37 39.407 12.63 58 174 17654 79.38 46.08 11.17 62 156 16552 76.32 45.441 9.63 48 164 16650 70.87 54.625 8.92 48 146 15551 67.25 45.118 11.08 48 172 17254 91.63 39.203 12.88 44 168 17251 73.71 45.79 10.47 59 186 18857 59.08 50.545 9.93 49 148 15549 76.32 48.673 9.4 56 186 18848 61.24 47.92 11.5 52 170 17652 82.78 47.467 10.5 53 170 172;procreg;modeloxy=runtimeageweightrstpulserunpulsemaxpulse/vifcollin;run;如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。1)第一类方法:排除引起共线性的变量找出引起多重共线性的解释变量,将它排除出去。以逐步回归法得到最广泛的应用。注意:这时剩余解释变量参数的含义和值都发生了变化。5、克服多重共线性的方法2)第二类方法:差分法时间序列数据、线性模型:将原模型变换为差分模型:

Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共线性。

一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。

例如:表中国GDP与居民消费C的总量与增量数据(亿元)年份CYC/Y△C△Y△C/△Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.40.531287.0350.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.518890.41762.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.530199734854.674894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40.5563)第三类方法:减小参数估计量的方差

多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。例如:①增加样本容量,可使参数估计量的方差减小。*②岭回归法(RidgeRegression)70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,具体方法是:引入矩阵D,使参数估计量为

其中矩阵D一般选择为主对角阵,即D=aI,a为大于0的常数。显然,与未含D的参数估计量相比,估计量有较小的方差。岭回归模型的SAS作法在procreg语句中加out=,graphics选项用以存储输出数据和加强图形。在model语句中加ridge=选项用以给出岭参数。增加plot语句plot/ridgeplot;画图。实例:某国1990到2000年进口总额(import),国民生产总值(GDP),总储蓄量(save),总消费量(cosume)数据如表,试建立由国民生产总值,总储蓄量,总消费量预报进口总额的经验公式。1、若用SAS计算无偏最小二乘估计,得经验回归方程其中GDP系数为负数,这与实际情况不符。实际情况中,GDP增大,输入应当增加;GDP系数为负数却导致,GDP增大输入减少;细查原因,是共线性存在。为采用岭回归模型,使用下列程序dataimports;inputGDPsaveconsumeimport@@;cards;149.34.2108.115.9161.24.1114.816.4171.53.1123.219.0175.53.1126.919.1180.81.1132.118.8190.72.2137.720.4202.12.1146.022.7212.45.6154.126.5226.15.0162.328.1231.95.1164.327.6239.00.7167.626.3;procreg;modelimport=GDPsaveconsume/collinvif;run;procregdata=importsoutest=ridg1graphicsoutvif;/*作岭回归,结果存数据集ridge*/modelimport=GDPsaveconsume/ridge=0to0.1by0.00.5;/*指示SAS对岭系数为0,0.01,0.02,0.03,0.04,0.05,0.06,0.09,0.1,0.2,0.3,0.4,0.5作岭回归*/plot/ridgeplot;/*画图,横轴为岭系数,纵轴为被估计的参数*/procprintdata=ridg1;/*打印据集ridge所存岭估计值*/run;从图中可见岭参数值大于0.02后几条曲线都平稳变化,于是取岭参数为0.02。而表中竖写的RIDGE所在列是岭参数列,查其中岭参数值为0.02的两行,即6行和7行,第6行给出VIF的值,第7行给出的估计值:所以岭回归方程就是回归诊断

影响分析(异常点、杠杆点、强影响点)表示残差的图形关于y的残差图标准化残差图用于判断误差的假定是否成立检测有影响的观测值1、残差图(residualplot)模型合适应改曲线模型不等方差观测值不独立残差除以它的标准差也称为Pearson残差或半学生化残差(semi-studentizedresiduals)计算公式为用以直观地判断误差项服从正态分布这一假定是否成立若假定成立,标准化残差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间2、标准化残差图(standardizedresidual)回归诊断(SAS实现)

识别异常观测值在PROCREG的model语句加上选项r,就会

输出与预测值和残差有关的一些统计量。他

们可用于识别异常数据(outlier)及其影响!PROCREGDATA=数据集名

;

MODEL应变量=自变量/r;RUN;PredictValue预测值StdErrMeanPredict预测值标准差Residual残差StdErrResidual残差标准差StudentResidualstudent化的残差-2-1012残差显著性图Cook'sDCook'sD统计量残差分布正态性有了残差的数据,就可对其运用图形方法

或正式的分布正态性的检验在PROCREG可利用下列语句用图形分析

残差分布正态性PROCREGDATA=数据集名graphics;

MODEL应变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论