第三章 多元线性回归分析1_第1页
第三章 多元线性回归分析1_第2页
第三章 多元线性回归分析1_第3页
第三章 多元线性回归分析1_第4页
第三章 多元线性回归分析1_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章多量完线件性回归分析主要内容:■多元线性回归模型■多元线性回归模型的参数估计■多元线性回归模型的统计检验■多元线性回归模型的预测■案例3.1多元线性回归模型、多元线性回归模型多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般表现形式:Y=p+pX+pX+…+pX+u i=1,2,…,ni0 11i 22i kkii其中:k为解释变量的数目,p.称为回归参数(regressioncoefficient)。E(YIX,X,…X)=p+pX+pX+•••+&Xi 1i2i ki0 11i22i kki经济解释:pJ也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;或者说P,给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。样本回归函数:用来估计总体回归函数Y=6+px+pX+...+pX,_1

i0 11i 22i kikii=1,2...,n其随机表示式:Y=p+pX+pX+...+pX+ei011i22i kikiie,称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项u,的近似替代。

§3.2多元线性回归模型的估计一、普通最小二乘估计对于随机抽取的n组观测值(匕'XJ>1=12.••,n,j=0,1,2,…k对样本回归函数:Y=6+6X+6X+...+6X."i0 11i2 2i kiKii=1,2...n根据最小二乘原理,参数估计值应该是下列方程组的解与Q=086与Q=0860令Q=0861与Q=0862其中Q=乙2ii=1(y-(B+Bxi0 'i=1=£1 1i=£(Y-Y)2i=1+BX+•••+&X))222i kki即(XX)6=XY由于XX满秩,故有6=(XX)-1XY随机误差项H的方差b的无偏估计可以证明,随机误差项u的方差的无偏估计量为八2=Ze=e,en—k—1n—k—1参数估计量的性质在满足基本假设的情况下,其结构参数6的普通最小二乘估计、最大或然估计及矩估计仍具有:线性性、无偏性、有效性。1、线性6=(XX)-1XY=CY其中,C=(XX)-1X'为一仅与固定的X有关的行向量2、 无偏性E(P)=E((X'X)-1X'Y)=E((XX)-1X'(Xp+p))=p+(XX)-iE(Xp)=p3、 有效性(最小方差性)A. 参数估计量6的方差-协方差矩阵Cav(3)=E{3-玖3))(3-旦时=£■(据阪甘-时=£*((XXT'X/ifi'X(XN)t)=(X,X)-1X,F(^m,)X(X,X)*1二/W)(x‘x尸二b‘l(X'X)T=b2(X,X)Tr・ ・B=(XX)-1XY其中利用了 =(XX)-1X'(XB+日)和 E(呻')=b2I=B+(xX)-ixn三、多元线性回归模型的参数估计实例例题3.1YXIX215895624885336376。4686705737786985847984918786829108310010885120Y:某商品需求量XI:该商品价格X2:消费者平均收入一一一'下图(图3.1)Y=113.83-8.36X1+0.18X2(4.0) (-3.6) (0.9)R2=0.88,F=26.4,孩=10

DependentVariable:YMethod:LeastSquaresDate:01/3W7Time:20:48Sample:110Includedobservations:10VariableCoefficientStd.Errort-StatisticProb.C113.834328.165574.0416120.0049X1-8.3553422.290749-3.6474280.0082X20.1800720.1997270.9015890.3972R-squared0.883136Meandependentvar78.00000AdjustedR-squared0.849746S.D.dependentvar19.57890S.E.ofregression7.589290Akaikeinfocriterion7.134678Sumsquaredresid403.1813Schwarzcriterion7.225454Loglikelihood-32.67339F-statistic26.44931Durbin-Watsonstat1.767143Prob(F-statistic)0.000546图3.1§3.3多元线性回归模型的统计检验多元线性回归模型的基本假定假设1,解释变量是非随机的或固定的,且各x之间互不相关(无多重共线性)。假设2,随机误差项具有零均值、同方差及不序列相关性E(”)=0用S)=E(y)=# 注]3=0…泪Cbv伊/『)=E伊%)=0假设3,解释变量与随机项不相关Cov(X^u^=Q j=12…上假设4,随机项满足正态分布上〜N(0,/)一、拟合优度检验可决系数与调整的可决系数一、拟合优度检验可决系数与调整的可决系数1、TSSTSS=Z(Y-Y)2iESS=E(Y-Y)2iRSS=E(Y-Y)2总离差平方和回归平方和剩余平方和

TSS=£(Y-Y)2i=£((Y-Y)+(Y-Y))2iii=£(Y-Y)2+2£(Y-Y)(Y-Y)+£(Y-Y)2ii iii iTSS=£TSS=£(Y.-Y)2+E人 一-(Y-Y)2=RSS+ESSi可决系数R2=理=1-陛TSSTSS该统计量越接近于1,模型的拟合优度越高。问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大。这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。调整的可决系数(adjustedcoefficientofdetermination)在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:R2=1-RSS/(“一k-1

TSS/(n-1)其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。R2与R2之间存在如下关系:n—1R2=1-(1-R2) n一k一1例题3.1403.181310-2-1Y=某商品需求量XL该商品价格X2:例题3.1403.181310-2-1Y=某商品需求量XL该商品价格X2:消费者平均收入SD2x(10-l)VariableCoefficientStdError1-StatisticProbc113.S34323.16557J.0416120.0049X1-6.3553422.290749-3.6474290,0032X20.1800720.1997270.90158903972「R-squared0.883136Meandependentvar78.00000AdjustedR-squared0.849746S.Ddependenivar19.57890fS.E.ofreqressian7.699290Akaikeinfocrilerion7.134678Sumsquaredresid403.1613Schwarzcnienon7.225454Loglikelihood-32J67339F-statistic36.44931Durbin-Watsonstat1757143Prob(F-statistic)0.D00S46DependentVariable:YMethod:LeastSquaresDate:01Z3W7Time:20:48Sample:110Includedobservations:10iD2xQOf—SSE19.57892x9-403.1813=0.8S3119.57892x910-1(1—0.883f)=0.8497二、方程的显著性检验(F检验)方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。1、方程显著性的F检验即检验模型Y=p+pX+pX+…+pX+ui=1,2,…,ni0 11i 22i kkii中的参数P是否总体显著不为0。j可提出如下原假设与备择假设:H0:P]=P2=…=Pk=0 H1:Pj不全为0F检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS由于回归平方和ESS=X&2是解释变量X的联合体对被解释变量Y的线性作用的结果,考虑比值ESS/RSS=Z&22e2如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。在原假设H0在原假设H0成立的条件下,统计量F= 服从自由度为(k,n-k-1)的F分布。RSSn一k-1)给定显著性水平a,可得到临界值Fa(k,n-k-1),由样本求出统计量F的数值,通过F>^(k,n-k-1)或 F<F(k,n-k-1)来拒绝或接受原假设H,以判定原方程总体上的线性关系是否显著成立。02、关于拟合优度检验与方程显著性检验关系的讨论由r2=1-RSS/(n-SD与「一 ESS/kTSS/(n-1) RSS/(n-k-1)F= _(1-R2)/(n-k-F= _(1-R2)/(n-k-1)可推出:R2=1-n-k-1+kFF与R2同向变化:当R2=0时间,F=0;R2越大,F值也越大;当R2=1时,F为无穷大。三、变量的显著性检验(t检验)方程的总体线性关系显著厢个解释变量对被解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的t检验完成的。1、t统计量由于Cov(P)=b2(XX)-1

以C表示矩阵(XX)-1主对角线上的第i个元素,于是参数估计量的方差为:..Var(8)=b2cii其中。2为随机误差项的方差,在实际计算时,用它的估计量代替:e'e四、易知8服从如下正态分布因此,可构造如下t统计量2、t检验设计原假设与备择假设:iiit=1^1S人8,H:0H:1四、易知8服从如下正态分布因此,可构造如下t统计量2、t检验设计原假设与备择假设:iiit=1^1S人8,H:0H:18—8i,i〜t(n—k—1)e'e.c -.n—k—1给定显著性水平a,可得到临界值《/2(n—k—1)由样本求出统计量t的数值,通过ltl>《/2(n-k-1)或ltl<t/2(n-k-1)来拒绝或接受原假设H0注意:一元线性回归中,从而判定对应的解释变量是否应包括在模型中。t检验与F检验一致一方面,t检验与F检验都是对相同的原假设H0:81=0另一方面,两个统计量之间有如下关系:£奂 82^X2F=£i =b1e2(n—2) £e2(n—2)A进行检验;82=£e2(n—花x2i i•圭]=12看下一页图(例题3.1)参数的置信区间参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近气在变量的显著性检验中已经知道:8—88—8t=—i ii——iS人8i.c -.n—k—1〜t(n—k—1)e'e例题3.1DependeniVariable:YMethod:LeastSquaresDate:01/3W7Time20:48Sample:110例题3.1DependeniVariable:YMethod:LeastSquaresDate:01/3W7Time20:48Sample:110Includedobseivations:10Y=某商品需求量XL该商品价格X2:消费者平均收入VariableCoefficientStd.Errort-StatisticProb.C113.S34328.16567A0416120.0049X1-6,3553422.290749,&432Q:>0.0082X20.1800720.9015890.3972R-squared0.883136,z^iSfearpdeperiidenlvar78.00000AdjustedR-squared0.84^?Edependenivar19.57890S.E.ofregression>5S9290zAkaikeinfocrilenon7.13467BSumsquaredresitTz-<403.1841SchwarzCfiienort7225454Loghkelihioodx^■3尹伯39/*F-slitistic26.44931Durbm-WaptfnstatProb(F-statistic)0.000S460.1801ESS/{n-k-l)ESS/{n-}c-l)5.D/x(10-l)/719.5789^x9/7=-^553=364741Ml)22607B. 些一= =0.90170.1997容易推出:在(1-a)的置信水平下P,的置信区间是(P(Pi—tXs,Pagi2iXs)Pi其中’新为显著性水平为a、自由度为其中’新为显著性水平为a、自由度为〃妇的临界值。―- DependenilVariable:Y/Sr|HljjQ1Method:LeaslSquares

lz!J7ES*J-1Date:01/31AJ7Time:20:46Sample:110Includedobseivalions:10Y=某商品需求量X1=该商品价格X2=消费者平均收入VariableCoefficientStd.Error1'StatisticProb.0 1VariableCoefficientStd.Error1'StatisticProb.0 1rBXBSET28.165574.0416120.0049X1f-8.3553422.290749'■3.6474280.0082X2/|0.1967270.9015690.3972R-squar&AdjustDurbin-Waisonslat■squaredEgression

squaredresid

likelihoodJ0.8831360.8497467.5892904031813-32.S73391767143IMeandepend^nivarS.D.dependenivarAkaikeinfocriterionSchwarzcriterionF-statisticProb(F-statistic)78.0000019.578907.13467S7.22545426.449310.000546单个回归系数肉置信区间岗的置信区间上下限二-8.36±2.36x2.29舟的置信区间上下限二0J8±2.36x0.20如何才能缩小置信区间?-增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;-提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差 计量经济学课件 9平方和越小。-提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的|X’X|的值越大,致使区间缩小。§3.4多元线性回归模型的预测obsYYFXIX215848.7295624856.5485336366.1576046876.3167057369.3977869837.1858479896.S04918787S.476829108106.783100108893.6751201168.028.5140样本内10点与样本外1点预测小结■多元线性回归模型■多元线性回归模型的参数估计■多元线性回归模型的统计检验■多元线性回归模型的预测预测的评价指标预测误差。预测误差定义为既=yt-yt,t=T+l,T+2,...是对单点预测误差大小的测量。相对误差PE(PercentageError)。PE="月,t=T+l,T+2,...yt是对单点预测相对误差大小的测量°误差均方根rmserror(RootMeanSquaredError)rmserror='切(乳-月下通过若干个预测值对预测效果进行综合评价。绝对误差平均ALAE(MeanAbsoluteError)通过若干个预测值对预测的绝对误差进行综合评价。相对误差绝对值平均1MAPE(MeanAbsolutePercentageError)MAPE=!习"龙|M4PE在EViews中是以MAPExlOO的形式出现<.Theil不等系数(Theilinequalitycgffkwt)取值区间[0,1],等于零时,预测无误差〃例题3.1预测评价指标的应用140h12010080604020-Forecast:YFActual:YForecastsample:110Includedobsen^ations:10RootMeanSquaredError 6.349656MeanAbsoluteError 5225690MeanAbs.PercentError 7.637698TheilInequaliiyCoefficient 0.039658BiasProportion 0.000000VarianceProportion 0.031069CovarianceProportion 0.9689411 1 1 1 1 111112 3 4 5 6 7 8 9 10建模过程中应注意的问题研究经济变量之间的关系要剔除物价变动因素。注意:价格指数应该用定基价格指数。依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量=f(耕地面积、农机总动力、施用化肥量、农业人口等)。

例:关于食用油消费量模型(3) 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。(4) 养成看散点图的习惯。中国移动电话用户数(亿户)序列硫酸透明度(')与铁杂质含量(中国移动电话用户数(亿户)序列硫酸透明度(')与铁杂质含量(*)的关系(5)谨慎对待离群值(outlier)(6)过原点回归模型与非过原点回归模型相比有如下不同点:残差和等于零不一定成立。可决系数R2有时会得负值!⑺改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。(8)回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次,H0:p1=p2=...=0k=0;H1:pj不全为零。)若F检验结果能拒绝原假设,应进一步作r检验。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性,应该用标准化变量回归。利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远,预测误差越大。有时,样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时,在样本外预测就会发生错误。回归模型的估计结果应与经济理论或常识相一致。残差项应非自相关。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。残差项不应有异方差。避免多重共线性。解释变量应具有外生性,与误差项不相关。模型应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。模型的结构稳定性要强,超样本特性要好。世界是变化的,应该随时间的推移及时修改模型。建模案例:中国客运总量模型有中国客运总量(谿10亿人次)、总人口数亿人),年人均国内生产总值(斗千元)数据(1990〜2002).建立中国客运总量模型XI凄示年底总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论