应用统计学:回归分析_第1页
应用统计学:回归分析_第2页
应用统计学:回归分析_第3页
应用统计学:回归分析_第4页
应用统计学:回归分析_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章多元线性回归模型经典多元回归模型回归分析的机理经典回归模型及其参数估计残差分析与假设检验含有虚拟变量的回归线性回归过程一、回归分析的机理任意抽出一个妇女,试猜测其体重如何猜?准确性如何?猜平均体重,最大偏差:26如何猜得更准确?影响体重的最直接因素是身高:一般身高高的人体重大。平均身高:62.85inch,标准差:3.3以平均身高分界:最大偏差20E(weight/height)=b0+b1height,例:20个妇女的体重资料如表,

平均体重:123.6pound,标准差:15.5

最低体重:93pound,最大体重:155一个身高60的妇女体重平均111.5,最大偏差1293155体重均值123.6猜体重平均值,最大偏差:26身高相同的人体重不一定相同平均来看,体重随身高的增加而增加平均身高62.85134.0113.2以平均身高分界,高于平均身高猜134,低于平均身高猜113.2:最大偏差20能不能猜得更准?这条直线的含义是什么?一个身高60的妇女体重平均111.5,最大偏差12观测值weighti估计值weight身高体重总体回归线通常,身高高的人体重大。同样身高的人体重不同,即在给定身高下,体重有一个分布。大样本下为正态分布。总体回归线反映了给定身高下,体重的平均水平:E(weight/height)=b0+b1height

,b0,b1是未知的参数已知20个妇女的身高体重资料以此为样本估计总体参数样本回归线为什么要有

回归分析的任务:从样本回归线估计总体回归线总体回归函数说明在给定的身高下,体重平均水平。但对某一个妇女,其体重可能与该平均水平有偏差。被解释变量观察值围绕其期望值的离差,是一个不可观测的随机变量,称为随机误差项。weightheight

为什么要设随机误差项?在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其它随机因素的影响。产生并设计随机误差项的主要原因:理论的模糊性;数据的欠缺;节省原则;weightheight

样本回归函数从被研究总体中随机抽取n个样本(本例n=20),利用样本观测数据可得到样本回归函数:样本回归函数是对总体回归函数的一个估计对某一个妇女,其体重观测值不会恰好等于估计值,而是会有残差残差是对随机误差项的一个估计回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。一、回归分析的机理任意抽出一个妇女,试猜测其体重影响体重的最直接因素是身高:利用身高与体重的关系推测如何猜得更准确(提高回归线的解释程度R2)?除了身高,还有哪些因素影响体重?例:20个妇女的体重资料二、经典回归模型及其参数估计多元回归模型及其经典假设多元回归模型的参数估计偏回归系数的含义1.多元回归模型及其经典假设找到导致被解释变量变化的主要因素作为解释变量,构建多元回归模型:设因变量Y是k个解释变量X1,…Xk和误差项的线性函数:

其中:0为常数项,1,…

k为偏回归系数,i为随机误差项对容量为n的样本,这一模型实际上包含n个方程:

y1=

0+1x11+kxk1+1……yn=

0+1x1n+kxkn+n总体回归模型多元回归模型的矩阵表示注意:解释变量个数为k,参数个数为k+1样本回归函数(SRF)ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项

i的近似替代。

样本回归函数的矩阵表达:

多元回归模型的经典假设假设1:x1,x3,…xk是非随机的。假设2:E(i)=0i=1,2,…n假设3:同方差Var(i)=2(E(i

i)=2)假设4:无序列相关,cov(i

j)=E(i

j)=0假设5:x诸变量间无准确的线性关系,即:无多重共线性。不存在一组不全为零的数1、2、…

k,使得:

1x1i+

2x2i+…+

kxki=0假设6:

iN(0,2)关于多重共线性的进一步说明如果存在一组不全为零的数1、2、…

k,使得:

1x1i+

2x2i+…+

kxki=0

不妨设10,则上式可变为:

x1i=-(

2x2i+…+

kxki)/

1称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。如果,会不会破坏无多重共线假定?不会,因为这两个变量的关系是非线性的!!经典假设的矩阵表示假设2:假设3和4:假设5:矩阵x的秩等于回归参数的个数(或解释变量个数加1),R(x)=k+1,n>k2.回归参数的普通最小二乘估计:残差平方和最小已知假定正规方程组正规方程组的矩阵形式条件?点估计

OLS估计的矩阵表示

正规方程组的另一种表达该正规方程组成立的条件是什么?

可以证明,随机误差项

的方差的无偏估计量为:

⃟随机误差项

的方差

的无偏估计

例:二元回归模型的参数估计

1的置信区间:

OLS参数估计量的性质

在满足基本假设的情况下,其结构参数

的普通最小二乘估计具有:

线性性、无偏性、有效性。

同时,随着样本容量增加,参数估计量具有:

渐近无偏性、渐近有效性、一致性。

样本容量问题

所谓“最小样本容量”,即从最小二乘原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。

1)最小样本容量

样本最小容量必须不少于模型中解释变量的数目(包括常数项),即

n

k+1因为,无多重共线性要求:秩(X)=k+1

2)、满足基本要求的样本容量

从统计检验的角度:

n

30时,Z检验才能应用;

n-k≥8时,t分布较为稳定

一般经验认为:

当n≥30或者至少n≥3(k+1)时,才能说满足模型估计的基本要求。

模型的良好性质只有在大样本下才能得到理论上的证明3.偏回归系数的含义二元回归模型为:yi=

1+2x2i+3x3i+i

偏回归系数告诉我们什么偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。1)偏相关系数简单相关:两个变量之间线性关联的紧密程度偏相关定义:在多个变量y,x1,x2,…xk之间,如果只考虑两个变量之间的真实相关关系,而排除其他变量对它们的影响(或者说其他变量保持不变),这种相关成为偏相关。例控制第三变量某地15名13岁男童身高x1(cm)、体重x2(kg)、和肺活量y(ml)的数据如表。试对该资料做控制体重影响的身高与肺活量的偏相关分析。步骤:AnalyzeCorelatePartial选“身高”和“肺活量”为分析变量,“体重”为控制变量,“双尾检验”,“显示实际显著性水平”选项:同时输出均值和标准差及零阶相关系数肺活量身高体重?偏相关系数在偏相关中,根据被固定的变量数目的多少,可分为零阶偏相关(即简单相关)、一阶偏相关、二阶偏相关、…(k-1)阶偏相关等。偏相关系数:用来衡量偏相关程度的数量指标。例:为x3保持不变下y和x2的一阶偏相关系数简单相关系数vs偏相关系数r12·3与r12的关系r12=0时,r12·3并不为0,除非r13或r23为0。r12·3与r12不一定同号。如果x1与x2的偏相关系数为0,意味着在消除了x3对每个变量的线性影响后,x1与x2之间没有线性关联,这时我们可以下结论说:在模型中x2对x1没有直接影响。例1“期望扩充”菲利普斯曲线菲利普斯曲线表明:通货膨胀率和失业率是反向变化的。期望扩充菲利普斯曲线增加了预期通货膨胀率的影响。1970-1982年美国真实通货膨胀率y(%)、失业率x2(%)和预期通货膨胀率x3(%)数据如表,作菲利普斯曲线。原始菲利普斯曲线:yt=b1+b12x2t+

1t期望扩充菲利普斯曲线:yt=

1+2x2t+3x3t+t

b12、

2的经济涵义、先验符号?2)偏回归系数b12

2估计值为正,失业率与通胀率同方向?符号正确,统计显著。统计上不显著异于0例1“期望扩充”菲利普斯曲线估计结果原始菲利普斯曲线

期望扩充菲利普斯曲线设定偏误?E(b12)=

2+

3b32

b12不仅度量了x2对y的净影响,还包括了x2对x3的影响而间接对y产生的影响yt=b1+b12x2t+

1tyt=

1+2x2t+3x3t+tb12=0.244934

2=-1.392472x3t=b2+b32x2t+

2t

x3t

=-0.725280+1.113857x2t通胀y失业率x2预期通胀x3

2<0

3>0B32>0偏回归系数偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。

2反映了x3不变的条件下,x2对y的净影响偏回归系数-偏相关:控制第三变量多元回归与一元回归的区别:为什么要作多元回归yt=

1+2x2t+3x3t+t选择恰当的变量至关重要三、残差分析与假设检验假设检验必要性及检验内容统计检验及经济意义检验经典假设的检验模型的修正1.假设检验的必要性和检验内容回归建模过程1.假设检验的必要性和检验内容假设检验:对模型和所估计的参数加以评定,判定在统计上是否显著,在理论上是否有意义为什么需要检验?回归分析是要通过样本来估计总体的真实参数,或者说是用样本回归线估计总体回归线模型可能违反OLS估计的基本假定结论只是一次抽样的某种偶然结果假设检验的内容1:经典假设检验检验经典线性回归模型的假定是否成立:保证参数估计量的良好性质按照线性模型的假定,模型随机误差项应相互独立,且服从均值为0,等方差的正态分布。如果假定不成立,OLS估计量不再有效,回归分析的统计检验结果再显著也不能说明问题。因为残差平方和中既有观测误差,又有模型误差,F检验的p值再小,也不意味模型正确。内容:是否存在共线性、序列相关、异方差,是否正态分布假设检验的内容2:统计检验统计检验尽管从统计性质上已知,对无偏估计量,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括方程显著性检验、变量的显著性检验、拟合优度检验及参数的区间估计。假设检验的内容3:经济意义检验经济意义检验检验各个参数是否与经济理论和实际经验相符消费函数例:Ŷ=232.8+0.771X

,0<1<1?例如:ln(人均食品需求量)=-2.0-0.5ln(人均收入)-4.5ln(食品价格)+0.8ln(其它商品价格)ln(人均食品需求量)=-2.0+0.5ln(人均收入)-4.5ln(食品价格)+0.8ln(其它商品价格)ln(人均食品需求量)=-2.0+0.5ln(人均收入)-0.8ln(食品价格)+0.8ln(其它商品价格)2.统计检验及经济意义检验

前提条件:经典假设满足拟合优度检验方程显著性检验变量显著性检验经济意义检验(1)拟合优度检验判定系数和调整的判定系数

总离差平方和的分解证明:该项等于0该统计量越接近于1,模型的拟合优度越高。

从R2的表达式中发现,如果在模型中增加解释变量,

R2往往增大。

这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。

但是,由增加解释变量引起的R2的增大与拟合好坏无关,所以R2需调整。

判定系数(可决系数)

调整的可决系数(adjustedcoefficientofdetermination)

其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。(2)方程显著性的F检验

方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。在多元模型中,即检验模型中的参数j是否显著不为0。

F检验的思想来自于总离差平方和的分解式

TSS=ESS+RSS

如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。

因此,可通过该比值的大小对总体线性关系进行推断。

在原假设H0成立的条件下,统计量

给定显著性水平

,可得到临界值F

(k,n-k-1),由样本求出统计量F的数值,通过

F

F

(k,n-k-1)或F

F

(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。

关于拟合优度检验与方程显著性检验关系的讨论

从上式可看出,F与R2是同向变化的:当R2=0时,F=0R2越大,F值也越大。当R2=1时,F∞

对于一般的实际问题,在5%的显著性水平下,F统计量的临界值所对应的R2的水平是较低的。所以,不宜过分注重R2值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该控制在5%以内。(3)变量的显著性检验(t检验)方程的总体线性关系显著不等于每个解释变量对被解释变量的影响都是显著的。必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的t检验完成的。

设计原假设与备择假设:

H1:

i0

给定显著性水平

,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过

|t|

t/2(n-k-1)或|t|

t/2(n-k-1)p<p>判断拒绝或不拒绝原假设H0,从而判定对应的解释变量是否应包括在模型中。

H0:

i=0

(i=1,2…k)

例.凯恩斯消费函数每周家庭消费支出exp和每周家庭收入income的数据如表,求凯恩斯消费函数。建立二元线性回归模型模型估计结果:参数估计值参数估计的标准误单零检验之t统计量:H0:B=0方程显著性检验之F统计量判定系数边际消费倾向1<1的假设检验?H0:11H1:1<1(4)经济意义检验:一般t检验一般回归系数的显著性检验用t检验:拒绝域:=0.05,T

=-1.94

统计上不显著,不能拒绝原假设与经济理论不符?剔除不显著变量边际消费倾向1<1的假设检验?H0:11H1:1<1=0.05,T

=-1.86

统计上显著,拒绝原假设3.经典假设的检验正态分布检验序列相关和异方差检验共线性有无异常观测值1)正态分布检验:残差直方图和残差正态概率图作出残差分布的直方图,可以十分直观地看出误差是否正态分布。0ee0e00e(a)(b)(c)(d)正态分布,0均值非正态分布与正态分布有偏差,大部分残差为正。与正态分布有偏差,大部分残差为负。残差正态概率图如果残差服从正态分布,那么对应于其正态百分位数值做散点图,应该呈直线形状。如果图形严重偏离线性,则说明误差分布不是正态。SPSS给出的标准化残差的正态概率图是累计概率图。对比观察值得残差分布图与假设的正态分布图是否相同。如果标准化残差呈正态分布,则散点在直线上或靠近直线。2)序列相关和异方差检验:残差散点图以因变量的拟合值为横坐标,残差为纵坐标,将n个样本点的值描在坐标系中。根据这n个点的分布情况,可以寻找模型错误或异方差或序列相关的证据。因为残差和回归拟合值是线性无关的,所以这n个点应该是随机地散布在以e=0为中心的、与横轴平行的对称二直线形成的带域内。否则就可以认为模型不合适或同方差性没有得到满足如果模型中存在异方差和序列相关,则t检验和F检验均无效,区间预测无效,模型必须修正残差散点图例ei0ei0ei0ei0ei0ei0无趋势,满足假定。误差随的增加而增加误差随的增加而减小误差两边小中间大误差呈规律性变化,原因可能是模型不适合,也可能是缺少某些重要值变量同方差Var(i)=2序列相关的识别t(a)etetet-1(c)tetetet-1无序列相关,

cov(i,

j)=0序列相关的DW检验(Durbin-Watson):使用条件回归模型中含有截距项;解释变量是非随机的(因此与随机误差项不相关)随机误差项是一阶自相关:

t=t-1+t(-1≤≤1)回归模型中不把滞后因变量做解释变量;没有缺落数据,例如1960-1999年的时间序列数据中,如果63年和72年数据观测值缺落,则DW统计量不宜用。一阶自相关:

t=t-1+tdL244-dL0dU4-dU正相关无自相关负相关d不确定不确定对给定样本大小和给定的解释变量个数查出临界值dL和dU3)多重共线检验完全多重共线:对解释变量x1,x2,…xk,如果存在一组不全为0的常数

1、2、…

k,使得:

1x1i+

2x2i+…+

kxki=0非完全多重共线:包括变量间交互相关情形如下:

1x1i+

2x2i+…+

kxki+i=0完全多重共线的估计问题以二元回归为例:设:x3i=x2i

(r23=1)代入上式:∴如果出现完全多重共线,则偏回归系数是不确定的,其标准误是无穷大。

或将x3i=x2i代入原模型:偏回归系数无确定解的含义:无法从所给样本中将x2和x3的影响分离出来:当x2发生变化时,x3也按一个倍数因子

改变。多重共线的实际后果完全多重共线是一种极端情形,非完全多重共线更常见。非完全多重共线下,OLS估计量仍是最优线性无偏估计量,但有如下后果:

∴估计精度较低

称为方差膨胀因子VIF表明:估计量的方差由于多重共线的出现而膨胀起来。

当r23=0.7时,VIF=1.96当r23=0.9时,VIF=5.76即:是r23为零时的5.76倍。当r23=0.95时,VIF=10.26即:是无共线时的10倍。多重共线的实际后果由于方差膨胀,接受零假设更为容易,出现多个偏回归系数单零t检验不显著。虽然单零检验不显著,但是联合检验(F检验)却显著,总的拟合优度也很高。OLS估计量及其标准误对数据的小变化敏感。多重共线例消费支出y与收入x2和财富x3的关系R2=0.964个别置信区间与联合置信域02.887-1.0040.1484-0.2332

2和3的95%联合置信域原因:x2与x3之间高度相关多重共线产生的原因数据采集方法:解释变量取值范围过小;模型或从中取样的总体本身的特点如电力消费对收入和住房面积的回归:一般来说,收入较高的家庭住房面积也较大。模型设定问题如多项式回归:一个过度决定的模型:解释变量个数>样本容量多重共线的识别注意:多重共线是程度问题,而不是有无问题。识别方法:R2值高,F检验显著,但显著t值少。容许度与方差膨胀因子特征根(eigenvalues)和病态指数(conditionindex)病态指数CI在10-30之间,中强多重共线;CI>30,严重多重共线消费支出与收入和财富关系例4.模型的修正模型存在异方差和序列相关模型存在多重共线模型存在不显著变量(无多重共线)剔除不显著变量参数经济意义不合理变量选择不当、函数形式不当→重新设定模型(1)模型存在异方差和序列相关如果模型中存在异方差和序列相关,则t检验和F检验均无效,区间预测无效,模型必须修正识别异方差和序列相关的原因遗漏重要变量→修改模型,引入遗漏变量样本数据自身特征异方差修正:加权最小二乘法序列相关修正:广义差分方程(2)多重共线的克服a.横截面数据与时间序列数据并用例:汽车需求,假定有销售量、平均价格和消费者收入的时间序列数据,模型为:时间序列数据,价格和收入变量一般有高度共线的趋势。可利用横截面数据估计收入弹性

3,因为这些数据都产生于一个时间点上,价格还不至于有多大变化。令收入弹性的横截面估计为,原回归可化为:多重共线的克服b.差分法:时间序列数据间往往有较强的相关性,减小相关性的方法是形成一次差分方程:虽然x2和x3的水平之可能高度相关,但是,其差分形式相关程度往往较低。因此,一阶差分回归常能减低多重共线性的严重程度。(对于横截面数据,一阶差分不适用。)差分法的问题:随机误差项可能存在序列相关;损失了一次观测值,因而减少了一个自由度,如果样本容量本身就不大,这可能会有影响。多重共线的克服c.补充新数据:以二元回归为例当r23给定时,增加新样本,通常可以使增大,从而减少的方差,使我们能更准确地估计

2。e.剔除变量:要慎重,设定偏误(偏回归系数估计量有偏)d.主成分回归*岭回归法(RidgeRegression)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论