1线性回归模型_第1页
1线性回归模型_第2页
1线性回归模型_第3页
1线性回归模型_第4页
1线性回归模型_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一元线性回归模型2.1模型的建立及其假定条件2.2一元线性回归模型的参数估计2.3最小二乘估计量的统计性质2.4用样本可决系数检验回归方程的拟合优度2.5回归系数估计值的显著性检验与置信区间2.6一元线性回归方程的预测2.7小结2.8案例分析2024/2/161

2.1模型的建立及其假定条件变量之间的关系回归分析的概念一元线性回归模型随机误差项的假定2024/2/1622.1模型的建立及其假定条件1变量之间的关系经济变量之间的关系,大体可分为两类:确定性关系或函数关系:变量之间存在确定的函数关系例如:某企业的销售收入Y与其产品价格P和销售量X的关系为:Y=PX2024/2/1632.1模型的建立及其假定条件统计依赖或相关关系:变量之间存在非确定的依赖关系.研究的是非确定现象随机变量间的关系。例如:某企业资金投入X与产出Y的关系。Y=f(X)+u

对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的2024/2/1642.1模型的建立及其假定条件2回归分析的概念回归分析研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。

其用意:在于通过后者的已知或设定值,去估计(或)预测前者的(总体)均值。2024/2/1652.1模型的建立及其假定条件

回归分析的基本思想和方法以及“回归”名称的由来英国统计学家高尔顿(F.Galton,1822-1911)和他的学生皮尔逊(K.Pearson,1856-1936)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为自变量,而取他们的一个成年儿子的身高作为因变量,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线,计算出的回归直线方程为:

y=33.73+0.516x这一方程表明:父母平均身高每增减一个单位时,其年子女的身高仅平增减0.516个单位2024/2/166

这项研究结果表明,虽然高个子父辈有生高个子儿子的趋势,矮个子的父辈有生矮个子儿子的趋势,但父辈身高增减一个单位,儿子身高仅增减半个单位左右。通俗地说,一群特高个子父辈的儿子们在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即子代的平均身高向中间回归了。所以高尔顿引用了“回归”(regression)一词来描述父辈身高与子代身高之间的关系。尽管“回归”这个名称的由来具有特定的含义,但是,人们在研究大量的经济变量间的统计关系时已远远超出了这一特定的含义了,我们现在使用回归这一名称仅仅是接受了高尔顿先生的回归分析基本思想和方法

2024/2/1672.1模型的建立及其假定条件3一元线性回归模型

一元线性回归模型表示如下:

yi=β0+β1xi+ui

yi称为

被解释变量(因变量)

xi

称为解释变量(自变量)

β0、β1——回归系数(待定系数或待定参数)

0称作常数项(截距项),

1称作斜率系数。ui是计量经济模型区别于数学模型的最关键的标志,称之为随机扰动项或误差项。正是u的随机性使得我们可以采用统计推断方法对模型的设定进行严格的检验。2024/2/1682.1模型的建立及其假定条件

线性回归模型”中的“线性”一词在这里的含义:是指被解释变量y与解释变量x之间为线性关系,即解释变量x仅以一次方的形式出现在模型之中。2024/2/1692.1模型的建立及其假定条件一般来说,回归模型的随机误差项中可能包括如下几项内容。(1)未在模型中列出的影响y变化的非重要解释变量。如消费模型中家庭人口数、消费习惯、物价水平差异等因素的影响都包括在随机误差项中。(2)人的随机行为。经济活动都是人参与的。人的经济行为的变化也会对随机误差项产生影响。2024/2/16102.1模型的建立及其假定条件(3)数学模型形式欠妥。对于同一组观测值,若拟合的数学模型形式不同,则相应的随机误差项的值也不同。当模型形式欠妥时,会直接对随机误差项的值带来影响。(4)归并误差。模型中被解释变量的值常常是归并而成的。当归并不合理时,会产生误差。如由不同种类粮食合并构成的粮食产量的不合理归并会带来归并误差。(5)测量误差。当对被解释变量的测量存在误差时,这种误差将包括在随机误差项中2.1模型的建立及其假定条件4随机误差项的假定条件(1)零均值假定E(ui)=0i=1,2,……这表示对X的每个观测值来说,u可以取不同的值,有些大于零,有些小于零,考虑u的所有可能取值,他们的总体平均值等于零.

2024/2/16122.1模型的建立及其假定条件(2)同方差性假定

Var(ui)=

u2

i=1,2,……这表明在各次观测中u具有相同的方差,也就是各次观测所受的随机影响的程度相同.协方差的定义

E[(X-E(X))(Y-E(Y))]称为随机变量X和Y的协方差,记作COV(X,Y),即COV(X,Y)=E[(X-E(X))(Y-E(Y))].计算公式为:Cov(X,Y)=E(XY)-E(X)E(Y)

协方差可以度量两个变量之间的相关关系,如果两个变量的协方差为零,则表明这两个变量之间不存在相关关系.2.1模型的建立及其假定条件(3)无序列相关假定Cov(ui,uj)=0i≠ji,j=1,2,…这表明,在任意两次观测时,ui,uj是不相关的,即u在某次观测中取的值与任何其它次观测中取的值互不影响.2.1模型的建立及其假定条件(4)解释变量与误差项不相关假定

Cov(Xi,ui)=0i=1,2,……这一假定表明随机项u与自变量x不相关.提出这一假定是因为在建立回归模型时,我们用随机项u综合了未包含在模型中的那些自变量以及其它因素对因变量Y的影响.因此,应该把X对Y的影响和u对Y的影响区分开来.如果两者相关,就不可能把各自对Y的影响区分开来2.1模型的建立及其假定条件(5)正态分布假定ui~N(0,u2)i=1,2,…2024/2/16172.2一元线性回归模型的参数估计1几个重要的概念对于一元线性回归模型,随机误差项满足古典假设条件,这个线性回归模型称为X,Y之间的总体回归模型。两边取条件均值,得一元线性回归方程:

2024/2/1618简称总体回归方程(总体回归线)。其中总体回归系数

是未知的,实际上总体回归线是无法求得的,它只是理论上的存在,所以称为理论回归方程2.2一元线性回归模型的参数估计如果变量x和y之间存在线性相关关系,对于任意抽取的若干个观测(样本)值(xi

,yi),有(2.2.1)

我们称(2.2.1)为样本回归模型,、为、的估计值或估计量。样本回归模型由两部分组成:称为系统分量,是可以被x解释的部分,也称为可解释分量;是不能被解释的部分,称为残差(Residual),它是随机项ui的代表值,也称为不可解释分量。将系统分量表示为(2.2.2)

2024/2/16192.2一元线性回归模型的参数估计

式(2.2.2)称为一元线性样本回归方程,简称样本回归方程。又因(2.2.2)式的建立依赖于样本观测值(xi,yi),所以我们又称其为经验回归方程。、为样本回归系数。其中是估计的回归直线在y轴截距,是直线的斜率。的实际意义为x每变动一个单位时,y的平均变动值,即x的变动对y变动的边际贡献率;是实际观测值y的拟合值或估计值我们用一个图来表示yi,,E(yi,)、、ui、ei2024/2/16202.2一元线性回归模型的参数估计2024/2/1621

Y

iY

ie

iYˆ

XiX

2.2一元线性回归模型的参数估计2普通最小二乘法给定一组样本观测值(Xi,Yi)(i=1,2,…n)要求样本回归函数尽可能好地拟合这组值.普通最小二乘法(Ordinaryleastsquares,OLS)给出的判断标准是:二者之差的平方和最小即在给定样本观测值之下,选择出、能使yi,之差的平方和最小(即为使残差平方和最小)

2024/2/16222.2一元线性回归模型的参数估计2024/2/1623方程组(*)称为正规方程组(normalequations)。

2.2一元线性回归模型的参数估计记2024/2/1624上述参数估计量可以写成:

上式称为OLS估计量的离差形式。由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量(ordinaryleastsquaresestimators)。

2.2一元线性回归模型的参数估计2024/2/16253最小二乘直线的性质(1)残差ei的均值等于0因为,所以(2)残差ei与解释变量xi不相关即(3)样本回归直线经过点()(4)被解释变量的样本平均值等于其估计值的平均值2.2一元线性回归模型的参数估计4截距为零的一元线性回归模型的参数估计截距为零的一元线性回归模型的一般形式为:这个模型只有一个参数需要估计,其最小二乘估计量的表达式为

2024/2/16262.3最小二乘估计量的统计性质

2024/2/16272024/2/16282、无偏性,即估计量0ˆb、1ˆb的均值(期望)等于总体回归参数真值b0与b1

证明:易知故同样地,容易得出

2.3最小二乘估计量的统计性质

2024/2/16293、有效性(最小方差性),即在所有线性无偏估计量中,最小二乘估计量0ˆb、1ˆb具有最小方差。

(1)先求0ˆb与1ˆb的方差

2024/2/1630(2)证明最小方差性其中,ci=ki+di,di为不全为零的常数则容易证明假设*1ˆb是其他估计方法得到的关于b1的线性无偏估计量:

普通最小二乘估计量(ordinaryleastSquaresEstimators)称为最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)

例:令kids表示一名妇女生育孩子的数目,educ表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为:(1)随机扰动项包含什么样的因素?它们可能与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。(1)收入、年龄、家庭状况、政府的相关政策等也是影响生育率的重要的因素,在上述简单回归模型中,它们被包含在了随机扰动项之中。有些因素可能与增长率水平相关,如收入水平与教育水平往往呈正相关、年龄大小与教育水平呈负相关等。(2)当归结在随机扰动项中的重要影响因素与模型中的教育水平educ相关时,上述回归模型不能够揭示教育对生育率在其他条件不变下的影响,因为这时出现解释变量与随机扰动项相关的情形,基本假设4不满足。例.已知回归模型,式中E为某类公司一名新员工的起始薪金(元),N为所受教育水平(年)。随机扰动项的分布未知,其他所有假设都满足。(1)从直观及经济角度解释和。(2)OLS估计量和满足线性性、无偏性及有效性吗?简单陈述理由。(1)为接受过N年教育的员工的总体平均起始薪金。当N为零时,平均薪金为才,因此表示没有接受过教育员工的平均起始薪金。是每单位N变化所引起的E的变化,即表示每多接受一年学校教育所对应的薪金增加值。(2)OLS估计量和仍满足线性性、无偏性及有效性,因为这些性质的的成立无需随机扰动项的正态分布假设。2.4用样本可决系数检验回归方程的拟合优度回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。

主要包括拟合优度检验、变量的显著性检验及参数的区间估计。2024/2/16352.4用样本可决系数检验回归方程的拟合优度拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。基本思路:因变量Y的变异,能够被X的变异解释的比例越大,则OLS回归线对总体的解释程度就越好。也即是样本观测值距回归线越近,拟合优度越好,X对Y的解释程度就越强

度量拟合优度的指标:样本决定系数r22024/2/16362.4用样本可决系数检验回归方程的拟合优度1总离差平方和的分解

已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线:而Y的第i个观测值与样本均值的离差可分解为两部分之和:

2024/2/16372024/2/1638

如果Yi=Ŷi即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记:2024/2/1639总离差平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares

)2.4用样本可决系数检验回归方程的拟合优度

即:TSS=ESS+RSS

Y的观测值围绕其均值的总离差可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此定义拟合优度:回归平方和ESS/Y的总离差TSS2024/2/16402.4用样本可决系数检验回归方程的拟合优度2样本可决系数也可表示为称r2为(样本)决定系数/判定系数,可决系数可决系数的取值范围:[0,1]

r2越接近1,说明实际观测点离样本线越近,拟合优度越高。2024/2/16412.4用样本可决系数检验回归方程的拟合优度2024/2/16422.4用样本可决系数检验回归方程的拟合优度3样本相关系数

样本相关系数是变量X与Y之间线性相关程度的度量指标,其定义为:

样本相关系数表示x和y的线性相关关系的密切程度。其取值范围为|r|1,即-1r1。当r=-1时,表示x与y之间完全负相关;当r=1时,表示x与y之间完全正相关;当r=0时,表示x与y之间无线性相关关系,即说明x与y可能无相关关系或x与y之间存在非线性相关

关系2024/2/1643下表列出若干对自变量与因变量。对每一对变量,你认为它们之间的关系如何?是正的、负的、还是无法确定?并说明理由。

因变量自变量个人储蓄利率小麦产出降雨量美国国防开支前苏联国防开支老师的计量经济学教学学生的计量经济学成绩总统声誉任职时间学生计量经济学成绩其统计学成绩日本汽车的进口量美国人均国民收入2.4用样本可决系数检验回归方程的拟合优度样本相关系数的检验由于一元线性回归方程研究的是变量x与变量y之间的线性相关关系,所以我们可以用反映变量x与变量y之间的相关关系密切程度的相关系数来检验回归方程的显著性。

检验的步骤为:

(1)提出原假设H0:=0

备择假设H1:

(2)构造t统计量~

2024/2/16452.4用样本可决系数检验回归方程的拟合优度(3)给出显著性水平,查自由度v=n-2的t分布表,得临界值

(4)当时,接受原假设,认为总体相关系数等于零,X与Y之间没有显著的线性相关关系

当时,拒绝原假设,接受备择假设,认为X与Y之间具有显著的线性相关关系。2024/2/1646.下图中“{”所指的距离是()

A.随机误差项B.残差

C.的离差D.的离差2.5回归系数估计值的显著性检验与置信区间1随机变量u的方差

我们在证明最小二乘估计量的有效性的时候已经得出参数和的概率分布为:

~~

在估计的参数和的方差表达式中,都还有随机扰动项ui的方差,由于实际上是未知的,因此和

的方差实际上是无法计算的,这就需要对其进行估计。

2024/2/16482.5回归系数估计值的显著性检验与置信区间

由于随机项ui不可观测,只能从ui的估计—残差ei出发,对总体方差进行估计。可以证明的最小二乘估计量为

它是关于的无偏估计量

2024/2/1649在随机误差项ui的方差估计出后,参数0ˆb和1ˆb的方差和标准差的估计量分别是:

1ˆb的样本方差:

å=22ˆ1ixSb

1ˆb的样本标准差:

å=2ˆ1ixSb

0ˆb的样本方差:

åå=222ˆ0iixnXSb

0ˆb的样本标准差:

åå=22ˆ0iixnXSb

2.5回归系数估计值的显著性检验与置信区间2回归系数估计值的显著性检验——t检验回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。即是检验系数是否显著地不等于零,也就是检验样本是否取自其真实参数为零的总体.2024/2/1651

检验步骤:

(1)对总体参数提出假设

H0:

1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值t/2(n-2)(4)比较,判断若|t|>t/2(n-2),则拒绝H0

,接受H1

;若|t|

t/2(n-2),则拒绝H1

,接受H0

;t=

对于一元线性回归方程中的

0,可构造如下t统计量进行显著性检验:

在上述收入-消费支出例中,首先计算的估计值

t统计量的计算结果分别为:

给定显著性水平

=0.05,查t分布表得临界值

t0.05/2(8)=2.306|t1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;

|t0|<2.306,表明在95%的置信度下,无法拒绝截距项为零的假设。

3回归系数的置信区间

为了反映回归系数的估计精度,需给出其区间估计,即在置信水平为下的置信区间。置信区间长度越短,说明估计值和与参数和就越接近,估计值就越精确;反之,就越不精确区间估计的步骤:1)找一个含有该参数的统计量;

2)构造一个概率为的事件;

3)通过该事件解出该参数的区间估计.

1.对于参数,我们知道统计量中含有参数2.构造关于统计量t的概率为的事件事件为:把代入上面的式子整理得到:3.得到的的置信区间

根据同样的方法我们可以求出的置信区间2.6一元线性回归方程的预测1点预测所谓点预测,是将x的一个特定值代入样本回归方程,计算得出的就是y0的点预测值。

对于一元线性回归方程对于给定的样本以外的解释变量的观测值x0,可以得到被解释变量的预测值我们还是以家庭收入与消费的例子的资料为例2.6一元线性回归方程的预测我们已经估计出其一元线性回归方程:预测收入为4000元的家庭的消费支出:2.6一元线性回归方程的预测2区间预测(1)个值的预测区间

由Yi=

0+1Xi+u

知:定义预测误差:

于是

式中

:从而在1-

的置信度下,Y0的置信区间为2.6一元线性回归方程的预测(2)总体均值的预测区间于是可以证明

因此故其中于是,在1-

的置信度下,总体均值E(Y|X0)的置信区间为在上述收入-消费支出例中,得到的样本回归函数为则在X0=1000处,Ŷ0=–103.172+0.777×1000=673.84

而因此,总体均值E(Y|X=1000)的95%的置信区间为:

673.84-2.306

61.05<E(Y|X=1000)<673.84+2.306

61.05或

(533.05,814.62)

同样地,对于Y在X=1000的个体值,其95%的置信区间为:

(372.03,975.65)总体回归函数的置信带(域)个体的置信带(域)

对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间):(1)样本容量n越大,预测精度越高,反之预测精度越低(2)样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。小结:简单线性回归分析的主要步骤1、建立回归模型研究某一经济现象,先根据经济理论,选择具有因果关系的两个变量(X,Y),建立线性回归模型,确定解释变量和被解释变量。如果不明确两个变量是否为线性关系,也可以根据散点图来分析。建立回归模型可以是根据经济理论,也可以根据相同或相似经济现象的历史分析经验来建立回归模型。建立模型时,不仅要考虑理论或经验的依据,同时也要考虑数据的可利用程度。2、收集数据,并经过适当的加工整理,得到适于回归分析的样本数据集。3、估计模型参数。利用样本数据,以OLS得到模型参数的估计值。4、对回归模型和参数估计值进行检验。检验回归结果是否正确反映经济现象,是否与理论相符。包括理论检验和统计检验。经济理论检验:参数的符号,大小是否与理论和实际相符。若不符,寻找原因统计检验:拟和优度检验,回归参数的显著性检验和区间估计。5、预测对于解释变量的特定值,代入回归方程得到因变量的预测值;在给定的置信水平上,得到因变量预测值的置信区间。6、回归结果的表述:

并说明参数的显著水平()。提供回归分析结果一般有两种方式:(1)=6.70+0.58XR2=0.49

(1.38)(2.76)

这里6.70和0.58分别为

和的估计值和。括号中数字是H0:

=0和H0:=0为真时的t值。(2)=6.70+0.58XR2=0.49

(4.86)(0.21)

括号中提供的是和的标准误差。

由于存在这两种格式,使得回归结果的读者难以判断出括号中数字究竟是t值还是标准误差。因此,要求在提供回归结果时,应予以说明。通常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论