一元线性回归方程概述课件_第1页
一元线性回归方程概述课件_第2页
一元线性回归方程概述课件_第3页
一元线性回归方程概述课件_第4页
一元线性回归方程概述课件_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归的含义一元回归模型的建立参数估计——最小二乘法随机误差项的古典假定最小二乘估计量的性质最小二乘估计量的概率分布回归系数的显著性检验与置信区间用样本可决系数检验回归方程的拟合优度案例分析第二章一元线性回归模型回归的含义第二章一元线性回归模型

回归概念的提出FrancisGalton最先使用“回归(regression)”。父母高,子女也高;父母矮,子女也矮。给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。F.加尔顿是达尔文的表弟,是研究智力的先驱者之一,他非常严肃,非常聪明,但也有些疯狂,他出生在一个贵格教徒家庭中,祖上是著名的和平主义者,有趣的是,他家的名下却有生产枪支的企业。高尔顿是个申通,6岁便能阅读和背诵莎士比亚的作品,他在更小的时候已经会说了希腊语和拉丁语。他似乎对什么事情都感兴趣,成年后的高尔顿在气象学、心理学、摄影学,甚至是刑事司法领域都有所建树(他倡导使用指纹分析的科学方法来确定罪犯身份)。此外,他还发明了“标准差”这一统计概念及线性回归法,并用这些数学工具来研究人类的行为。一、回归的含义回归概念的提出FrancisGalton最先使用“

回归的现代释义回归分析用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。商品需求函数:

生产函数:

菲利普斯曲线:

拉弗曲线:

回归的现代释义回归分析用于研究一个变量关于另一个(些)变

等式左边的变量被称为被解释变量(explainedvariable)因变量(dependentvariable)响应变量(responsevariable)被预测变量(predictedvariable)回归子(regressand)

回归的现代释义

等式右边的变量被称为解释变量(explanatoryvariable)

自变量(independentvariable)控制变量(controlvariable)预测变量(predictorvariable)回归元(regressor)。等式左边的变量被称为回归的现代释义等式右边的变量在多数对经济理论的检验中(包括对公共政策的评价),经济学家的目标就是要退订一个变量(比如受教育程度)对另一个变量(如犯罪率或工人的生产率)具有因果效应(causaleffect)。有时可能会很简单就能发现两个或多个变量之间存在很强的联系,但除非能得到某种因果关系,否则这种联系很难令人信服。其他条件不变(ceterisparibus):意味着“其他(相关因素保持不变)”的概念,它在因果分析中有重要的作用。这个概念看似简单,但是除非在极为特殊的条件下,很难实现多数经验研究中的一个关键问题是:要做出一个因果推断,是否能使其他足够多的因素保持不变呢?只要方法得当,用计量经济方法可以模拟一个其他条件不变的实验——通过对模型进行假定。

回归分析中的因果关系和其他条件不变的概念在多数对经济理论的检验中(包括对公共政策的评价),经济学家的二、一元线性回归模型

回归分析都是从如下假设前提开始的:Y和X是代表某个总体的变量,我们感兴趣的是“用X解释Y”或“研究Y如何随X而变化”在写出用X解释Y的模型时,面临三个问题Y和X的函数关系是怎么样的?如何考虑其他影响Y的因素呢?我们如何才能确信我们得到的是,是在其他条件不变情况下的Y和X之间的关系?二、一元线性回归模型回归分析都是从如下假设前提开始Y=0

+1

X+u其中:Y——被解释变量;X——解释变量;u——随机误差项;表示除X之外其他影响Y的因素,一元回归分析将除X之外的其他所有影响Y的因素都看成了无法观测的因素0,1—回归系数(待定系数或待估参数)

1是斜率系数,是主要的研究对象0是常数项,也被称作截距参数,很少被当做分析的核心我们可以通过建立一个如下的关于Y和X的方程来解决上述三个问题总体回归模型Y=0+1X+u其中:Y——被解释变量;X一元线性回归方程概述课件

为解决上面提到的第三个问题,及如何在忽略其他因素的同时,又得到其他因素不变情况下X对Y的影响呢?这需要我们对无法观测的u和X之间的关系加以约束,并且只有如此,才能从一个随机样本数据中获得β0和β1的可靠估计量。E(u)=0

即无法观测的因素的平均值为零,不会对结果产生影响E(u|X)=0

根据X的不同把总体划分为若干部分,每个部分中无法

观测的因素都具有想通的平均值,且这个共同的平均值

必然等于整个总体中u的平均值,即u是均值独立的。为解决上面提到的第三个问题,及如何在忽略其他因素的同根据上面的假定对原模型取期望得:E(Y|X)=E[(0+1X+u)|X]E(Y|Xi)

=0+1X

总体回归函数E(Y|X)是X的一个线性函数,它表示Y中可以由X解释的部分,线性意味着X变化一个单位,Y的期望改变β1个单位。对于任意给定的X值,Y的分布都是以E(Y|X)为中心的。

=0+1X+E(u|X)=0+1X总体回归函数(直线)

根据上面的假定对原模型取期望得:E(Y|X)=E[(0+XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi)

=0

+1

Xi

通常总体回归函数E(Y)=0+1X是观测不到的,利用样本得到的是对它的估计,即对0和1的估计。令{(Xi,Yi):i=1,…,n}表示从总体中抽取的一个样本容量为n的随机样本,对于每个i,可以写出:其中ui是第i次观测的误差项(估计的)样本回归函数:(估计的)样本回归模型:其中ei是第i次观测的残差XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi)对于所研究的经济问题,通常总体回归直线E(Yi|Xi)

=0

+1Xi

是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。

样本回归模型:

其中:为Yi的估计值(拟合值);为0

,1

的估计值;ei为残差,可视为ui的估计值。三、参数估计——最小二乘法样本回归直线:对于所研究的经济问题,通常总体回归直线E(Yi|Xi)=如何得到一条能够较好地反映这些点变化规律的直线呢?如何得到一条能够较好地反映这些点变化规律的直线呢?对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和)Q===则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。

样本回归模型:

对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求Q对两个待估参数的偏导数:=

=0=

=0正规方程组即则通过Q最小确定这条直线,即确定根据以上两个偏导方程得以下正规方程(Normalequation):根据以上两个偏导方程得以下正规方程(Normalequat对于Wage1中的数据,利用EVIEWS软件,可得到一元回归模型估计结果:对于Wage1中的数据,利用EVIEWS软件,可得到一元回归OLS回归直线的性质

(1)残差和等于零(2)估计的回归直线过点.

(3)Yi

的拟合值的平均数等于其样本观测值的平均数.由正规方程可得。OLS回归直线的性质(1)残差和等于零(2)估计的回=

(4)Cov(ei,Xi)=0=

=

(5)Cov(ei,)=0=(4)Cov(ei,Xi)=0==(5)Cov(e利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?为什么要用普通最小二乘法?样本回归模型有无穷多个,我们仅仅得到其中一个,它能反映真实的总体回归模型吗?样本回归模型对数据的拟合程度可以接受吗?如何用样本回归模型进行预测?问题结束了吗?利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题假定1:零期望假定:E(ui|Xi)=0。四、古典线性回归模型的基本假定E(Y|Xi)

=0

+1

XiXY0假定1:零期望假定:E(ui|Xi)=0。四、古典线性回假定2:同方差性假定:Var(ui)=E[ui

-E(ui)]2=E(ui2)=

2。XY0同方差XY0异方差假定2:同方差性假定:Var(ui)=E[ui-E(假定3:无序列相关(无自相关)假定:Cov(ui,uj)=E[(ui-E(ui))(uj

-E(uj))]=E(uiuj)=0,(i

j)。无自相关正自相关负自相关假定3:无序列相关(无自相关)假定:无自相关正自相关负自相关假定4:解释变量X与随机误差项uCov(ui,Xi)=E[(ui-E(ui))(Xi

-E(Xi))]=E(ui

Xi)=0

如果X为确定性变量,该假定自然满足假定5:ui

服从正态分布,即ui

N(0,

2

)。假定4:解释变量X与随机误差项u假定5:ui服从正态分布,五、OLS估计量的性质

高斯-马尔可夫定理如果满足古典线性回归模型的基本假定(假定1-假定5),则在所有的线性估计量中,OLS估计量是最优线性无偏估计量(BLUE)。线性性无偏性有效性五、OLS估计量的性质高斯-马尔可夫定理如果满足古典线性回都是Yi的线性函数。证明:=

=

=

令代入上式,得:=

线性性都是Yi的线性函数。证明:===令代入上式,得:=证明:======

无偏性=11无偏估计量有偏估计量证明:======无偏性=11无偏估计量有偏OLS估计量的方差比其他线性无偏估计量的方差都小。

最小方差性与有效性1OLS估计量的方差比其他线性无偏估计量的方差都小。最小方

一致性(了解)1概率密度一致性(了解)1概率密度OLS估计量的方差为什么要估计方差?方差反映了数据的离散程度和估计结果的精确性。受教育年限与每小时工资1OLS估计量的方差为什么要估计方差?方差反映了数据的离散一元线性回归方程概述课件一元线性回归方程概述课件总体(随机误差项)真实方差2的估计量:2的估计总体(随机误差项)真实方差2的估计量:2的估计2、方差(1)的期望(2)的期望1、期望(2)的方差(1)的方差服从N()N()服从Yi=0

+1

Xi

+ui,所以Yi~N(0

+1

Xi

,

2

)线性性概率分布是进行假设检验的前提六、假设检验与置信区间OLS估计量的概率分布2、方差(1)的期望(2)的期望显著性检验(t检验)的基本步骤首先,提出原假设和备择假设:

H0:

H1:

其次,确定并计算统计量:

=最后,给定显著性水平,查自由度为n-2的t分布表。则,

如果不能拒绝H0:1=0,认为X对Y没有显著影响。

如果拒绝H0:1=0

,认为X对Y有显著影响。

同理,可对0

进行显著性检验。

模型:显著性检验(t检验)的基本步骤首先,提出原假设和备择假设=2.5%t(n-2)-t0.025t0.025=2.5%95%0双侧=2.5%t(n-2)-t0.025t0.025=2.5受教育年限与每小时工资n=130-2.2012.201H0:1=0H1:10受教育年限与每小时工资n=130-2.2012.201H0:受教育年限与每小时工资n=1301.796H0:1=0H1:1>0受教育年限与每小时工资n=1301.796H0:1=0

对于双变量模型,自由度总为(n-2)

经验分析中,常用的有1%、5%和10%。为了避免显著水平选择的随意性,通常要给出p值。对于双变量模型,自由度总为(n-2)p值t(n-2)-t0.025t0.025p/20tp值>0.05,接受原假设t(n-2)-t0.025t0.025p/20tp值<0.05,拒绝原假设双侧检验p值t(n-2)-t0.025t0.025p/20tp值

用p值判断参数的显著性的方法(双侧)方法:将给定的显著性水平与p值比较:►若p值<

,则在显著性水平下拒绝原假设H0:=0,

即认为X对Y有显著影响;►若p值

,则在显著性水平下接受原假设H0:=0,

即认为X对Y没有显著影响;规则:当p值<时,p值越小,越能拒绝原假设H0用p值判断参数的显著性的方法(双侧)方法:将给定的显著由于:由大括号内不等式表示置信水平为1-α时1的置信区间:得:P{t/2

(n-2)

}=1-

同理,可求得的置信区间为:

-t/2(n-2)

0

t/2(n-2)

由于:由大括号内不等式表示置信水平为1-α时1的置信区间:受教育年限与每小时工资n=13通过置信区间,可以直接对H0:1=0进行检验吗?受教育年限与每小时工资n=13通过置信区间,可以直接对H0:离差平方和的分解可决系数拟合优度:是指回归直线对观测值的拟合程度。显然,若观测值离回归直线近,则拟合优度好,反之,则拟合优度差,度量拟合优度的统计量是可决系数。

七、用可决系数来检验回归方程的拟合优度离差平方和的分解拟合优度:是指回归直线对观测值的拟合程度。显

离差平方和的分解........YXYi

Xi

A0=+=+总离差

=回归差

+残差

回归差:由样本回归直线解释的部分

残差:不能由样本回归直线解释的部分

可以证明:

离差平方和的分解........YXYiXiA0=+=证明:==由于:

===0所以:

总离差平方和=回归平方和+残差平方和TSS=RSS+ESS

总离差平方和=估计平方和+剩余平方和TSS=ESS+RSS证明:==由于:===0所以:总离差平方和

可决系数+=1回归平方和在总离差平方和中所占的比重越大,说明样本回归直线对样本值拟合的程度越好。因此,用来表示拟合优度的样本可决系数定义为:R2

=

===

=R2的取值范围是

[0,1]。对于一组数据,TSS是不变,所以RSS↑(↓),ESS↓(↑)

可决系数+=1回归平方和在总离差平方和中所占的比重越大,R2=0时表明解释变量X与被解释变量Y之间不存在线性关系;R2=1时表明样本回归线与样本值重合,这种情况极少发生;一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。另外:

R2===R2===R2=0时表明解释变量X与被解释变量Y之间不存在线性关系可决系数R2相关系数r就模型而言就两个变量而言说明解释变量对被解释变量的解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的对称相关关系取值:[0,1]取值:[-1,1]

相关系数与可决系数的关系(R2=r2)可决系数R2相关系数r就模型而言就两个变量而言说明解释变量对点预测Yi区间预测(1)单个值Yi的区间预测(2)均值E(Yi)的区间预测八、一元线性回归方程的预测点预测Yi八、一元线性回归方程的预测如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显著不为0,则可以用回归方程进行预测。预测分为点预测和区间预测。

1、点预测

假设X0为解释变量的一个已知点,则带入样本回归方程即可得到Y0的估计值:2、区间预测

估计值是一个点预测值,它可以是(1)总体真值Y0的预测值;也可以是(2)总体回归线E(Y0/X0)的预测值。现在根据来对(1)(2)进行区间预测。

如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显的分布是:所以,E(Y0|X0)

的预测区间是:(1)条件期望E(Y0|X0)的预测区间

的分布是:所以,E(Y0|X0)的预测区间是:(1)条件(1)个值Y0的预测区间

的分布是:所以,Y0的预测区间是:(1)个值Y0的预测区间的分布是:所以,Y0的预测区间是SRF各种预测值的关系Y的个别值的置信区间Y均值的置信区间SRF各种预测值的关系Y的个别值的置信区间Y均值的置信区间

提出问题:改革开放以来随着中国经济的快速发展,居民的消费水平也不断增长。但全国各地区经济发展速度不同,居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。

研究范围:全国各省市2002年城市居民家庭平均每人每年消费截面数据模型。

案例分析提出问题:改革开放以来随着中国经济的快速发展,居民的消理论分析:影响各地区城市居民人均消费支出的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入。从理论上说可支配收入越高,居民消费越多,但边际消费倾向大于0,小于1。建立模型:

其中:Y—城市居民家庭平均每人每年消费支出(元)

X—城市居民人均年可支配收入(元)理论分析:影响各地区城市居民人均消费支出的因素有多种,但从理数据:从2002年《中国统计年鉴》中得到地区城市居民家庭平均每人每年消费支出(元)Y城市居民人均年可支配收入(元)

X北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北10284.607191.965069.284710.964859.885342.644973.884462.0810464.006042.608713.084736.526631.684549.325596.324504.685608.9212463.929337.566679.685234.356051.066524.526260.166100.5613249.808177.6411715.606032.409189.366334.647614.366245.406788.52数据:从2002年《中国统计年鉴》中得到地区城市(接上页数据表)地区城市居民家庭平均每人每年消费支出(元)

Y城市居民人均年可支配收入(元)X湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆5574.728988.485413.445459.646360.245413.084598.285827.926952.445278.045064.245042.526104.925636.406958.5611137.207315.326822.727238.046610.805944.087240.568079.126330.846151.446170.526067.446899.64(接上页数据表)地区城市居民家庭平均每人每年消费估计参数

具体操作:使用EViews软件包。估计结果:假定模型中随机扰动满足基本假定,可用OLS法。估计参数 具体操作:使用EViews软件包。估计结果:假定表示为表示为

1.可决系数:R2=0.9357,模型整体上拟合好。

2.系数显著性检验:给定,查t分布表,在自由度为n-2=29时临界值为因为t=20.44023

>

说明“城镇人均可支配收入”对“城镇人均消费支出”有显著影响。

3.用P值检验

>>p=0.0000模型检验0.05α=

4.经济意义检验:

估计的解释变量的系数为0·758511,说明城镇居民人均可支配收入每增加1元,人均年消费支出平均将增加0·758511元。这符合经济理论对边际消费倾向的界定。

4.经济意义检验:点预测:西部地区的城市居民人均年可支配收入第一步争取达到1000美元(按现有汇率即人民币8270元),代入估计的模型得第二步再争取达到1500美元(即人民币12405元),利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平

经济预测点预测:经济预测回归的含义一元回归模型的建立参数估计——最小二乘法随机误差项的古典假定最小二乘估计量的性质最小二乘估计量的概率分布回归系数的显著性检验与置信区间用样本可决系数检验回归方程的拟合优度案例分析第二章一元线性回归模型回归的含义第二章一元线性回归模型

回归概念的提出FrancisGalton最先使用“回归(regression)”。父母高,子女也高;父母矮,子女也矮。给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。F.加尔顿是达尔文的表弟,是研究智力的先驱者之一,他非常严肃,非常聪明,但也有些疯狂,他出生在一个贵格教徒家庭中,祖上是著名的和平主义者,有趣的是,他家的名下却有生产枪支的企业。高尔顿是个申通,6岁便能阅读和背诵莎士比亚的作品,他在更小的时候已经会说了希腊语和拉丁语。他似乎对什么事情都感兴趣,成年后的高尔顿在气象学、心理学、摄影学,甚至是刑事司法领域都有所建树(他倡导使用指纹分析的科学方法来确定罪犯身份)。此外,他还发明了“标准差”这一统计概念及线性回归法,并用这些数学工具来研究人类的行为。一、回归的含义回归概念的提出FrancisGalton最先使用“

回归的现代释义回归分析用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。商品需求函数:

生产函数:

菲利普斯曲线:

拉弗曲线:

回归的现代释义回归分析用于研究一个变量关于另一个(些)变

等式左边的变量被称为被解释变量(explainedvariable)因变量(dependentvariable)响应变量(responsevariable)被预测变量(predictedvariable)回归子(regressand)

回归的现代释义

等式右边的变量被称为解释变量(explanatoryvariable)

自变量(independentvariable)控制变量(controlvariable)预测变量(predictorvariable)回归元(regressor)。等式左边的变量被称为回归的现代释义等式右边的变量在多数对经济理论的检验中(包括对公共政策的评价),经济学家的目标就是要退订一个变量(比如受教育程度)对另一个变量(如犯罪率或工人的生产率)具有因果效应(causaleffect)。有时可能会很简单就能发现两个或多个变量之间存在很强的联系,但除非能得到某种因果关系,否则这种联系很难令人信服。其他条件不变(ceterisparibus):意味着“其他(相关因素保持不变)”的概念,它在因果分析中有重要的作用。这个概念看似简单,但是除非在极为特殊的条件下,很难实现多数经验研究中的一个关键问题是:要做出一个因果推断,是否能使其他足够多的因素保持不变呢?只要方法得当,用计量经济方法可以模拟一个其他条件不变的实验——通过对模型进行假定。

回归分析中的因果关系和其他条件不变的概念在多数对经济理论的检验中(包括对公共政策的评价),经济学家的二、一元线性回归模型

回归分析都是从如下假设前提开始的:Y和X是代表某个总体的变量,我们感兴趣的是“用X解释Y”或“研究Y如何随X而变化”在写出用X解释Y的模型时,面临三个问题Y和X的函数关系是怎么样的?如何考虑其他影响Y的因素呢?我们如何才能确信我们得到的是,是在其他条件不变情况下的Y和X之间的关系?二、一元线性回归模型回归分析都是从如下假设前提开始Y=0

+1

X+u其中:Y——被解释变量;X——解释变量;u——随机误差项;表示除X之外其他影响Y的因素,一元回归分析将除X之外的其他所有影响Y的因素都看成了无法观测的因素0,1—回归系数(待定系数或待估参数)

1是斜率系数,是主要的研究对象0是常数项,也被称作截距参数,很少被当做分析的核心我们可以通过建立一个如下的关于Y和X的方程来解决上述三个问题总体回归模型Y=0+1X+u其中:Y——被解释变量;X一元线性回归方程概述课件

为解决上面提到的第三个问题,及如何在忽略其他因素的同时,又得到其他因素不变情况下X对Y的影响呢?这需要我们对无法观测的u和X之间的关系加以约束,并且只有如此,才能从一个随机样本数据中获得β0和β1的可靠估计量。E(u)=0

即无法观测的因素的平均值为零,不会对结果产生影响E(u|X)=0

根据X的不同把总体划分为若干部分,每个部分中无法

观测的因素都具有想通的平均值,且这个共同的平均值

必然等于整个总体中u的平均值,即u是均值独立的。为解决上面提到的第三个问题,及如何在忽略其他因素的同根据上面的假定对原模型取期望得:E(Y|X)=E[(0+1X+u)|X]E(Y|Xi)

=0+1X

总体回归函数E(Y|X)是X的一个线性函数,它表示Y中可以由X解释的部分,线性意味着X变化一个单位,Y的期望改变β1个单位。对于任意给定的X值,Y的分布都是以E(Y|X)为中心的。

=0+1X+E(u|X)=0+1X总体回归函数(直线)

根据上面的假定对原模型取期望得:E(Y|X)=E[(0+XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi)

=0

+1

Xi

通常总体回归函数E(Y)=0+1X是观测不到的,利用样本得到的是对它的估计,即对0和1的估计。令{(Xi,Yi):i=1,…,n}表示从总体中抽取的一个样本容量为n的随机样本,对于每个i,可以写出:其中ui是第i次观测的误差项(估计的)样本回归函数:(估计的)样本回归模型:其中ei是第i次观测的残差XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi)对于所研究的经济问题,通常总体回归直线E(Yi|Xi)

=0

+1Xi

是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。

样本回归模型:

其中:为Yi的估计值(拟合值);为0

,1

的估计值;ei为残差,可视为ui的估计值。三、参数估计——最小二乘法样本回归直线:对于所研究的经济问题,通常总体回归直线E(Yi|Xi)=如何得到一条能够较好地反映这些点变化规律的直线呢?如何得到一条能够较好地反映这些点变化规律的直线呢?对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和)Q===则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。

样本回归模型:

对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求Q对两个待估参数的偏导数:=

=0=

=0正规方程组即则通过Q最小确定这条直线,即确定根据以上两个偏导方程得以下正规方程(Normalequation):根据以上两个偏导方程得以下正规方程(Normalequat对于Wage1中的数据,利用EVIEWS软件,可得到一元回归模型估计结果:对于Wage1中的数据,利用EVIEWS软件,可得到一元回归OLS回归直线的性质

(1)残差和等于零(2)估计的回归直线过点.

(3)Yi

的拟合值的平均数等于其样本观测值的平均数.由正规方程可得。OLS回归直线的性质(1)残差和等于零(2)估计的回=

(4)Cov(ei,Xi)=0=

=

(5)Cov(ei,)=0=(4)Cov(ei,Xi)=0==(5)Cov(e利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?为什么要用普通最小二乘法?样本回归模型有无穷多个,我们仅仅得到其中一个,它能反映真实的总体回归模型吗?样本回归模型对数据的拟合程度可以接受吗?如何用样本回归模型进行预测?问题结束了吗?利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题假定1:零期望假定:E(ui|Xi)=0。四、古典线性回归模型的基本假定E(Y|Xi)

=0

+1

XiXY0假定1:零期望假定:E(ui|Xi)=0。四、古典线性回假定2:同方差性假定:Var(ui)=E[ui

-E(ui)]2=E(ui2)=

2。XY0同方差XY0异方差假定2:同方差性假定:Var(ui)=E[ui-E(假定3:无序列相关(无自相关)假定:Cov(ui,uj)=E[(ui-E(ui))(uj

-E(uj))]=E(uiuj)=0,(i

j)。无自相关正自相关负自相关假定3:无序列相关(无自相关)假定:无自相关正自相关负自相关假定4:解释变量X与随机误差项uCov(ui,Xi)=E[(ui-E(ui))(Xi

-E(Xi))]=E(ui

Xi)=0

如果X为确定性变量,该假定自然满足假定5:ui

服从正态分布,即ui

N(0,

2

)。假定4:解释变量X与随机误差项u假定5:ui服从正态分布,五、OLS估计量的性质

高斯-马尔可夫定理如果满足古典线性回归模型的基本假定(假定1-假定5),则在所有的线性估计量中,OLS估计量是最优线性无偏估计量(BLUE)。线性性无偏性有效性五、OLS估计量的性质高斯-马尔可夫定理如果满足古典线性回都是Yi的线性函数。证明:=

=

=

令代入上式,得:=

线性性都是Yi的线性函数。证明:===令代入上式,得:=证明:======

无偏性=11无偏估计量有偏估计量证明:======无偏性=11无偏估计量有偏OLS估计量的方差比其他线性无偏估计量的方差都小。

最小方差性与有效性1OLS估计量的方差比其他线性无偏估计量的方差都小。最小方

一致性(了解)1概率密度一致性(了解)1概率密度OLS估计量的方差为什么要估计方差?方差反映了数据的离散程度和估计结果的精确性。受教育年限与每小时工资1OLS估计量的方差为什么要估计方差?方差反映了数据的离散一元线性回归方程概述课件一元线性回归方程概述课件总体(随机误差项)真实方差2的估计量:2的估计总体(随机误差项)真实方差2的估计量:2的估计2、方差(1)的期望(2)的期望1、期望(2)的方差(1)的方差服从N()N()服从Yi=0

+1

Xi

+ui,所以Yi~N(0

+1

Xi

,

2

)线性性概率分布是进行假设检验的前提六、假设检验与置信区间OLS估计量的概率分布2、方差(1)的期望(2)的期望显著性检验(t检验)的基本步骤首先,提出原假设和备择假设:

H0:

H1:

其次,确定并计算统计量:

=最后,给定显著性水平,查自由度为n-2的t分布表。则,

如果不能拒绝H0:1=0,认为X对Y没有显著影响。

如果拒绝H0:1=0

,认为X对Y有显著影响。

同理,可对0

进行显著性检验。

模型:显著性检验(t检验)的基本步骤首先,提出原假设和备择假设=2.5%t(n-2)-t0.025t0.025=2.5%95%0双侧=2.5%t(n-2)-t0.025t0.025=2.5受教育年限与每小时工资n=130-2.2012.201H0:1=0H1:10受教育年限与每小时工资n=130-2.2012.201H0:受教育年限与每小时工资n=1301.796H0:1=0H1:1>0受教育年限与每小时工资n=1301.796H0:1=0

对于双变量模型,自由度总为(n-2)

经验分析中,常用的有1%、5%和10%。为了避免显著水平选择的随意性,通常要给出p值。对于双变量模型,自由度总为(n-2)p值t(n-2)-t0.025t0.025p/20tp值>0.05,接受原假设t(n-2)-t0.025t0.025p/20tp值<0.05,拒绝原假设双侧检验p值t(n-2)-t0.025t0.025p/20tp值

用p值判断参数的显著性的方法(双侧)方法:将给定的显著性水平与p值比较:►若p值<

,则在显著性水平下拒绝原假设H0:=0,

即认为X对Y有显著影响;►若p值

,则在显著性水平下接受原假设H0:=0,

即认为X对Y没有显著影响;规则:当p值<时,p值越小,越能拒绝原假设H0用p值判断参数的显著性的方法(双侧)方法:将给定的显著由于:由大括号内不等式表示置信水平为1-α时1的置信区间:得:P{t/2

(n-2)

}=1-

同理,可求得的置信区间为:

-t/2(n-2)

0

t/2(n-2)

由于:由大括号内不等式表示置信水平为1-α时1的置信区间:受教育年限与每小时工资n=13通过置信区间,可以直接对H0:1=0进行检验吗?受教育年限与每小时工资n=13通过置信区间,可以直接对H0:离差平方和的分解可决系数拟合优度:是指回归直线对观测值的拟合程度。显然,若观测值离回归直线近,则拟合优度好,反之,则拟合优度差,度量拟合优度的统计量是可决系数。

七、用可决系数来检验回归方程的拟合优度离差平方和的分解拟合优度:是指回归直线对观测值的拟合程度。显

离差平方和的分解........YXYi

Xi

A0=+=+总离差

=回归差

+残差

回归差:由样本回归直线解释的部分

残差:不能由样本回归直线解释的部分

可以证明:

离差平方和的分解........YXYiXiA0=+=证明:==由于:

===0所以:

总离差平方和=回归平方和+残差平方和TSS=RSS+ESS

总离差平方和=估计平方和+剩余平方和TSS=ESS+RSS证明:==由于:===0所以:总离差平方和

可决系数+=1回归平方和在总离差平方和中所占的比重越大,说明样本回归直线对样本值拟合的程度越好。因此,用来表示拟合优度的样本可决系数定义为:R2

=

===

=R2的取值范围是

[0,1]。对于一组数据,TSS是不变,所以RSS↑(↓),ESS↓(↑)

可决系数+=1回归平方和在总离差平方和中所占的比重越大,R2=0时表明解释变量X与被解释变量Y之间不存在线性关系;R2=1时表明样本回归线与样本值重合,这种情况极少发生;一般情况下,R2越接近1表示拟合程度越好,X对Y的解释能力越强。另外:

R2===R2===R2=0时表明解释变量X与被解释变量Y之间不存在线性关系可决系数R2相关系数r就模型而言就两个变量而言说明解释变量对被解释变量的解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的对称相关关系取值:[0,1]取值:[-1,1]

相关系数与可决系数的关系(R2=r2)可决系数R2相关系数r就模型而言就两个变量而言说明解释变量对点预测Yi区间预测(1)单个值Yi的区间预测(2)均值E(Yi)的区间预测八、一元线性回归方程的预测点预测Yi八、一元线性回归方程的预测如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显著不为0,则可以用回归方程进行预测。预测分为点预测和区间预测。

1、点预测

假设X0为解释变量的一个已知点,则带入样本回归方程即可得到Y0的估计值:2、区间预测

估计值是一个点预测值,它可以是(1)总体真值Y0的预测值;也可以是(2)总体回归线E(Y0/X0)的预测值。现在根据来对(1)(2)进行区间预测。

如果经过检验,样本回归方程的拟合优度好,且回归系数的估计值显的分布是:所以,E(Y0|X0)

的预测区间是:(1)条件期望E(Y0|X0)的预测区间

的分布是:所以,E(Y0|X0)的预测区间是:(1)条件(1)个值Y0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论