版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章一元线形新第一页,共一百五十四页,编辑于2023年,星期四回归分析概述一元线性回归模型的参数估计一元线性回归模型检验一元线性回归模型预测第二页,共一百五十四页,编辑于2023年,星期四3.1回归分析概述第三页,共一百五十四页,编辑于2023年,星期四一、变量间的关系及回归分析的基本概念
二、总体回归函数三、随机扰动项四、样本回归函数(SRF)第四页,共一百五十四页,编辑于2023年,星期四
(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。(2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。一、变量间的关系及回归分析的基本概念
1、变量间的关系经济变量之间的关系,大体可分为两类:第五页,共一百五十四页,编辑于2023年,星期四对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的:例如:函数关系:统计依赖关系/统计相关关系:第六页,共一百五十四页,编辑于2023年,星期四
①不线性相关并不意味着不相关;
②有相关关系并不意味着一定有因果关系;③回归分析研究一个变量对另一个(些)变量的统计依赖关系,这种统计依赖关系通常表现为一种因果关系;可以是线性关系,也可以是非线性关系。
④相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。▲注意:第七页,共一百五十四页,编辑于2023年,星期四
回归分析(regressionanalysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。
其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。这里:前一个变量被称为被解释变量(ExplainedVariable)或应变量(DependentVariable),后一个(些)变量被称为解释变量(ExplanatoryVariable)或自变量(IndependentVariable)。2、回归分析的基本概念第八页,共一百五十四页,编辑于2023年,星期四与古典回归模型有关的词汇对于简单线性回归模型y=b0+b1x+,我们通常将y称作因变量(DependentVariable)。英语软件中的其他表达方式有:Left-HandSideVariableExplainedVariableRegressand我们通常将x称作自变量(IndependentVariable)。英语软件中的其他表达方式有:Right-HandSideVariableExplanatoryVariableRegressorControlVariables第九页,共一百五十四页,编辑于2023年,星期四
回归分析构成计量经济学的方法论基础,其主要内容包括:
(1)根据样本观察值对经济计量模型参数进行估计,求得
回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。第十页,共一百五十四页,编辑于2023年,星期四
由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。
例3.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。
即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。
二、总体回归函数
为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。第十一页,共一百五十四页,编辑于2023年,星期四第十二页,共一百五十四页,编辑于2023年,星期四
(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;
(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditionaldistribution)或条件概率是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):E(Y|X=Xi)该例中:E(Y|X=800)=605E(Y|X=1100)=825分析:第十三页,共一百五十四页,编辑于2023年,星期四练习请同学们计算出表中给定不同收入水平X取值时,消费支出Y的条件均值分别是多少?尝试在直角坐标系中将对应于不同收入水平的消费支出的条件均值描绘出来.第十四页,共一百五十四页,编辑于2023年,星期四
描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)
第十五页,共一百五十四页,编辑于2023年,星期四概念:
在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线(populationregressionline),或更一般地称为总体回归曲线(populationregressioncurve)。称为(双变量)总体回归函数(populationregressionfunction,PRF)。
相应的函数:第十六页,共一百五十四页,编辑于2023年,星期四
回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。含义:
函数形式:
可以是线性或非线性的。
例2.1中,将居民消费支出看成是其可支配收入的线性函数时:
为一线性函数。其中,0,1是未知参数,称为回归系数(regressioncoefficients)。
第十七页,共一百五十四页,编辑于2023年,星期四
三、随机干扰项总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。但对某一个别的家庭,其消费支出可能与该平均水平有偏差。称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochasticdisturbance)或随机误差项(stochasticerror)。记第十八页,共一百五十四页,编辑于2023年,星期四例2.1中,个别家庭的消费支出为:
(*)式称为总体回归函数(PRF)的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。(1)该收入水平下所有家庭的平均消费支出E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分。(2)其他随机或非确定性(nonsystematic)部分i。即,给定收入水平Xi,个别家庭的支出可表示为两部分之和:(*)
由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归函数的随机形式或总体回归模型。第十九页,共一百五十四页,编辑于2023年,星期四随机误差项主要包括下列因素的影响:1)在解释变量中被忽略的因素的影响;2)变量观测值的观测误差的影响;3)模型关系的设定误差的影响;4)其它随机因素的影响。产生并设计随机误差项的主要原因:1)理论的含糊性;2)数据的欠缺;3)节省原则。第二十页,共一百五十四页,编辑于2023年,星期四
四、样本回归函数(SRF)
问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?
那么,能否从该样本估计总体回归函数PRF?
例2.2:在例2.1的总体中有如下一个样本,
总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。第二十一页,共一百五十四页,编辑于2023年,星期四核样本的散点图(scatterdiagram):
样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以用该线近似地代表总体回归线。该线称为样本回归线(sampleregressionlines)。
将样本回归线的函数形式定义为:称为样本回归函数(sampleregressionfunction,SRF)。
第二十二页,共一百五十四页,编辑于2023年,星期四
这里将样本回归线看成总体回归线的近似替代则
注意:第二十三页,共一百五十四页,编辑于2023年,星期四
样本回归函数的随机形式/样本回归模型:同样地,样本回归函数也有如下的随机形式:
由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sampleregressionmodel)。
第二十四页,共一百五十四页,编辑于2023年,星期四
▼回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。注意:这里PRF可能永远无法知道。即,根据
估计第二十五页,共一百五十四页,编辑于2023年,星期四依据样本统计特征推断总体统计特征在计量经济模型中,参数反映经济变量相互依存的性质和程度,通常假定其是一个相对稳定的数值。由于各种因素,观察总体特征常常是不可能的,或者代价过于高昂。因此,对于利用计量经济模型研究的经济现象总体,参数一般来说是未知的。在此情况下,研究者通过获得有代表性的样本和研究样本统计特性来间接推断总体数量的特征。只有当样本是按照统计标准从总体中抽出时(如每个个体均有同等机会被抽出的随机样本),才可以依据样本统计特征来推断总体统计特征。第二十六页,共一百五十四页,编辑于2023年,星期四3.2
一元线性回归模型
的参数估计第二十七页,共一百五十四页,编辑于2023年,星期四线性回归模型的参数估计
涉及的理论问题采用什么样的方法获得参数估计量?什么是最佳估计量?满足什么样的条件时才能得到最佳估计量?第二十八页,共一百五十四页,编辑于2023年,星期四一、估计方法:
最小二乘法第二十九页,共一百五十四页,编辑于2023年,星期四回归分析的基本概念是利用样本资料得到对总体参数的估计;用{(xi,yi):i=1,…,n}表示由总体得到的一个容量为n的随机样本;第三十页,共一百五十四页,编辑于2023年,星期四样本回归曲线、观察数据和残差....y4y1y2y3x1x2x3x4}}{{e1e2e3e4xy第三十一页,共一百五十四页,编辑于2023年,星期四曲线拟合与相关分析不同,曲线拟合可以测定经济变量间的数量联系。一般情况下,这种联系体现为因果关系,需要通过实际获得的(样本)数据进行拟合。曲线拟合可以用多种方法,各有其优点和弱点。在应用工作中,使用较为普遍的有最小二乘法(OLS)和最大似然法。
第三十二页,共一百五十四页,编辑于2023年,星期四
最小二乘法(OLS)最小二乘法的思路是选择使残差平方和最小的参数估计,即:利用求极值的方法,可以得到以下两个一阶条件:第三十三页,共一百五十四页,编辑于2023年,星期四最小二乘法对于给定的n组Y和X的观察值,便可得到下列方程:式中和是X和Y的样本均值,和是样本观察值对均值的离差。第三十四页,共一百五十四页,编辑于2023年,星期四对于某社区家庭消费一例,用OLS方法如何估计参数值?第三十五页,共一百五十四页,编辑于2023年,星期四在上述家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下表进行。第三十六页,共一百五十四页,编辑于2023年,星期四因此,由该样本估计的回归方程为:
第三十七页,共一百五十四页,编辑于2023年,星期四第三十八页,共一百五十四页,编辑于2023年,星期四二、估计量的性质第三十九页,共一百五十四页,编辑于2023年,星期四估计量和估计
(EstimatorsandEstimates)由于我们通常不能够全面观察整体,因此只能依据由一个随机样本所做的估计来做出推断;并且需要选择恰当的计量经济学方法进行估计参数。由样本统计数对总体参数进行估计的方法包括点估计和区间估计。最小二乘法属于点估计。估计得到的参数值被称为参数的估计值,用一定方法获得参数估计的公式被称为参数的估计量。估计量是一个随机变量,其值因样本的不同而不同。第四十页,共一百五十四页,编辑于2023年,星期四估计量的例子假定我们想得到总体均值的估计;我们需要使用期望值计算公式E(y)。考虑到每个观察值都有相同的概率被抽取到样本中,我们可以用1/n来替代f(yi)作为计算均值时的概率,那么我们可以利用以下公式计算出平均值:第四十一页,共一百五十四页,编辑于2023年,星期四什么是最佳估计量的性质?无偏性(Unbiasedness)有效性(Efficiency)一致性(Consistency)一致性指的是大样本渐近无偏性质(Asymptoticproperties)第四十二页,共一百五十四页,编辑于2023年,星期四无偏性
若,则称是的无偏估计量。含义:没有系统偏差,从平均的意义上看是正确的。第四十三页,共一百五十四页,编辑于2023年,星期四14估计量A是无偏估计,而估计量B则是有偏估计概率密度估计量B估计量Ab第四十四页,共一百五十四页,编辑于2023年,星期四OLS估计量的有效性假设和都是的无偏估计,但则称是比更有效的估计量。如果在所有无偏估计中方差最小,则称为的最佳估计(有效估计)。第四十五页,共一百五十四页,编辑于2023年,星期四概率密度估计量B估计量Ab估计量A和估计量B都是无偏估计,但是估计量A比估计量B更有效第四十六页,共一百五十四页,编辑于2023年,星期四概率密度估计量B估计量Ab如果估计量C是所有无偏估计中方差最小的,则称其为最佳估计(最有效估计)估计量C第四十七页,共一百五十四页,编辑于2023年,星期四一致性一致性是指随着样本容量无限地增大,估计量将收敛于它们的真值。如果,则称为的一致估计含义:样本越大,估计越准确。是大样本性质。第四十八页,共一百五十四页,编辑于2023年,星期四例子设X服从正态总体N(100,502)期望值的常用估计量是样本平均数:下面考察随着样本越来越大,估计量有什么变化?第四十九页,共一百五十四页,编辑于2023年,星期四
n
sx 1 505概率密度50100150200n=10.080.040.020.06第五十页,共一百五十四页,编辑于2023年,星期四
n
sx 1 50 4 256概率密度50100150200n=40.080.040.020.06第五十一页,共一百五十四页,编辑于2023年,星期四
n
sx 1 50 4 25 25 107概率密度50100150200n=250.080.040.020.06第五十二页,共一百五十四页,编辑于2023年,星期四
n
sx 1 50 4 25 25 10 100 58概率密度501001502000.080.04n=1000.020.06第五十三页,共一百五十四页,编辑于2023年,星期四
n
sx 1 50 4 25 25 10 100 59纵坐标尺度放大10倍概率密度50100150200n=1000.80.40.20.6第五十四页,共一百五十四页,编辑于2023年,星期四
n
sx 1 50 4 25 25 10 100 5 1000 1.610概率密度50100150200n=10000.80.40.20.6第五十五页,共一百五十四页,编辑于2023年,星期四
n
sx 1 50 4 25 25 10 100 5 1000 1.6 5000 0.711概率密度50100150200n=50000.80.40.20.6第五十六页,共一百五十四页,编辑于2023年,星期四
有限样本:x
是m的无偏估计
大样本:x的概率分布退化成确定数m
plimx=m(概率极限)
直观含义:随着样本越来越大,估计越来越准确14第五十七页,共一百五十四页,编辑于2023年,星期四中心极限定理(CentralLimitTheorem)从正态总体中抽样,其样本均值同样服从正态分布。总体的分布不一定为正态分布。但当样本容量增大时,样本均值的分布趋近于正态分布。根据中心极限定理,任何均值为、方差为的总体,其样本的标准化平均值渐近于标准正态分布N(0,1),或第五十八页,共一百五十四页,编辑于2023年,星期四例:有偏,但一致X服从正态总体N(100,502)选用如下估计量,来估计期望:下面考察随着样本越来越大,估计量有什么变化?第五十九页,共一百五十四页,编辑于2023年,星期四在有限样本下是有偏的:在大样本下是一致的第六十页,共一百五十四页,编辑于2023年,星期四7n=20Zq概率密度1第六十一页,共一百五十四页,编辑于2023年,星期四7n=100n=203概率密度qZ第六十二页,共一百五十四页,编辑于2023年,星期四7n=100n=1000n=204概率密度qZ第六十三页,共一百五十四页,编辑于2023年,星期四7概率密度n=1000n=1005qZ纵坐标尺度放大10倍第六十四页,共一百五十四页,编辑于2023年,星期四7n=1000n=100000n=1006概率密度qZ第六十五页,共一百五十四页,编辑于2023年,星期四一致性是大样本性质,它考察当样本越来越大时,估计量是否趋于真值。如果是一致的,说明样本越大,估计得越准,这是我们希望的。如果是不一致的,即使增加样本容量,对提高估计的准确性也没有帮助。第六十六页,共一百五十四页,编辑于2023年,星期四总体方差估计量除了获得有关
my的良好估计外,我们也希望得到有关
s2y的良好估计;我们可以利用下面给出的样本方差作为总体方差的估计;需要注意的是,公式中分母为n-1而不是n,这是因为我们也需要估计均值。如果样本足够大,那么我们可以用n来计算。第六十七页,共一百五十四页,编辑于2023年,星期四估计量作为随机变量样本的每个统计值(例如样本均值、样本方差等)都是一个随机变量;每抽取一个随机样本,我们都会得到不同的样本统计值;如果我们不断的反复抽样,我们可以得到有关样本统计值的一个分布——
抽样分布。第六十八页,共一百五十四页,编辑于2023年,星期四第六十九页,共一百五十四页,编辑于2023年,星期四三、经典线性回归模型(CLRM)
的基本假定第七十页,共一百五十四页,编辑于2023年,星期四做统计推断,为什么需要对数据产生方式做出假定?如果只是估计参数0和1
,那么我们前面讨论的最小二乘法已经做到了这一点。但是,回归分析的目的不仅仅是获得和,而且要对真实的0和1
做出推断,即用样本对总体做出推论,统计学上称之为统计推断。要想用样本对总体做出推论,估计量需要具有一系列优良的性质,例如,无偏性、有效性等。这样,要想利用样本对总体做出推断,我们就不仅要有代表总体的相应函数形式,而且还需要对Yi的产生方式做出某些假定。第七十一页,共一百五十四页,编辑于2023年,星期四例如,对于模型可以看出,Yi依赖于Xi和ui。所以,如果不知道Xi和ui是怎样产生的,或者说不对Xi和ui的产生方式做出某些假定,我们就无法对Yi做出任何统计推断,当然,也无法根据 和对真实的0和1
做出推断。为了回归估计的有效解释,对Xi
变量(一个或多个)和误差项作出假定是极其重要的。经典(又称高斯或标准)线性回归模型(记CLRM)。这一模型已经成为大部分计量经济学理论的奠基石,它有10个假定。第七十二页,共一百五十四页,编辑于2023年,星期四假定1:参数线性模型,即回归模型就参数而言是线性的。第七十三页,共一百五十四页,编辑于2023年,星期四对变量为线性的回归模型指的是Yi的条件期望值是Xi的线性函数,在几何图形上,对应的回归线是一条直线。按照这种解释,回归函数是线性的,而回归函数则不是线性的。对参数为线性的回归模型指的是Y的条件期望值是模型中所包含的参数的一个线性函数,而不一定是变量Xi的线性函数。
按照这种解释,是一个线性回归模型,但则不是。
第七十四页,共一百五十四页,编辑于2023年,星期四
假定2:在每次重复抽样中,解释变量X的取值具有确定性,即X的测度不含有误差。假定3:X的值具有变异性,即在一个给定的样本中,X的值不可以全部相同。第七十五页,共一百五十四页,编辑于2023年,星期四同方差情况x1x2..E(y|x)=b0+b1xyf(y|x)第七十六页,共一百五十四页,编辑于2023年,星期四异方差情况x
x1x2f(y|x)x3.y..E(y|x)=b0+b1x第七十七页,共一百五十四页,编辑于2023年,星期四假定6:随机扰动项之间不存在自相关,即给定任意两个不同的观察对象i和j,对应的随机扰动项和之间的协方差为零。假定7:和Xi的协方差为零,即自变量Xi与随机扰动项互相独立,互不相关。
第七十八页,共一百五十四页,编辑于2023年,星期四假定8:解释变量之间不存在完全的线性关系。
此假定是针对多元线性回归模型而言的,要求解释变量之间不能存在完全的线性函数关系。以避免出现完全的多重共线性问题。假定9:观察次数n必须大于待估计参数的个数。
这一假定主要是来自于对数学求解的要求。假定10:正确地设定了回归模型。
所谓正确地设定了模型,是指回归模型使用了正确的解释变量和合理的函数形式,并且对误差项的统计分布做出了正确的假定。第七十九页,共一百五十四页,编辑于2023年,星期四这些假定用处任何科学研究中,通常都需要做某些假定,是因为它们便于逐步展开主题研究,尽管它们在现实中不一定是真实的。可以作一个类比,计量经济学中的CLRM就相当于经济学价格理论中的完全竞争模型。从完全竞争模型引申出来的含义能使我们更好地领会非竞争模型。在我们清楚了CLRM
的性质后,在以后的篇章里可以分析如果CLRM
地一个或多个假定不成立时会出现什么情况以及如何处理。第八十页,共一百五十四页,编辑于2023年,星期四消费——收入一例的EVIEWS结果第八十一页,共一百五十四页,编辑于2023年,星期四四、最小二乘估计量的性质第八十二页,共一百五十四页,编辑于2023年,星期四我们关心的一个问题是,利用普通最小二乘法由样本数据估计得到的参数、能否很好地代表总体回归模型的参数0
和1?这涉及到最小二乘估计量具有的性质。在满足经典线性回归模型基本假定下,最小二乘估计量有以下四种重要的性质:线性性,是指估计参数和均是样本观测值(Xi和Yi)的线性函数。无偏性,就是估计参数和的期望值等于总体回归模型的参数0和1
。有效性,是指用各种方法求得的总体回归模型参数的线性估计量中,利用普通最小二乘法估计的参数和的方差最小。第八十三页,共一百五十四页,编辑于2023年,星期四高斯—马尔可夫定理(Gauss-Markovtheorem)
在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。为什么?类似地:第八十四页,共一百五十四页,编辑于2023年,星期四证:易知故同样地,容易得出
和第八十五页,共一百五十四页,编辑于2023年,星期四第八十六页,共一百五十四页,编辑于2023年,星期四(2)证明最小方差性其中,ci=ki+di,di为不全为零的常数则容易证明
普通最小二乘估计量(ordinaryleastSquaresEstimators)称为最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)
第八十七页,共一百五十四页,编辑于2023年,星期四
由于最小二乘估计量拥有一个“好”的估计量所应具备的小样本特性,它自然也拥有大样本特性。
第八十八页,共一百五十四页,编辑于2023年,星期四对于一元线性回归模型,若:满足经典线性回归模型基本假定采用最小二乘法估计参数则,估计量具有如下性质:线性无偏有效一致因此,可以得出结论:第八十九页,共一百五十四页,编辑于2023年,星期四
3.3OLS估计量的精度
与概率分布第九十页,共一百五十四页,编辑于2023年,星期四已经知道,OLS估计量:已经证明,在CLRM假定下:1、OLS估计的精度第九十一页,共一百五十四页,编辑于2023年,星期四第九十二页,共一百五十四页,编辑于2023年,星期四随机误差项的方差2的估计
由于随机项i不可观测,只能从i的估计,即残差ei出发,对总体方差进行估计。
2又称为总体方差。
可以证明:(1)2的最小二乘或最大似让估计量为:(2)是2的无偏估计量,即:
有兴趣的同学可以自己去证明第九十三页,共一百五十四页,编辑于2023年,星期四在应用研究中需要用其无偏估计量代替,即:模型参数和标准差的估计量:这些统计量用以描述估计量的精密度或“可靠性”。第九十四页,共一百五十四页,编辑于2023年,星期四为了对参数和进行显著性检验,必须首先确定它们的概率分布。由古典回归模型的假定条件已知,模型中的随机扰动项~,因而因变量Y也服从方差为的正态分布。由于和都是Y的线性组合,因此和也表现为正态分布,即:2、估计量和的概率分布第九十五页,共一百五十四页,编辑于2023年,星期四在样本为大样本时,用估计的标准误差作和标准化变换,可以构造标准正态变量。在当样本为小样本时,回归系数标准化变换后,即:并不遵循正态分布,而是服从自由度为(n-2)的t分布,即:第九十六页,共一百五十四页,编辑于2023年,星期四3、回归参数的区间估计用OLS法可以得到总体回归模型中参数和的估计量,这种估计为点估计。尽管在重复抽样中可以预计其期望会等于参数的真值,即,但是还不能说明所得参数的点估计值的可靠性。参数真值可能比点估计值大,也可能比点估计值小,很可能在左右的一个区间范围内。的上限上下限是多少?为此,我们要设法找到可能包括参数真值的一个范围,并且确定这个范围内包含参数真值的可靠程度。这就需要对参数进行区间估计。第九十七页,共一百五十四页,编辑于2023年,星期四这样一个区间,称之为置信区间(confidenceinterval);
1-称为置信系数(置信度)(confidencecoefficient),
称为显著性水平(levelofsignificance);置信区间的端点称为置信限(confidencelimit)或临界值(criticalvalues)。回归参数的区间估计(*)第九十八页,共一百五十四页,编辑于2023年,星期四对区间估计进一步说明和点估计量相对照,区间估计量是一个构造出来的区间,要使得它把参数得真值包括在区间的界限内有一个特定的概率1-α。式(*)中的区间是一个随机区间。置信区间是随机的,对置信区间所作的概率表述应从重复抽样的意义上加以理解。也就是说,如果在重复抽样中,象式(*)那样在1-α的概率基础上构造置信区间多次,平均地说,这些区间中将有100(1-α)%次包含着参数真值。如果估计量的抽样或概率分布已知,相应的置信区间(表达式)就会构造出来。第九十九页,共一百五十四页,编辑于2023年,星期四回归系数的置信区间已经知道,在随机误差项的正态性假定下,OLS估计量本身是正态分布的。以为例,当2已知时,构造变量如下Z变量,Z变量是一个标准化正态变量。实践中,2通常并不知道,只能得到其无偏估计量
此时,构造如下t变量,t变量是一个遵循自由度为n-2的t分布。第一百页,共一百五十四页,编辑于2023年,星期四2未知时,我们用t分布来建立的置信区间给出了100(1-α)%置信区间:利用同样的方法,可以得到的置信区间。第一百零一页,共一百五十四页,编辑于2023年,星期四4、2的置信区间可以证明,在正态性假定下,构造统计量:
遵循自由度为n-2的分布。可以利用分布建立的置信区间:
、是得自数值表中自由度为n-2的两个临界值。第一百零二页,共一百五十四页,编辑于2023年,星期四f()2.5%2.5%95%2.179717.5346
的95%置信区间(8个自由度)第一百零三页,共一百五十四页,编辑于2023年,星期四
2的100(1-α)%置信区间:对于消费——收入一例,请给出真实系数和方差的95%置信区间分别是什么?第一百零四页,共一百五十四页,编辑于2023年,星期四如何减小方差?
的方差大小取决于模型误差项的方差、X的变异程度和样本中观测值的个数。这一结果的含义是,研究人员在获取样本资料时,要注意尽可能地扩大样本容量,并增加解释变量的变异。这一结论也适用于多元回归模型的情况。在应用工作中,由于时间序列数据受到现有统计资料的限制,研究人员常常无法随意地扩大样本,也难以增大解释变量的变异程度,一种选择是利用时间序列数据与截面混合数据估计模型。对于自行调查获得的截面数据,研究人员在确定调查方案时应考虑保证适当的样本规模,同时有目的地选择有利于增大解释变量变异程度的抽样方法,如采用分层抽样。第一百零五页,共一百五十四页,编辑于2023年,星期四3.4一元线性回归模型的
统计检验
第一百零六页,共一百五十四页,编辑于2023年,星期四本节内容一、拟合优度检验
二、变量的显著性检验
三、参数的置信区间
第一百零七页,共一百五十四页,编辑于2023年,星期四回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。第一百零八页,共一百五十四页,编辑于2023年,星期四
一、拟合优度检验
拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:判定系数(可决系数)R2
问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?第一百零九页,共一百五十四页,编辑于2023年,星期四1、总离差平方和的分解
已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线
第一百一十页,共一百五十四页,编辑于2023年,星期四第一百一十一页,共一百五十四页,编辑于2023年,星期四
对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记总离差平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares
)建议同学自己去证明第一百一十二页,共一百五十四页,编辑于2023年,星期四
即Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。总离差平方和可以分为残差平方和与回归平方和两部分,即:
由以上总离差平方和、回归平方和、残差平方和三者之间的关系可知,在总离差平方和中,回归平方和所占的比例越大,说明回归方程与样本观测值的拟合度越好;残差平方和所占的比例越大,说明回归方程与样本观测值的拟合度越差。因此,我们可以用回归平方和与总离差平方和的比值来反映模型的拟合优度,此即判定系数。第一百一十三页,共一百五十四页,编辑于2023年,星期四2、判定系数R2统计量
称R2为(样本)判定系数/可决系数(coefficientofdetermination)。
判定系数的取值范围[0,1]
,R2越接近1,说明实际观测点离样本线越近,拟合优度越高。第一百一十四页,共一百五十四页,编辑于2023年,星期四判定系数低可能由于几个原因:X不是Y的良好解释变量;模型形式设定错误。在实际应用中常可以发现,利用时间序列数据估计的模型R2一般较高,而用截面数据估计的模型R2值较低。判定系数R2统计量
第一百一十五页,共一百五十四页,编辑于2023年,星期四需要说明的是,判定系数作为评价标准相对于设定的模型,而不是解释变量的实际解释能力。R2值依赖于所给出的回归方程的数学函数形式,对相同的因果关系采用不同的表达式将得到不同的R2值。此外,我们估计方程的目的常常并非是为了获得高R2,而是要得到可靠的参数估计,以便利用估计结果进行统计推断。因而我们需要注意,不要将判定系数高低作为评价模型优劣的唯一标准。判定系数R2统计量
第一百一十六页,共一百五十四页,编辑于2023年,星期四虽然R2可按上述所给的定义直接计算,但利用下面的公式能更加快捷的求得:由于R2还可以写成这是一个容易计算的表达式。判定系数R2统计量
第一百一十七页,共一百五十四页,编辑于2023年,星期四R2与r对于一元回归模型,虽然从形式上看判定系数是相关系数的平方,但在回归分析中,R2是一个比r更有意义的度量,因为前者告诉我们在因变量的变异中由解释变量能够解释的部分占多大的一个比例,因而提供了有关自变量的变异在多大程度上决定因变量变异的一个度量,从后者则不能得到这种信息。第一百一十八页,共一百五十四页,编辑于2023年,星期四二、假设检验假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设,记为H0,然后根据样本的有关信息,对H0的真伪进行判断,作出拒绝H0还是接受H0的决策。第一百一十九页,共一百五十四页,编辑于2023年,星期四假设检验尽管研究者总是热衷于了解由现实观察样本所得到的估计结果是否支持被质疑的理论,但证明一个给定的假设是否正确几乎是不可能的,唯一能做的只是声称一个特定的样本证明了特定的假设。尽管我们不能使用假设检验来证明某一给定理论是“正确的”,但是我们通常可以在一个合理的显著性水平上拒绝一个给定的假设。在这种情况下,研究者可以得出结论,如果假设的理论是正确的,所使用的样本就几乎不可能被观察到。第一百二十页,共一百五十四页,编辑于2023年,星期四待检验假设的设定;用于决定是否拒绝假设的判定原则;将这一判定原则应用于恰当的统计量,在产生不正确判断时说面临的两类错误。假设检验用于回归分析的三个核心问题第一百二十一页,共一百五十四页,编辑于2023年,星期四第一:经典虚拟假设和备择假设虚拟假设:通常是研究者(对某一回归参数的)非预期取值的一种表述。习惯上,虚拟假设写作:H0:你的非预期取值范围,如β1≤0备择假设:通常是对研究者预期取值的表述。备择假设写作:HA:你的预期取值范围,如β1>0第一百二十二页,共一百五十四页,编辑于2023年,星期四统计检验存在发生错误的可能第一类错误:弃真。我们拒绝了一个为真的虚拟假设。第二类错误:取伪。我们没有拒绝一个不真的虚拟假设。犯第一类错误和犯第二类错误的概率此消彼长。经济研究中对取伪的错误是非常重视的,如果把一个假的理论指导实践,后果是严重的;反之,若把真的抛弃,并不是一个大问题。第一百二十三页,共一百五十四页,编辑于2023年,星期四第二:假设检验的判定规则第一百二十四页,共一百五十四页,编辑于2023年,星期四假设检验的基本思想是概率性质的反证法,即小概率事件原理。该原理认为“小概率事件在一次试验中几乎是不可能发生的”。在原假设H0下构造一个事件,这个事件在“原假设H0是正确”的条件下是一个小概率事件。为了检验原假设H0是否正确,先假定这个假设是正确的,看由此能推出什么结果。如果导致一个不合理的结果(小概率事件发生了),则表明“原假设H0是正确”是错误的,即原假设H0不正确,因此要拒绝原假设H0。如果没有导致一个不合理的现象的出现(小概率事件没有发生),则不能认为原假设H0不正确,因此不能拒绝原假设H0。第一百二十五页,共一百五十四页,编辑于2023年,星期四假设检验的方法之一:置信区间法继续以消费-收入为例。某种理论或先前经验使我们相信消费-收入的真实斜率系数β1=
1,那么,我们从样本得到的=0.777是否与这一先验的假设值相一致?如果是,我们不拒绝该假设,否则就可以拒绝它。我们知道,所估计的边际消费倾向是0.777。提出如下统计假设
在这里,备择假设是一个复合假设,或者说双测假设,需要进行双尾检验。与之对应的是单尾检验。我们所关心的问题是是否与相符。利用已经讨论过的置信区间知识。第一百二十六页,共一百五十四页,编辑于2023年,星期四一元线性模型中,i(i=1,2)的置信区间:在变量的显著性检验中已经知道:
意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2,t/2)的概率是(1-)。表示为:
即第一百二十七页,共一百五十四页,编辑于2023年,星期四于是得到:(1-)的置信度下,i的置信区间是
在上述收入-消费支出例中,如果给定
=0.05,查表得:
以1
加以说明:因于是,1的置信区间为:(0.66904,0.87498)
含义:在重复抽样意义下,这样的区间以95%置信系数给出真值1落入其中的一个范围或界限。第一百二十八页,共一百五十四页,编辑于2023年,星期四如果虚拟假设的β1落入这个置信区间,我们就不拒绝虚假设,如果它落在区间外,我们就可以拒绝虚拟假设。在假设H0下落入此区间的值有100(1-α)%的可信性。若果真落入此域,就不拒绝H0。当我们拒绝虚拟假设时,称我们的发现是统计上显著的。反之,当我们不拒绝虚假设时,称我们的发现不是统计上显著的。第一百二十九页,共一百五十四页,编辑于2023年,星期四
由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。
要缩小置信区间,需
(1)增大样本容量n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;
(2)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。第一百三十页,共一百五十四页,编辑于2023年,星期四假设检验的方法之二:显著性检验
第一百三十一页,共一百五十四页,编辑于2023年,星期四
检验步骤:
(1)对总体参数提出假设H0:1=,H1:1(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值t/2(n-2)(4)比较,判断
若|t|>t/2(n-2),则拒绝H0
,接受H1
;
若|t|
t/2(n-2),则拒绝H1
,接受H0
;第一百三十二页,共一百五十四页,编辑于2023年,星期四对于回归模型来说,模型系数的可靠性检验,就是针对每个自变量对因变量的影响是否具有统计显著性的一种检验,以判断解释变量X是否是被解释变量Y的一个显著性的影响因素。
因此,计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。
提出假设:当原假设成立时,有:(3)给定显著性水平,查t分布表,得临界值t/2(n-2)(4)比较,判断。若|t|>t/2(n-2),则拒绝H0
,接受H1
;
若t|
t/2(n-2),则拒绝H1
,接受H0
。第一百三十三页,共一百五十四页,编辑于2023年,星期四
对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:
在上述收入-消费支出例中,首先计算2的估计值
自己去说明有关0的假设与检验步骤第一百三十四页,共一百五十四页,编辑于2023年,星期四t统计量的计算结果分别为:
给定显著性水平=0.05,查t分布表得临界值
t0.05/2(8)=2.306|t1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;|t0|<2.306,表明在95%的置信度下,无法拒绝截距项为零的假设。
第一百三十五页,共一百五十四页,编辑于2023年,星期四三、随机误差项的正态性检验:
Jarque-Bera检验上述统计检验过程是建立在假设随机误差项服从正态分布的基础之上。既然我们不能直接地观察真实的误差项μi,那么,如何证实μi确实服从正态分布呢?我们有μi的近似值ei,因此,可以通过ei来获悉μi的正态性。一种常用的正态性检验是Jarque-Bera检验,简称JB检验。它是依据参差,对大样本的一种检验方法。第一百三十六页,共一百五十四页,编辑于2023年,星期四Jarque-Bera检验首先,计算偏度系数S(对概率密度函数对称性的度量)和峰度系数K(对概率密度函数的陡峭或扁平度的度量):Jarque和Bera建立了如下检验统计量——JB统计量对于正态分布变量,偏度为零,峰度为3。他们证明了,在正态性假定下,JB统计量渐进地服从自由度为2的分布,表示为:第一百三十七页,共一百五十四页,编辑于2023年,星期四如果变量服从正态分布,则S为零,K为3,因而JB统计量的值为零。但如果变量不是正态变量,则JB统计量将为一个逐渐增大值。我们很容易从分布表得到给定显著性水平的分布临界值。若JB统计量超过临界值,则拒绝正态分布的零假设;若没有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45068.1-2024数字化试衣系统性能评估第1部分:虚拟人体表示
- 广东酒店管理职业技术学院《食品微生物综合实训》2023-2024学年第一学期期末试卷
- 广东金融学院《公司金融含实验》2023-2024学年第一学期期末试卷
- 广东建设职业技术学院《技术及应用实验》2023-2024学年第一学期期末试卷
- 广东金融学院《小动物影像学》2023-2024学年第一学期期末试卷
- 网络文明培训课件
- 《能源互联网》课件
- 小班安全课件《狗狗来了》
- 厨具销售培训课件
- 共青科技职业学院《现代基础化学》2023-2024学年第一学期期末试卷
- 2024年未成年子女房产赠与协议
- 2024-2030年中国共模电感环形铁芯行业发展状况规划分析报告
- 眼视光学理论和方法知到智慧树章节测试课后答案2024年秋山东中医药大学
- 节约集约建设用地标准 DG-TJ08-2422-2023
- 《氮化硅陶瓷》课件
- 山东省济南市历城区2024-2025学年二年级上学期期末数学模拟检测卷(含答案)
- 叉车维护维修合同
- 2024年财务部年度工作总结(7篇)
- 2024年度医疗美容服务合作合同3篇
- 心衰病的中医治疗
- 水利工程劳务施工方案
评论
0/150
提交评论