版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计量经济学第二章简单线性回归模型1从2004中国国际旅游交易会上获悉,到2020年,中国旅游业总收入将超过3000亿美元,相当于国内生产总值的8%至11%。(资料来源:国际金融报2004年11月25日第二版)◆是什么决定性的因素能使中国旅游业总收入到2020年达到3000亿美元?◆旅游业的发展与这种决定性因素的数量关系究竟是什么?◆怎样具体测定旅游业发展与这种决定性因素的数量关系?引子:
中国旅游业总收入将超过3000亿美元吗?2第二章简单线性回归模型
本章主要讨论:
●回归分析与回归函数
●简单线性回归模型参数的估计●拟合优度的度量●回归系数的区间估计和假设检验●简单线性回归模型检验●回归模型预测3第一节回归分析与回归方程本节基本内容:
●回归与相关●总体回归函数●随机扰动项●样本回归函数●非线性模型线性化
4
1.经济变量间的相互关系
◆确定性的函数关系
◆不确定性的统计关系—相关关系
(ε为随机变量)
◆没有关系一、回归与相关
(对统计学的回顾)5对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的:62.相关关系◆相关关系的描述
相关关系最直观的描述方式——散点图
7
◆相关关系的类型
●
从涉及的变量数量看
简单相关多重相关(复相关)
●
从变量相关关系的表现形式看
线性相关——散布图接近一条直线非线性相关——散布图接近一条曲线
●
从变量相关关系变化的方向看
正相关——变量同方向变化,同增同减负相关——变量反方向变化,一增一减不相关89▲注意①不线性相关意味着不相关?②有相关关系意味着一定有因果关系?③相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。10相关系数的度量总体相关系数:样本相关系数:11相关系数的取值范围12
●X和Y都是相互对称的随机变量,x与y和y与x的相关系数相等。●
线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。●
相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线●相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验。
计量经济学关心:变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法
使用相关系数时应注意13简单相关系数的检验14线性相关系数的局限性154.回归分析回归的古典意义:高尔顿遗传学的回归概念
(父母身高与子女身高的关系)回归的现代意义:一个被解释变量对若干解释变量依存关系的研究回归的目的(实质):由固定的解释变量去估计被解释变量的平均值161.相关分析
变量性质:都是随机变量且关系对等。
分析方法:图表法和相关系数。
分析目的:判定变量之间相关的方向和关系的密切程度。相关分析和回归分析区别172.回归分析变量性质:解释变量(因)与被解释变量(果)的关系不对等。解释变量是非随机的被解释变量是随机的分析方法:建立回归方程。分析目的:变量之间的数量依存关系,并根据自变量的数值变化去推测因变量数值变化。18相关分析和回归分析联系相关分析与回归分析有密切的联系,都是对变量之间相关关系的研究,二者可以互相补充。相关分析表明变量之间相关关系的性质和程度,只有变量之间存在一定程度的相关关系时,进行回归分析寻求相关的具体数学形式才有实际意义。19●
的条件分布
当解释变量
取某固定值时(条件),
的值不确定,
的不同取值形成一定的分布,即
的条件分布。●
的条件期望
对于
的每一个取值,
对
所形成的分布确定其期望或均值,称为
的条件期望或条件均值
注意几个概念20●回归线:
对于每一个
的取值,都有
的条件期望与之对应,代表这些
的条件期望的点的轨迹所形成的直线或曲线,称为回归线。21
回归函数:应变量的条件期望随解释变量的的变化而有规律的变化,如果把的条件期望表现为的某种函数这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数举例:假如已知100个家庭构成的总体。22每月家庭可支配收入
X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每960121013101432183510682319248828563201月125913401520188520662321258729003288家132414001615194321852365265030213399庭1448165020372210239827893064消1489171220782289248728533142费1538177821792313251329343274支160018412298239825383110出17021886231624232567
Y1900238724532610201224982487271025892586900115014001650190021502400265029003150例:100个家庭构成的总体(单位:元)2324二、总体回归函数(PRF)1.总体回归函数的概念
假如已知所研究的经济现象的总体应变量
和解释变量X的每个观测值,可以计算出总体应变量Y的条件均值E[Y|X],并将其表现为解释变量X的某种函数E[Y|X]=f(x)这个函数称为总体回归函数(PRF)25
(1)条件均值表现形式
假如
的条件均值是解释变量
的线性函数,可表示为:
(2)个别值表现形式
对于一定的,
的各个别值分布在的周围,若令各个与条件均值的偏差为,显然是随机变量,则有
或
2.总体回归函数的表现形式26上式称为总体回归模型,真实反映被解释变量与解释变量和随机因素的关系。该模型参数是未知的。上式称为总体回归函数(方程),真实反映被解释变量均值与解释变量的关系。该方程参数是未知的。27......
..由于总体回归模型参数不知道,所以只能通过抽样调查取得数据,并基于数据估计出参数的近似值。28●实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定。“计量”的目的就是寻求PRF。●总体回归函数中
与
的关系可是线性的,也可是非线性的。对线性回归模型的“线性”有两种解释
就变量而言是线性的
——
的条件均值是
的线性函数
就参数而言是线性的
——
的条件均值是参数
的线性函数
3.如何理解总体回归函数29
变量、参数均为“线性”
参数“线性”,变量”非线性”变量“线性”,参数”非线性”计量经济学中:
线性回归模型主要指就参数而言是“线性”,因为只要对参数而言是线性的,都可以用类似的方法估计其参数。“线性”的判断30三、随机扰动项◆概念:
各个值与条件均值的偏差代表排除在模型以外的所有因素对
的影响。◆性质:是期望为0有一定分布的随机变量重要性:随机扰动项的性质决定着计量经济方法的选择31
●
未知影响因素的代表●
无法取得数据的已知影响因素的代表●
众多细小影响因素的综合代表●
模型的设定误差●
变量的观测误差●
变量内在随机性引入随机扰动项的原因32四、样本回归函数(SRF)
样本回归线:
对于的一定值,取得的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹称为样本回归线。
样本回归函数:如果把应变量的样本条件均值表示为解释变量X的某种函数,这个函数称为样本回归函数(SRF)。
33SRF的特点●每次抽样都能获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有许多条(SRF不唯一)。
SRF2SRF134●样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。●样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。35例一个假想社区是有一百户家庭组成的总体,研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系,即根据家庭的每月的可支配收入,考察该社区家庭每月消费支出的平均水平。为方便研究,将该100户家庭组成的总体按照可支配收入水平划分为10组,并分析每一组的家庭消费支出。收入支出统计表见下页。单位:元36X800110014001700200023002600290032003500每月家庭消费支出Y56163886910231254140816501969209022995947489131100130914521738199121342321627814924114413641551174920462178253063884797911551397159518042068226626299351012121014081650174821012354286096810451243147416721881218924862871107812541496168319252233255211221298149617161969224425851155133115621749201322992640118813641573177120352310121014081606180421011430165018702112171619472002合计24204950114951644519305238702502521450212851551037收入水平800110014001700200023002600290032003500条件均值60582510451265148517051925214523652585收入水平与消费支出的条件均值统计表单位:元38家庭消费支出与可支配收入的一个随机样本X800110014001700200023002600290032003500Y59463811221150140815951969207825852530单位(元)39
样本回归函数如果为线性函数,可表示为
其中:是与相对应的的样本条件均值和分别是样本回归函数的参数应变量的实际观测值不完全等于样本条件均值,二者之差用表示,称为剩余项或残差项:
或者样本回归函数的表现形式40
对样本回归的理解
如果能够获得和的数值,显然:●和是对总体回归函数参数和的估计
●是对总体条件期望的估计
●
在概念上类似总体回归函数中的,可视为对的估计。样本线性回归模型41
样本回归函数与总体回归函数的关系
SRF
PRF
A
42样本回归函数通过样本回归模型推断总体回归模型抽取样本运用回归分析方法估计出样本回归模型——样本回归函数43估计量一个估计量又称统计量,是指一个公式或方法,是用已知的样本所提供的信息去估计总体参数。估计量的二重性:统计量是样本的函数,因为抽样是随机的,统计量具有随机性;对一次已经实现的抽样,统计量又是确定的。在应用中,由估计量算出的数值称为估计值。44
与抽样有关
与抽样无关关系可估计得到
关系未知
近似关系真实关系总体回归方程与样本回归方程的区别45如果估计误差较小,即估计值与真实值比较接近,则可以用样本回归方程近似地代替总体回归方程,即利用样本回归方程近似地描述总体的平均变化规律。因此,回归分析的主要内容可以概括成:根据样本观察值确定样本回归方程;检验样本回归方程对总体回归方程的近似程度;利用样本回归方程分析总体的平均变化规律。46回归分析的目的
用样本回归函数SRF去估计总体回归函数PRF。
由于样本对总体总是存在代表性误差,SRF总会过高或过低估计PRF。要解决的问题:寻求一种规则和方法,使得到的SRF的参数和尽可能“接近”总体回归函数中的参数和。这样的“规则和方法”有多种,最常用的是最小二乘法47
五、非线性模型的处理1.可线性化直接置换法对数变换法2.不可线性化泰勒公式(级数)展开法高斯-牛顿迭代法牛顿-拉夫森迭代法481、直接置换法:
用变量代换使代换后的变量呈现线性关系。49
2、对数变换法:将回归方程取对数,然后变量代换503、级数展开法:首先展开成幂级数,然后取线性项51非线性模型的线性化5253545556575859606162第二节
简单线性回归模型的最小二乘估计
本节基本内容:●简单线性回归的基本假定●普通最小二乘法●OLS回归线的性质●参数估计式的统计性质63
一、简单线性回归的基本假定
1.为什么要作基本假定?
●模型中有随机扰动,估计的参数是随机变量,只有对随机扰动的分布作出假定,才能确定所估计参数的分布性质,也才可能进行假设检验和区间估计●只有具备一定的假定条件,所作出的估计才具有较好的统计性质。64
(1)对模型和变量的假定如假定解释变量是非随机的,或者虽然是随机的,但与扰动项
是不相关的。假定解释变量
在重复抽样中为固定值。假定模型对变量和函数的设定是正确的,无设定误差。假定模型对参数是线性的,y与参数和x之间为线性关系。2、基本假定的内容65
又称高斯假定、古典假定假定1:零均值假定
在给定的条件下,的条件期望为零假定2:同方差假定
在给定的条件下,的条件方差为某个常数(2)对随机扰动项
的假定66
假定3:无自相关假定
随机扰动项的逐次值互不相关
假定4:随机扰动与解释变量不相关
67
假定5:对随机扰动项分布的正态性假定即假定服从均值为零、方差为的正态分布
(说明:正态性假定不影响对参数的点估计,但对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时,的分布会趋近于正态分布。所以正态性假定是合理的)68的分布性质由于
的分布性质决定了的分布性质。对的一些假定可以等价地表示为对的假定:假定1:零均值假定
假定2:同方差假定假定3:无自相关假定假定5:正态性假定69(3)对模型参数估计时的假设样本观测次数必须大于待估计的参数的个数。X的数值要有变异性,不可以全是相同的值。70二、普通最小二乘法
(OrdinaryLeastSquares)对于一元线性回归模型,假设从总体中获取了n组观察值(X1,Y1),(X2,Y2),…,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值.综合起来看,这条直线处于样本数据的中心位置最合理。
71选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题.72yx纵向距离A为实际点,B为拟合直线上与之对应的点....73....Y4Y1Y2Y3X1X2X3X4}}{{u1u2u3u4xyE(Y|X)=b1+b2X74(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感
描述这一标准最常用的是普通最小二乘法(OrdinaryLeastSquare,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小75
◆OLS的基本思想●不同的估计方法可得到不同的样本回归参数和,所估计的也不同。●理想的估计方法应使与的差即剩余越小越好●因可正可负,所以可以取最小即76数学推证77
正规方程和估计式
用克莱姆法则求解得观测值形式的OLS估计式:
取偏导数为0,得正规方程78
为表达得更简洁,或者用离差形式OLS估计式:
注意其中:用离差表现的OLS估计式79而且样本回归函数可写为
上式也称为样本回归函数的离差形式。注意:在计量经济学中,往往以小写字母表示对均值的离差。
8081三、OLS回归线的性质可以证明:书上P34●回归线通过样本均值●估计值的均值等于实际观测值的均值
82●剩余项的均值为零●应变量估计值与剩余项不相关
●解释变量与剩余项不相关
83
四、参数估计式的统计性质(一)参数估计式的评价标准
1.无偏性前提:重复抽样中估计方法固定、样本数不变、经重复抽样的观测值,可得一系列参数估计值参数估计值的分布称为的抽样分布,密度函数记为如果,称是参数
的无偏估计式,否则称是有偏的,其偏倚为(见图1.2)84图1.2估计值偏倚
概率密度85前提:样本相同、用不同的方法估计参数,可以找到若干个不同的估计式
目标:努力寻求其抽样分布具有最小方差的估计式——最小方差准则,或称最佳性准则(见图1.3)
既是无偏的同时又具有最小方差的估计式,称为有效估计式。2.最小方差性86概率密度
图1.3估计值87
4.渐近性质(大样本性质)
思想:当样本容量较小时,有时很难找到最佳无偏估计,需要考虑样本扩大后的性质一致性:
当样本容量
n
趋于无穷大时,如果估计式依概率收敛于总体参数的真实值,就称这个估计式是
的一致估计式。即或
渐近有效性:当样本容量n趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。
(见图1.4)88概率密度
估计值
图1.489(二)
OLS估计式的统计性质●
由OLS估计式可以看出
由可观测的样本值和唯一表示。●
因存在抽样波动,OLS估计是随机变量●
OLS估计式是点估计式90当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:
(1)线性性,即它是否是另一随机变量的线性函数;91(2)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性,即它是否在所有线性无偏估计量中具有最小方差。
这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。
92(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。
当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:931.线性特征
是的线性函数
2.无偏特性
3.最小方差特性
在所有的线性无偏估计中,OLS估计具有最小方差结论:在古典假定条件下,OLS估计式是最佳线性无偏估计式(BLUE)OLS估计式的统计性质——高斯定理949596的估计证明见P6997结论:高斯-马尔可夫定理:在古典假定条件下,用OLS法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。98所有的估计值线性估计值线性无偏估计值最小二乘估计值|方差最小高斯-马尔科夫理论所考虑的各种估计值分类图99第三节
拟合优度的度量本节基本内容:●什么是拟合优度●总变差的分解●可决系数
100说明回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。101那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。102
一、什么是拟合优度?
概念:样本回归线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线,拟合的回归线与样本观测值总有偏离。
样本回归线对样本观测数据拟合的优劣程度
——拟合优度拟合优度的度量建立在对总变差分解的基础上103二、总变差的分解
分析Y的观测值、估计值与平均值的关系将上式两边平方加总,可证得
(TSS)(ESS)(RSS)
104
总变差(TSS):应变量Y的观测值与其平均值的离差平方和(总平方和)
解释了的变差(ESS):应变量Y的估计值与其平均值的离差平方和(回归平方和)
剩余平方和(RSS):应变量观测值与估计值之差的平方和(未解释的平方和)105
变差分解的图示106
三、可决系数以TSS同除总变差等式两边:或
定义:回归平方和(解释了的变差ESS)在总变差(TSS)中所占的比重称为可决系数,用表示:
或
107作用:可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。特点:●可决系数取值范围:●随抽样波动,样本可决系数是随抽样而变动的随机变量●可决系数是非负的统计量可决系数的作用和特点108可决系数与相关系数的关系(1)联系
数值上,可决系数等于应变量与解释变量之间简单相关系数的平方:109可决系数与相关系数的关系可决系数相关系数就模型而言就两个变量而言说明解释变量对应变量的解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的对称相关关系取值:[0,1]取值:[-1,1](2)区别110运用可决系数时应注意●可决系数只是说明列入模型的所有解释变量对因变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中)●回归的主要目的如果是经济结构分析,不能只追求高的可决系数,而是要得到总体回归系数可信的估计量,可决系数高并不表示每个回归系数都可信任●如果建模的目的只是为了预测因变量值,不是为了正确估计回归系数,一般可考虑有较高的可决系数111第四节
、回归系数的区间估计本节基本内容:●OLS估计的分布性质●回归系数的区间估计
112问题的提出
为什么要作区间估计?OLS估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并说明其可靠性为什么要作假设检验?OLS估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果?还有待统计检验。区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。113
一、OLS估计的分布性质基本思想
是随机变量,必须确定其分布性质才可能进行区间估计和假设检验是服从正态分布的随机变量,决定了也是服从正态分布的随机变量,
是的线性函数,决定了也是服从正态分布的随机变量,只要确定的期望和方差,即可确定的分布性质114●的期望:(无偏估计)●的方差和标准误差
(标准误差是方差的算术平方根)
注意:以上各式中未知,其余均是样本观测值
参数估计值的期望和方差115
可以证明(见教材P70附录2.2)
的无偏估计为
(n-2为自由度,即可自由变化的样本观测值个数)对随机扰动项u方差的估计116
●在已知时将作标准化变换,可得参数估计量所服从的概率分布117
(1)当样本为大样本时,用估计的参数标准误差对作标准化变换,所得Z统计量仍可视为标准正态变量(根据中心极限定理)(2)当样本为小样本时,可用代替,去估计参数的标准误差,用估计的参数标准误差对作标准化变换,所得的t统计量不再服从正态分布(这时分母也是随机变量),而是服从t分布:
●当未知时
118二、回归系数的区间估计概念:对参数作出的点估计是随机变量,虽然是无偏估计,但还不能说明估计的可靠性和精确性,需要找到包含真实参数的一个范围,并确定这个范围包含参数真实值的可靠程度。在确定参数估计式概率分布性质的基础上,可找到两个正数δ和α(),使得区间包含真实的概率为,即
119这样的区间称为所估计参数的置信区间。(confidenceinterval);1-称为置信系数(置信度)(confidencecoefficient),称为显著性水平(levelofsignificance);置信区间的端点称为置信限(confidencelimit)或临界值(criticalvalues)。120由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。要缩小置信区间,需要(1)增大样本容量n。因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;121(2)提高模型的拟合优度。因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。122
一般情况下,总体方差未知,用无偏估计去代替,由于样本容量较小,统计量
t不再服从正态分布,而服从
t分布。可用t分布去建立参数估计的置信区间。
回归系数区间估计的方法123选定α,查t分布表得显著性水平为
,自由度为
的临界值,则有即124对回归系数假设检验的方式1.假设检验的基本思想为什么要作假设检验?所估计的回归系数、和方差都是通过样本估计的,都是随抽样而变动的随机变量,它们是否可靠?是否抽样的偶然结果呢?还需要加以检验。125计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。目的:对简单线性回归,判断解释变量是否是被解释变量
的显著影响因素。在一元线性模型中,就是要判断是否对具有显著的线性影响。这就需要进行变量的显著性检验。
126一般情况下,总体方差未知,只能用去
代替,可利用t分布作t检验给定,查
t分布表得▼如果或者则拒绝原假设,而接受备择假设▼如果则接受原假设2.回归系数的检验方法127
P用P值判断参数的显著性假设检验的p值:p值是基于既定的样本数据所计算的统计量,是拒绝原假设的最低显著性水平。统计分析软件中通常都给出了检验的p值统计量t由样本计算的统计量为:相对于显著性水平的临界值:或注意:t检验是比较和P值检验是比较和p与相对应与P相对应128
用P值判断参数的显著性假设检验的p
值:p
值是根据既定的样本数据所计算的统计量,拒绝原假设的最小显著性水平。统计分析软件中通常都给出了检验的p
值。129方法:将给定的显著性水平与
值比较:►若值,则在显著性水平下拒绝原假设,即认为
对
有显著影响►若值,则在显著性水平下接受原假设,即认为
对
没有显著影响规则:当时,
值越小,越能拒绝原假设用P值判断参数的显著性的方法130第五节、一元线性回归模型的检验模型估计式的检验就是利用一定的定性与定量的标准对模型的函数形式,变量的选择及参数估计的正确性进行评价。1、模型估计式检验的必要性:模型解释变量选择的正确性需要证明(主观随意性,解释变量的种类与多少由人为主观决定)模型函数形式的正确性需要验证。解释变量与被解释变量的关系选择具有唯一性,很多情况下并非线性。模型估计的可靠性需要评价。估计式来源于样本,对总体是否适合需要检验。(估计式的可靠性、稳定性)1312、模型估计式的理论检验:是对模型估计式在理论上能否成立进行判别,又称符号检验。OLS估计值的符号及取值大小是否符合经济理论或社会经济实践常规。3、统计准则检验(一级检验)(1)估计标准误差。
反映各实际点在直线周围的散布情况,越小越好。一般用标准差与均值之比。及变异系数132(2)相关系数相关系数的含义。相关系数的显著性检验。(3)解释变量回归系数的显著性检验H0:即假设Xi对Y没有显著影响,则133给定α,可由t分布表查得临界值tα/2,
若|t|>tα/2
,拒绝H0,Xi对Y有显著影响;若|t|≤tα/2
,接受H0,认为Xi
对Y影响不显著,应考虑将Xi
从模型中剔除,重新建模。(4)拟合优度检验134(5)总体线性关系的检验1.F检验对于若原假设H0:成立,则给定显著水平α,查表得临界值Fα(单侧检验)若F>Fα,拒绝H0,模型的线性关系是显著的;若F<Fα,接受H0,模型的线性关系不显著,回归模型无效。
135检验通不过的原因可能在于:解释变量选取不当或遗漏重要解释变量;解释变量与被解释变量之间不存在线性相关关系;样本容量n比较小;回归模型存在序列相关(时间序列中,不同时期)。r2检验与F检验的关系136
(6)其他准则调整判定系数:判定系数受解释变量X的个数k的影响,在k的个数不同的模型之间进行比较时,判定系数必须进行调整。4、正态性检验.Jarque-Bera(雅克贝拉检验).JB检验5、计量经济学准则检验(二级检验)(1)异方差检验(2)自相关检验(3)多重共线性检验138
本节主要内容:
●回归分析结果的报告
●被解释变量平均值预测
●被解释变量个别值预测第六节
回归模型预测139一、回归分析结果的报告
经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据,计量经济学通常采用了以下规范化的方式:例如:回归结果为
标准误差SEt统计量可决系数和自由度140
二、被解释变量平均值预测1.基本思想●运用计量经济模型作预测:指利用所估计的样本回归函数,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量数值作出定量的估计。()●控制()●计量经济预测是一种条件预测:
条件:◆模型设定的关系式不变
◆所估计的参数不变
◆
解释变量在预测期的取值已经确定或已作出预测对应变量的预测分为平均值预测和个别值预测对应变量的预测又分为点预测和区间预测141预测值、平均值、个别值的相互关系
是真实平均值的点估计,也是对个别值的点估计个别值真实平均值点预测值1422.Y
平均值的点预测
将解释变量预测值直接代入估计的方程这样计算的是一个点估计值
143
3.Y平均值的区间预测基本思想:由于存在抽样波动,预测的平均值不一定等于真实平均值,还需要对作区间估计。为对Y作区间预测,必须确定平均值预测值的抽样分布,
必须找出与和都有关的统计量144具体作法(从的分布分析)
已知
可以证明
服从正态分布,将其标准化,当未知时,只得用代替,这时有145显然这样的t统计量与和都有关。给定显著性水平α,查t分布表,得自由度n-2的临界值则有Y平均值的置信度为的预测区间为构建平均值的预测区间146三、应变量个别值预测基本思想:◆既是对
平均值的点预测,也是对
个别值的点预测◆由于存在随机扰动的影响,
的平均值并不等于
的个别值◆为了对
的个别值作区间预测,需要寻找与预测值和个别值有关的统计量,并要明确其概率分布147
具体作法:
已知剩余项是与预测值及个别值都有关的变量,并且已知服从正态分布,且可证明当用代替时,对标准化的变量t为
148构建个别值的预测区间给定显著性水平,查
t分布表得自由度为的临界值,则有
因此,一元回归时
的个别值的置信度为的预测区间上下限为
149应变量Y区间预测的特点
1、
平均值的预测值与真实平均值有误差,主要是受抽样波动影响
个别值的预测值与真实个别值的差异,不仅受抽样波动影响,而且还受随机扰动项的影响
1502、平均值和个别值预测区间都不是常数,是随的变化而变化的,都以为区间中心.3、预测区间上下限与样本容量有关,当样本容量时个别值的预测误差只决定于随机扰动的方差151SRF各种预测值的关系Y的个别值的置信区间Y均值的置信区间152第六节案例分析
提出问题:改革开放以来随着中国经济的快速发展,居民的消费水平也不断增长。但全国各地区经济发展速度不同,居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。
研究范围:全国各省市2002年城市居民家庭平均每人每年消费截面数据模型。
153理论分析:影响各地区城市居民人均消费支出的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入。从理论上说可支配收入越高,居民消费越多,但边际消费倾向大于0,小于1。建立模型:
其中:Y—城市居民家庭平均每人每年消费支出(元)
X—城市居民人均年可支配收入(元)154数据:从2002年《中国统计年鉴》中得到地区城市居民家庭平均每人每年消费支出(元)Y城市居民人均年可支配收入(元)
X北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北10284.607191.965069.284710.964859.885342.644973.884462.0810464.006042.608713.084736.526631.684549.325596.324504.685608.9212463.929337.566679.685234.356051.066524.526260.166100.5613249.808177.6411715.606032.409189.366334.647614.366245.406788.52155(接上页数据表)地区城市居民家庭平均每人每年消费支出(元)
Y城市居民人均年可支配收入(元)X湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆5574.728988.485413.445459.646360.245413.084598.285827.926952.445278.045064.245042.526104.925636.40695
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 连锁酒店改造项目合同
- 纪念馆浮雕施工合同
- 居民楼屋顶防水改造合同
- 地铁站彩绘施工合同
- 医疗器械采购投标记录
- 正式兼职合同范例
- 历史建筑修复变形缝施工合同
- 城市扩建人工费合同
- 风能发电招投标合同审查技巧
- 餐饮业油烟管道安装合同模板
- 韩文那些事儿智慧树知到答案章节测试2023年嘉兴学院
- 江苏省建筑和装饰工程的计价定额说明及计算规则
- 余华《活着》读书分享课件ppt
- 2023年国家电投校园招聘笔试题库及答案解析
- YY/T 0471.5-2004接触性创面敷料试验方法 第5部分:阻菌性
- GB/T 5095.7-1997电子设备用机电元件基本试验规程及测量方法第7部分:机械操作试验和密封性试验
- GB/T 4354-2008优质碳素钢热轧盘条
- GB/T 37439-2019高速铁路预制后张法预应力混凝土简支梁
- GB/T 18723-2002印刷技术用黏性仪测定浆状油墨和连接料的黏性
- 药品供应目录(人民医院药品名分类汇总表)
- CAK6136V车床面板操作
评论
0/150
提交评论