第2章回归概要(计量经济学-中南财经政法大学,向书坚)_第1页
第2章回归概要(计量经济学-中南财经政法大学,向书坚)_第2页
第2章回归概要(计量经济学-中南财经政法大学,向书坚)_第3页
第2章回归概要(计量经济学-中南财经政法大学,向书坚)_第4页
第2章回归概要(计量经济学-中南财经政法大学,向书坚)_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1节回归分析的性质第2节双变量回归分析的基本概念第3节双变量回归模型的估计问题第4节正态性假定:经典正态线性回归模型第2章回归分析概要2/3/20231§2.1.1“回归”一词的历史渊源§2.1.2回归的现代释义§2.1.3统计关系与确定性关系§2.1.4回归与因果关系§2.1.5回归与相关第1节回归分析的性质2/3/20232第1节回归分析的性质§2.1.1“回归”一词的历史渊源英国统计学家F.高尔顿(F.Galton:1822~1911)。高尔顿和他的学生K.皮尔逊(K.Pearson:1856~1936)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为2/3/20233通俗地说:一群特高个子父辈的儿子们在同龄人中平均仅为高个子一群高个子父辈的儿子们在同龄人中平均仅为略高个子一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即子代的平均高度向中心回归了正是因为子代的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象。正是为了描述这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈身高x与子代身高y的关系2/3/20234§2.1.2回归的现代释义回归分析是用来研究一个变量(称之为被解释变量(explainedvariable)或应变量(dependentvariable))与另一个或多个变量(称为解释变量(explanatoryvariable)或自变量(independentvariable))之间的关系。回归分析是关于研究一个应变量对另一个或多个解释变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值去估计或预测前者的(总体)均值。2/3/202352/3/202362/3/202372/3/20238§2.1.3统计关系与确定性关系社会经济与自然科学等现象之间的相互联系和制约是一个普遍规律★要认识和掌握客观经济规律就必须探求经济现象间经济变量的变化规律,变量间的统计关系是经济变量变化规律的重要特征★互有联系的经济现象及经济变量间关系的紧密程度各不一样◎一种极端的情况是一个变量的变化能完全决定另一个变量的变化2/3/20239高档消费品的销售量与城镇居民收入之间的关系

粮食产量与施肥量之间的关系储蓄额与居民收入之间的关系广告支出与商品销售额工业增加值与能源消耗量数学成绩与统计学成绩◎以上变量间关系的一个共同特征是它们之间有密切关系,但它们是一种非确定性关系确定性关系:圆的面积()殴姆定律(电流C=V/k,V为电压)2/3/202310§2.1.4回归与因果关系回归分析研究的一个变量对另一个变量的依赖关系可以是一种因果关系,但也可能不是因果关系。统计关系本身不可能意味着任何因果关系2/3/202311§2.1.5回归与相关回归分析和相关分析都是研究变量间关系的统计学课题

两者的主要差别:

回归分析中需要区别自变量和因变量;相关分析中则不需要区分

相关分析中所涉及的变量y与x全是随机变量。而回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量

相关分析的研究主要是为刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量X对变量y的影响大小,还可以由回归方程进行预测和控制2/3/202312§2.2.1.一个人为的例子§2.2.2总体回归函数(PRF)的概念§2.2.3“线性”一词的含义§2.2.4PRF的随机设定§2.2.5随机误差项的意义§2.2.6样本回归函数(SRF)第2节双变量回归分析的基本概念2/3/202313§2.2.1.一个人为的例子假如一个国家的人口总体有60户家庭组成研究每周家庭消费支出Y与每周家庭可支配收入X的关系如果知道了家庭的每周收入,预测每周消费支出的平均水平根据表2.1理解:

①条件分布;②条件概率;③条件期望第2节双变量回归分析的基本概念2/3/2023142/3/2023152/3/2023162/3/2023172/3/202318§2.2.2总体回归函数(PRF)的概念(PopulationRegressionFunction)每一个条件均值E(Y/Xi)都是Xi的一个函数(2.2.1)其中f(Xi)表示解释变量Xi某个函数(2.2.1)称为双变量总体回归函数或简称总体回归.它表明在给定Xi下的Y分布的总体均值与Xi有函数关系如果X与Y之间存在现行关系,PRF则为2/3/202319§2.2.3“线性”一词的含义对变量为线性:Y的条件期望值是X的线性函数,如非线性如:对参数为线性:Y的条件期望值是各参数β的线性函数,如:非线性如:本课程研究的“线性”主要针对参数而言,包含两种情况:①对参数和变量均为线性;

②对参数为线性而对变量X则为非线性2/3/202320§2.2.4PRF的随机设定随着家庭收入的增加,家庭消费支出平均地说也增加,但对某一个家庭而言,两者的关系如何?由于受随机因素的影响,对各个家庭而言Yi变化趋势并不相同,消费支出围绕其条件期望上下波动此时,Yi可以表示如下:系统性systematic

或确定性deterministic

成份随机干扰或随机误差项,非系统性成份nonsystematic(2.4.1)(2.4.2)2/3/202321当X=80时,各家庭消费支出可表达为:(2.4.3)2/3/202322§2.2.5随机误差项的意义干扰项是从模型中省略下来的而又集体影响着Y的全部变量的替代物,代表除解释变量X以外其他所有没有列出的变量对因变量的影响。理论的含糊性(影响Y的其他变量要么不知要么知而不确)数据的欠缺(缺乏研究问题所需要的数据)核心变量与周边变量(周边变量影响的联合效应小)人类行为的内在随机性糟糕的替代变量节省原则(解释变量并不是越多越好)错误的函数形式(如果函数的形式不是十分清楚,宁愿用随机误差项代替其他变量)为什么设置随机误差项?2/3/202323§2.2.6样本回归函数(SRF)YX7080651009012095140110160115180120200140220155240150260YX5580881009012080140118160120180145200135220145240175260表2.1总体的一个随机样本表2.1总体的一个随机样本2/3/2023242/3/202325样本回归函数(SampleRegressionFunction,SRF)(2.6.1)一个估计量(estimator)也称统计量(statistic)是指一种公式或方法,告诉人们怎样利用手中样本所提供的信息去估计总体参数。在一项应用中,有估计量算出的一个具体数值,称为估计值(Estimate)。样本回归函数的随机形式:对总体而言叫参数;

对样本而言叫统计量(2.6.2)2/3/2023262/3/202327回归分析的主要目的就是根据

样本回归函数估计总体回归函数2/3/202328§2.3.1普通最小二乘法§2.3.2经典线性回归模型的基本假定§2.3.3最小二乘估计的精度或标准差§2.3.4最小二乘估计量的性质:

高斯-马尔可夫定理§2.3.5判定系数r2:“拟合优度”的一个度量§2.3.6一个数值的例子§2.3.7两个说明性例子第3节双变量回归模型的估计问题2/3/202329第3节双变量回归模型的估计问题为了由样本数据得到回归参数理想估计值,我们将使用普通最小二乘估计(OrdinaryleastSquareEstimation,OLSE)。对每一个样本观测值,最小二乘法考虑观测值与其回归值的离差越小越好,综合地考虑n个离差值,定义离差平方和为

§2.3.1普通最小二乘法2/3/202330称为的回归拟合值,简称回归值或拟合值,称为的残差

2/3/202331经整理后,得正规方程组:2/3/202332=02/3/202333最小二乘估计所得样本回归线的性质(1)样本回归线通过Y和X的样本均值(2)估计的Y均值等于实测的Y均值(3)残差ei的均值为零(4)残差ei和预测的Yi不相关(5)残差ei和Xi不相关2/3/2023342/3/2023352/3/202336§2.3.2经典线性回归模型的基本假定

假定1:线性回归模型,即回归模型对参数而言是线性的假定2:在重复抽样中X值是固定的,即假设X是非随机的假定3:随机误差项的均值为零,即假定4:同方差性或ui的方差相等2/3/202337假定5:各个随机误差项之间无自相关假定6:ui与Xi的协方差为零假定7:观测次数n必须大于待估计的参数个数,换言之,观测次数n必须大于解释变量的个数假定8:X值要具有变异性假定9:正确地设定了回归模型,即在经验分析中所用的模型没有设定偏差假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系2/3/202338假定3随机误差项的均值为零2/3/2023392/3/2023402/3/202341§2.3.3最小二乘估计的精度或标准差(3.3.1)(3.3.9)(3.3.4)(3.3.3)(3.3.2)方差:标准差:方差:标准差:协方差:2/3/202342由于总体方差σ2通常未知,需要利用下式估算:估计标准误差则为:(n-2)是指当有n个数据点时,斜率和截距的估计会给数据加上两个约束条件,使得在估计残差方差时还剩下(n-2)个不受约束的观测值。(n-2)表示自由度的个数2/3/202343的方差具有如下特点(3)由于是估计量,它们不仅从一个样本变到另一个样本,而且对给定的一个样本,它们还可能相互依赖,即两者的协方差不为零。2/3/202344§2.3.4最小二乘估计量的性质:

高斯-马尔可夫定理1.线性:即是随机变量Yi的线性函数2.无偏性:即的均值或期望值等于真值同理可证:2/3/2023452/3/2023463.在所有这样的线性无偏估计量中,最小二乘估计量具有最小方差。有最小方差的估计量称为有效估计量高斯-马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量在无偏线性估计量一类中具有最小方差,即为最佳线性无偏估计或叫最小方差线性无偏估计。【BestLinearUnbiasedEstimator,BLUE】2/3/202347§2.3.5判定系数r2:“拟合优度”的一个度量对等式两边平方求和:总平方和回归平方和残差平方和(3.5.4)2/3/202348定义r2为:r2测度了在Y的总变异中由回归模型解释的那个部分所占的比例或百分比。r2的两个性质:①它是一个非负值;②取值范围:0≤r2≤1r2的其他计算方法可以参阅教材P62~63的各个公式。由于采用统计软件可以直接得出r2的值,不需要死记这些公式。2/3/202349样本相关系数r:根据定义计算样本相关系数的公式:2/3/202350样本相关系数的性质1、r可正可负,其符号与分子即两变量的协变异的符号相同;2、取值范围:-1≤r≤1;3、r具有对称性,即X与Y的相关系数和Y与X的相关系数相同;4、r与原点和计量单位没有关系;5、如果X与Y在统计上独立,则它们的相关系数为零;但反过来,r=0并不等于说两个变量是独立的,零相关并不一定意味着独立;6、r仅是线性相关的一个度量值,不能用于描述非线性关系;7、r并不反映两个变量之间一定具有因果关系。2/3/2023512/3/202352§2.3.6一个数值的例子每周家庭消费支出Y和每周家庭收入X的假设数据YX70806510090120951401101601151801202001402201552401502602/3/2023532/3/2023542/3/2023552/3/2023562/3/202357§2.3.7两个说明性例子咖啡消费量与咖啡价格的关系2/3/2023582/3/202359美国历年个人消费支出与GDP的数据2/3/2023602/3/202361第4节正态性假定:

经典正态线性回归模型§2.4.1正态分布性假定经典正态线性回归假定每个ui都是正态分布的,且其均值为零,方差不变,即:2/3/202362对两个正态分布变量而言,零协方差或零相关则意味着两个变量相互独立。在正态性假定下,不仅说明ui与uj不相关,而且说它们是独立分布的,即独立同分布:Normallyandindependentlydistribution2/3/202363(1)u代表回归模型中为明显引进的许多自变量的总影响。期望这些影响微小而且是随机的。根据中心极限定理,如果存在大量独立且同分布的随机变量,那么,除了少数例外情形,随着这些变量的个数无限增大,它们的总和将趋向正态分布。(2)中心极限定理的另一解释,即使变量个数并不很大或这些变量还不是严格独立的,它们的总和仍可视同正态分布;(3)正态分布的一个性质是,正态分布变量的任何线性函数都是正态分布的。在正态性假定下,容易到处OLS估计量的概率分布(4)正态分布是一个比较简单的,仅涉及两个参数(均值和方差)的分布,它为人们所熟知,其理论性质曾在数理统计中得到广泛研究。为何提出正态性假定?2/3/202364§2.4.2正态性假定下

OLS估计量的性质(1)它们是无偏估计量:(2)它们有最小方差,即是有效估计量(3)具有一致性,即随着样本容量无限增大,估计量将收敛到它们的真值。(4)服从正态分布2/3/202365(5)遵循n-2个自由度的卡方分布(6)的分布独立于(7)在整个无偏估计类中,无论是线性或非线性估计,都有最小方差,即是最优无偏估计量如果假定u服从上述的正态分布,则Y本身也遵循正态分布,2/3/202366§2.4.3最大似然估计法(MaximumLikelihood,简称ML)

最小二乘估计是指当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据。而最大似然估计量是指当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从中抽取该n组样本观测值的概率最大2/3/202367或然函数样本观测值的联合概率函数称为变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论