版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三一元线性回归第一页,共六十二页,编辑于2023年,星期一§3.1基本思想及参数的估计一、问题的提出——必要性通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质——正(负)相关和相关程度的大小。既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么?最好用数学表达式将这种关系尽可能准确、严谨的表示出来——y=a+bx+u——把它们之间的内在联系挖掘出来。也就是直线中的截距a=?;直线的斜率b=?第二页,共六十二页,编辑于2023年,星期一二、解决问题的思路寻找变量之间直线关系的方法很多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型——y=a+bx+u中的截距a=?;直线的斜率b=?正是是本章介绍的最小二乘法。根据该方法所得,即表现变量之间线性关系的直线有些什么特性?所得直线可靠吗?怎样衡量所得直线的可靠性?最后才是如何运用所得规律——变量的线性关系?第三页,共六十二页,编辑于2023年,星期一1、最小二乘法产生的历史最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家高尔顿(F.Gallton)——达尔文的表弟所创。早年,高尔顿致力于化学和遗传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。第四页,共六十二页,编辑于2023年,星期一2、最小二乘法的地位与作用现在回归分析法已远非高尔顿的本意已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。后来,回归分析法从其方法的数学原理——误差平方和最小(平方即二乘)出发,改称为最小二乘法。第五页,共六十二页,编辑于2023年,星期一
例:父亲们的身高与儿子们的身高之间关系的研究1889年F.Gallton和他的朋友(学生)K.Pearson收集了上千个家庭的身高、臂长和腿长的记录,企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式。下图是根据1078个家庭的调查所作的散点图(略图)第六页,共六十二页,编辑于2023年,星期一160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定第七页,共六十二页,编辑于2023年,星期一“回归”一词的由来从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:但他同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律
第八页,共六十二页,编辑于2023年,星期一3、最小二乘法的思路1.为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。2.Y与X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。3.在Y与X的散点图上画出直线的方法很多。任务?——找出一条能够最好地描述Y与X(代表所有点)之间的直线。4.什么是最好?—找出判断“最好”的原则。最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。第九页,共六十二页,编辑于2023年,星期一三种距离
yx纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点第十页,共六十二页,编辑于2023年,星期一距离是度量实际值与拟合值是否相符的有效手段点到直线的距离——点到直线的垂直线的长度。横向距离——点沿(平行)X轴方向到直线的距离。纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。这个差数以后称为误差——残差(剩余)。第十一页,共六十二页,编辑于2023年,星期一4、最小二乘法的数学原理纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。第十二页,共六十二页,编辑于2023年,星期一数学推证过程
第十三页,共六十二页,编辑于2023年,星期一第十四页,共六十二页,编辑于2023年,星期一5、拟合直线的性质1.拟合直线过Y和X的平均数点2、估计残差和为零3、Y的真实值和拟合值有共同的均值4、估计残差与自变量不相关5、估计残差与拟合值不相关第十五页,共六十二页,编辑于2023年,星期一性质1:由(5)式,得即拟合直线过y和x的平均数点。第十六页,共六十二页,编辑于2023年,星期一性质2估计残差和为零由(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。第十七页,共六十二页,编辑于2023年,星期一
性质3Y的真实值和拟合值有共同的均值
第十八页,共六十二页,编辑于2023年,星期一性质4估计残差与自变量不相关
第十九页,共六十二页,编辑于2023年,星期一性质5估计残差与拟合值不相关
第二十页,共六十二页,编辑于2023年,星期一关于回归直线性质的总结
残差和=0平均数相等拟合值与残差不相关自变量与残差不相关注意:这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。第二十一页,共六十二页,编辑于2023年,星期一二、一元线性回归模型的检验1、线性回归模型的基本假设(严格来说是针对普通最小二乘法)2、参数估计量的性质(包括回归系数、随机误差项):线性、无偏性和有效性3、模型的检验,包括方程的显著性检验和变量的显著性检验。第二十二页,共六十二页,编辑于2023年,星期一1、线性回归模型的基本假设1、自变量(解释变量)是非随机的确定性的变量,而且彼此之间不相关,即2、解释变量与随机误差项之间不相关。3、随机误差项具有零均值和同方差,即4、随机误差项之间不相关,即5、(当样本容量趋于无穷大时,由中心极限定理,对于任何实际模型都是满足)
第二十三页,共六十二页,编辑于2023年,星期一以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,CLRM)。
第二十四页,共六十二页,编辑于2023年,星期一2、最小二乘估计量的性质当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:(1)线性性,即它是否是另一随机变量的线性函数;(2)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性,即它是否在所有线性无偏估计量中具有最小方差。第二十五页,共六十二页,编辑于2023年,星期一这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。第二十六页,共六十二页,编辑于2023年,星期一高斯—马尔可夫定理(Gauss-Markovtheorem)
在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。(1)线性性,即估计量是Yi的线性组合第二十七页,共六十二页,编辑于2023年,星期一证:易知故同样地,容易得出
(2)无偏性,即估计量的均值等于总体回归参数真值第二十八页,共六十二页,编辑于2023年,星期一(3)有效性(最小方差性,即在所有线性无偏估计量中,最小二乘估计量具有最小方差先求的方差第二十九页,共六十二页,编辑于2023年,星期一证明最小方差性其中,ci=ki+di,di为不全为零的常数,则容易证明普通最小二乘估计量(ordinaryleastSquaresEstimators)称为最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)
第三十页,共六十二页,编辑于2023年,星期一由于最小二乘估计量拥有一个“好”的估计量所应具备的小样本特性,它自然也拥有大样本特性。
如考察的一致性第三十一页,共六十二页,编辑于2023年,星期一(4)随机误差项估计量的无偏性问题随机误差项的方差估计量为:其中为残差通过变化可得:
第三十二页,共六十二页,编辑于2023年,星期一3、模型的检验(1)方程的显著性检验(F检验)
旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否成立作出推断。用以进行方程的显著性检验的方法主要有三种:F检验、t检验、r检验。他们的区别在于构造的统计量不同。而在目前使用的计量经济学软件包中都有关于F统计量的计算结果。第三十三页,共六十二页,编辑于2023年,星期一即检验方程中的参数是否显著不为0,即检验零假设:由于Yi服从正态分布,则有解释(回归)平方和(explainedsumofsquares)残差平方和(residualsumofsquares)第三十四页,共六十二页,编辑于2023年,星期一由此构造统计量F值小意味着X与Y之间(线性)关系很弱,而F值大意味X与Y之间(线性)关系很强。根据变量的样本观测值和估计值,计算F统计量的数值,给定一个显著性水平,查F分布表,若F第三十五页,共六十二页,编辑于2023年,星期一(2)变量的显著性检验(t检验)
主要对多元线性回归模型而言,在方程的总体线性关系呈显著性时,并不能说明每个解释变量对被解释变量的影响是显著的,必须对每个解释变量进行显著性检验,以决定是否作为解释变量保留在模型中。其检验的思路与方程显著性检验相似,用以检验的方法主要有三种:F检验、t检验、z检验。它们区别于方程显著性检验在于构造统计量不同,其中应用最为普遍的为t检验。第三十六页,共六十二页,编辑于2023年,星期一如果变量x是显著的,则参数b应该是显著的。于是在变量的显著性检验中即检验零假设,构造检验用统计量:统计量t服从自由度为n-2的t分布,对于给定的显著性水平,查t分布表,得临界值若|t|小于临界值,则未通过检验,大于临界值则通过检验。第三十七页,共六十二页,编辑于2023年,星期一4、模型的评价(在不同模型之间择优,拟合优度检验)由最小二乘法所得直线究竟能够对这些点之间的关系加以反映吗?对这些点之间的关系或趋势反映到了何种程度?于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。第三十八页,共六十二页,编辑于2023年,星期一(1)平方和的分解(a)总平方和(TSS)、回归平方和(ESS)、残差平方和(RSS)的定义(b)平方和的分解(c)自由度的分解第三十九页,共六十二页,编辑于2023年,星期一(a)总平方和、回归平方和、残差平方和TSS为总体平方和,反映样本观测值总体离差的大小;ESS为回归平方和,反映由模型中解释变量所解释的那部分离差的大小;RSS为残差平方和,反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。第四十页,共六十二页,编辑于2023年,星期一(b)平方和的分解
第四十一页,共六十二页,编辑于2023年,星期一第四十二页,共六十二页,编辑于2023年,星期一平方和分解的意义TSS=ESS+RSS被解释变量Y总的变动(差异)=
解释变量X引起的变动(差异)
+除X以外的因素引起的变动(差异)如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。
Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。第四十三页,共六十二页,编辑于2023年,星期一平方和分解图正交分解第四十四页,共六十二页,编辑于2023年,星期一(c)自由度的分解总自由度:dfT=n-1
回归自由度:dfE=k=1(k为自变量的个数)残差自由度:dfR=n-k-1=n-2
自由度分解:dfT=dfR+dfE第四十五页,共六十二页,编辑于2023年,星期一(2)拟合优度(或称判定系数、可决系数)目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣。拟合优度的定义:意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。取值范围:0-1第四十六页,共六十二页,编辑于2023年,星期一在收入-消费支出的例题中,注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。第四十七页,共六十二页,编辑于2023年,星期一修正的在应用过程中,如果在模型中增加一个解释变量,模型的解释功能增强了,回归平方和增大了,也增大了。从而给人一个错觉:要使得模型拟合得好,就必须增加解释变量,但是在样本容量一定的情况下,增加解释变量必定使得自由度减少,于是实际应用中引进修正的决定系数,具体表达式为(其中n是样本容量,n-k-1=n-1-1为残差平方和的自由度,n-1为总体平方和的自由度):第四十八页,共六十二页,编辑于2023年,星期一(3)拟合优度等于实际值与拟合值之间简单相关系数的平方
第四十九页,共六十二页,编辑于2023年,星期一5、预测计量经济学模型的一个重要应用是经济预测,对于模型如果给定样本以外的解释变量的观测值,可以得到被解释变量的预测值。但严格来说我们得到的仅是预测值的一个估计值,预测值仅以某一个置信水平处于以该估计为中心的一个区间中。第五十页,共六十二页,编辑于2023年,星期一预测区间的推导第五十一页,共六十二页,编辑于2023年,星期一(1)样本容量n越大,预测精度越高,反之预测精度越低;(2)样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。
对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间):第五十二页,共六十二页,编辑于2023年,星期一6、正态性检验在回归模型的参数和统计检验中都是建立在随机误差项服从正态分布的基础之上,在实际中如何检验随机误差项服从正态分布。一般的检验方法有三种:残差直方图、正态概率图、J-B检验,其中主要用J-B检验。第五十三页,共六十二页,编辑于2023年,星期一三、实例:时间序列问题
1、中国居民人均消费模型2、时间序列问题第五十四页,共六十二页,编辑于2023年,星期一
1、中国居民人均消费模型
例考察中国居民收入与消费支出的关系。GDPP:人均国内生产总值(1990年不变价)CONSP:人均居民消费(以居民消费价格指数(1990=100)缩减)。第五十五页,共六十二页,编辑于2023年,星期一
第五十六页,共六十二页,编辑于2023年,星期一该两组数据是1978~2000年的时间序列数据(timeseriesdata);建立模型拟建立如下一元回归模型采用Eviews软件进行回归分析的结果见下表第五十七页,共六十二页,编辑于2023年,星期一第五十八页,共六十二页,编辑于2023年,星期一一般可写出如下回归分析结果:
(13.51)(53.47)R2=0.9927F=2859.23DW=0.5503
模型检验
R2=0.9927T值:C:13.51,GDPP:53.47
临界值:t0.05/2(21)=2.08斜率项:0<0.3862<1,符合绝对收入假说第五十
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026云南临沧市人力资源和社会保障局社会招聘城镇公益性岗位人员的2人笔试备考试题及答案解析
- 2026年山东外贸职业学院高职单招职业适应性测试模拟试题及答案详细解析
- 2026江苏苏州市港航投资发展集团有限公司招聘13人(第一批)笔试备考题库及答案解析
- 2026广东省北江航道开发投资有限公司招聘2人笔试备考试题及答案解析
- 2026云南昆明盘龙区汇承中学招聘4人笔试备考试题及答案解析
- 2026年春季合肥肥东县公开招聘幼儿教师11人笔试备考试题及答案解析
- 2026河北省第三荣军优抚医院招聘17人笔试备考题库及答案解析
- 2026湖北时珍实验室科研人员招聘笔试备考试题及答案解析
- 2026年青岛恒星科技学院单招综合素质考试模拟试题含详细答案解析
- 2026年包头职业技术学院单招职业技能考试参考题库含详细答案解析
- 恶性肿瘤高钙血症
- 电子商务专业试讲教案
- 中小企业数字化转型城市试点实施指南
- 2025秋八年级上学期历史早背晚默练习资料(含答案)
- 2025年江苏省宿迁市中考数学试题(原卷版)
- 昆明市寻甸县特聘动物防疫专员考试试题及答案
- 面馆开店投资可行性分析报告
- 中西医结合麻醉
- T/CECS 10055-2019绿色建材评价集成墙面
- 钢管出租公司管理制度
- 零缺陷培训讲义课件
评论
0/150
提交评论